在剛落幕不久的Hot Chips 32大會(huì )上,脫胎于麻省理工學(xué)院的初創(chuàng )公司Lightmatter展示了用于通用AI加速的光子計算測試芯片。該處理器利用硅光子和MEMS技術(shù),以光速處理矩陣向量乘法,由毫瓦級激光光源供電。據悉,在相同芯片面積上,光子器件的速度比電子器件快1000倍,而功耗僅有電子器件的1/1000。
Lightmatter于2017年在馬薩諸塞州波士頓市成立,目前有46名員工,已從Google Ventures等投資方處融資3300萬(wàn)美元,擁有30項專(zhuān)利。作為最早面向AI推理定制光子芯片的公司之一,Lightmatter將于2021年秋季推出其首款商業(yè)產(chǎn)品——搭載光子計算芯片的PCIe卡,專(zhuān)為數據中心AI推理工作負載而設計。
能效提升20倍,吞吐量提高5倍
得益于硅光子技術(shù)的進(jìn)步,硅芯片上的光傳輸成為可能。光子芯片通過(guò)采用與傳統基于晶體管的電子器件完全不同的物理學(xué)原理,可實(shí)現更快的性能、更低的能耗。Lightmatter首席執行官尼克·哈里斯稱(chēng):“我們可以利用現有AI數據中心,將能耗降低為原來(lái)的1/20,將物理空間減少為原來(lái)的1/5?!?
據他介紹,這只是Lightmatter正在打造的第一代產(chǎn)品,未來(lái)還有很長(cháng)的路線(xiàn)圖。哈里斯強調,此次展示的測試芯片只是作為其技術(shù)的演示,并不是為了在基準測試中有出色表現。但他堅持認為,在實(shí)際應用中,該演示芯片仍將擊敗AI加速領(lǐng)域的市場(chǎng)領(lǐng)導者——英偉達A100 GPU。據哈里斯介紹,與A100相比,其光子芯片在BERT和ResNet-50推理等工作負載上可提供20倍的能效和至少5倍的吞吐量。
格芯代工,采用3D封裝堆疊
Lightmatter的芯片由兩個(gè)垂直堆疊的芯片組成,整個(gè)芯片面積為150平方毫米,兩個(gè)裸片均由格芯標準CMOS工藝制造,包含超過(guò)十億個(gè)FinFET晶體管、數萬(wàn)個(gè)光子算術(shù)單元和數百個(gè)記錄設置數據轉換器。
上方是一個(gè)12nm ASIC(Lightmatter副總工程師Carl Ramey在Hot Chips演講時(shí)介紹的是14nm ASIC),用于存儲內存和控制下方作為計算引擎的90nm光子芯片裸片。該光子處理器具有64 x 64光子矩陣向量乘積計算器,可在標準數據中心工作溫度下運行,總延遲時(shí)間不到200皮秒(1萬(wàn)億皮秒=1秒),比晶體管計算要快幾個(gè)數量級,晶體管計算需要多個(gè)時(shí)鐘周期。計算引擎由50兆瓦的激光驅動(dòng)。哈里斯認為,這種低功耗光子計算芯片的優(yōu)勢之一,是可以與控制/內存ASIC進(jìn)行3D堆疊?;诰w管的計算芯片會(huì )散發(fā)過(guò)多的熱量。堆疊的芯片縮短了ASIC上的操作數存儲區與光子芯片上的計算元件之間的軌跡線(xiàn)——從數據轉換器到光子計算引擎的距離不到總路徑的1毫米。反過(guò)來(lái),這降低了延遲和功耗。哈里斯說(shuō):“這里有一個(gè)很好的正反饋循環(huán)”, “節省功耗使我們堆疊,而堆疊可以節省更多功耗?!?
更高速度、更低功耗是如何實(shí)現的?
Lightmatter光學(xué)計算陣列由DAC和ADC模塊封裝,作為與數字電路的其余部分的接口。DAC接收數字輸入信號,將其轉換為模擬電壓,并使用該電壓來(lái)驅動(dòng)激光器(該技術(shù)已在光纖發(fā)射器中廣泛使用)。
來(lái)自該激光器的光,在進(jìn)入馬赫曾德?tīng)柛缮鎯x(MZI)后,相干光分為兩束,每半束光的相位調整不同,將具有不同相位的光束組合會(huì )導致相長(cháng)或相消干涉,從而有效地調制通過(guò)MZI的光的亮度(該調制可被視為乘法運算)。
在波導(承載光的“電線(xiàn)”)相遇之處,信號被有效地加在一起,這是光MAC的基礎。計算陣列輸出的光到達光電二極管,通過(guò)機械手段實(shí)現MZI中的關(guān)鍵操作,改變光的相位。
Lightmatter副總工程師Carl Ramey在Hot Chips演講解釋說(shuō),其光子芯片使用了納米光學(xué)機電系統(NOEMS)。與MEMS器件類(lèi)似,波導結構通過(guò)在下面蝕刻而懸浮,然后通過(guò)向其上方和下方的電容器板添加電荷來(lái)偏轉。這成功地改變了光的相位所需的數量,并且所需功率極低。
“NOEMS設備具有一些非常驚人的性能,” Ramey說(shuō)?!八鼈兊膿p耗極低,靜態(tài)功耗幾乎為零。我們只是將一些電子傾倒到小電容器上,幾乎沒(méi)有泄漏——電容足夠小,致動(dòng)所用的動(dòng)態(tài)功率也很小。(結構)也能以相對較高的速度啟動(dòng),最高可達數百兆赫?!?
Ramey說(shuō),Lightmatter的演示芯片具有64 x 64計算元素,但可以很容易地擴大規模。
據他介紹:“類(lèi)似于基于晶體管的脈動(dòng)陣列,計算量與面積成線(xiàn)性比例關(guān)系,“延遲也隨著(zhù)陣列的尺寸而縮放。因此,在一個(gè)典型的流水線(xiàn)晶體管設計中,您需要64個(gè)時(shí)鐘周期來(lái)執行這些操作,從左到右。我們的延遲也隨陣列尺寸而定,但是速度要快三個(gè)數量級。因此,即使是1000 x 1000的陣列,其延遲也會(huì )遠低于納秒?!?
有趣的是,光子計算陣列消耗的功率與面積的平方根成比例。這是因為功耗主要歸因于數據轉換。
“當我們將每個(gè)新元素添加到陣列中時(shí),我們將獲得更高的性能,但是我們只需要付出功率平方根的代價(jià)即可?!? Ramey說(shuō),“因此,我們制造的芯片越大,實(shí)際上它們的效率就越高。這與電子系統有很大不同,電子系統只是線(xiàn)性擴展:性能越高,功耗越大?!?
除了與計算相關(guān)的能量外,還有與在芯片周?chē)苿?dòng)數據有關(guān)的能量(當今基于晶體管的大型AI芯片在硅片上移動(dòng)數據可能要消耗50-100W功率)。而通過(guò)光學(xué)計算,以光學(xué)方式移動(dòng)數據,意味著(zhù)不需要電源,從而節省了很多錢(qián)。
結果是,光子計算設備的運行功耗不到3W,僅是其他計算方法每次推理操作所消耗能量的一小部分。
支持同時(shí)執行多個(gè)AI推理任務(wù)
光子計算的另一個(gè)有趣功能是并行處理能力。與光通信中使用的技術(shù)類(lèi)似,可以將多個(gè)獨立的數據流編碼到不同波長(cháng)的光上,并同時(shí)饋入計算引擎。
這意味著(zhù)光學(xué)計算芯片可以同時(shí)執行多個(gè)AI推理任務(wù)?!斑@是光子計算的一個(gè)非常獨特的特性,” Lightmatter首席執行官Nick Harris說(shuō),“這意味著(zhù)您有一個(gè)物理資源,一個(gè)處理器,但它的作用就像一排處理器?!?
雖然指定的光譜(1310至1600nm)在理論上可以適合至少1000路,但哈里斯說(shuō),因激光技術(shù)還不成熟,目前僅支持8路。
結語(yǔ):落地將是艱巨的挑戰
據悉,Lightmatter的目標客戶(hù)是當今的數據中心,包括高性能計算等可擴展系統。自動(dòng)駕駛技術(shù)是一個(gè)遙遠的未來(lái)發(fā)展方向,不過(guò)哈里斯承認,進(jìn)入這一領(lǐng)域所需的可靠性工程將是“一項艱巨的任務(wù)”。
Lightmatter具有完整的軟件堆棧,支持TensorFlow、PyTorch、ONNX等機器學(xué)習框架。哈里斯說(shuō),他們的目標是在兩個(gè)機器學(xué)習框架之間實(shí)現即插即用。對于初創(chuàng )企業(yè)而言,首要挑戰之一可能是如何使持懷疑態(tài)度的客戶(hù)理解和接受光子計算的整個(gè)概念。
如何做到這一點(diǎn)呢?哈里斯回應稱(chēng):“這是一個(gè)艱巨的挑戰”。他介紹道,自1960年代以來(lái)的計算歷史上,從來(lái)沒(méi)有一種技術(shù)取代過(guò)電子晶體管做計算,人們已經(jīng)嘗試過(guò),但從未成功?!拔艺J為這是您第一次看到它的實(shí)現,而我們銷(xiāo)售它的方式就是通過(guò)展示它的運行?!惫锼拐f(shuō)。
文章來(lái)源:EE Times,AnandTech