ICC訊(編譯:Nina)超級計算大會(huì )2023 (SC23)于2023年11月12日至17日在美國科羅拉多州丹佛市舉行,參會(huì )人數超過(guò)14000人,創(chuàng )下了新紀錄。
兩大主題主導了今年的會(huì )議:其一是光子學(xué)日益重要的作用,其二是高性能計算和人工智能超級計算機發(fā)展速度之間的矛盾。
使用光子學(xué),可以通過(guò)光纖發(fā)送PCI Express(PCIe)和Compute Express Link(CXL)等協(xié)議,從而實(shí)現數據中心的系統分解和新型超級計算架構。
Drut Technologies,一家在SC22上嶄露頭角的系統初創(chuàng )公司,利用去年的活動(dòng)推出了其服務(wù)器分解架構。今年,這家初創(chuàng )公司展示了其日益增長(cháng)的雄心。它正在開(kāi)發(fā)一種架構,將這一概念擴展到數據中心。它的DynamicXcelerator(DX)架構將支持多達4096個(gè)使用光交換的加速器,類(lèi)似于谷歌互連其張量處理器單元(TPU)集群的方式。
其他光子展亮點(diǎn)包括Avicena的光學(xué)互連演示,展示了它所聲稱(chēng)的世界上最小的1Tb/s基于microLED的收發(fā)器。Ayar Labs展示了其嵌入Intel FPGA的光學(xué)輸入輸出(I/O)TeraPHY小芯片,而Lightelligence則展示了在光鏈路上使用PCIe/CXL的內存分解。
SC23也是最新的500強超級計算機亮相的地方。今年有一臺超級計算機——微軟Azure的Eagle——躋身前三,這是商業(yè)機器第一次獲得如此高的排名,而且是微軟在一周內推出的。
Top500突出的一個(gè)趨勢是高性能計算正在放緩。直到2013年,高性能計算以每11年1000倍的速度增長(cháng),但自那以后,增長(cháng)速度大幅放緩。Top500委員會(huì )認為,計算能力現在以每11年不到10倍的速度增長(cháng)。相比之下,超大規模提供商(Hyperscaler)的人工智能計算需求每3到4個(gè)月增長(cháng)一倍,這種情況將在可預見(jiàn)的未來(lái)持續下去。
高性能計算和人工智能超級計算機的增長(cháng)梯度不同有幾個(gè)原因。
高性能計算所需的處理是多種多樣的,要求非常高。由于它處于計算的前沿,因此也是第一個(gè)遇到關(guān)鍵限制的板塊。相比之下,人工智能和機器學(xué)習的計算更加專(zhuān)業(yè)化,且超大規模提供商在各個(gè)方面都做得非常出色,包括在處理器的指令級、浮點(diǎn)數學(xué)表示、核心、芯片和內存以及刀片級。
此外,還介紹了如何通過(guò)使用先進(jìn)的網(wǎng)絡(luò )技術(shù)和拓撲結構來(lái)橫向和縱向擴展刀片以組成超級計算系統。反過(guò)來(lái),人工智能計算需求的指數級增長(cháng)不會(huì )無(wú)限期地持續下去,而不會(huì )出現瓶頸。與高性能計算一樣,這將需要新的思維。
兩場(chǎng)會(huì )議討論了高性能計算和人工智能計算瓶頸的問(wèn)題:一個(gè)論壇討論了光I/O在未來(lái)人工智能和高性能計算系統中的作用,以及小芯片(Chiplets)如何使高性能計算和人工智能受益。
超級計算會(huì )議的重點(diǎn)是軟件、算法和應用。但硬件——處理器、存儲器和包括光學(xué)在內的互連——也有突出表現。例如,最新的Compute Express Link(CXL)規范3.1版在展會(huì )上發(fā)布,這是一年多來(lái)的首次升級。
英偉達在活動(dòng)新聞發(fā)布會(huì )上發(fā)表的一個(gè)令人驚訝的聲明是,NVLink網(wǎng)絡(luò )沒(méi)有使用任何光學(xué)連接。這意味著(zhù)英偉達部署的光學(xué)收發(fā)器和AOC主要用于InfiniBand連接,有些用于以太網(wǎng)。LightCounting將在2024年1月題為“人工智能光學(xué)”的報告中討論這一發(fā)展的影響。