ICC訊 今年來(lái),生成式AI所需的超算集群開(kāi)始有云計算服務(wù)的形態(tài),成為了云基礎設施和光互聯(lián)產(chǎn)品的新增長(cháng)引擎。相比通用彈性計算服務(wù)器集群所發(fā)生的變化。AI訓練的云基礎設施也在火熱的建設中。數據中心光互聯(lián)技術(shù)在AIGC時(shí)代發(fā)生了什么變化,如何才能更好的適應AI數據中心基礎設施的要求。在iFOC 2023上,云智能網(wǎng)絡(luò )研發(fā)事業(yè)部光網(wǎng)絡(luò )架構師 陸睿發(fā)表了《AIGC時(shí)代對數據中心光互聯(lián)的新要求》的演講。
服務(wù)器方面,X86為核心的通用計算服務(wù)器升級為以GPU為核心的高性能計算服務(wù)器,功率更高、算力更強、集成度更高。網(wǎng)絡(luò )方面,數據中心以太網(wǎng)網(wǎng)絡(luò )基于RoCE的以太網(wǎng)或者IB的高性能網(wǎng)絡(luò ),高吞吐、超低時(shí)延和高可靠性。
AI超算網(wǎng)絡(luò )的互聯(lián)架構包含以太網(wǎng)、Infiniband、NVLink。陸睿對比了三種互聯(lián)架構之間的有點(diǎn)。以太網(wǎng)成本低、供應豐富,適合多租戶(hù)共享的超算基礎設施;Infiniband相對封閉,適合單一用戶(hù)建立獨享的超算基礎設施;NVLink用于GPU之間的高速互聯(lián),開(kāi)銷(xiāo)更小,帶寬更大,但最大256個(gè)節點(diǎn)。
陸睿表示:AI超算網(wǎng)絡(luò )的光模塊選擇傾向于選擇4通道QSFP光模塊,4通道激光器數量更少,有利于可靠性、光模塊內部面積更寬裕,設計和制造難度小、光模塊功耗更低,系統散熱設計更容易。不同數據中心客戶(hù)根據自己的網(wǎng)絡(luò )架構特點(diǎn)選擇不同的光互聯(lián)技術(shù)方案(Form factor、光電通道數、通道速率)。技術(shù)本質(zhì)基本一樣:?jiǎn)瓮ǖ?/span>25G/56G/112G/224G。
AI需要更大的互聯(lián)需求量,接入方案已經(jīng)從DAC/AOC線(xiàn)纜變成了光模塊。每GPU卡和對應的同帶寬光模塊數量比例達到1:4~1:6。在Nvidia的DGX H100和GH200的網(wǎng)絡(luò )架構里加入了NVLink switch架構,進(jìn)一步提升GPU之間的互聯(lián)帶寬。H100/H800的8卡服務(wù)器的對外NVLink帶寬是14.4T,每卡和光模塊(按400G算)數量比例達到1:9。
AI的發(fā)展有更高速率要求,傳統云計算市場(chǎng)在發(fā)生變化,對更高速率光模塊的需求在變緩,基礎設施投入進(jìn)入精細化管控階段 。目前超算集群性能的瓶頸仍在網(wǎng)絡(luò )帶寬,會(huì )成為新一代高速光模塊產(chǎn)品的主要需求推動(dòng)力。
隨著(zhù)交換機Serdes速率和數量的增加,現今,光模塊功耗占設備總功耗高達1/3。低功耗、低時(shí)延的光互聯(lián)技術(shù)更適合超算,陸睿對比了LPO/CPO/NPO技術(shù)的對比和選擇,他認為LPO優(yōu)點(diǎn)是兼顧可插拔和CPO的優(yōu)點(diǎn),但系統集成難度大,技術(shù)約束多。CPO/NPO優(yōu)缺點(diǎn)都很明顯,尚待觀(guān)察。
光互聯(lián)在超算網(wǎng)絡(luò )中數量多且物理底層,對網(wǎng)絡(luò )整體穩定性有關(guān)鍵性影響。光互聯(lián)如何滿(mǎn)足更高可靠性要求。陸睿提出研發(fā)引入階段:1.加強光芯片的可靠性認證測試。2.加強光模塊在研發(fā)和測試引入階段的可靠性認證測試。批量部署階段:1.嚴格執行研發(fā)測試——小批量灰度測試——大批量部署的流程;2.加強光模塊在批量生產(chǎn)時(shí)的可靠性數據監控;3.結合網(wǎng)絡(luò )監控數據平臺、自動(dòng)化運維監控光模塊的運行情況;4.建立優(yōu)勝劣汰機制,選擇可靠性更優(yōu)的模塊技術(shù)、型號和廠(chǎng)家。
最后,在持續優(yōu)化的要求方面,陸睿講到目前IDC機房供電功率和散熱能力設計是為傳統云計算X86服務(wù)器設計的,不滿(mǎn)足GPU服務(wù)器的高密部署,低密度部署導致光纖連接距離變長(cháng),需要升級浸沒(méi)式液冷技術(shù)或其他效率更高的散熱技術(shù)。另外還提到新型光纖技術(shù)—空芯光纖,空芯光纖可做到3.3ns/m時(shí)延,相比普通光纖的5ns/m時(shí)延降低了33%,按照3跳交換機、每段鏈路平均距離50m計算,空芯光纖可縮短約單向0.34us時(shí)延,是一個(gè)值得期待的技術(shù)。