ICC訊 OCP(Open Compute Project)全球峰會(huì )匯聚了全球的技術(shù)創(chuàng )新者,共同分享最新的技術(shù)趨勢,展示前沿解決方案,并建立戰略合作伙伴關(guān)系。今年的峰會(huì )于2024年10月14日至17日在美國加州圣何塞舉行,創(chuàng )下了7,000名參會(huì )者的記錄。來(lái)自世界各地的技術(shù)精英們齊聚一堂,探討未來(lái)的技術(shù)發(fā)展方向。而在這場(chǎng)全球矚目的盛會(huì )上,以阿里云為代表的中國企業(yè),展示了他們在A(yíng)I網(wǎng)絡(luò )架構、液冷技術(shù)、SRv6和廣域網(wǎng)等前沿領(lǐng)域的強大創(chuàng )新能力,持續引領(lǐng)全球合作與技術(shù)創(chuàng )新。
中國企業(yè)的持續引領(lǐng)
中國企業(yè)在2024年OCP峰會(huì )上表現尤為突出,尤其是阿里云、字節跳動(dòng)、Wiwynn、Micas、Edgecore等公司在技術(shù)創(chuàng )新和展示中的表現引人注目。阿里云以4場(chǎng)網(wǎng)絡(luò )架構專(zhuān)題演講和一場(chǎng)SONiC項目演示為亮點(diǎn),深入涵蓋了AI網(wǎng)絡(luò )架構、SRv6、性能優(yōu)化等熱門(mén)技術(shù)領(lǐng)域。而字節跳動(dòng)貢獻了3場(chǎng)網(wǎng)絡(luò )相關(guān)的演講,進(jìn)一步推動(dòng)了AI訓練集群網(wǎng)絡(luò )的技術(shù)發(fā)展。其他中國公司也在液冷技術(shù)、交換機軟件、CPO交換機等方面展示了全球領(lǐng)先的技術(shù)成果。
AI高性能網(wǎng)絡(luò )集群和架構專(zhuān)題
在高密度AI集群下
51.2Tbps交換機的液冷/風(fēng)冷方案最佳實(shí)踐
阿里云基礎設施硬件架構師朱芳波&博通產(chǎn)品經(jīng)理吳溪光聯(lián)合分享的這一演講,詳細闡述了在高密度AI集群場(chǎng)景下,51.2Tbps以太網(wǎng)交換機的最佳散熱解決方案。隨著(zhù)單機柜的功耗和熱量密度在過(guò)去五年中增長(cháng)了10倍,散熱問(wèn)題成為AI訓練集群中的關(guān)鍵挑戰。為了應對這一挑戰,演講提出了四種主要解決方案:采用更高帶寬的交換芯片、使用更長(cháng)的DAC線(xiàn)纜、部署低功耗的LPO光模塊,以及采用CPO(光電共封裝)交換芯片。
阿里云在自研51.2Tbps交換機過(guò)程中,探索了兩個(gè)最佳風(fēng)冷方案:一是在控制環(huán)境溫度的基礎上,優(yōu)化散熱設備的布局,以降低整體散熱成本;二是在高功率密度場(chǎng)景中,通過(guò)精密模擬和調整,進(jìn)一步優(yōu)化芯片的散熱性能。此外,阿里云還展示了其最新的液冷方案,通過(guò)單冷板設計實(shí)現更有效的散熱,同時(shí)降低物料成本。液冷系統在不大幅增加成本的情況下,將系統功耗節省了800W以上,大大提升了設備的穩定性和性能。
阿里巴巴大規模
計算集群的網(wǎng)絡(luò )穩定性挑戰與實(shí)踐
阿里云基礎設施資深技術(shù)專(zhuān)家施學(xué)美&博通杰出工程師Surendra Anubolu則重點(diǎn)介紹了如何提升大規模計算集群的網(wǎng)絡(luò )穩定性。這一演講針對阿里巴巴大規模計算集群中的網(wǎng)絡(luò )穩定性問(wèn)題進(jìn)行了深度探討。在A(yíng)I/ML訓練過(guò)程中,像allreduce、all2all這樣的同步算子使得網(wǎng)絡(luò )的穩定性需求極高。阿里云通過(guò)全局流量監控、高精度流量分析以及A.M.D(交替DSCP標記)方案,顯著(zhù)提升了AI集群中的網(wǎng)絡(luò )可靠性。高精度流量監控技術(shù)可以在亞毫秒粒度內捕捉網(wǎng)絡(luò )流量變化,識別網(wǎng)絡(luò )中的細微擁塞點(diǎn),并通過(guò)算法優(yōu)化進(jìn)一步減少數據包丟失。此外,A.M.D方案通過(guò)在秒級范圍內檢測數據包丟失,確保網(wǎng)絡(luò )中的任何異常都能被快速定位和修復。
阿里巴巴HPN,
面向大模型訓練場(chǎng)景的數據中心網(wǎng)絡(luò )
阿里云基礎設施高級技術(shù)專(zhuān)家高佳琦分享阿里巴巴針對大模型訓練場(chǎng)景所設計的第七代高性能網(wǎng)絡(luò )架構(HPN 7.0)。傳統的數據中心網(wǎng)絡(luò )架構已經(jīng)無(wú)法滿(mǎn)足大模型訓練對網(wǎng)絡(luò )帶寬、穩定性和延遲的極高要求。面對規模大、流量突發(fā)強、穩定性要求高的挑戰,阿里巴巴通過(guò)創(chuàng )新的“雙上聯(lián)+多軌+雙平面”設計,打造了一種新型的數據中心網(wǎng)絡(luò )架構。
HPN 7.0架構結合最新一代51.2Tbps單芯片以太網(wǎng)交換機和400G高性能網(wǎng)卡,并自研了Solar-RDMA和ACCL通信庫,實(shí)現了單層千卡、兩層萬(wàn)卡的高性能互聯(lián)架構,最大可支持十萬(wàn)卡規模。在此基礎上,該架構提升了大模型訓練的整體性能,使得阿里云大模型訓練的性能在典型場(chǎng)景下提升了14.9%。
HPN 7.0自2023年9月起在阿里云數據中心中大規模部署,大幅提升了AI集群的訓練效率和網(wǎng)絡(luò )穩定性,為應對未來(lái)更大規模的大模型訓練提供了堅實(shí)的基礎支持。這一創(chuàng )新架構不僅優(yōu)化了網(wǎng)絡(luò )性能,還顯著(zhù)降低了網(wǎng)絡(luò )的延遲和擁塞問(wèn)題,進(jìn)一步鞏固了阿里云在A(yíng)I基礎設施領(lǐng)域的領(lǐng)先地位。
大型AI訓練集群中的Scheduled Fabric以太網(wǎng)架構
字節跳動(dòng)資深網(wǎng)絡(luò )架構師霍朋飛和博通產(chǎn)品經(jīng)理吳溪光共同分享了其在構建大規模AI訓練集群網(wǎng)絡(luò )中的創(chuàng )新成果,特別是在Scheduled Fabric以太網(wǎng)架構方面的研究。這一架構能夠支持上千臺服務(wù)器的大型集群,確保了數據傳輸的高效性和低延遲。Scheduled Fabric技術(shù)通過(guò)時(shí)間調度和帶寬分配的優(yōu)化,大大提高了網(wǎng)絡(luò )的性能和擴展性。在演講中,字節跳動(dòng)提出了進(jìn)一步標準化該技術(shù)的提案,旨在推動(dòng)整個(gè)行業(yè)在這一領(lǐng)域的合作與發(fā)展。
多平面拓撲中的最佳選路方案
字節跳動(dòng)網(wǎng)絡(luò )研發(fā)工程師Wenda Ni和博通杰出工程師Jai Kumar共同分享了其在多平面拓撲結構中的最新研究成果。在多軌道拓撲下,網(wǎng)絡(luò )流量會(huì )盡量在單一平面內流動(dòng),以最大化鏈路利用率。然而,當流量必須跨越多個(gè)軌道時(shí),字節跳動(dòng)通過(guò)精密的測量和遠程鏈路質(zhì)量的分析,優(yōu)化了跨平面連接的效率,從而實(shí)現了彈性擴展和最大吞吐率的平衡。此外,字節跳動(dòng)還展示了光電共封裝交換芯片(CPO)技術(shù)的進(jìn)展,進(jìn)一步提高了大規模網(wǎng)絡(luò )中的數據傳輸效率。
未來(lái)的廣域網(wǎng)與路由技術(shù) Phoenix Wing計劃–將SONiC SRv6推向部署
在廣域網(wǎng)和路由技術(shù)方面,阿里云基礎設施網(wǎng)絡(luò )資深技術(shù)專(zhuān)家阮弋星介紹阿里云通過(guò)Phoenix Wing計劃展示了其在SRv6部署方面的突破性進(jìn)展。通過(guò)這一計劃,阿里云旨在推動(dòng)SRv6技術(shù)的廣泛應用,并號召社區參與開(kāi)發(fā)。阮弋星詳細介紹了該項目的里程碑、開(kāi)源計劃以及核心貢獻廠(chǎng)商(如思科、微軟、浪潮)之間的合作情況。此外,阿里云展示了基于vSONiC虛擬測試平臺的創(chuàng )新,進(jìn)一步推動(dòng)了SRv6在廣域網(wǎng)中的落地與應用。
展臺:
SONiC demo-Prefix Independent Convergence.
另外,在大會(huì )展廳的SONiC展臺上,阿里云與智邦集團的工程師們對SONiC在網(wǎng)絡(luò )故障快速恢復中的優(yōu)化進(jìn)行了精彩演示。通過(guò)代碼優(yōu)化,阿里云成功將網(wǎng)絡(luò )故障恢復時(shí)的丟包窗口從近一分鐘縮短至2毫秒。這一成果不僅顯著(zhù)提升了網(wǎng)絡(luò )的穩定性,還贏(yíng)得了參會(huì )者的廣泛關(guān)注和好評。
總結
此次2024 OCP全球峰會(huì ),以阿里云、字節跳動(dòng)等公司為代表的中國企業(yè)大放異彩,不僅展示了強大的技術(shù)實(shí)力,也通過(guò)創(chuàng )新與全球合作,推動(dòng)了AI基礎設施和網(wǎng)絡(luò )架構的進(jìn)步。在未來(lái),中國企業(yè)有望在全球科技舞臺上扮演越來(lái)越重要的角色,為技術(shù)進(jìn)步貢獻更多力量。