ICC訊 2024年5月15日,由華為海思光電主辦,ICC訊石承辦的“2024芯?光論壇:芯光耀智算 互聯(lián)暢未來(lái)”會(huì )議在武漢光谷皇冠假日酒店火熱舉辦。本次大會(huì )匯聚了近500位光電子領(lǐng)域專(zhuān)業(yè)人士,探討光電技術(shù)的演進(jìn)趨勢,共話(huà)全球光互聯(lián)產(chǎn)業(yè)的發(fā)展機遇。
5月15日上午主論壇《智能計算與光互聯(lián)技術(shù)》聚焦智能計算的爆發(fā)式增長(cháng)及互聯(lián)增長(cháng)和光電互聯(lián)的技術(shù)最新進(jìn)展,探討了光互聯(lián)在智能計算時(shí)代的發(fā)展趨勢。來(lái)自華為昇騰計算、科大訊飛、中國信通院、中國移動(dòng)研究院和華為海思光電的行業(yè)專(zhuān)家及學(xué)術(shù)大咖進(jìn)行了深度的分析與探討。
余海波 華為武漢研究所所長(cháng)
華為武漢研究所所長(cháng)余海波代表主辦方致歡迎辭,隨著(zhù)AIGC技術(shù)的快速發(fā)展,其產(chǎn)業(yè)規模未來(lái)將突破萬(wàn)億元,大模型的發(fā)展將極大促進(jìn)光互聯(lián)產(chǎn)業(yè)的發(fā)展。希望大家能通過(guò)今天的研討和交流,共同探討技術(shù)創(chuàng )新、產(chǎn)業(yè)發(fā)展和標準工作,共建健康的行業(yè)生態(tài)。
周斌 華為昇騰計算業(yè)務(wù)CTO
華為昇騰計算業(yè)務(wù)CTO周斌發(fā)表了主題為《AI的演進(jìn)及下一代AI計算系統的思考》的精彩演講。
張驍 科大訊飛基礎設施總監
科大訊飛基礎設施總監張驍發(fā)表了主題為《大模型訓練網(wǎng)絡(luò )互連-從需求到挑戰》的演講?;趪a(chǎn)算力的扎實(shí)國產(chǎn)化積累,科大訊飛在2023年與華為進(jìn)行軟硬件聯(lián)合攻關(guān)大模型國產(chǎn)化算力底座核心難題,構建了國內首個(gè)支持萬(wàn)億級浮點(diǎn)參數大模型訓練的國產(chǎn)算力集群“飛星一號”平臺,形成了超大模型訓練算力集群優(yōu)勢。
分享中指出在隨著(zhù)大模型的進(jìn)一步發(fā)展,算力規?;厔萃伙@,網(wǎng)絡(luò )的互聯(lián)速度將是關(guān)鍵技術(shù),從機內通信到柜間通信,網(wǎng)絡(luò )帶寬都面臨著(zhù)迅速的增長(cháng),需要超大帶寬、極致成本和極簡(jiǎn)運維的聯(lián)接方案。 同時(shí),大模型的長(cháng)穩訓練需要穩定可靠的網(wǎng)絡(luò )及聯(lián)接方案??拼笥嶏w聚焦TOP問(wèn)題,聯(lián)合華為、海思光電采用創(chuàng )新光模塊故障預測及分析方法,將任務(wù)影響環(huán)比下降約70%,大幅降低了光鏈路故障對訓練效率的影響。此外,功耗在數據中心的運營(yíng)中也是不可忽視的一環(huán),需要產(chǎn)業(yè)界在組網(wǎng)架構、通信方案、軟件效率等領(lǐng)域持續提升,支撐大模型產(chǎn)業(yè)的長(cháng)期發(fā)展。
張海懿 中國信通院技術(shù)與標準研究所所長(cháng)
中國信息通信研究院技術(shù)與標準研究所張海懿所長(cháng)發(fā)表了主題為《智算中心網(wǎng)絡(luò )技術(shù)產(chǎn)業(yè)發(fā)展展望》的演講。我國出臺系列政策加快布局算力基礎設施,智能算力需求激增,高性能智算中心網(wǎng)絡(luò )建設成為熱點(diǎn)。2003-2023年近二十年間智能算力需求指數增長(cháng),以GPT為代表的人工智能大模型突破性進(jìn)展激發(fā)了全球智能算力發(fā)展熱潮,千卡算力芯片構建的集群將成為千億參數大模型訓練的標配。如何加速構建高性能網(wǎng)絡(luò )以支撐智能算力發(fā)展成為業(yè)界關(guān)注的熱點(diǎn)。
張所長(cháng)在演講中提到,智算中心架構涉及到的互聯(lián)包含了智算接入網(wǎng)絡(luò )、智算中心間互聯(lián)、服務(wù)器間互聯(lián)和片上/片間互聯(lián)多個(gè)領(lǐng)域,技術(shù)上都在快速發(fā)展,其中800G & 1.6T短距以太網(wǎng)將成為承載超高速算力互聯(lián)重要手段,滿(mǎn)足AI大模型等應用場(chǎng)景帶來(lái)的數據持續增長(cháng)需求;而800G及更高速率的長(cháng)距光傳輸方向正在加快技術(shù)標準研究,逐步啟動(dòng)試點(diǎn)驗證:
· 標準化進(jìn)展:800G和1.6T成為ITU-T、OIF、IEEE 802.3、CCSA等國內外標準組織的研究熱點(diǎn),調制格式、映射技術(shù)、擴展C+L光系統、高性能FEC等是標準化的關(guān)鍵。
· 產(chǎn)業(yè)化進(jìn)展:基于~130G Baud,16QAM調制的800G方案是目前技術(shù)研究和產(chǎn)品研發(fā)的重點(diǎn),可以重用400G QPSK產(chǎn)業(yè)鏈。1.6T部署還需依賴(lài)200G Baud以上光電器件的成熟。
此外,800Gb/s和1.6Tb/s的光模塊研發(fā)應用也正在加速,報告中提到當前8x100Gb/s光模塊基本成熟,4x200Gb/s和城域800Gb/s相干光模塊是下一步研發(fā)的重點(diǎn)。
程偉強 中國移動(dòng)研究院基礎網(wǎng)絡(luò )技術(shù)研究所副所長(cháng)
中國移動(dòng)通信有限公司研究院基礎網(wǎng)絡(luò )技術(shù)研究所副所長(cháng)程偉強發(fā)表了主題為《高性能以太網(wǎng)助力智算中心互聯(lián)》的演講。
隨著(zhù)智能算力需求的激增,承載網(wǎng)絡(luò )成為AI算力高速增長(cháng)的瓶頸。以太網(wǎng)技術(shù)路線(xiàn)逐漸形成產(chǎn)業(yè)共識,高帶寬、高性能、高可靠和高安全的以太網(wǎng)助力智算中心互聯(lián)是提升智算中心網(wǎng)絡(luò )性能和整體算力水平的關(guān)鍵技術(shù)之一。
報告中提到800G將會(huì )是DCN和DCI發(fā)展的重要代際節點(diǎn),因為AIGC推動(dòng)全球云服務(wù)商加速部署800G商用網(wǎng)絡(luò ),以應對日益增長(cháng)的數據傳輸需求,并優(yōu)化數據中心基礎設施。數據中心DCN在向800G演進(jìn),同時(shí)DCI也已經(jīng)開(kāi)始啟動(dòng)800G研究,800G以太網(wǎng)標準進(jìn)展顯著(zhù),業(yè)界加快轉向800G應用。
關(guān)于中國移動(dòng)800GE標準進(jìn)展,程偉強介紹了中國移動(dòng)積極參與并推動(dòng)IEEE 802.3 df & dj工作組的800GE標準化工作,主導多項需求及標準文稿提案,并牽頭完成了800GE 20km新項目立項,這是中國公司在IEEE的首個(gè)以太網(wǎng)基礎標準立項,同時(shí)主導通過(guò)了20km/40km相關(guān)標準框架提案被工作組采納。
程偉強的演講總結聚焦高性能以太網(wǎng)能夠助力智算中心互聯(lián),并倡議業(yè)界伙伴加強投入,提升智算中心網(wǎng)絡(luò )性能和整體的算力水平。
滿(mǎn)江偉 華為海思光電先進(jìn)光電實(shí)驗室主任
華為海思光電先進(jìn)光電實(shí)驗室主任滿(mǎn)江偉發(fā)表了主題為 《AI大模型下光電子互聯(lián)技術(shù)的機遇與挑戰》的演講。滿(mǎn)主任在演講中用數據和圖表再現了AI基礎設施的核心引擎——GPU的加速演進(jìn),從原來(lái)的兩年一代到現在的一年一代。配套的AI光互連光模塊需求也在快速增長(cháng)。
為了適配Al對光聯(lián)接的需求,滿(mǎn)江偉指出光模塊的演進(jìn)需要重點(diǎn)關(guān)注5大方向:大帶寬、低時(shí)延、低功耗、高可靠和智能化。海思光電聯(lián)合產(chǎn)業(yè)上下游合作伙伴,在洞察AI對光聯(lián)接的需求后,打造了星云智能光模塊的解決方案,全面承載AI計算需求:
大帶寬:依托自研光電芯片,通過(guò)系統級的規格定義和聯(lián)合優(yōu)化,滿(mǎn)足AI互聯(lián)的帶寬需求
低時(shí)延:采用算法優(yōu)化、線(xiàn)性直驅等多種方案降低時(shí)延,支撐大模型訓練效率提升
低功耗:綜合使用低驅EML、無(wú)TEC設計、高效率光源等技術(shù),綜合降低模塊功耗
高可靠:通過(guò)架構極簡(jiǎn)設計,提高系統可靠性,配合高可靠的光源方案,提升模塊長(cháng)期工作的可靠性
智能化:聯(lián)合計算領(lǐng)域進(jìn)行系統級優(yōu)化,實(shí)現鏈路的故障智能定界、自愈消除、污損檢查等多項功能,大幅提升運維效率
總 結
隨著(zhù)GPT等大模型的出現,對計算、訓練和推理的算力需求快速提升,推動(dòng)了GPU和CPU性能持續提高,傳統電互聯(lián)和網(wǎng)絡(luò )逐漸不能匹配帶寬增長(cháng)的需求,實(shí)現下一代智能計算需要新技術(shù)大幅提升互聯(lián)的容量。光互聯(lián)作為骨干網(wǎng)和數據中心網(wǎng)絡(luò )的關(guān)鍵環(huán)節之一,每一步都需要滿(mǎn)足苛刻的功耗、時(shí)延及智能等要求,跟上產(chǎn)業(yè)需求,配合上下游產(chǎn)業(yè)鏈解決當前帶寬增長(cháng)不足的挑戰,共建繁榮的光互聯(lián)AI產(chǎn)業(yè)生態(tài)。