ICC訊 2024年9月10日,海思光電先進(jìn)光電實(shí)驗室主任滿(mǎn)江偉博士在第22屆訊石研討會(huì )的主論壇《光通信賦能算力底座》上發(fā)表了《從通算邁向智算,AI光互聯(lián)模塊技術(shù)演進(jìn)探討》的主題演講,分享智算中心網(wǎng)絡(luò )對光互聯(lián)的技術(shù)需求以及海思光電面向智算中心光互聯(lián)的星云系列光模塊產(chǎn)品和技術(shù)。
滿(mǎn)江偉博士在分享中指出:在過(guò)去的十數年的時(shí)間中,短距光模塊的應用場(chǎng)景和技術(shù)規格經(jīng)歷了由電信運營(yíng)商網(wǎng)絡(luò )、通算數據中心網(wǎng)絡(luò )、AI智算中心網(wǎng)絡(luò )來(lái)驅動(dòng)演進(jìn)的不同階段。隨著(zhù)大模型的爆發(fā)性發(fā)展帶動(dòng)了AI智算中心向超大規模集群演進(jìn),推動(dòng)著(zhù)數通短距光模塊進(jìn)入新的發(fā)展階段。
AI智算中心向大規模集群演進(jìn)的過(guò)程中,由于采用了大規模并行計算,AI計算對光鏈路的可靠性和可用性提出了新的挑戰。海思對AI智算中心的故障進(jìn)行了大規模的深度數據分析,發(fā)現光纖鏈路臟污是首要問(wèn)題,其導致的丟包會(huì )大幅降低AI智算中心集群的可用度;同時(shí),光模塊的隨機失效率也制約大模型運行效率。為了提升AI集群的可用度,系統層面首先需要減少光纖鏈路臟污,同時(shí),光模塊需要針對性地提高自身的可靠性,協(xié)同網(wǎng)絡(luò )設備來(lái)保障AI集群的高可用和高可靠。
海思光電深度整合光電產(chǎn)業(yè)的關(guān)鍵技術(shù),與交換、計算相關(guān)領(lǐng)域進(jìn)行協(xié)同的規格定義和產(chǎn)品設計,推出面向AI智算中心的星云系列光模塊,全面承載AI計算需求,提升AI智算網(wǎng)絡(luò )的效率,保障AI智算中心的高可用與高可靠。針對鏈路臟污問(wèn)題,通過(guò)光鏈路故障高精度實(shí)時(shí)檢測與分析,實(shí)現主動(dòng)在線(xiàn)的光路診斷監測預警和故障定界;同時(shí),依托多年在光芯片領(lǐng)域的技術(shù)積累,從產(chǎn)品定義、架構設計、工藝實(shí)現等層面綜合保證光芯片的高性能及高可靠,顯著(zhù)降低光模塊中激光器的失效率,支撐AI智算網(wǎng)絡(luò )的長(cháng)期穩定工作。
滿(mǎn)江偉博士最后指出,AI及AI智算網(wǎng)絡(luò )正處于前所未有的加速發(fā)展階段,這對光互聯(lián)既是機會(huì )也是挑戰。海思光電打造的星云系列光模塊將繼續適配AI智算網(wǎng)絡(luò )對光互聯(lián)的關(guān)鍵需求,賦能高可用、高可靠、智能化等業(yè)務(wù)場(chǎng)景,助力AI數據中心的蓬勃發(fā)展。