<label id="g4okg"><strong id="g4okg"></strong></label>
<wbr id="g4okg"><strong id="g4okg"></strong></wbr>
<button id="g4okg"><strong id="g4okg"></strong></button>
<button id="g4okg"></button><button id="g4okg"><strong id="g4okg"></strong></button>
<wbr id="g4okg"><strong id="g4okg"></strong></wbr><button id="g4okg"></button>
<div id="g4okg"><label id="g4okg"></label></div>
<wbr id="g4okg"><strong id="g4okg"></strong></wbr>
用戶(hù)名: 密碼: 驗證碼:

LC:人工智能集群對光學(xué)的特殊要求

摘要:IPEC近期舉行了主題為“AI集群中光學(xué)的特殊要求”的網(wǎng)絡(luò )研討會(huì )。LightCounting分享了研討會(huì )上各位演講嘉賓關(guān)于該話(huà)題的觀(guān)點(diǎn)。

  ICC訊  國際光電委員會(huì )(IPEC)繼續推動(dòng)人工智能(AI)集群新一代光互連的行業(yè)討論。近期(2024年7月30日),IPEC舉行了主題為“AI集群中光學(xué)的特殊要求”(Special requirements for optics in AI Clusters)的網(wǎng)絡(luò )研討會(huì )。該活動(dòng)包括8個(gè)演講,吸引了400多名與會(huì )者,持續了整整3個(gè)小時(shí),有超過(guò)30多位觀(guān)眾提問(wèn)。

  Andy Bechtolsheim以對GPU性能的預測拉開(kāi)了活動(dòng)的序幕。如下圖所示,隨著(zhù)CMOS、基板/封裝方法、芯片架構和冷卻技術(shù)的進(jìn)步,預計從2022年到2028年,這一數字將增加100倍。

  Andy的時(shí)間表非常激進(jìn)(和往常一樣)。所有這些新技術(shù)可能需要十年時(shí)間才能投入批量生產(chǎn)。關(guān)于英偉達/臺積電用于封裝Blackwell GPU的新CoWoS技術(shù)存在問(wèn)題的最新傳言表明,將新技術(shù)轉化為大規模生產(chǎn)是多么具有挑戰性。

  管理這些非常大的芯片組件的散熱是許多問(wèn)題之一。在人工智能集群中使用的所有技術(shù)都必須有一個(gè)提高能效的路線(xiàn)圖。CMOS確實(shí)有5年內從5nm到3nm和2nm的路線(xiàn)圖,但光互連仍在尋找更高功率效率的路徑。

  Andy介紹了當前設計的重定時(shí)、LRO和LPO 1.6T(8x200G)收發(fā)器的功耗估算,如下圖所示。重定時(shí)(DSP)模塊消耗30W,是800G模塊的2倍多。LPO和/或LRO確實(shí)為更高的功率效率提供了一條途徑,但目前尚不清楚它們是否以每通道200G的速度工作。Andy評論說(shuō),使用干凈的電氣通道224G LPO可以工作,但它還需要Flyover線(xiàn)纜、高性能TIA和線(xiàn)性驅動(dòng)器。

  Andy還提到,112G LPO MSA的標準即將完成,應在9月ECOC之前發(fā)布?;ゲ僮餍訮lug-fest將于8月舉行,到2025年,幾家供應商將準備批量交付LPO。

  問(wèn)題是:是否有客戶(hù)準備部署LRO或LPO?

  字節跳動(dòng)是認真考慮8x100G LPO的潛在客戶(hù)之一。根據LightCounting的估計,到2024年,字節跳動(dòng)將是中國云計算公司中第二大光模塊消費者,并有可能在2025年排名第一。

  字節跳動(dòng)的Yinxing Zhang給出了大量的LPO測試結果,證明了1E-6規格的Pre-FEC BER測試有助于保證鏈路在全溫度范圍內的性能。FEC將為通過(guò)Pre-FEC BER測試的收發(fā)器性能增加余量。他還評論說(shuō),需要優(yōu)化VCSEL和收發(fā)器/AOC設計,以提高Pre-FEC BER測試的良率,但他對2025-2026年的8x100G LPO部署持樂(lè )觀(guān)態(tài)度。字節跳動(dòng)并不急于轉向每通道200G的速度,至少現在還沒(méi)有。

  LightCounting預計英偉達將在今年晚些時(shí)候測試每通道200G的LRO和LPO,并可能在2025年部署有限的數量。如果這些都不起作用,CPO將是英偉達可以依賴(lài)的另一種選擇。英偉達也在放棄基于VCSEL的SR8收發(fā)器,但字節跳動(dòng)和許多其他客戶(hù)將在未來(lái)許多年內部署這些收發(fā)器。

  博通的Manish Mehta討論了CPO的進(jìn)展,并介紹了與云暉合作開(kāi)發(fā)的SR8 LRO收發(fā)器的最新測試數據,如下所示。他還討論了用于人工智能應用的SMF雙向收發(fā)器的設計。該技術(shù)已在FTTx收發(fā)器中使用了20多年。Manish還回顧了博通(Avago/Agilent)30年來(lái)收發(fā)器制造的歷史,其中包括10萬(wàn)億(是的,這是萬(wàn)億?。﹤€(gè)現場(chǎng)裝置時(shí)(Device hours),可靠性記錄<1FIT。

  Meta的Drew Alduino展示了硬件故障如何減慢AI集群運行的數據。單個(gè)GPU故障或網(wǎng)絡(luò )鏈路故障會(huì )使整個(gè)集群的效率降低40%。緩解故障(通過(guò)軟件)最多可能需要10分鐘。這樣的故障平均每30-45分鐘發(fā)生一次。對于基于更復雜的GPU和光學(xué)的大型集群,這個(gè)問(wèn)題會(huì )變得更糟。

  他還分享了200G FR4和400G FR4模塊的收發(fā)器故障分析數據,如下所示。直接調制激光器衰減是200G模塊故障的主要原因。與一般的制造問(wèn)題(PCBA和引線(xiàn)鍵合)相比,400G收發(fā)器中使用的EML性能下降的問(wèn)題較小。他建議使用更簡(jiǎn)單和更集成的設計將有助于減少這些故障。從這個(gè)角度來(lái)看,LPO和CPO都是行業(yè)探索的正確方向。不僅可以降低功耗,還可以提高可靠性。

  華為的Eric Bernier也討論了提高可靠性的方法。除了優(yōu)化整個(gè)收發(fā)器或集成芯片的光電設計和提高光源效率外,基于激光陣列的更高功率光源也將有所幫助。如果一個(gè)激光器性能下降,陣列中的其他激光器可以產(chǎn)生更多的功率,以補償故障的激光器。

  其他演講者包括Quintescent的Cris Cole,他提供了關(guān)于硅基量子點(diǎn)激光器可靠性提高100倍的更多數據。英特爾的Christian Urricariet分享了關(guān)于異質(zhì)集成激光器極高可靠性(<0.1FIT)的數據。Ranovus的Jeff Hutchins認為,只有高度集成的CPO解決方案才能滿(mǎn)足AI集群的可靠性要求。

  原文內容請參考:https://www.lightcounting.com/resource/53/resourceFile/081324%20Research%20Note%20on%20IPEC%20webinar.pdf

內容來(lái)自:訊石光通訊網(wǎng)
本文地址:http://joq5k4q.cn//Site/CN/News/2024/08/14/20240814013534698445.htm 轉載請保留文章出處
關(guān)鍵字:
文章標題:LC:人工智能集群對光學(xué)的特殊要求
1、凡本網(wǎng)注明“來(lái)源:訊石光通訊網(wǎng)”及標有原創(chuàng )的所有作品,版權均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉載、摘編及鏡像,違者必究。對于經(jīng)過(guò)授權可以轉載我方內容的單位,也必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和本站來(lái)源。
2、免責聲明,凡本網(wǎng)注明“來(lái)源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責。因可能存在第三方轉載無(wú)法確定原網(wǎng)地址,若作品內容、版權爭議和其它問(wèn)題,請聯(lián)系本網(wǎng),將第一時(shí)間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話(huà):0755-82960080-168   Right
亚洲熟妇少妇任你躁_欧美猛少妇色xxxxx_人妻无码久久中文字幕专区_亚洲精品97久久中文字幕无码
<label id="g4okg"><strong id="g4okg"></strong></label>
<wbr id="g4okg"><strong id="g4okg"></strong></wbr>
<button id="g4okg"><strong id="g4okg"></strong></button>
<button id="g4okg"></button><button id="g4okg"><strong id="g4okg"></strong></button>
<wbr id="g4okg"><strong id="g4okg"></strong></wbr><button id="g4okg"></button>
<div id="g4okg"><label id="g4okg"></label></div>
<wbr id="g4okg"><strong id="g4okg"></strong></wbr>