<label id="g4okg"><strong id="g4okg"></strong></label>
<wbr id="g4okg"><strong id="g4okg"></strong></wbr>
<button id="g4okg"><strong id="g4okg"></strong></button>
<button id="g4okg"></button><button id="g4okg"><strong id="g4okg"></strong></button>
<wbr id="g4okg"><strong id="g4okg"></strong></wbr><button id="g4okg"></button>
<div id="g4okg"><label id="g4okg"></label></div>
<wbr id="g4okg"><strong id="g4okg"></strong></wbr>
用戶(hù)名: 密碼: 驗證碼:

OCP24:AI時(shí)代需要光學(xué)技術(shù)同行

摘要:Cignal AI討論了在OCP24峰會(huì )上的光學(xué)技術(shù)進(jìn)展,包括CPO、400G/通道、AI節點(diǎn)中的光學(xué)可靠性和穩定性、LPO、液冷改變架構等。

  ICC  2024年10月15日至17日,開(kāi)放計算項目全球峰會(huì )2024(簡(jiǎn)稱(chēng)OCP24)在美國加州圣何塞舉行。OCP是一個(gè)專(zhuān)注于計算的展會(huì ),在過(guò)去幾年里,由于人工智能的發(fā)展,該展會(huì )的重要性得到了極大的提升。在OCP24上,盡管多數參會(huì )者聚焦于A(yíng)I架構、功率、液冷及軟件的討論,但有一個(gè)座無(wú)虛席的會(huì )議,專(zhuān)門(mén)探討網(wǎng)絡(luò )和光學(xué)技術(shù)對于當前及未來(lái)AI節點(diǎn)擴展性的重要意義。Meta強調,目前仍不清楚如何在不增加更多GPU的情況下從大型AI模型中獲得更準確的結果(因為更高的準確性意味著(zhù)需要更多的參數,而更多的參數則需要更多的GPU資源),這意味著(zhù)數據中心對光學(xué)帶寬的需求不會(huì )停止。

  今年,首次有兩家光學(xué)供應商光迅和Ciena在展會(huì )上設有展位。隨著(zhù)CIOE和ECOC剛剛落幕,而且OCP并不是傳統的光學(xué)展覽,因此并沒(méi)有任何主要的光學(xué)公告。不過(guò),這里有關(guān)于數據中心內部光學(xué)技術(shù)未來(lái)的有趣討論,而OCP可能是聽(tīng)取初創(chuàng )公司關(guān)于A(yíng)I光學(xué)有趣想法的最佳場(chǎng)所。

  本文中涵蓋的主題包括:

  共封裝光學(xué)(CPO)離現實(shí)更近了一步

  Ciena推出400G/通道 —— 出乎意料

  AI節點(diǎn)中的光學(xué)可靠性和穩定性需提升

  LPO——持續發(fā)展,但問(wèn)題依然存在

  液冷將改變架構設計

  結論

  共封裝光學(xué)(CPO)離現實(shí)更近了一步

  近幾年來(lái),CPO幾乎一直由Intel和Broadcom通過(guò)51.2T交換機演示進(jìn)行獨家推廣。去年的OCP會(huì )議上,Micas Networks首次推出了基于Broadcom CPO平臺的商用交換機。今年,Micas依然是唯一商用的CPO交換機廠(chǎng)商,但許多其他公司在他們的演講中也開(kāi)始提及CPO。

  最近,臺積電(TSMC)宣布正在研究在其工藝流程中集成SiPho,而超大規模企業(yè)也發(fā)表了令人鼓舞的聲明,CPO似乎比以往任何時(shí)候都更接近現實(shí)——可能在不到五年的時(shí)間內就能實(shí)現大規模部署。然而,CPO的采用仍然是有些二元化的——要么會(huì )被一個(gè)主要客戶(hù)認可用于大規模部署,從而引發(fā)大量需求,要么它仍將是一種少數較小運營(yíng)商采用的小眾產(chǎn)品。目前這個(gè)關(guān)鍵的主要客戶(hù)尚未出現,但鑒于A(yíng)I是一個(gè)核心應用場(chǎng)景,Nvidia和超大規模企業(yè)的ASICs很可能是早期采用者。

  CPO所宣傳的主要好處仍然是功耗(聲稱(chēng)每800GbE小于5.5W),但它還提供了穩定性和更低的延遲。AI模型中困擾光學(xué)連接的偶然錯誤(flapping)隨著(zhù)鏈路中DSP的減少而降低,這可能以犧牲一致性為代價(jià),換取了鏈路穩定性以及較低的誤碼率(BER)。對于短距離鏈接,這種權衡可能是值得的。字節跳動(dòng)在展覽會(huì )上分享了早期試驗的結果,表明第二層網(wǎng)絡(luò )的延遲最高可減少600納秒,第三層網(wǎng)絡(luò )的延遲最高可減少1000納秒(不過(guò),字節跳動(dòng)并未解釋第三層網(wǎng)絡(luò )為何會(huì )有更顯著(zhù)的延遲改善)。

  Micas繼續開(kāi)發(fā)其CPO平臺,目前為51.2T,但計劃在Tomahawk 6可用時(shí)升級到102.4T。這意味著(zhù)Broadcom將開(kāi)發(fā)一個(gè)102.4T的CPO板卡。今年Micas已經(jīng)出貨了幾十臺交換機,主要用于評估,并預計到2025年最多也只能出貨幾百臺,因為尋找主要客戶(hù)的工作仍在繼續。騰訊仍然是一個(gè)潛在的客戶(hù)(Micas雇傭了一名來(lái)自該公司的高級工程師),但在短期內不會(huì )大量采購。

  Broadcom與字節跳動(dòng)共同展示了CPO,后者展示了一個(gè)潛在的網(wǎng)絡(luò )部署方案,其中CPO交換機作為頂級脊柱層,未來(lái)將轉移到核心層,直接進(jìn)入網(wǎng)絡(luò )的主要交換基礎設施。服務(wù)提供商正在試用一個(gè)商用平臺的定制版本,據推測是Micas,因為它擁有目前唯一的商用平臺。字節跳動(dòng)表示還沒(méi)有承諾購買(mǎi)和部署,并且仍在評估這項技術(shù)。

  Broadcom與字節跳動(dòng)共同展示了CPO技術(shù),展示了一種將CPO交換機作為T(mén)op Spine層,并在未來(lái)過(guò)渡到核心層的潛在網(wǎng)絡(luò )部署方案,這將使CPO直接成為網(wǎng)絡(luò )主交換基礎設施的一部分。服務(wù)提供商正在測試商用平臺的定制版本,據推測該平臺為Micas的產(chǎn)品,因為目前它是唯一可用的商用平臺。字節跳動(dòng)表示,他們尚未決定購買(mǎi)和部署,并且仍在評估這項技術(shù)。

  Meta表示,他們正在研究將CPO應用于“Scale up域”(即目前使用銅纜連接的機架內部)。隨著(zhù)這一領(lǐng)域擴展到單個(gè)機架之外并且需要光學(xué)技術(shù)時(shí),CPO可能成為一個(gè)可行的選擇。Meta相信,由于減少了活動(dòng)組件的數量,CPO可以提供一個(gè)更可靠的網(wǎng)絡(luò ),減少鏈路故障的發(fā)生。值得一提的是,Meta曾是CPO/NPO技術(shù)的早期倡導者之一,但在后來(lái)停止了內部開(kāi)發(fā)。

  Ciena推出400G/通道 —— 出乎意料

  正如Cignal AI在其最新的ECOC 2024報告中所述,400G/通道電子和光學(xué)器件被認為即將公開(kāi)亮相。實(shí)際情況比預期的更早到來(lái)。在OCP上,Ciena展示了利用其WaveLogic 6e相干DSP中的SERDES實(shí)現的400G/通道PAM4操作。這不是像Marvell或Broadcom這樣的傳統DSP供應商,而是Ciena首先在3nm硅片上公開(kāi)演示了400Gbps的操作。Ciena的演示應被視為一個(gè)測試芯片,而該公司正考慮為其多個(gè)組件,包括一個(gè)400Gbps/通道的PAM4 DSP,制定未來(lái)的商業(yè)化計劃。

  在光學(xué)方面,Hyperlight關(guān)于薄膜鈮酸鋰(TFLN)的演講表明,該材料有足夠的帶寬來(lái)支持400G/通道的光學(xué)器件。Hyperlight還提到,在過(guò)去兩年中,TFLN晶圓制造商的數量已經(jīng)從一家增加到了三家。硅光子學(xué)(SiPho)幾乎肯定不能在400G/通道條件下工作,即使是InP EMLs也可能面臨性能問(wèn)題。盡管TFLN在大規模生產(chǎn)中尚未得到驗證,但它仍然是2028年后實(shí)現400Gbps/通道3.2GbE的一個(gè)強有力候選者。

  AI節點(diǎn)中的光學(xué)可靠性和穩定性需提升

  在Cignal AI的CIOE報告(CIOE24:洞察中國市場(chǎng))中,該市場(chǎng)調研公司首次提到了光學(xué)器件中的bit error和flapping導致AI模型失敗的問(wèn)題,這個(gè)問(wèn)題在這次OCP上被多次提及。AI模型中的鏈路錯誤可能會(huì )導致整個(gè)計算周期失敗,并需要從檢查點(diǎn)重新啟動(dòng)。然而,光學(xué)方面的消息比最初報道的要樂(lè )觀(guān):

  Meta展示了其模型數據,顯示GPU的故障率遠遠高于光學(xué)鏈路。在初步數據中,約80%的模型故障是硬件問(wèn)題造成的,其中60%是由于GPU故障。網(wǎng)絡(luò )問(wèn)題是導致故障的第四大因素——雖然這并不理想,但情況并不像最初認為的那樣嚴重。

  Meta還指出,400GbE模塊的故障大多是因為制造問(wèn)題,而非激光器故障(200GbE模塊的故障主要是由于DML,但400GbE使用了更為可靠的EML)。制造問(wèn)題相比基本的半導體可靠性問(wèn)題應該更容易解決。

  此外,Meta表示,所有硬件——無(wú)論是光學(xué)器件還是ASIC——的故障率隨時(shí)間逐漸下降,這表明存在一些尚未確定的早期失效原因。同樣,這應該是一個(gè)比可靠性故障更容易解決的問(wèn)題。

  旭創(chuàng )展示的數據表明,基于硅光子學(xué)(SiPho)的光學(xué)器件的可靠性有了顯著(zhù)提高。這家公司已經(jīng)售出了數百萬(wàn)個(gè)可插拔模塊,其現有產(chǎn)品的FIT率低于0.4,這對于1.6Gbps速率下的低成本SiPho光學(xué)器件而言是個(gè)積極的信號。

  LPO——持續發(fā)展,但問(wèn)題依然存在

  線(xiàn)性可插拔光學(xué)(LPO)繼續在各類(lèi)展覽會(huì )上受到關(guān)注,特別是在A(yíng)rista的Andy Bechtolsheim出席的場(chǎng)合。然而,目前還沒(méi)有大型客戶(hù)正式采用這項技術(shù)。即便互操作性問(wèn)題得到了解決,故障排查和管理方面的問(wèn)題仍然存在。因此,盡管業(yè)內對這項技術(shù)的討論持續不斷,但Cignal AI的預測(800GbE市場(chǎng)中不足10%的份額)自一年前《線(xiàn)性驅動(dòng)市場(chǎng)機會(huì )》(The Linear Drive Market Opportunity)報告發(fā)布以來(lái),一直未發(fā)生變化。

  在一個(gè)光學(xué)專(zhuān)題的演講中,Meta表示LPO正處于“積極研究”階段,但從LPO在OFC23上引起關(guān)注到現在已接近兩年,研究尚未轉化為實(shí)際部署。Meta還報告稱(chēng),排查光學(xué)鏈路固有的困難很大;據報告,因故障退回的模塊中有75%被診斷為未發(fā)現問(wèn)題(NTF),這意味著(zhù)光學(xué)器件并非錯誤來(lái)源。由于LPO進(jìn)一步減少了用于鏈路評估的遙測數據,問(wèn)題可能會(huì )變得更復雜,盡管鏈路中的活動(dòng)組件減少可能會(huì )提高整體可靠性。

  或許對LPO的最大激勵來(lái)自Chris Cole的觀(guān)點(diǎn)(Cignal AI也有同樣的看法),即對于當前的AI運營(yíng)者而言,部署速度遠比在光學(xué)器件上節省一點(diǎn)能耗重要得多——因此,基于DSP的光學(xué)器件(MOP)仍將是首選架構。

  1.6T可能會(huì )為L(cháng)PO——或者說(shuō)更有可能是LRO——提供機會(huì ),因為目前還沒(méi)有既定的MOP。OCP24上的演講者承認,200G/通道的LPO更具挑戰性,這意味著(zhù)其部署并不確定。

  液冷將改變架構設計

  下一代AI設施將需要液冷技術(shù),因為單個(gè)機架的散熱需求將超過(guò)100千瓦。在展會(huì )上,可以看到許多液冷供應商及其演示。正如Cignal AI在ECOC報告中討論的,液冷技術(shù)將會(huì )改變設備的設計。Credo展示液冷技術(shù)也將使得電氣連接(如銅線(xiàn)/AEC)更加普及。隨著(zhù)液冷技術(shù)的應用,AI節點(diǎn)的密度增加,GPU之間的距離變短,從而使得銅連接可以用于更多的地方。一旦不再依賴(lài)風(fēng)冷,設備和網(wǎng)絡(luò )設計肯定會(huì )經(jīng)歷重大變革。

  結論

  雖然OCP不是一個(gè)專(zhuān)門(mén)的光學(xué)展會(huì ),但它展示了未來(lái)幾年由AI推動(dòng)的光學(xué)需求和發(fā)展趨勢。雖然銅線(xiàn)在A(yíng)I節點(diǎn)內部還將長(cháng)期使用,但隨著(zhù)速度提升和集群范圍擴大,光學(xué)技術(shù)變得不可或缺。光學(xué)帶寬需求不斷增加,同時(shí)由于A(yíng)I模型參數持續增長(cháng),功耗問(wèn)題仍然突出。盡管許多光學(xué)互聯(lián)的創(chuàng )新可能不會(huì )被廣泛采納,但它們有望挑戰行業(yè)對光學(xué)互聯(lián)的看法。這是一個(gè)屬于A(yíng)I的時(shí)代,光學(xué)技術(shù)也被邀請一同前行。

  原文:OCP24: Optical Gets Invited to the AI Party - Cignal AI- https://cignal.ai/2024/10/ocp24-optical-gets-invited-to-the-ai-party/

內容來(lái)自:訊石光通訊網(wǎng)
本文地址:http://joq5k4q.cn//Site/CN/News/2024/10/25/20241025034012385394.htm 轉載請保留文章出處
關(guān)鍵字:
文章標題:OCP24:AI時(shí)代需要光學(xué)技術(shù)同行
1、凡本網(wǎng)注明“來(lái)源:訊石光通訊網(wǎng)”及標有原創(chuàng )的所有作品,版權均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉載、摘編及鏡像,違者必究。對于經(jīng)過(guò)授權可以轉載我方內容的單位,也必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和本站來(lái)源。
2、免責聲明,凡本網(wǎng)注明“來(lái)源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責。因可能存在第三方轉載無(wú)法確定原網(wǎng)地址,若作品內容、版權爭議和其它問(wèn)題,請聯(lián)系本網(wǎng),將第一時(shí)間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話(huà):0755-82960080-168   Right
亚洲熟妇少妇任你躁_欧美猛少妇色xxxxx_人妻无码久久中文字幕专区_亚洲精品97久久中文字幕无码
<label id="g4okg"><strong id="g4okg"></strong></label>
<wbr id="g4okg"><strong id="g4okg"></strong></wbr>
<button id="g4okg"><strong id="g4okg"></strong></button>
<button id="g4okg"></button><button id="g4okg"><strong id="g4okg"></strong></button>
<wbr id="g4okg"><strong id="g4okg"></strong></wbr><button id="g4okg"></button>
<div id="g4okg"><label id="g4okg"></label></div>
<wbr id="g4okg"><strong id="g4okg"></strong></wbr>