ICC訊 11月19日第十一屆網(wǎng)絡(luò )平臺部技術(shù)峰會(huì )在深圳圓滿(mǎn)落幕。本次峰會(huì )圍繞硬件研發(fā)、硬件加速、網(wǎng)絡(luò )產(chǎn)品、網(wǎng)絡(luò )運營(yíng)四大領(lǐng)域,深度全面地展示了網(wǎng)絡(luò )平臺部不斷精進(jìn)的研發(fā)能力及探索成果。下面讓我們共同回顧本次峰會(huì )中由硬件研發(fā)專(zhuān)家——崔鵬呈現的《騰訊自研交換機——從100G到未來(lái)》的精彩內容。
大家可能比較熟悉的是我們自研交換機的型號TCS8400和TCS9400,其實(shí)我們對應的還有產(chǎn)品代號:
○ 給ToR交換機TCS8400 – Aries,對應首字母為A,所以也代表了我們第一款全自研設備,此外白羊座的守護神為戰神,也是期望我們這款設備可以勇往向前。
○ Spine交換機TCS9400 – Taurus金牛座,象征了我們這款大家伙的強健性能以及穩定可靠。
在設計之初我們的一個(gè)理念就是模塊化,我們的交換機都是由不同的功能模塊組成的,最重要的就是例如 TCS8400前端口的交換板,TCS9400由于端口比較多所以交換板被分成了3張,上、中、下通過(guò)連接器扣合到一起。模塊設計的一個(gè)好處就在于如CPU板、BMC板、PSU等模塊組件可以共用,此外可以方便以后模塊升級。同時(shí),我們兩款設備的共用物料多達70%以上,在這個(gè)物料短缺的時(shí)期,可以易于供應鏈集中采購,避免供應短缺。
需要提出的是TCS9400設備在最開(kāi)始設計時(shí),是計劃做成和上一代一樣的可插拔形態(tài),這樣做系統設計難度特別是SI風(fēng)險不大,但是引入了PHY芯片,也就意味著(zhù)增加了系統成本、功耗及開(kāi)發(fā)時(shí)間。經(jīng)過(guò)認真的研究與全面的評估,我們后來(lái)決定還是挑戰一下自己,采用PHY-less無(wú)PHY設計,這樣就避免了剛剛提到的那些問(wèn)題。但是沒(méi)有了PHY芯片對高速信號的重整與重傳,SI鏈路整體性能預算緊張,充滿(mǎn)挑戰。
為了在無(wú)PHY的情況下提供同樣的性能,我們采取了最優(yōu)化架構設計,充分減少走線(xiàn)距離;同時(shí)對128個(gè)端口的512個(gè)差分對都進(jìn)行了 從芯片到端口的端到端走線(xiàn)優(yōu)化,在backdrill、anti-pad等局部細節上也做了微調整。經(jīng)過(guò)SI的全面優(yōu)化,最終的結果是我們的性能不僅可以符合行業(yè)規范,并且可以超出標準50%以上。
自研設計中的難點(diǎn)和亮點(diǎn)還有很多,這里就不一一展開(kāi)了,總結來(lái)說(shuō)在采用了敏捷開(kāi)發(fā)、模塊架構、PHY-less方案、端到端的優(yōu)化之后,我們的自研設備不僅迭代速度更快,同時(shí)在性能、質(zhì)量、成本上相較于商業(yè)機都有較大優(yōu)勢。
下一代交換機相關(guān)技術(shù)難點(diǎn)與挑戰
在討論下一代交換機挑戰之前我們先回顧一下我們的網(wǎng)絡(luò )設備路標。
之前一代是用于25G/50G網(wǎng)卡的定制交換機,現在一代是基于50G PAM4并用于100G網(wǎng)卡的自研交換機。雖然下下一代設備我們不知道長(cháng)什么樣子,但是下一代其實(shí)也不難預測,就是基于112G PAM4,用于200G網(wǎng)卡的交換設備,會(huì )有什么大的變化么?
以最復雜的Spine交換機設備來(lái)講,下一代設備不外乎以下幾種形態(tài):基于一張PCB板卡搞定的64口800G設備;或者采用flyover線(xiàn)纜與PCB相結合,兩張PCB的128口400G設備;又或者與現在的TCS9400一樣,還是3張PCB搞定的扣板方案;再不然就是基于PHY芯片,多張PCB子卡的方案。那么到底哪一種在112G Serdes時(shí)代是技術(shù)可行的呢?哪一種是最優(yōu)的呢?
在回答這個(gè)問(wèn)題之前我們先來(lái)看一下交換芯片的發(fā)展歷程,在過(guò)去的10年當中,接口Serdes速率由10G演進(jìn)到28G,56G直到現在的112G,有10倍之多;交換芯片容量也由640G擴展到51.2T,足足有80倍。
但是Serdes速率與交換容量的增長(cháng)并不是沒(méi)有代價(jià)的,我們同時(shí)看到一些“負面影響”,如功耗越來(lái)越大,芯片尺寸越來(lái)越大、高速信號損耗的增大引入更復雜的調制解調。那么這些負面影響對于硬件設計來(lái)說(shuō)意味著(zhù)什么呢?又有哪些挑戰呢?
首先我們來(lái)看一下高速信號完整性SI??赡艽蠹乙呀?jīng)很熟悉的是NRZ編碼與PAM4形式,更復雜的編碼帶來(lái)了更快速的信號速率,但是注意其N(xiāo)yquist頻率基本還是在13GHz左右,但是到了112G,不僅采用了復雜的PAM4編碼,其N(xiāo)yquist頻率也快了一倍。就像跑步的風(fēng)阻一樣,更快的傳輸頻率就意味著(zhù)更大的信道損耗,這在112G尤為明顯。
信號在整個(gè)傳輸路徑上,通過(guò)了芯片內部的封裝、焊接點(diǎn)、PCB、連接器、過(guò)孔等等傳輸介質(zhì)后,任何一個(gè)部分的優(yōu)化都對SI至關(guān)重要。如果芯片封裝、DSP算法、連接器、PCB等SI相關(guān)設計不佳,那最左側發(fā)送的信號在經(jīng)過(guò)了這又長(cháng)又復雜的信道之后,波形就會(huì )產(chǎn)生閉合或嚴重的變形,從而影響信號傳輸。為了減少信道損耗,增強接收能力,業(yè)界提出了一些新的技術(shù)與方案,例如采用損耗更小可以傳輸更長(cháng)距離的線(xiàn)纜方式、更高速的連接器、超低損耗PCB,以及芯片內更復雜的均衡技術(shù)等。
SI之外,散熱挑戰也很大。特別是端口與交換芯片部分。端口溫度高是由于前面板密集的光模塊,隨著(zhù)速率的提升,光模塊功耗也水漲船高,散熱挑戰也越來(lái)越大,在這一代我們采用了heatpipe的散熱手段。隨著(zhù)芯片制程的提高,從最初的50nm、28nm、14nm,到現在的7nm、5nm,其單位速度和容量下的功耗是不斷下降的,但是在芯片容量增大80倍的同時(shí),即使有芯片制程的提高,其功耗還是增大了10倍之多;在TCS9400上我們采用了VC加heatpipe這種復雜的散熱結構,在下一代51.2T設備上正在評估散熱效率更高的Thermosyphon與液冷方案。
硬件、產(chǎn)品設計只是我們的一半工作,是否可以生產(chǎn),是否可以量產(chǎn)也是我們工作中關(guān)注的一個(gè)重點(diǎn)。112G是新技術(shù),不僅在之前介紹的SI和散熱上對于PCB的制程,散熱器的制程提出了更高的要求,也對芯片及組裝帶來(lái)了挑戰。更大的芯片帶來(lái)warpage彎曲效應,在焊接過(guò)程中極易引起虛焊,更復雜的散熱器、更精密的連接器 需要全新的、更精準的組裝方式,這些都對生產(chǎn)制程帶來(lái)了挑戰。
軟件同學(xué)常說(shuō)no BB show me the code, 我們硬件也不是只做paper work,針對112G相關(guān)技術(shù)點(diǎn)及挑戰,我們聯(lián)合合作伙伴一起開(kāi)發(fā)了一款預研設備,用于相關(guān)的SI、散熱等實(shí)物測試的準備工作。我們會(huì )通過(guò)實(shí)際的測試結果來(lái)做下一代設備形態(tài)的最終評估。
此外我們也在積極參與并領(lǐng)導了一些業(yè)內組織,如在QSFP112制定 112G Serdes連接器規范并討論下一代方案;在S3IP組織里制定適用于數據中心網(wǎng)絡(luò )設備的CPU模組標準,以及網(wǎng)絡(luò )設備的生產(chǎn)、上架測試規范等。通過(guò)全面的評估預研以及與行業(yè)伙伴的一起努力,我們有信心可以攻克一個(gè)又一個(gè)的技術(shù)挑戰。
后續演進(jìn)與展望
最后,讓我們回顧并展望一下硬件的發(fā)展。通過(guò)自研硬件與自研軟件,我們使用ToR和Spine交換機兩款設備就可以替代之前復雜而又昂貴的商用設備,那之后網(wǎng)絡(luò )硬件又將向什么方向發(fā)展呢?
在數據中心,為了滿(mǎn)足不斷發(fā)展的云業(yè)務(wù),同時(shí)應對5G、IoT、AI、ML等可能產(chǎn)生的數據爆發(fā),更高帶寬和更大交換容量是永恒的需求,但是網(wǎng)絡(luò )交換設備在總的IDC基礎設施中功耗占比越來(lái)越大,同時(shí)更快的接口速率需要比PAM4更加復雜的編碼形式,進(jìn)一步導致SI及功耗挑戰變大。此外,我們現在所用的光模塊封裝已經(jīng)沿用超過(guò)10年,其尺寸大小在支持更高速率接口時(shí)散熱空間不夠。大家可能聽(tīng)到最近很熱門(mén)的 NPO(近封裝光)和 CPO(共封裝光),通過(guò)把光模塊部分從面板移到交換機內部、與交換芯片die放在同一mezzanine小卡上以減少信號傳輸距離,甚至共封裝在同一substrate上來(lái)進(jìn)一步降低損耗,就可以”完美”地解決以上問(wèn)題。
在采用這種技術(shù)后,以后的交換機形態(tài)將會(huì )發(fā)生變化,前端口將沒(méi)有光模塊而是直接變成光纖接口,光模塊內移到交換機內部,SI設計挑戰將大為降低,但是又增加了光引擎、光面耦合、繞纖、大功率激光源、多器件散熱器不共面、大電流供電等新技術(shù)及挑戰。采用了CPO技術(shù)的交換機有可能改變今后的網(wǎng)絡(luò )架構,多端口大容量、光纖直連使得它可以跳過(guò)ToR直接連接服務(wù)器,從而降低延時(shí)、減少功耗。不過(guò)CPO畢竟是新技術(shù),其穩定性、可靠性、現網(wǎng)是否便于維護有待觀(guān)察。
回顧之前介紹,我們需要在持續提供穩定可靠的網(wǎng)絡(luò )的同時(shí)保證CAPEX及OPEX低成本,在不斷提高帶寬和容量的同時(shí)保證最優(yōu)性能,在快速開(kāi)發(fā)保證交付的同時(shí)確保引領(lǐng)生態(tài),那之后還有什么可以做的呢?其實(shí)還有很多創(chuàng )新點(diǎn)。展望未來(lái),我們需要在系統啟動(dòng)及數據傳輸的時(shí)保證按安全性,提供基于PTP等技術(shù)的全網(wǎng)精準對時(shí)能力、在DCN以外也提供適用不同場(chǎng)景的其他設備!