ICCSZ訊 Facebook宣布正在打造架頂100Gbit/s的以太網(wǎng)交換機,以用于其下一代數據中心上。很多大互聯(lián)網(wǎng)公司都在設計自己的系統,務(wù)必緊隨先進(jìn)的計算和半導體技術(shù)的步伐。
Facebook的Wedge 100是一個(gè)32×100G交換機,據傳用的是Broadcom最新Tomahawk交換芯片,最大總吞吐量達3.2 Tbit/s。和以往一樣,Facebook會(huì )開(kāi)源自己的硬件設計,以供他人制造和使用。預計Wedge 100將運行一個(gè)名為FBOSS的開(kāi)源Linux軟件,Facebook目前在40G交換機上用的就是FBOSS。
今年8月,Facebook光學(xué)專(zhuān)家描述過(guò)一個(gè)利用100G單模光纖調制解調器將100G成本降到1美元/Gbyte的設計。該設計將距離要求從2公里放寬到了500米,同時(shí)也放寬了工作溫度和產(chǎn)品壽命規格。它是基于QSFP28可插拔外形,用了4個(gè)25Gbit/s的線(xiàn)路。
Facebook沒(méi)有提供Wedge 100部署時(shí)間的細節,也沒(méi)有給出如何處理來(lái)自100G TOR交換機匯總數據的細節。
不到18個(gè)月前??,網(wǎng)絡(luò )巨頭Facebook曾公布過(guò)旗下正在設計40Gbit/s的TOR以太網(wǎng)交換機,此為Wedge第一代。此項工作是在2013年底與交換芯片制造商會(huì )面后開(kāi)始的。
Facebook將上述設計重新定向為所謂的“6-pack”的匯聚交換機。該系統是Facebook一年前宣布新數據中心架構的重要組成部分。
今年三月,Facebook展示了自己的基于Broadcom Trident II 芯片的16×40G Wedge,然后又將其設計成線(xiàn)路卡和一個(gè)雙插槽卡,用于創(chuàng )建128×40GE 6-pack匯聚交換機,基于可以升級到100G接口版的10G的通道,通道可升級到25G。
當時(shí),Facebook的工程師表示正在弄32×100GE交換機,并有計劃用到100G和400G光鏈路。
一名Facebook工程師在電子郵件表示,“我們現在在生產(chǎn)線(xiàn)上使用成千上萬(wàn)的Wedge 40 TOR交換機,我們預計將繼續在相當長(cháng)一段時(shí)間內使用它。”
他表示,“我們仍處于使用Wedge100初期階段,等一切就緒后就可以用到我們的下一代數據中心上。我們的最終目標是在我們所有的數據中心的架頂上使用Wedge。”
與來(lái)自Arista 和 Dell的同款100G芯片比,Facebook設計針對自己的數據中心系統做的優(yōu)化想必更嚴謹些,價(jià)格想必更便宜些。和其他網(wǎng)絡(luò )巨頭一樣,Facebook設計自己的龐大計算機網(wǎng)絡(luò )系統,其規模之大可以想象。
大型數據中心的容量已 接近計算機網(wǎng)絡(luò )技術(shù)的極限。各種基于50G結構的400G交換機仍在實(shí)驗室里,800G以太網(wǎng)標準也是最近才定稿。
The Linley Group高級分析師Bob Wheeler表示,“那種用16x25Gbit/s技術(shù)的400G以太網(wǎng)提供的價(jià)值不大,而50Gbit/s技術(shù)是關(guān)鍵”,對下一代系統來(lái)說(shuō)是這樣。他表示,“有些供應商目前正在制56Gbit/s PAM4PHY樣品。光模塊可望在2017年投產(chǎn)。”
Facebook在一篇博客文章公布了Wedge 100的進(jìn)展。博文還提供了目前40G交換機的可用性程度的一些細節以及其在使用時(shí)遇到的挑戰。
博文指,“常常見(jiàn)到的交換機失效模式是,CPU出現過(guò)載后滯后于控制平面的職責,比如發(fā)送路由協(xié)議報文或對ASIC編程這一類(lèi)的職責,這時(shí)通信就會(huì )出現中斷。”
博文稱(chēng),“在我們的早期測試過(guò)程中,我們遇到一些情況,凸顯出保護CPU和控制平面是非常重要的。我們現在的配置對從交換機ASIC發(fā)往CPU的流量設了硬性限制。此外,我們將控制平面流量的優(yōu)先級別設得比交換機高,以盡量保證組件的控制平面處于運行狀態(tài)。“