Iccsz訊 數據中心的系統互連架構設計和物理布線(xiàn)互連設計日益成為數據中心的焦點(diǎn)?;诠饣ミB速率和密度的不斷升級展望,人們對數據中心的架構設計和投資成本回報性產(chǎn)生了躊躇和疑慮。數據中心的系統設計橫跨了多個(gè)學(xué)科,確實(shí)很少人能對數個(gè)學(xué)科的未來(lái)都有精確的預計?;诓煌鎯α亢筒煌嬎懔康?A href="http://joq5k4q.cn/site/CN/Search.aspx?page=1&keywords=%e6%95%b0%e6%8d%ae%e4%b8%ad%e5%bf%83&column_id=ALL&station=%E5%85%A8%E9%83%A8" target="_blank">數據中心理應有不同的設計模型,希望本文對鏈路采用平行和波分復用的架構討論能夠厘清一些思路,帶來(lái)更多有益的思考。
數據中心是一個(gè)含混的概念。它不僅僅包括計算機系統和其它與之配套的設備(例如通信和存儲系統),還包含冗余的數據通信連接、環(huán)境控制設備、監控設備以及各種安全裝置。因此我們在考量數據中心設計的時(shí)候必須基于計算能力、存儲能力,互連能力,以及環(huán)境控制和監控能力來(lái)做對應的設計,這些設計無(wú)疑將帶來(lái)計算成本、存儲成本,互連成本,以及環(huán)境控制和監控的成本。如果我們不清晰地依據當前的技術(shù)以及當前的需求,結合未來(lái)需求和未來(lái)技術(shù)展望性做出合理的規劃,數據中心會(huì )成為一個(gè)巨大燒錢(qián)的倉庫。數據中心一旦建成,其是不可逆的。架構設計師必須非常小心!
在數據中心內,普遍建議的光互連方案如下:
基于系統對運算和傳輸速率的不同,系統設備的內連可以采用10G AOC(300米鏈路),4*10G AOC(300米鏈路) 和4*25G AOC(100米鏈路) 以及100G PSM4 技術(shù)(500米到2公里)。近年來(lái)海量數據中心更引入CWDM4(2公里鏈路)作為減少光纖數量管理的手段。由于不同方案會(huì )帶來(lái)不同的性能和成本,我們認為:鏈路采用多模光互連技術(shù)是最成熟和最合理的方案,按照目前的成本估量,40G 多模鏈路的成本是10G 多模鏈路成本的2.5-3.0倍,而100G 多模鏈路大約是40G 的2.5-3.0倍,其中40G/100G 多模鏈路采用的均是MPO 多模光纖,意味著(zhù)從40G 到100G 可以實(shí)現技術(shù)的平滑升級,并不需要觸動(dòng)現有的網(wǎng)絡(luò )布線(xiàn)架構。
人們之前一直擔憂(yōu)多模VCSEL的技術(shù)瓶頸到25GB/b將是極限,從而對多模數據中心的可延伸性產(chǎn)生了顧慮,近而放棄多模數據中心架構直接采用理論上(注意是理論上)可一直擴展升級的單模數據中心架構??墒亲罱难芯勘砻?,50G VCSEL NRZ技術(shù)并不是問(wèn)題,在同樣的QSFP28封裝空間內,可以輕松地實(shí)現8*25G AOC光互連。這使得系統架構面向8*25G 和4*50G根本不是問(wèn)題??赡苋藗冞M(jìn)一步會(huì )擔心400G VCSEL 技術(shù)可行性,目前盡管我們沒(méi)有結論,但是400G VCSEL遇到的技術(shù)瓶頸和單模400G遇到的技術(shù)瓶頸是相同的。某種意義上,是錯覺(jué)打亂了人們的眼睛,就已知的知識,200G VCSEL AOC將進(jìn)一步縮短傳輸距離(估計是50米),但是康寧的OM5光纖可以很好地彌補這一缺陷。問(wèn)題當然還在于,采用OM5光纖將需要更換現有的布線(xiàn)架構。但是這個(gè)問(wèn)題和其它問(wèn)題是糾結在一起的,并不適合單項的做結論,它需要就其它技術(shù)做權衡取舍。
PSM4技術(shù)是對多模100G數據中心的補充。目前業(yè)界低估了PSM4技術(shù)的潛在性,而把焦點(diǎn)放在了CWDM4技術(shù)上,這或許多少有些誤區。PSM4技術(shù)采用的是單模MPO光纖傳輸,目前的傳輸距離到2KM非常輕松,而不是行業(yè)標準的500米,其實(shí)PSM4技術(shù)應該是10KM傳輸的規格,只是業(yè)內對于它的應用幾乎是不假思索的定義為2KM。這是一個(gè)焦點(diǎn)被轉移后錯誤的認知,從一開(kāi)始,分布式計算和并行傳輸就應該是這個(gè)領(lǐng)域的綱領(lǐng)性標準。100G PSM4的成本應該是100G VCSEL的3倍。只要人們愿意,未來(lái)可能降低到1.5-2倍水平。相對于100G CWDM4技術(shù),PSM4技術(shù)使用了4倍光纖數量,光纖的成本可以假設為零,系統設計者考慮最多的是:一、光纖資源的有限性和日后可擴容性;二、數據機房的布線(xiàn)成本。
細致討論這些集合不同領(lǐng)域的知識和見(jiàn)解 做一個(gè)建設性結論
光纖傳輸之所以采用粗波分復用和密集粗波分復用是由于已經(jīng)布設的光纜資源的有限性,所以設計者考慮用波分復用設備替代單波長(cháng)設備。在光纖資源并不緊張的情況下,這種空分復用技術(shù)本身是增加成本的,因為光纖成本接近于零,如果空間建筑允許,第一次布設的時(shí)候應該布設足夠的光纖以便于日后擴容采用。數據中心和骨干城域網(wǎng)不同,骨干城域網(wǎng)的光纜建設已經(jīng)完成,不管是之前思慮不周還是沒(méi)有了望到更長(cháng)遠的需求,地底下被埋設的光纜資源都是有限的,因此必須啟用波分復用技術(shù)。但是數據中心不同,數據中心屬于第一次建設,它不需要采用未來(lái)還不明確的在哪種速率和帶寬下的波分復用技術(shù)。不能為波分復用而去做波分系統,波分復用僅是對現有光纖資源的一個(gè)有效利用手段,這個(gè)手段需要付出很多成本代價(jià),但是在現在的需求看來(lái)基本是沒(méi)有必要付出的。波分復用僅是同一種速率下的密度升級,按照現有的模塊與系統設計,它的第一次部署等同于喧賓奪主或者本木倒置,必將阻礙系統的速率和帶寬升級。
現有的100G CWDM4模塊是無(wú)法直接升級到200G與400G的。常規的波分復用系統可以被升級,是因為有源和無(wú)源被分割成兩個(gè)獨立的系統。無(wú)源是和速率波長(cháng)無(wú)關(guān)的,所以可以自由升級?,F在的數據中心CWDM4模塊集成了有源和無(wú)源技術(shù),好處是空間緊湊,壞處也是明顯的,這個(gè)架構根本無(wú)法直接更換一個(gè)更高速率或更多波長(cháng)(如8波,16波)的模塊,意味著(zhù)當系統需要升級的時(shí)候。我們過(guò)去為CWDM4而CWDM4的成本都打了水漂。因為采用PSM4同樣可以實(shí)現光連接,且成本更低。按目前的直接材料成本和制成費用核算,單個(gè)CWDM4成本是PSM4的1.35-1.5倍。這些多出的成本對于現在的系統運作毫無(wú)意義。
現有CWDM4模塊對數據中心系統增加了可靠性風(fēng)險,緊湊型CWDM4??齑嬖跍仫h和可靠性問(wèn)題,CWDM4的規模部署需要數據中心將機房溫度嚴格設定在估計15-50-度的范圍,否則可能出現由于溫飄和光芯片可靠性招致的嚴重誤碼現象。如果機房的水冷和空調系統一旦間歇性失靈.數據中心將出現災難。CWDM4模塊需要一個(gè)更可靠的工作環(huán)境帶給系統巨大的能耗(PDU增大),如果僅僅因為使用CWDM4模塊而必須犧牲巨大的能耗,這些能耗的損失將在一個(gè)月內使所有模塊的購買(mǎi)成本增大一倍。就我們已經(jīng)做過(guò)的驗證,4*25G CWDM CHIP業(yè)內還沒(méi)有絕對的可靠性保證。任何一路的可靠性將影響到四路也就是整個(gè)模塊的可靠性。CWDM4的可靠性隱患包括:CWDM光芯片的可靠性,自由空間發(fā)射結構的可靠性或AWG的溫漂性。我們知道CWDM4技術(shù)正在進(jìn)步,但是到目前為止,大家都在閉著(zhù)眼睛過(guò)河。
CWDM4的光纖是否帶來(lái)了光纖資源的節約和長(cháng)期性升級時(shí)候的一勞永逸?沒(méi)那么簡(jiǎn)單!當我們做系統設計的時(shí)候一定要考慮到在一開(kāi)始,光纖資源就必須按照平行架構去布置,而不要思考光纖復用的問(wèn)題,因為在此時(shí)考慮復用是沒(méi)有意義的。我們根本不知道未來(lái)的技術(shù)需要多少光纖資源。把一個(gè)PSM4模塊升級到PSM8和把一個(gè)CWDM4模塊升級到CWDM8,理論上都需要仍掉現在的PSM4模塊和CWDM4模塊(很顯然這個(gè)情況下仍掉的錢(qián)是不同的)。把一個(gè)PSM4模塊升級到PSM8確實(shí)需要動(dòng)用8根光纖,但是這個(gè)升級遭遇的技術(shù)瓶頸是更簡(jiǎn)單低成本的。只要有需求,我們事實(shí)上在任何時(shí)候可以把一個(gè)PSM4模塊升級到CWDM4從而有效地利用光纖資源。人們會(huì )說(shuō),如果不是現在,而是將來(lái)把100G PSM4升級到100G CWDM4,那不是白白損失了一個(gè)PSM4模塊嗎?我們在之前已經(jīng)分析過(guò),PSM4??斓哪芎暮凸芾沓杀具h遠為數據中心建造者賺回了不止10個(gè)CWDM4模塊.并且由于PSM4模塊的可靠性,拆卸下來(lái)的模塊仍然可以被利用于其它新建的系統。雖然沒(méi)有精確的計算,但是PSM4模塊的好處是非常多的:傳輸的通明性,無(wú)溫飄,可靠性更高,以及在某些情況下輕易地實(shí)現通道的分流監測.
我們需要再次強化一個(gè)概念,波分復用技術(shù)是空分復用技術(shù),它和系統速率和帶寬毫無(wú)關(guān)系。系統架造師如果把波分復用技術(shù)和系統從40G/100G向200G/400G 升級的相關(guān)技術(shù)融作一體考量的時(shí)候,就必然陷阱兩種不同技術(shù)思維的誤區,招致錯誤的結論。波分復用技術(shù)的價(jià)值僅在于對現有光鏈路的改造以及資源非常緊張的應用(比如租用光纖資源的成本和稀缺性),它不能被視作一個(gè)初始技術(shù)。讓我們進(jìn)一步闡釋?zhuān)粋€(gè)數據中心鏈路通常包括四種架構設計:設備架構、布線(xiàn)架構、升級架構和擴容架構。
設備架構:保證系統采用何種速率和吞吐率,只能基于現有的技術(shù)
布線(xiàn)架構:保證系統需要多少光纖資源,必須一次性想好道路的寬度
升級架構:系統從低速率(如10G/40G)向高速率(如100G/200G/400G演進(jìn)的技術(shù)路徑和成本
擴容架構:如何利用空分復用技術(shù)把現有系統提升系統的容量和密度
對于擴容架構,我們有必要做進(jìn)一步的論證,如下圖是兩個(gè)典型數據中心波分復用光互連架構
(A) 方案是有源和無(wú)源分離的設計方案
(B) 方案類(lèi)似現在100G CWDM4 數據中心的結構
我們很容易發(fā)現,就系統升級而言,A方案僅需要更換交換路由設備,而B(niǎo)方案的升級將只剩下光纜可以被再度利用。所以我們傾向認為現有CWDM4數據中心因為謀求更緊湊的設備,導致了升級成本的根本上升。因為除了光纜,什么也無(wú)法留下。即便我們認為這些被留下的光纜一定可被再利用進(jìn)入下一代數據中心也是值得商榷的,下一代數據中心比如400G數據中心,如果采用FR8或LR8,這個(gè)波長(cháng)是1550NM色散位移光纖,而現在的100G CWDM4是采用1310nm的光纜。
數據中心作為一個(gè)蓬勃發(fā)展的新事物,有太多值得討論的空間,本文最后的推薦結論是:
1)多模數據中心仍然是數據中心發(fā)展的核心。不但因為成本,也因為技術(shù)的可靠性.多模數據中心可以說(shuō)是為數據中心而生。
2)在長(cháng)距離數據中心發(fā)展上,PSM4技術(shù)優(yōu)于CWDM4,PSM8技術(shù)優(yōu)于CWDM8,以此類(lèi)推。數據中心適宜定位平行技術(shù)作為主流,至少這個(gè)布局不會(huì )是一個(gè)全輸的游戲。并行技術(shù)不但透明且易于做OMA管理。
3)除非情不得已,數據中心采用NRZ技術(shù)演進(jìn)是最可靠和低成本的。有時(shí)候我們要考慮,一旦數據中心被PAM4主導,它的下一步是PAM8/PAM16嗎?這樣的話(huà)系統將變得越來(lái)越不透明和難于管理。如果我們采用PSM4+PAM4的結構一定優(yōu)于CWDM4+PAM4的結構。
4)目前采用集成CWDM4技術(shù)做數據中心的第一次部署從一開(kāi)始就把數據中心定義為過(guò)渡型而非固定型。這個(gè)理念需要修正。我認為這正是專(zhuān)業(yè)人士和非專(zhuān)業(yè)人士的分界點(diǎn)。從我接觸光通信時(shí)候起,我們就知道CWDM屬于一種增容的技術(shù)。目前的CWDM4技術(shù)界于離散和集成之間,并不成熟,而且無(wú)法擴充到8波或16波,這極大限制了CWDM系統地擴容能力,CWDM4作為數據中心第一次部署并不恰當.客觀(guān)上,這種技術(shù)的第一次部署是限制了系統的可能性與靈活性,帶來(lái)事與愿違的成本上升,必須十分謹慎!
結語(yǔ):數據中心的平行架構和CWDM架構頗有點(diǎn)宇宙和哲學(xué)的意味,把這個(gè)問(wèn)題講清楚頗費腦筋,CWDM技術(shù)是平行技術(shù)的延伸,而非對抗性技術(shù)。有多少個(gè)平行宇宙就有多少種CWDM宇宙。如果平行宇宙不存在,CWDM宇宙將很快塌縮到?jīng)]有發(fā)展空間,或者我們從另外一個(gè)意義上看,平行=簡(jiǎn)單。