Iccsz訊 關(guān)于DCI技術(shù)的探索,最近很是熱門(mén),尤其是在SDN-WAN被大家重視起來(lái)后,關(guān)于DCI技術(shù)的介紹文章層出不窮。本文著(zhù)重對DCI網(wǎng)絡(luò )中傳輸網(wǎng)絡(luò )部分的技術(shù)和現有一些情況進(jìn)行介紹,希望能給大家帶來(lái)一定的幫助。
一、DCI網(wǎng)絡(luò )的由來(lái)
數據中心最開(kāi)始,還比較簡(jiǎn)陋,一個(gè)隨意的房間里面放幾個(gè)機柜+幾臺高P的空調,然后是單路普通市電+幾臺UPS,就成了一個(gè)數據中心。但是這種數據中心規模較小,可靠性也低,從90年代末開(kāi)始瘋狂發(fā)展的互聯(lián)網(wǎng),對數據中心的需求也是暴增,所以這類(lèi)數據中心存在的不可解決的問(wèn)題來(lái)了:空間位置不足,電力供應不足,無(wú)冗余,無(wú)SLA保障,使得用戶(hù)開(kāi)始找另外的數據中心,進(jìn)行業(yè)務(wù)部署。這時(shí)候,新數據中心與老數據中心開(kāi)始有了網(wǎng)絡(luò )互聯(lián)需求,產(chǎn)生了最初的DCI網(wǎng)絡(luò ),即Data Center Inter-connect,這里囊括了物理網(wǎng)絡(luò )層面和邏輯網(wǎng)絡(luò )層面的技術(shù)。
最初的DCI網(wǎng)絡(luò ),是通過(guò)internet直接互聯(lián)的,后來(lái)開(kāi)始考慮到安全性,使用加密手段,考慮到的服務(wù)質(zhì)量,使用了專(zhuān)線(xiàn),考慮到帶寬,使用了光纖直連。
二、 DCI網(wǎng)絡(luò )的發(fā)展
DCI網(wǎng)絡(luò )從Internet互聯(lián),再到幾M專(zhuān)線(xiàn),發(fā)展到現在數10T的波分互聯(lián),其實(shí)經(jīng)歷時(shí)間不長(cháng),客觀(guān)上是對互聯(lián)網(wǎng)發(fā)展的一個(gè)反應。最初,用戶(hù)使用公網(wǎng)VPN隧道的方式,將其業(yè)務(wù)直接通過(guò)公網(wǎng)進(jìn)行傳輸,這種方式由于受到公網(wǎng)各環(huán)境(全球網(wǎng)絡(luò )帶寬擁塞,劣等路由,線(xiàn)路抖動(dòng),鏈接重置,防火墻等等)和成本情況的影響,所以適合小流量,帶寬質(zhì)量要求低,非實(shí)時(shí),同時(shí)安全要求低的業(yè)務(wù)使用;后來(lái),數據中心中的業(yè)務(wù)越發(fā)受到關(guān)注,業(yè)務(wù)開(kāi)始逐漸增加部署,服務(wù)器數量成線(xiàn)性進(jìn)行增長(cháng)。大量業(yè)務(wù)部署后,這些通過(guò)網(wǎng)絡(luò )傳送的業(yè)務(wù)對公司、行業(yè)的影響越來(lái)越大,所以對網(wǎng)絡(luò )的要求也越來(lái)越高,首先就體現在帶寬和鏈路穩定性上,因此數據中心用戶(hù)開(kāi)始租用運營(yíng)商電路專(zhuān)線(xiàn),在SDH網(wǎng)絡(luò )上承載的MSTP專(zhuān)線(xiàn)由于其穩定性高,帶寬更大,運營(yíng)商復用程度高等特點(diǎn),開(kāi)始大賣(mài)。
后來(lái),業(yè)務(wù)持續的爆發(fā)式發(fā)展,數據中心間的數據開(kāi)始了對時(shí)延和冗余的要求,特別是金融類(lèi)客戶(hù),對時(shí)延要求特別高,于是對專(zhuān)線(xiàn)的要求也更為提升了;再者,用戶(hù)開(kāi)始要求大顆粒,比如2.5G,10G的單鏈路帶寬,還要求雙路由保護,保證LSA達到4個(gè)9~5個(gè)9。
即便如此,互聯(lián)網(wǎng)發(fā)展的力量是驚人的,日志傳輸,數據庫同步等業(yè)務(wù)大勢增長(cháng)。在出于成本,交付時(shí)長(cháng),服務(wù)質(zhì)量等各方面的需求考慮,拔尖的公司(特別是像Google,FB這樣擁有大數據的互聯(lián)網(wǎng)公司)開(kāi)始撇開(kāi)運營(yíng)商,通過(guò)租用裸光纖來(lái)自己建DCI網(wǎng)絡(luò )。在使用裸光纖的最初時(shí),最先也是通過(guò)單個(gè)光纖跑單個(gè)信號的方式,比如一對光纖用一個(gè)萬(wàn)兆ZR的模塊,可以傳輸80公里遠,這距離對一般的同城數據中心之間傳輸已經(jīng)足夠了。但是這種方式的不足是,一方面光纖使用量隨帶寬線(xiàn)性增長(cháng)、成本增高,另一方面單光纖的帶寬利用率太低(當然,對于運維來(lái)說(shuō)還有裸光纖的資源和路由管理也是一個(gè)老大難問(wèn)題),而且此時(shí)單光纖10G帶寬也不能滿(mǎn)足業(yè)務(wù)增長(cháng)的需求,于是DCI網(wǎng)絡(luò )開(kāi)始了波分WDM時(shí)代。
WDM時(shí)代有兩種方式出現在了DCI網(wǎng)絡(luò )中,也就是粗波分CWDM和密集波分DWDM。最初的一些用戶(hù)基于成本的考慮,使用萬(wàn)兆粗波分彩光光模塊,利用CWDM技術(shù),進(jìn)行DCI互聯(lián),但是這種系統最多支持16波10G,且EDFA不能對粗波分所在波長(cháng)進(jìn)行信號放大,其無(wú)源中繼距離也相當受限。因此,隨著(zhù)大規模數據傳輸的需求不斷上漲,用戶(hù)不得不開(kāi)始使用容量和性能更高的DWDM系統。
純DWDM系統的DCI網(wǎng)絡(luò )結構:
DWDM系統是目前通信網(wǎng)中最主要的大帶寬傳輸系統,各公司出于業(yè)務(wù)量,成本,運維各方面考慮的情況下,早期使用交換機插萬(wàn)兆彩光模塊,出來(lái)的彩光以太網(wǎng)信號直接上無(wú)源DWDM設備。這種系統運維簡(jiǎn)單,在成本可控的情況下,一般可以做到40波*10GE信號,總系統帶寬可以到400G,且無(wú)過(guò)高的網(wǎng)絡(luò )運維成本,普通IP網(wǎng)絡(luò )工程師進(jìn)行低成本學(xué)習就可以進(jìn)行運維,曾經(jīng)被一些有需求的公司廣泛使用。但是互聯(lián)網(wǎng)的發(fā)展是蓬勃的,10GE單波的信號很快就不能滿(mǎn)足需求了,這時(shí)候需要更高的單波信號系統,如單波40GE&100GE。不過(guò)此時(shí)能放在交換機上的40GE&100GE的以太網(wǎng)彩光光模塊,市場(chǎng)上還沒(méi)出現有,并且在出現后的成本也是長(cháng)時(shí)間居高不下,但是業(yè)務(wù)等不了,因此只能另辟蹊徑,于是OTN這個(gè)在電信網(wǎng)絡(luò )中叱剎風(fēng)云的東西出現在了Google,FB這樣互聯(lián)網(wǎng)公司的DCI網(wǎng)絡(luò )中。
互聯(lián)網(wǎng)開(kāi)始接觸OTN,基本上都是從10GE開(kāi)始的,那時(shí)10G彩光+DWDM盒子已經(jīng)不能滿(mǎn)足業(yè)務(wù)增長(cháng)需求,并且這種方式由于沒(méi)有基于光層面的管理方式,所以也滿(mǎn)足不了批量網(wǎng)絡(luò ),特別是長(cháng)距網(wǎng)絡(luò )的運營(yíng)要求;加之在100G的OTN面市后,經(jīng)過(guò)幾年發(fā)展,尤其是經(jīng)過(guò)運營(yíng)商的幾次集采以后,成本大幅下降。綜上這些原因,10GE彩光+DWDM盒子的方式開(kāi)始慢慢被OTN系統替換了。由于技術(shù)發(fā)展和成本降低,在互聯(lián)網(wǎng)行業(yè)的DCI網(wǎng)絡(luò )中基本就沒(méi)有用過(guò)40G的OTN系統,直接從10G系統升級到100G系統,中間也考慮過(guò)如果使用100G系統時(shí),故障后影響范圍面廣等問(wèn)題,但是業(yè)務(wù)增長(cháng)需求依舊是首要的,所以線(xiàn)路側(面向傳輸光纖一側的信號)從10G直接到了100G,保證了線(xiàn)路側的波分系統能滿(mǎn)足長(cháng)期帶寬發(fā)展的需求。而客戶(hù)側(面向交換機對接一側的信號),考慮到現有10G客戶(hù)系統還挺多,為了保護已有投資,需要兼容現有10G顆粒業(yè)務(wù),并在未來(lái)可以升級為客戶(hù)側100G系統,所以為了讓10G和100G系統在DCI網(wǎng)絡(luò )升級可以進(jìn)行過(guò)渡,就出現了基于10個(gè)ODU2–>1個(gè)ODU4的客戶(hù)側10*10G,線(xiàn)路側1*100G的業(yè)務(wù)卡,并且這個(gè)板卡得到廣泛應用。
OTN網(wǎng)絡(luò )以其豐富的管理開(kāi)銷(xiāo),高可靠和多樣化的保護方式,集中專(zhuān)業(yè)化NMS管理平臺,以及大帶寬,的確為互聯(lián)網(wǎng)的發(fā)展起到了及其重要的作用,讓網(wǎng)絡(luò )運營(yíng)更加專(zhuān)業(yè)和細分,當然最重要的是滿(mǎn)足的互聯(lián)網(wǎng)業(yè)務(wù)快速增長(cháng)的需求。
使用OTN進(jìn)行點(diǎn)到點(diǎn)DCI網(wǎng)絡(luò )的典型拓撲:
此時(shí)OTN網(wǎng)絡(luò ),已經(jīng)不再是電信網(wǎng)絡(luò )專(zhuān)有技術(shù)了,互聯(lián)網(wǎng)的崛起,讓這樣一個(gè)傳統的電信網(wǎng)絡(luò )技術(shù)進(jìn)入了DCI網(wǎng)絡(luò )行業(yè)。
三、 DCI網(wǎng)絡(luò )現在的運營(yíng)路數
DCI網(wǎng)絡(luò )在引入了OTN技術(shù)后,運營(yíng)方面相當于新添加了一整塊以前沒(méi)有的工作。傳統的數據中心網(wǎng)絡(luò )為IP網(wǎng)絡(luò ),屬于邏輯網(wǎng)絡(luò )技術(shù)。而DCI中的OTN是種物理層的技術(shù),和IP層怎么能一起友好方便的工作,是運營(yíng)要走的一條很長(cháng)的路。
目前在基于OTN的情況下的運營(yíng)工作目的與數據中心各子系統的運營(yíng)目的是一樣的,都是為了使基礎設施高成本投入的資源發(fā)揮最大功效,對上游業(yè)務(wù)提供最好的支撐。提高基礎系統的穩定性,方便運維工作高效開(kāi)展,協(xié)助資源合理分配投入,把已投入資源發(fā)揮更大作用,而把未投入的資源合理分配。
OTN的運營(yíng)工作主要涉及幾塊:運營(yíng)數據管理,資產(chǎn)管理,配置管理,告警管理,性能管理,DCN管理。
3.1 運營(yíng)數據
對故障數據進(jìn)行統計,區分人為故障,硬件故障,軟件故障,第三方故障,并對故障較高的類(lèi)型進(jìn)行統計分析,制定針對性的處理方案,未來(lái)標準化后,為自動(dòng)化處理故障進(jìn)行鋪墊。根據故障數據分析,為以后從架構設計,設備選型等工作對系統進(jìn)行優(yōu)化,以降低后期運維工作的開(kāi)銷(xiāo)。針對OTN從光放,板卡,模塊,合分波器,跨設備跳纖,干路光纖,DCN網(wǎng)絡(luò )等進(jìn)行故障統計,參入廠(chǎng)商維度,第三方維度等,多維度進(jìn)行數據分析,以便數據更能準確反映網(wǎng)絡(luò )現狀。
對變更數據進(jìn)行統計,區分變更復雜度、影響面,對人員進(jìn)行分配,按照需求分析、變更方案、設定窗口、通告用戶(hù)、操作執行、總結復盤(pán)的流程進(jìn)行變更,最終可以把不同的變更分窗口,甚至安排在白天執行,對變更人員分配更加合理,降低工作生活壓力,提升操作工程師的幸福感。并能把最終統計的數據整合,用作對人員工作效率和工作能力進(jìn)行參考,同時(shí)也讓常態(tài)的變更向標準化、自動(dòng)化方向發(fā)展,減少各方面開(kāi)銷(xiāo)。
對OTN業(yè)務(wù)分布進(jìn)行數據統計,幫助自身在業(yè)務(wù)量增加后,隨時(shí)掌握網(wǎng)絡(luò )使用情況,進(jìn)行全網(wǎng)網(wǎng)絡(luò )分布和業(yè)務(wù)分布的把控。做粗了可以知道單個(gè)通道是由哪個(gè)網(wǎng)絡(luò )業(yè)務(wù)進(jìn)行使用的,比如外網(wǎng),內網(wǎng),HPC網(wǎng)絡(luò ),云服務(wù)網(wǎng)絡(luò )等,做細了可以結合全流量系統,對具體業(yè)務(wù)流量使用情況進(jìn)行分析,將不同的帶寬成本分攤到不同的業(yè)務(wù)部門(mén)身上,幫助其進(jìn)行業(yè)務(wù)流量?jì)?yōu)化工作,隨時(shí)對低使用率的工作通道進(jìn)行回收和調整,對高使用率的業(yè)務(wù)通道進(jìn)行擴容。
統計穩定性數據,該數據是SLA的主要參考數據,也是每個(gè)運維人員頭上的達摩克利斯之劍。OTN的穩定性數據統計,由于本身具備保護所以要進(jìn)行區分,比如單路由中斷,IP層面總帶寬不受影響是否計入SLA;如果IP帶寬減半,但對業(yè)務(wù)不影響,是否計入SLA;單個(gè)通道故障,是否計入SLA;保護路徑時(shí)延增加,雖然對網(wǎng)絡(luò )帶寬無(wú)影響,但是造成了業(yè)務(wù)有影響,是否計入SLA,等等。一般的做法是建設前就告知業(yè)務(wù)方存在的抖動(dòng)、時(shí)延變化等風(fēng)險,后期SLA,以故障通道數*單個(gè)故障通道帶寬為計算基礎,除以總通道數*對應通道帶寬的總和,再乘以影響時(shí)間,得到的值作為SLA的計算標準。
3.2 資產(chǎn)管理
OTN設備的資產(chǎn)也要有生命周期管理(到貨、上下線(xiàn)、報廢、故障處理),但是不同于服務(wù)器,網(wǎng)絡(luò )交換機等設備,OTN設備結構更復雜。OTN設備涉及到的功能性板卡數量眾多,所以在進(jìn)行管理時(shí)需要設計一個(gè)模式,以便進(jìn)行全量的資產(chǎn)管理。數據中心內的主要IP資產(chǎn)管理平臺是基于服務(wù)器、交換機,會(huì )設置主從設備級別。OTN在此基礎上,主從級別會(huì )涉及層級管理,但是層級更多。管理級別主要以網(wǎng)元->子架->板卡->模塊進(jìn)行:
1. 網(wǎng)元是個(gè)虛擬設備,無(wú)實(shí)物,是OTN網(wǎng)絡(luò )中用作管理使用、第一邏輯點(diǎn),屬于OTN網(wǎng)絡(luò )管理中的一級單位。一個(gè)物理機房可能有一個(gè)網(wǎng)元,也有可能有多個(gè)網(wǎng)元。一個(gè)網(wǎng)元包含多個(gè)子架,如光層的子架,電層子架,外置的合分波器也算是一個(gè)子架,每個(gè)子架可以串聯(lián),屬于單個(gè)網(wǎng)元站點(diǎn)以?xún)鹊淖蛹?,進(jìn)行編號。另外,網(wǎng)元沒(méi)有一個(gè)資產(chǎn)的SN號,所以在這方面要與管理平臺對齊,尤其要和采購清單、后期運維管理平臺的信息對齊,避免資產(chǎn)排查不對應,畢竟網(wǎng)元是一個(gè)虛擬的資產(chǎn)。
2. OTN的設備最大的具體物理單位就是機框,也就是子架,屬于一級網(wǎng)元的次一級,既是二級單位,一個(gè)網(wǎng)元至少有一個(gè)子架設備。這些子架分不同廠(chǎng)商的不同型號,功能各不相同,有電子框、光子框、通用子架等等。子架具有具體的SN號,但是不能通過(guò)網(wǎng)管平臺自動(dòng)獲取到其SN號,只能現場(chǎng)查看。子架上線(xiàn)后再移動(dòng)變更情況極少。子架內會(huì )涉及多種板卡安插。
3. OTN的二級子架內部,是有安插具體的業(yè)務(wù)槽位的,槽位具有數字編號,用作插放各種光網(wǎng)絡(luò )的業(yè)務(wù)板卡。這些板卡是支撐OTN網(wǎng)絡(luò )業(yè)務(wù)的基礎,每塊板卡都可通過(guò)網(wǎng)管查詢(xún)到其SN號。而這些板卡就是OTN資產(chǎn)管理中的第三級單位。各種業(yè)務(wù)板卡大小不一,占用槽位數不同,功能也各不相同,因此當板卡需要歸屬到二級單位子架的時(shí)候,資產(chǎn)平臺要允許單個(gè)板卡可以使用多個(gè)或者半個(gè)槽位,以便對應子架上的槽位編號。
4. 光模塊資產(chǎn)管理,模塊是依賴(lài)在業(yè)務(wù)板卡上使用的,所有業(yè)務(wù)板卡要允許進(jìn)行光模塊歸屬,但不是所有OTN設備的板卡都要插光模塊,所以也要允許板卡上面沒(méi)有模塊的存在。每個(gè)光模塊都有SN號碼,插在板卡上的模塊要與板卡的端口編號進(jìn)行對其,以便位置查找。
所有這些信息可以通過(guò)網(wǎng)管平臺的北向接口進(jìn)行數據采集,通過(guò)線(xiàn)上采集與線(xiàn)下核查匹配進(jìn)行資產(chǎn)信息的準確性管理。另外,OTN設備上還會(huì )涉及光衰器,短跳纖等,這些消耗性器件就可以直接按照耗材進(jìn)行管理。
3.3 配置管理
波道配置時(shí),需要進(jìn)行業(yè)務(wù)配置,光層邏輯鏈路配置,鏈路虛擬拓撲圖的配置,如果單個(gè)波道可能配置了保護路徑,這個(gè)時(shí)候的波道配置就更加復雜,隨之而來(lái)的配置管理也將更復雜,單是管理波道走向就需要一個(gè)專(zhuān)用的業(yè)務(wù)表,還要在表格中區分業(yè)務(wù)方向,使用實(shí)線(xiàn)虛線(xiàn)。當OTN通道和IP鏈路進(jìn)行對應關(guān)系管理時(shí),特別是在OTN保護的情況下,需要一個(gè)IP鏈路對應多個(gè)OTN通道,這時(shí)管理量增加,且管理復雜,又增加了管理excel表的需求,要完整管理一條業(yè)務(wù)的所有元素,多達15個(gè)。當工程師要對某一個(gè)鏈路進(jìn)行管理時(shí),他需要把這個(gè)excel表格找出來(lái),然后去廠(chǎng)商的NMS上面去尋找對應,然后進(jìn)行操作管理。這就更需要兩邊信息的同步性,由于OTN的NMS平臺和工程師自己做的excel都是兩個(gè)人為的數據,很容易出現信息不同步的情況,任何一個(gè)錯誤都將導致業(yè)務(wù)信息與實(shí)際關(guān)系不對應,都可能導致在變更調整的時(shí)候影響業(yè)務(wù)。所以,將廠(chǎng)商的設備數據通過(guò)北向接口,采集到一個(gè)管理平臺,再在這個(gè)平臺上,將IP鏈路的信息進(jìn)行匹配,使得信息能自動(dòng)化的根據現網(wǎng)業(yè)務(wù)變化進(jìn)行調整,確保信息的集中管理和單一準確來(lái)源,保證配置管理信息的準確性。
在進(jìn)行OTN業(yè)務(wù)開(kāi)通配置時(shí),做好每個(gè)接口的信息描述,然后通過(guò)OTN的NMS提供的北向接口進(jìn)行OTN信息收集,相關(guān)描述與IP設備通過(guò)北向接口采集到的端口信息進(jìn)行配對,就能使得OTN通道與IP鏈路在平臺化上的管理,免去人工進(jìn)行信息更新工作。
對于DCI傳輸網(wǎng)絡(luò )的使用中,盡量避免使用電交叉的業(yè)務(wù)配置,這種方式在管理起來(lái)邏輯極為復雜,并且本身也不適用DCI網(wǎng)絡(luò )的模型,可以從一開(kāi)始的DCI設計時(shí)就進(jìn)行規避。
3.4 告警管理
OTN由于其復雜的管理開(kāi)銷(xiāo),長(cháng)距傳輸時(shí)的信號監控,不同業(yè)務(wù)顆粒的復用嵌套等原因,出現一個(gè)故障可能會(huì )報幾十上百條告警信息。雖然廠(chǎng)商已經(jīng)做了四個(gè)等級的告警分類(lèi),每個(gè)告警取名不同,從工程師運維角度來(lái)看,依舊極為復雜,需要經(jīng)驗豐富的人員才能第一時(shí)間判斷出故障原因。而傳統的OTN設備的故障外發(fā)功能主要是使用短信貓或者郵件推送,但是兩個(gè)功能對于集成與互聯(lián)網(wǎng)公司基礎系統現有的網(wǎng)絡(luò )告警管理平臺來(lái)說(shuō)比較特殊,單獨開(kāi)發(fā)成本高,所以需要更標準的北向接口進(jìn)行報警信息收集,在保留公司已有的相關(guān)平臺情況下,進(jìn)行功能擴展,然后再將報警推送給運維工程師。
因此,對于運維人員來(lái)說(shuō),需要的是先讓平臺對OTN故障產(chǎn)生的告警信息進(jìn)行自動(dòng)收斂,然后再接收這些信息。因此,先在OTN的NMS上面進(jìn)行告警分類(lèi)設置,然后在上次的告警信息管理平臺上進(jìn)行發(fā)送篩選工作。一般OTN告警的做法是NMS會(huì )設置推送所有第一二類(lèi)的告警到告警信息管理平臺,然后平臺再進(jìn)行按時(shí)間、按匯總的信息、接收人范圍等維度,把單個(gè)業(yè)務(wù)中斷的報警信息、主光路中斷報警信息、(若有)保護倒換報警信息推送給運維工程師,有以上三個(gè)信息大概就能進(jìn)行故障判斷和處理了。在設置接收時(shí),可以對合波信號故障這種斷光纖才會(huì )產(chǎn)生的重大告警,進(jìn)行例如電話(huà)通知設置,例如以下幾種:
告警中文描述 |
告警英文描述 | 告警類(lèi)型 | 級別及限定 |
OMS 層凈荷信號丟失 | OMS_LOS_P | 通信告警 | 緊急(FM) |
輸入/輸出合路信號丟失 | MUT_LOS | 通信告警 | 緊急(FM) |
OTS 凈荷信號丟失 | OTS_LOS_P | 通信告警 | 緊急(FM) |
OTS 凈荷丟失指示 | OTS_PMI | 通信告警 | 緊急(FM) |
NMS的北向接口,如華為中興阿朗現在都支持的XML接口進(jìn)行告警信息推送,也是目前常用的。
3.5 性能管理
OTN系統的穩定性,高依賴(lài)與其系統各方面的性能數據,比如干路光纖光功率管理,合波信號中的各通道光功率管理,系統OSNR余量管理等。公司網(wǎng)絡(luò )系統的監控項目中應該加入這些內容,以便隨時(shí)了解系統性能,并及時(shí)進(jìn)行性能優(yōu)化,便于網(wǎng)絡(luò )穩定性的保證。另外,長(cháng)期的光纖性能質(zhì)量監控,還可以用來(lái)發(fā)現光纖路由的變動(dòng)情況,防止出現一些光纖供應商在未進(jìn)行通知時(shí),將光纖路由進(jìn)行更改的情況發(fā)生,導致運維盲區,出現光纖同路由風(fēng)險。當然,這需要大量數據進(jìn)行模型訓練,以便對路由變動(dòng)的情況發(fā)現更為準確。
3.6 DCN管理
這里的DCN是指OTN設備的管理通信網(wǎng)絡(luò ),負責對OTN各個(gè)網(wǎng)元進(jìn)行管理的組網(wǎng)結構,OTN的組網(wǎng)也會(huì )影響到DCN網(wǎng)絡(luò )的規模和復雜度。一般DCN網(wǎng)絡(luò )的做法有兩種:
1.在OTN全網(wǎng)中確認主備網(wǎng)關(guān)網(wǎng)元,其它非網(wǎng)關(guān)網(wǎng)元都為普通網(wǎng)元,所有普通網(wǎng)元的管理信號通過(guò)OTN中跨OTS層的OSC通道,到達主備網(wǎng)關(guān)網(wǎng)元,再接入到NMS所在的IP網(wǎng)絡(luò )中。這種方式可以減少網(wǎng)元在NMS所在IP網(wǎng)絡(luò )的部署量,而使用OTN本身系統解決網(wǎng)管問(wèn)題,但是干路光纖中斷,對應遠端的網(wǎng)元也會(huì )受影響而脫管了。
2.將OTN全網(wǎng)的網(wǎng)元全部配置成網(wǎng)關(guān)網(wǎng)元,每個(gè)網(wǎng)關(guān)網(wǎng)元都單獨與NMS所在的IP網(wǎng)絡(luò )進(jìn)行通信,不走OSC通道。這樣保證了網(wǎng)元的管理通信,不受主干光纖中斷的影響,網(wǎng)元依舊可以遠程管理,都上IP網(wǎng)絡(luò ),對于傳統IP網(wǎng)工的運維成本也會(huì )降低。
DCN網(wǎng)絡(luò )在建設之初要進(jìn)行好網(wǎng)元規劃和IP地址分配,特別是網(wǎng)管服務(wù)器部署時(shí)盡量與其它網(wǎng)絡(luò )隔離,否則后期網(wǎng)絡(luò )中mesh鏈路過(guò)多,維護中網(wǎng)絡(luò )抖動(dòng)平凡,普通網(wǎng)元連不上網(wǎng)關(guān)網(wǎng)元等問(wèn)題就會(huì )出現,也會(huì )容易出現生產(chǎn)網(wǎng)地址與DCN網(wǎng)絡(luò )的地址重復使用的問(wèn)題,導致生產(chǎn)網(wǎng)受影響。
四、DCI網(wǎng)絡(luò )發(fā)展的方向
數據中心所有者的在建設跨數據中心網(wǎng)絡(luò )互聯(lián)時(shí),其考慮的問(wèn)題主要是大帶寬,低延遲,高密度,快部署,易運維,高可靠性幾個(gè)問(wèn)題。目前主流的大帶寬OTN技術(shù)主要是幾家大型電信設備制造廠(chǎng)商所把控(芯片另說(shuō)),比如華為,中興,阿朗。他們面對的主要客戶(hù)是傳統電信運營(yíng)商,所以OTN這個(gè)產(chǎn)品特點(diǎn)就主要面對這些運營(yíng)商的業(yè)務(wù)特點(diǎn)進(jìn)行設計,也正因為如此,目前OTN其在互聯(lián)網(wǎng)行業(yè)的DCI網(wǎng)絡(luò )應用中出現越來(lái)越多的不和諧的問(wèn)題。
OTN設備的特點(diǎn)是,也同樣是DCI所遇到的問(wèn)題,豐富的業(yè)務(wù)開(kāi)銷(xiāo),網(wǎng)絡(luò )具備強大的OAM能力,不同顆粒帶寬的調度復用能力,長(cháng)距離情況下的線(xiàn)路容錯能力,采用低壓直流,設備功耗利用率低等特點(diǎn)。
1. 豐富的業(yè)務(wù)開(kāi)銷(xiāo)能力,要求運維人員更專(zhuān)業(yè)化能力,更依賴(lài)廠(chǎng)商技術(shù)支持,技術(shù)更加封閉。
2. 強大的OAM能力,標準不統一,與跨網(wǎng)絡(luò )的對接更加困難更加獨立,無(wú)用的功能也對DCI網(wǎng)絡(luò )帶來(lái)了更多的傳輸運營(yíng)成本。
3. 不同的顆粒的調度能力,使得業(yè)務(wù)封裝幀結構更為復雜,嵌套字節更多。
4. 長(cháng)距離的線(xiàn)路容錯能力,使得FEC的算法復雜,消耗的開(kāi)銷(xiāo)更大和處理時(shí)間更長(cháng)
5. OTN設備48V-DC的供電模式,和大部分數據中心所使用的標準19英寸220V-AD(或者240V-DC)機柜不同,安裝復雜且需要機房電力改造
6. 傳統OTN設備機框大,不適合標準機柜安裝,且容量密度不高,后期擴展麻煩且要機柜騰挪或改造新加。
目前,我們的DCI網(wǎng)絡(luò )主要是是為跨數據中心的數據提供管道,業(yè)務(wù)模型特點(diǎn)主要是:帶寬顆粒度要求統一且單一,帶寬大,跨數據中心的業(yè)務(wù)(尤其多活I(lǐng)DC,大數據類(lèi)業(yè)務(wù))延時(shí)要求低,對網(wǎng)絡(luò )的穩定性要求較高;同時(shí)由于互聯(lián)網(wǎng)行業(yè)缺少相關(guān)的專(zhuān)業(yè)技術(shù)人員,DCI網(wǎng)絡(luò )的運維工作需要“簡(jiǎn)單”“簡(jiǎn)單”“簡(jiǎn)單”—重要事情說(shuō)三遍(哪種網(wǎng)絡(luò )不是呢?);互聯(lián)網(wǎng)的爆發(fā)式發(fā)展,使得建設和擴容周期要求更短(運營(yíng)商的OTN擴容周期一般是半年~1年,而互聯(lián)網(wǎng)自己的DCI擴容要求是1~3個(gè)月),因此要壓縮各方面的時(shí)間。
因此OTN為DCI提供了一種可用的解決方案,但是OTN絕不是DCI最合適的方案,在DCI網(wǎng)絡(luò )蓬勃發(fā)展的現在,越來(lái)越需要一些合適的解決方案出現,以解決從成本到建設運維上遇到的各種問(wèn)題。而這些問(wèn)題,無(wú)外乎就是圍繞這DCI網(wǎng)絡(luò )的六個(gè)要求來(lái)的(大帶寬,低延遲,高密度,快部署,易運維,高可靠性):
1. 大帶寬,DCI傳輸網(wǎng)絡(luò )不像運營(yíng)商會(huì )有豐富的類(lèi)型顆粒,DCI傳輸網(wǎng)絡(luò )的帶寬顆粒更簡(jiǎn)單,目前常用的10G或者100G,未來(lái)200G/400G等,所以有了大帶寬就不需要再做其它顆粒度的帶寬。DCI傳輸網(wǎng)絡(luò )由于其距離范圍一般不會(huì )過(guò)長(cháng)的特點(diǎn),使用基于200G的PM-16QAM雙載波調制的400G系統,無(wú)電中繼傳輸距離大概能傳輸500公里(PM-64QAM的大概是200公里),使得DCI這種城域骨干傳輸不會(huì )受限于距離。
2. 低延遲,DCI的業(yè)務(wù)要求,特別云計算做池化資源,多活數據中心時(shí),延遲是按照微秒級別計算,讓數據傳輸時(shí)間越短越好,恨不得超光速。去掉不必要的數據處理工作,降低信號傳輸路徑兩個(gè)方面努力。比如,去掉100G OTN所使用的SD-FEC功能,單個(gè)背靠背可以節省200微秒時(shí)間,去掉跨階的OTN封裝可以節省幾十微秒時(shí)間,對重點(diǎn)業(yè)務(wù)合理使用hubspoke拓撲,保證路徑最短。當然也可以再次配合IP層面的MPLS,QOS等,盡量保證數據轉發(fā)層面的時(shí)延也更優(yōu)。
3. 高密度,單個(gè)U,或者2U,能做到上T的帶寬,DWDM光層與電信號層面解耦,提升設備的密度接口,縮小光模塊的尺寸。比如,使用QSFP28的光模塊,可以保證單設備的100G接入能力大大提升,線(xiàn)路側使用CFP2的采光模塊,可以保證整體設備傳輸帶寬能力提升,1U可以1.6T,3.2T。目前國際上已經(jīng)有很多相關(guān)產(chǎn)品在出現,比如ADVA,coriant,ciena這類(lèi)的公司,當然國內的華為也推出了相關(guān)的902產(chǎn)品,不過(guò)截止文章完成,好像還沒(méi)有完成工信部的入網(wǎng)測試。高密度會(huì )產(chǎn)生高功耗的散熱問(wèn)題,于是要摒棄原有OTN的左右進(jìn)出風(fēng)、上下進(jìn)出風(fēng)的散熱方式,高密度設備需要采用與數據中心服務(wù)器交換機一樣的前后進(jìn)風(fēng)散熱的方式,以滿(mǎn)足設備散熱需求。
4. 快部署,使用目前標準化IDC的19英寸機架,類(lèi)同于主流服務(wù)器的形態(tài),使用AC-220V直接供電,免掉電力和機柜改造,實(shí)現貨到機房馬上上架,插上電源就能配業(yè)務(wù),并做好標準化驗收工作,實(shí)現快部署。
5. 易運維,DCI的業(yè)務(wù)模型要求,跨數據中心的距離不會(huì )很遠,而復雜的管理開(kāi)銷(xiāo),OAM等功能在這種場(chǎng)景中沒(méi)有了太大發(fā)揮作用的必要,并且復雜處理還降低了數據傳輸效率,提升了數據處理時(shí)間,還對技術(shù)的要求更高,更封閉。直接以太網(wǎng)的方式對接信號,免去OTN的復雜開(kāi)銷(xiāo),那么傳統IP網(wǎng)絡(luò )工程師就能對DCI系統運維。在結合如YANG model,REST API,netconf等新型北向接口后,對DCI傳輸設備管理與IP網(wǎng)絡(luò )設備管理用同一種接口進(jìn)行開(kāi)發(fā),從而更好的進(jìn)行統一的平臺化網(wǎng)絡(luò )集中管理。
6. 高可靠性,多物理路由和對上層無(wú)感知的保護技術(shù)將繼續在DCI傳輸網(wǎng)絡(luò )中發(fā)揮作用,底層鏈路層面的故障除非在完全中斷的情況下,其它原因都不應該對業(yè)務(wù)產(chǎn)生任何感知或影響,不管是保護倒換,鏈路抖動(dòng),時(shí)延增加等。
根據這些特點(diǎn),目前常規的DCI解決方案大概有兩種:
1. 使用純DWDM設備,交換機上使用彩光光模塊+DWDM的合分波器,在單波道10G的情況下,這種成本極低,且產(chǎn)品可選度豐富,10G彩光模塊在國內早已生產(chǎn),成本已經(jīng)很低(其實(shí)10G的DWDM系統,在早幾年前就開(kāi)始火了,但一些更大帶寬需求的到來(lái),不得不將其淘汰掉,而那時(shí)100G的彩光模塊還未出現。)100G目前國內剛開(kāi)始有相關(guān)的彩光模塊出現,成本還不是足夠低,但是其總會(huì )在DCI網(wǎng)絡(luò )中寫(xiě)上濃墨重彩的一筆。
2. 使用高密度的傳輸OTN設備,它們220V交流電,19英寸設備,1~2U高,部署更加方便。關(guān)閉SD-FEC功能,降低時(shí)延,配合光層面的路由保護,提升穩定性,并且行的可控制型的北向接口也提升了設備擴展功能開(kāi)發(fā)能力。但是仍舊有OTN技術(shù)的保留,管理還是會(huì )相對復雜。
除此之外,現在第一梯隊的DCI網(wǎng)絡(luò )建設者正在做的事情主要是對DCI傳輸網(wǎng)絡(luò )進(jìn)行解耦,包括0層的光與1層的電的解耦,以及傳統廠(chǎng)商的NMS與硬件設備的解耦。傳統的做法是某廠(chǎng)商的電處理層面設備必須配合同樣該廠(chǎng)商的光層面設備,且硬件設備必須配合廠(chǎng)商專(zhuān)有的NMS軟件進(jìn)行管理,這種傳統方式有幾大弊端:
1. 技術(shù)封閉,理論上光電層面是可以互相解耦的,而傳統廠(chǎng)商故意做成不解耦,以便控制技術(shù)的權威性。
2. DCI傳輸網(wǎng)絡(luò )的成本主要集中在電信號處理層,系統初期建設成本低,但是擴容時(shí)候廠(chǎng)商會(huì )以技術(shù)唯一性為要挾進(jìn)行提價(jià),擴容成本大大增高
3. DCI傳輸網(wǎng)絡(luò )的光層面投入后,受限只能同一廠(chǎng)商的電層設備使用,設備資源利用率低,不符合網(wǎng)絡(luò )資源池化發(fā)展方向就,更不利于統一的光層資源調度。解耦后的光層面,在建設初期單獨投資,不受未來(lái)多廠(chǎng)商同用一套光層系統的限制,并且結合光層的北向接口,配合SDN技術(shù),進(jìn)行光層面的波道資源進(jìn)行方向調度,提升業(yè)務(wù)靈活性。
4. 網(wǎng)絡(luò )設備直接通過(guò)例如YANGmodel的數據結構,與互聯(lián)網(wǎng)公司自有的網(wǎng)管平臺進(jìn)行無(wú)縫對接,節省了管理平臺的開(kāi)發(fā)投入,同時(shí)免去了廠(chǎng)商提供的NMS軟件,提升了數據采集效率和網(wǎng)絡(luò )管理效率。
所以,光電解耦是DCI傳輸網(wǎng)絡(luò )發(fā)展的新方向,可以預見(jiàn)的未來(lái)DCI傳輸網(wǎng)絡(luò )光層可以是配合ROADM+南北向接口構成的SDN技術(shù),對波道進(jìn)行任意開(kāi)通、調度和回收,系統里面多家廠(chǎng)商的電層器件混合使用,甚至以太網(wǎng)接口和OTN接口混合在同一套光系統上使用的情況,都將成為可能,屆時(shí)系統的擴容、變更等方面的工作效率將大大提升,光電層面也將更方便進(jìn)行區分,網(wǎng)絡(luò )邏輯管理更清晰,成本將大大降低。
對于SDN來(lái)說(shuō),核心前提是網(wǎng)絡(luò )資源的集中化管理分配。所以,梳理下在當前的DCI傳輸網(wǎng)絡(luò )上可以進(jìn)行管理的DWDM傳輸網(wǎng)絡(luò )資源有哪些呢?
波道、路徑、帶寬(頻率)就這三樣。因此,光+IP的協(xié)作中的光其實(shí)就是圍繞著(zhù)這三個(gè)點(diǎn)來(lái)的管理和分配來(lái)進(jìn)行的。
IP和DWDM的波道是解耦的關(guān)系,所以如果一個(gè)IP邏輯鏈路與一個(gè)DWDM的波道對應關(guān)系是前期配置完成的,而后期要調整這個(gè)波道與IP的對應關(guān)系,可以通過(guò)OXC的方式,來(lái)進(jìn)行毫秒級的快速波道切換,能使得IP層面無(wú)感知。通過(guò)對OXC的管理,可以實(shí)現各個(gè)站點(diǎn)上的傳輸波道的資源集中化管理,以至于配合業(yè)務(wù)SDN化。
單個(gè)波道的與IP的解耦調整,僅僅是一個(gè)小的部分,如果考慮在調整了波道的同時(shí),還能進(jìn)行帶寬的調整,就可以解決不同業(yè)務(wù)在不同時(shí)間段的帶寬需求調整問(wèn)題,大大提升已建設帶寬的使用率。所以,在配合了OXC進(jìn)行波道調整的同時(shí),結合靈活柵格技術(shù)的合分波器,可以讓單個(gè)波道不再有固定的中心波長(cháng),而是讓其覆蓋可以伸縮的頻率范圍,從而達到帶寬大小的靈活調整。并且,在對于一個(gè)網(wǎng)絡(luò )拓撲內,使用多個(gè)業(yè)務(wù)的情況下,可以進(jìn)一步提升DWDM系統的頻率使用率,將已有資源進(jìn)行飽和使用。
在有了前兩者的動(dòng)態(tài)管理能力后,傳輸網(wǎng)絡(luò )的路徑管理可以幫助整個(gè)網(wǎng)絡(luò )拓撲具有更高的穩定性。根據傳輸網(wǎng)絡(luò )的特點(diǎn),每個(gè)路徑都具備有獨立的傳輸波道資源,因此將每一段傳輸路徑上的波道進(jìn)行統一管理分配的意義非凡,這將為多路徑的業(yè)務(wù)提供最優(yōu)的路徑選擇,并最大限度的將所有路徑上的波道資源進(jìn)行使用。就如同ASON中,對不同業(yè)務(wù)進(jìn)行金銀銅區分,以保證最高等級業(yè)務(wù)的穩定性。
例如,有A,B,C三個(gè)數據中心組成的一個(gè)環(huán)網(wǎng)。有業(yè)務(wù)S1(如內網(wǎng)大數據業(yè)務(wù)),從A到B到C,占用了這個(gè)環(huán)網(wǎng)的1~5波,每一波100G帶寬,頻率間隔為50GHz;有業(yè)務(wù)S2(外網(wǎng)業(yè)務(wù)),從A到B到C,占用了這個(gè)環(huán)網(wǎng)的6~9波,每一波100G帶寬,頻率間隔為50GHz。
就平時(shí)而言,這種帶寬和波道使用情況是滿(mǎn)足需求的,但是當有些時(shí)候,例如新增一個(gè)數據中心,業(yè)務(wù)需要短時(shí)間進(jìn)行數據庫的遷移,那么內網(wǎng)帶寬在這個(gè)時(shí)間段的需求就翻了幾倍,原來(lái)500G帶寬(5個(gè)100G),現在需要2T的帶寬。那么傳輸層面的波道可以進(jìn)行重新計算,在波分層部署5個(gè)400G通道,每個(gè)400G的波道的頻率間隔由原來(lái)的50GHz變成75GHz,配合靈活光柵的ROADM和合分波器,打通整個(gè)傳輸層面的路徑,于是這5個(gè)波道占用了375GHz的頻譜資源。在傳輸層面的資源準備就緒后,再通過(guò)集中管理平臺,對OXC進(jìn)行調整,在毫秒級別的時(shí)延下,將原來(lái)1~5波100G業(yè)務(wù)信號所使用的傳輸通道,調整到新準備的5個(gè)400G業(yè)務(wù)通道上去,這樣就完成了帶寬和波道根據DCI的業(yè)務(wù)需求進(jìn)行靈活調整的功能,這樣是可以實(shí)時(shí)進(jìn)行的。當然,這里面的IP設備的網(wǎng)絡(luò )連接器需要支持100G/400G的速率可調和光信號頻率(波長(cháng))調整的功能,這將不是問(wèn)題。
關(guān)于DCI的網(wǎng)絡(luò )技術(shù)中,傳輸能完成的工作是非常底層的,要做到更智能的DCI網(wǎng)絡(luò ),還需要配合IP一起實(shí)現。例如配合在DCI的IP內網(wǎng)使用MP-BGP EVPN+VXLAN,快速部署跨DC的二層網(wǎng)絡(luò ),這能對已有的網(wǎng)絡(luò )設備進(jìn)行較高的兼容,并滿(mǎn)足租戶(hù)虛機跨DC靈活漂移等需求;在DCI的IP外網(wǎng)使用segment routing,進(jìn)行基于源業(yè)務(wù)區分的流量路徑調度,滿(mǎn)足跨DC出口的流量可視化,快速路由恢復,帶寬高利用率等需求;底層傳輸網(wǎng)絡(luò )配合多維度的OXC系統,可以實(shí)現比目前常規ROADM跟細顆粒度的業(yè)務(wù)路徑調度功能;使用無(wú)電的傳輸波長(cháng)轉換技術(shù),更能使得波道頻譜資源碎片化的問(wèn)題迎刃而解。上層和下層的資源融合一起進(jìn)行業(yè)務(wù)管理部署,靈活調配,提高資源利用率將是未來(lái)必然的方向。目前國內一些大公司在關(guān)注這塊,一些初創(chuàng )的專(zhuān)業(yè)化公司已經(jīng)在進(jìn)行相關(guān)技術(shù)產(chǎn)品的研發(fā)。希望在今年能看到相關(guān)的整體解決方案面市?;蛟S不久的將來(lái),OTN將在電信級網(wǎng)絡(luò )中也將消失,只剩DWDM。