近幾年,騰訊云業(yè)務(wù)的迅猛發(fā)展讓基礎網(wǎng)絡(luò )設施的“大規?!背蔀榱艘恢崩@不開(kāi)的話(huà)題,這給網(wǎng)絡(luò )建設、運營(yíng)都帶來(lái)巨大挑戰,因此需要一個(gè)快速迭代、智能運營(yíng)、場(chǎng)景豐富、成本節約的網(wǎng)絡(luò )產(chǎn)品。于是,我們堅定地走在了網(wǎng)絡(luò )產(chǎn)品自研的道路中,從單純的軟件自研,再到如今的大規模軟硬皆自研,“網(wǎng)絡(luò )硬件驗證中心”便是這一盛況的“幕后英雄”。打一塊好鐵,除了需要具備“自身硬”的基本條件外,最重要的是要懂得客戶(hù)怎么用的順手。對此,“網(wǎng)絡(luò )硬件驗證中心”結合騰訊業(yè)務(wù)需求,全方位地打通DCN(Data Center Network)、DCI(Network Center Interconnection)、OTN (Optical Transport Network)的全鏈路網(wǎng)絡(luò )硬件技術(shù)。
經(jīng)過(guò)騰訊網(wǎng)絡(luò )硬件驗證中心認證的網(wǎng)絡(luò )產(chǎn)品覆蓋自研50G NRZ網(wǎng)卡(水杉)/ 100G PAM4網(wǎng)卡(銀杉)、200G互聯(lián)線(xiàn)纜(Y-AOC / Y-DAC / Y-ACC)、25G / 100G 交換機,200G 交換機、200G光模塊、400G DCI交換機、TOOP開(kāi)放光產(chǎn)品、可編程交換機等。自研網(wǎng)絡(luò )產(chǎn)品,如下圖1-1所示。
圖1-1 騰訊自研網(wǎng)絡(luò )產(chǎn)品矩陣
網(wǎng)絡(luò )硬件驗證中心的“前世今生”
騰訊云業(yè)務(wù)的增長(cháng)和用戶(hù)需求的變化驅動(dòng)網(wǎng)絡(luò )技術(shù)的迭代,過(guò)去5年騰訊基礎網(wǎng)絡(luò )經(jīng)歷幾次關(guān)鍵的演進(jìn)。
2018年,騰訊云業(yè)務(wù)開(kāi)始井噴式增長(cháng),基礎網(wǎng)絡(luò )開(kāi)始大規模建設。為優(yōu)化網(wǎng)絡(luò )設備的采購成本,我們對互聯(lián)硬件和網(wǎng)絡(luò )設備進(jìn)行解耦。解耦后網(wǎng)絡(luò )設備和互聯(lián)硬件均存在多廠(chǎng)家、多型號、多版本,兼容性驗證需要遍歷N種組合,當時(shí)只能依賴(lài)設備商進(jìn)行兼容性適配驗證,適配周期長(cháng),并且基本上沒(méi)有設備商能做到全場(chǎng)景的組合驗證。這導致網(wǎng)絡(luò )建設和現網(wǎng)運營(yíng)中存在各種適配問(wèn)題,我們當時(shí)扮演的是“網(wǎng)絡(luò )消防員”角色,在生產(chǎn)環(huán)境線(xiàn)上debug,到處“救火”。對于簡(jiǎn)單問(wèn)題,比如設備配置異常、模塊收發(fā)光異常、版本不匹配等,可以快速定位,但對于復雜問(wèn)題,比如鏈路單通、抖動(dòng)、丟包、端口批量不linkup等,生產(chǎn)環(huán)境根本不具備debug條件,問(wèn)題定位周期長(cháng)。
隨著(zhù)移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,用戶(hù)對網(wǎng)絡(luò )服務(wù)的定制化要求越來(lái)越高,希望網(wǎng)絡(luò )服務(wù)靈活多變,一張網(wǎng)絡(luò )可以滿(mǎn)足不同的業(yè)務(wù)需求,并且質(zhì)量高,成本低。為此,我們開(kāi)始定制網(wǎng)絡(luò )產(chǎn)品,在硬件上做減法,打造符合云網(wǎng)絡(luò )的硬件,在軟件上做差異化,打造運維智能化、應用場(chǎng)景化的網(wǎng)絡(luò )應用。這有點(diǎn)像“蓋澆飯”,燜煮一鍋大米飯,根據顧客的需求烹飪澆頭即可,但大米飯的質(zhì)量直接影響顧客的體驗。同樣,定制一款滿(mǎn)足不同用戶(hù)需求的網(wǎng)絡(luò )硬件,對性能、質(zhì)量有很大挑戰。由于定制的網(wǎng)絡(luò )硬件,測試驗證在設備商完成,無(wú)法覆蓋所有云應用場(chǎng)景。這導致定制化的網(wǎng)絡(luò )硬件,現網(wǎng)運行一段時(shí)間后,開(kāi)始出現一些內存異常訪(fǎng)問(wèn)、端口I2C異常等問(wèn)題,由于定位手段有限,導致硬件問(wèn)題定位周期長(cháng),嚴重影響網(wǎng)絡(luò )質(zhì)量,運營(yíng)壓力大。
為此,我們對網(wǎng)絡(luò )演進(jìn)過(guò)程中遇到的問(wèn)題進(jìn)行詳細的復盤(pán),總結出“打鐵還需自身硬”的道理,想要打造一把“寶劍”,需要經(jīng)過(guò)反復的捶打、鍛造。打造一款質(zhì)量、性能過(guò)硬的網(wǎng)絡(luò )硬件,需要對技術(shù)方案、應用場(chǎng)景充分驗證?;诖?,2018年底,我們開(kāi)始規劃建造網(wǎng)絡(luò )硬件驗證中心,經(jīng)過(guò)幾年的建設和發(fā)展逐漸成熟,如圖1-1所示,如今的網(wǎng)絡(luò )硬件驗證中心總面積超過(guò)150平方米,由高速信號實(shí)驗室、兼容性驗證實(shí)驗室、系統驗證實(shí)驗室和環(huán)境實(shí)驗室組成。我們在不同的實(shí)驗室配置了不同的儀表和設備,網(wǎng)絡(luò )硬件驗證中心具備從信號層面到系統層面全鏈路驗證能力,并且可以快速定位分析現網(wǎng)問(wèn)題。
圖1-1 騰訊網(wǎng)絡(luò )硬件驗證中心
在高速信號實(shí)驗室,我們配備了信號測量必備的儀表,如圖1-2所示,比如高速采樣示波器、高速誤碼儀、矢量網(wǎng)絡(luò )分析儀VNA(Vector Network Analyzers)、不同帶寬的CDR(Clock Data Recovery)、不同封裝類(lèi)型的MCB / HCB(Host / Module Compliance Board )、低速示波器、光功率計、可調光衰、I2C 通信板、光開(kāi)關(guān)、穩壓電源等。對自研網(wǎng)絡(luò )產(chǎn)品進(jìn)行信號級別的評估,如以太網(wǎng)端口發(fā)端電眼一致性、光模塊發(fā)端光眼、SI信號完整性、I2C信號一致性等,如圖1-2所示。
圖1-2 高速信號實(shí)驗室
在兼容性驗證實(shí)驗室,我們配置現網(wǎng)所有型號的網(wǎng)卡、接入線(xiàn)纜、LEAF/SPINE/CORE交換機、光模塊、數通儀表TestCenter,如圖1-3,可以充分且快速地驗證各部件之間兼容性,比如驗證同型號不同廠(chǎng)家光模塊互聯(lián)互通,不同型號網(wǎng)卡與不同廠(chǎng)家線(xiàn)纜、交換機互聯(lián)之間通信鏈路是否正常。
圖1-3 兼容性驗證實(shí)驗室
系統驗證實(shí)驗室配置現網(wǎng)中所有型號的DCI交換機、開(kāi)放光產(chǎn)品、光模塊,如圖1-4所示。在系統驗證實(shí)驗室可以1:1還原現網(wǎng)真實(shí)網(wǎng)絡(luò )拓撲,進(jìn)行DCI交換機、傳輸設備、互聯(lián)模塊之間系統適配,驗證端到端系統運行穩定性以及波分保護倒換成功率。
圖1-4 系統驗證實(shí)驗室
環(huán)境實(shí)驗室配置了兩個(gè)不同級別的溫箱,如圖1-5所示,設備熱流儀(左)和溫箱(右),熱流儀用于評估芯片和光模塊,溫箱用于評估網(wǎng)絡(luò )交換機。主要是模擬惡劣的工作環(huán)境,研發(fā)階段將網(wǎng)絡(luò )產(chǎn)品暴露在高溫高濕、變溫、低溫、溫循等不同環(huán)境下,評估:1)光模塊工作穩定性。高低溫環(huán)境加速光模塊激光器老化,排除早期老化風(fēng)險。2)設備端口參數的健壯性。在不同溫濕度環(huán)境下,驗網(wǎng)絡(luò )產(chǎn)品物理端口參數設定margin是否充足。3)系統工作穩定性:驗證產(chǎn)品自身系統在不同溫度環(huán)境下工作是否穩定性。
圖1-5 環(huán)境實(shí)驗室
網(wǎng)絡(luò )硬件驗證中心的“地利人和”
隨著(zhù)網(wǎng)絡(luò )硬件驗證中心基礎設施建設完成,我們不光擁有了從交換機硬件,到互聯(lián)硬件,再到傳輸硬件的全方位“地利”條件。更是結合“人和”,通過(guò)騰訊的網(wǎng)管系統,更好地貼合了騰訊現網(wǎng)產(chǎn)品的快速迭代驗證需求,將大量重復性工作進(jìn)行自動(dòng)化處理,盡量減少重復勞動(dòng)。分別對部件級、設備級和系統級不同層面測試進(jìn)行自動(dòng)化實(shí)現。
· 部件級:光電信號測試自動(dòng)化
自研網(wǎng)絡(luò )產(chǎn)品研發(fā)過(guò)程中有很多通用部件需要對其性能信號的一致性進(jìn)行評估,比如說(shuō)交換機、波分、光模塊端口收端電眼,光模塊的發(fā)端光眼、I2C Timing等高低速信號,這類(lèi)測試具備通用的測試流程,但每個(gè)產(chǎn)品上指標的協(xié)議規范是不同的,通過(guò)實(shí)現測試流程自動(dòng)化,來(lái)提高效率。
以光模塊光電指標測試為例進(jìn)行說(shuō)明,騰訊當前現網(wǎng)使用的不同廠(chǎng)商不同型號的互聯(lián)模塊超過(guò)100種,在光模塊產(chǎn)品準入測試或者產(chǎn)品迭代過(guò)程,全靠人工按測試用例進(jìn)行測試,測試的工作量是巨大的,并且人工測試結果記錄存在誤差。為了滿(mǎn)足效率和準確度的要求,我們建設光模塊指標自動(dòng)化測試能力,減少人為重復操作。通過(guò)開(kāi)發(fā)自動(dòng)化測試腳本,對光模塊測試所用到儀表進(jìn)行集中控制,實(shí)現測試自動(dòng)化。
圖2-1 光模塊光學(xué)指標測試組網(wǎng)
如圖2-1所示,光模塊光學(xué)指標測試組網(wǎng)關(guān)系圖,把測試儀表高速采樣示波器,誤碼儀,光開(kāi)關(guān)和I2C Adapter分別通過(guò)USB數據線(xiàn)接入到同一臺控制主機(controller)。這里需要人工參與的點(diǎn)只有更換模塊樣品和觸發(fā)測試流程,自動(dòng)化腳本會(huì )自動(dòng)輸出光眼并保存測試結果,如圖2-2所示。針對一款模塊8只樣品的測試工作,手動(dòng)測試與自動(dòng)化測試對比,由5天/人提高到2天/人。
圖2-2 光模塊自動(dòng)化測試輸出光眼圖
· 設備級:系統兼容性測試自動(dòng)化
系統級兼容性測試按測試場(chǎng)景,可分為接入線(xiàn)纜兼容性測試和互聯(lián)模塊兼容性測試。接入線(xiàn)纜兼容性是測試接入線(xiàn)纜與交換機、網(wǎng)卡整條鏈路的兼容性,互聯(lián)模塊兼容性是測試同種型號不同廠(chǎng)家模塊之間對接兼容性和模塊與交換機之間的兼容性。這部分自動(dòng)化測試組網(wǎng)如圖2-3所示,將所有網(wǎng)絡(luò )設備包括都接入同一個(gè)管理網(wǎng)內,待測網(wǎng)絡(luò )設備接入同一個(gè)智能PDU上,對設備供電進(jìn)行統一化管理。完成基本的測試組網(wǎng)后,在controller上觸發(fā)對應的兼容性適配測試程序,程序自動(dòng)完成對網(wǎng)絡(luò )設備配置下發(fā),然后開(kāi)始跑常規的測試用例,最后自動(dòng)保存測試報告,并給出測試結果分析。
圖2-3 系統兼容性適配組網(wǎng)
光模塊兼容性適配可以自動(dòng)完成以下4個(gè)測試用例。1)測試儀打流;2)交換機冷、熱重啟;3)端口震蕩;4)I2C壓力訪(fǎng)問(wèn);執行完測試流程后。
接入線(xiàn)纜兼容性適配可以自動(dòng)完成以下6個(gè)測試用例:1)服務(wù)器對打iperf流量;2)交換機/服務(wù)器冷、熱重啟;3)交換機端口震蕩;4)服務(wù)器端口震蕩;5)I2C壓力訪(fǎng)問(wèn);6)服務(wù)器錯包分析。
· 系統級:光網(wǎng)協(xié)同保護倒換測試自動(dòng)化
保護倒換是系統專(zhuān)項測試之一,通過(guò)模擬光纖故障,反復觸發(fā)系統倒換,通過(guò)儀表監測倒換動(dòng)作發(fā)生時(shí),流量中斷時(shí)長(cháng)。每個(gè)設備版本迭代,需進(jìn)行上千次保護倒換測試,常規方式是手動(dòng)拔纖觸發(fā)倒換,測試周期需1周,自動(dòng)化倒換使測試周期縮短至8小時(shí)。同時(shí)人工拔纖方式不穩定,人工操作次數過(guò)多容易動(dòng)作變形,會(huì )將設備超時(shí)誤判為拔纖操作問(wèn)題,不利于偶發(fā)問(wèn)題的發(fā)現,自動(dòng)化倒換測試觸發(fā)動(dòng)作穩定,結果采集規范,易發(fā)現低概率偶發(fā)缺陷。
圖2-4 保護倒換測試平臺觸發(fā)與結果展示
保護倒換測試依托OXC光交叉平臺、網(wǎng)絡(luò )測試儀、智研平臺等,將上萬(wàn)次的拔纖倒換測試自動(dòng)化。倒換觸發(fā)方面,通過(guò)OXC制造單芯中斷、雙芯中斷場(chǎng)景,節約了人力。結果監控方面,如圖2-4,測試儀表、設備性能、設備告警均全面分析,更易暴露偶發(fā)問(wèn)題。保護倒換自動(dòng)化測試,可覆蓋8種倒換方式,累計測試10萬(wàn)次量級,推動(dòng)7次版本迭代,保障了項目高質(zhì)量交付。
圖2-5 光網(wǎng)絡(luò )系統測試自動(dòng)化框架
光網(wǎng)絡(luò )系統測試自動(dòng)化平臺能力已經(jīng)構建完成,如圖2-5,設備層通過(guò)OXC實(shí)現動(dòng)態(tài)拓撲調整,接口層打通各類(lèi)儀表、設備,頂層接入公司級公共服務(wù)平臺,應用層依據測試用例逐步實(shí)現中。
網(wǎng)絡(luò )硬件驗證中心:利刃出鞘
基礎設施建設完成之后,各方面能力是否符合預期,實(shí)戰是做好的檢驗方式。讓我們一起看看網(wǎng)絡(luò )硬件驗證中心如何利刃出鞘,在解決實(shí)際問(wèn)題中發(fā)揮其獨特的優(yōu)勢。
· 服務(wù)自研:提升研發(fā)效率,保證研發(fā)質(zhì)量
借助于網(wǎng)絡(luò )硬件驗證中心,我們把系統后端驗證前置到網(wǎng)絡(luò )產(chǎn)品研發(fā)階段,網(wǎng)絡(luò )硬件DVT階段開(kāi)始進(jìn)行系統兼容性驗證和端到端系統驗證。這樣做到好處是,系統后端驗證與網(wǎng)絡(luò )硬件研發(fā)并行,系統適配的問(wèn)題在研發(fā)階段暴露并解決。
典型的例子是100G PAM4接入網(wǎng)絡(luò )產(chǎn)品研發(fā)項目,涉及的網(wǎng)絡(luò )硬件包括TCS840接入交換機,200G Y-ACC/AOC 接入線(xiàn)纜和自研銀杉2x100G /商業(yè)2x100G PAM4網(wǎng)卡,如圖3-1所示。在DVT階段后期,網(wǎng)絡(luò )產(chǎn)品功能驗證完成之后,我們直接進(jìn)入互聯(lián)兼容性適配,驗證網(wǎng)卡、線(xiàn)纜、交換機整條鏈路互聯(lián)互通性,鏈路性能是否滿(mǎn)足現網(wǎng)使用標準。整個(gè)項目的研發(fā)周期至少縮短3個(gè)月。
圖3-1 100G PAM4接入網(wǎng)絡(luò )
騰訊100G PAM4接入網(wǎng)絡(luò )提供200G Y-AOC / DAC / ACC光電共存的互聯(lián)方案。由于100G接入網(wǎng)絡(luò )采用高階PAM4調制技術(shù),并且騰訊是業(yè)內最早嘗試使用PAM4網(wǎng)卡、線(xiàn)纜、交換機的互聯(lián)網(wǎng)廠(chǎng)商,沒(méi)有成熟的經(jīng)驗參考,經(jīng)過(guò)我們幾個(gè)月的調試,網(wǎng)卡和交換機的固件版本先后迭代十幾個(gè),修復問(wèn)題近20項,成功研發(fā)出200G 接入線(xiàn)纜、完成網(wǎng)卡、交換機的物理層參數調教并批量上線(xiàn),業(yè)內首家批量部署100G PAM4網(wǎng)卡。
回顧調試過(guò)程,我們攻克了兩大阻塞問(wèn)題: 1)200G Y-AOC互聯(lián)linkup時(shí)間長(cháng)。最初使用200G Y-AOC進(jìn)行網(wǎng)卡和交換機互聯(lián)時(shí),鏈路linkup時(shí)間比較長(cháng)并且不穩定,時(shí)間從30s到3min不等。通過(guò)分析網(wǎng)卡端口物理層狀態(tài)機發(fā)現,網(wǎng)卡和交換機之間自協(xié)商(AN, auto-negotiation,參考IEEE802.3 Clause 73)過(guò)程長(cháng),導致linkup超時(shí)。結合騰訊自研硬件特征參數及應用場(chǎng)景的需求,對網(wǎng)卡的AN過(guò)程狀態(tài)機進(jìn)行優(yōu)化,最終把linkup時(shí)間穩定控制在15s以?xún)取?)200G Y-DAC/ACC互聯(lián)鏈路性能不符合預期。在200G Y-DAC/ACC進(jìn)行互聯(lián)適配時(shí)發(fā)現鏈路性能?chē)乐夭环项A期,pre fec ber >1E-4,pre fec margin=0,超出fec糾錯能力,最直接的表現就是會(huì )有丟包。通過(guò)系統分析,該問(wèn)題有2種方面原因:a)200G Y-ACC鏈路長(cháng),信號嚴重失真,收端系統無(wú)法識別。b)網(wǎng)卡和交換機系統之間Link Training算法有缺陷。針對以上2個(gè)因素,分別從線(xiàn)纜、系統端尋找解決方案。尋找最優(yōu)的re-driver IC參數設定,保證整條鏈路的線(xiàn)性度和高頻特性。系統端link Training算法優(yōu)化,詳細link training機制參見(jiàn)IEEE 802.3 Clause 72。經(jīng)過(guò)以上兩種方向的優(yōu)化,鏈路性能最終符合預設標準,pre fec ber < 1E-7, fec margin >50%。
· 服務(wù)現網(wǎng):故障快速定位,保證現網(wǎng)質(zhì)量
借助于網(wǎng)絡(luò )硬件驗證中心,我們可以對現網(wǎng)問(wèn)題快速復現,進(jìn)一步分析出故障根因,并提出有效的解決措施。另外,針對同類(lèi)的問(wèn)題,我們可以在實(shí)驗室進(jìn)行全場(chǎng)景充分驗證,輸出有效的指導方案給到現網(wǎng)運營(yíng)團隊。
圖3-2 現網(wǎng)故障網(wǎng)絡(luò )拓撲
典型的現網(wǎng)故障處理案例是:21年騰訊兩個(gè)數據中心之間光纖鏈路抖動(dòng),傳輸保護倒換完成之后,數通交換機仍有部分鏈路不通,導致兩個(gè)數據中心內網(wǎng)質(zhì)量出現嚴重丟包,影響騰訊重要業(yè)務(wù)?,F網(wǎng)故障網(wǎng)絡(luò )拓撲如圖3-2所示。
接到現網(wǎng)報障后,我們在系統驗證實(shí)驗室搭建和現網(wǎng)同樣的網(wǎng)絡(luò )環(huán)境進(jìn)行定位復現,經(jīng)分析,主要原因是Switch-1交換機聚合鏈路的抖動(dòng),觸發(fā)了上層協(xié)議的重新收斂。邏輯聚合口linkup時(shí)間長(cháng),現網(wǎng)Switch-1交換機的配置不能穩定濾除物理層up/down對上層協(xié)議的影響。對此,我們在系統驗證實(shí)驗室充分驗證合理的網(wǎng)絡(luò )配置,并把配置提供給現網(wǎng)運營(yíng)團隊,2天之內找到根因并解決問(wèn)題。另外,針對現網(wǎng)中相同的場(chǎng)景,我們在系統實(shí)驗室充分驗證波分保護倒換成功率,通過(guò)遍歷互聯(lián)關(guān)系、設備型號、設備版本,累計測試120個(gè)場(chǎng)景,發(fā)現20多個(gè)缺陷,最終將現網(wǎng)波分保護倒換成功率提升至99.9%。
服務(wù)新技術(shù):快速驗證新技術(shù),享受技術(shù)紅利
騰訊硬件驗證中心的一個(gè)重要功能是對網(wǎng)絡(luò )新技術(shù)進(jìn)行快速驗證。隨著(zhù)網(wǎng)絡(luò )產(chǎn)品的迭代,網(wǎng)絡(luò )技術(shù)也在不斷演進(jìn),當前網(wǎng)絡(luò )物理通道單通道速率正從56G向112G/224G演進(jìn)。結合56G研發(fā)過(guò)程的經(jīng)驗和教訓,首次嘗試新技術(shù)面臨的挑戰是巨大的,為了降低研發(fā)期間試錯成本,因此需要在研初期對光電芯片的性能進(jìn)行全面評估,判斷是否符合產(chǎn)品設計要求。為此,我們對下一代112G主流Serdes IP能力進(jìn)行評估,如圖3-3所示,選擇滿(mǎn)足騰訊應用場(chǎng)景的芯片,從而在產(chǎn)品設計上達到質(zhì)量、效率、成本上的平衡。
圖3-3 112G Serdes IP 評估原理圖
總結
騰訊網(wǎng)絡(luò )硬件驗證中心具備豐富的網(wǎng)絡(luò )設備資源,靈活多樣的驗證能力,不僅可以進(jìn)行信號層面的評估驗證,還可以進(jìn)行全場(chǎng)景的端到端系統驗證,在騰訊網(wǎng)絡(luò )產(chǎn)品研發(fā)、現網(wǎng)問(wèn)題定位、新技術(shù)評估方面發(fā)揮著(zhù)重要作用。另外,隨著(zhù)網(wǎng)絡(luò )技術(shù)的演進(jìn),網(wǎng)絡(luò )硬件驗證中心也在不斷提升各項技術(shù)能力,更好地服務(wù)騰訊網(wǎng)絡(luò )產(chǎn)品研發(fā)和現網(wǎng)質(zhì)量維護,為騰訊自研網(wǎng)絡(luò )質(zhì)量保駕護航。