騰訊開(kāi)放光網(wǎng)絡(luò )實(shí)現多廠(chǎng)商設備開(kāi)放組網(wǎng)。通過(guò)不同廠(chǎng)商設備的自由組合與靈活替換,降低了帶寬成本,提高了帶寬交付效率。然而,多廠(chǎng)商、多型號設備的混合組網(wǎng)模式,也為傳送網(wǎng)絡(luò )的運營(yíng)帶來(lái)了新的挑戰。在不同廠(chǎng)商設備混合組網(wǎng)的開(kāi)放網(wǎng)絡(luò )中,定位設備故障是一個(gè)復雜的問(wèn)題。傳統依賴(lài)廠(chǎng)商工程師的模式難以為繼,需要系統具備快速診斷、定位設備故障的能力,能夠在開(kāi)放網(wǎng)絡(luò )中,精確識別不同廠(chǎng)商設備的異常狀態(tài),定位故障點(diǎn),準確分析故障影響,為設備故障處理等相關(guān)運營(yíng)流程提供技術(shù)支撐。騰訊開(kāi)放光網(wǎng)絡(luò )基于多維度運行數據,利用智能算法,構建實(shí)時(shí)故障監測系統。實(shí)現對設備故障全面覆蓋,故障定位準確率達到90%以上,故障查全率高達97%。
1、設備故障定位的挑戰
圖一 傳統光傳輸系統故障定位流程
眾所周知,根據墨菲定律,只要硬件有故障的幾率,無(wú)論這個(gè)幾率再小故障都會(huì )發(fā)生。更不用提在開(kāi)放光網(wǎng)絡(luò )中,各類(lèi)業(yè)務(wù)板卡/光模塊的數量在幾k到數十k的級別,在這么大的設備基數面前,故障是很常見(jiàn)的。那么廠(chǎng)商工程師的排障邏輯是什么樣的呢?一個(gè)最重要的信息來(lái)源就是告警。當設備產(chǎn)生告警或者業(yè)務(wù)受到影響時(shí),值班人員會(huì )去詢(xún)問(wèn)廠(chǎng)商工程師進(jìn)行確認故障具體點(diǎn)位,然后配合駐場(chǎng)來(lái)對故障設備進(jìn)行更換。在這個(gè)處理流程中有幾大痛點(diǎn):
告警多:每月與波分電層相關(guān)的告警數量極為龐大,已遠遠超出人力資源所能承受的范圍。
誤報多:與每月設備上報海量告警相對的是,但實(shí)際發(fā)生的設備故障數量大概只有二十幾例。
信息指向不明確:板卡、模塊告警無(wú)法與業(yè)務(wù)相關(guān)聯(lián),故障指示性差。
2、自研實(shí)時(shí)故障監測系統設計
圖二 實(shí)時(shí)故障監測系統流程
為了解決上述痛點(diǎn),我們構建了實(shí)時(shí)故障監測系統。它的核心部分是上圖中的智能故障出單。開(kāi)放光網(wǎng)絡(luò )系統的精細化監控能力帶來(lái)了秒級性能數據和告警的采集,這極大地將開(kāi)放光網(wǎng)絡(luò )透明化可視化,開(kāi)放光網(wǎng)絡(luò )中設備的各個(gè)維度的信息變得觸手可及。通過(guò)將這些信息輸入我們自研的數據挖掘和分析算法,故障事件單以及對應的處理建議將會(huì )自動(dòng)且快速輸出。這些故障事件單會(huì )以告警的形式接入運營(yíng)監控平臺,并自動(dòng)觸發(fā)工單,通知值班人員關(guān)注。值班同學(xué)根據故障告警的分析建議,指導駐場(chǎng)直接對故障設備做出相應的操作,如復位、拔插、更換等等。相對于傳統的商用系統排障方式,騰訊自研實(shí)時(shí)故障監測系統的優(yōu)勢體現在如下幾個(gè)方面:
準確定位:故障定位的累積準確率在90%以上,出單的算法邏輯也一直針對具體的故障情況進(jìn)行優(yōu)化,避免誤報。
全面覆蓋:故障定位的累積查全率在97%左右,可覆蓋各種故障場(chǎng)景,避免絕大多數故障漏報。
快速響應:相較于依賴(lài)工程師定位故障需要半天到天級的響應和溝通時(shí)間,實(shí)時(shí)故障監測系統可以做到分鐘級告警上報,真正實(shí)現了全天候不間斷監測。
自適應指導:自研的故障監測系統通過(guò)回顧歷史故障數據庫,積累了大量的故障處理經(jīng)驗,可以根據故障點(diǎn)位和類(lèi)型自適應生成設備維護建議,不僅定位準確,還能合理維護。
3、核心故障出單邏輯設計
圖三 智能故障出單層級結構圖
如上圖,在實(shí)時(shí)故障監測系統中,一共有六種不同的設備/模塊被納入了監測對象。不同硬件在系統中完成功能不同,性能指標種類(lèi)存在明顯差異,運營(yíng)過(guò)程中關(guān)注點(diǎn)也不同。因此需要根據每種板卡/模塊的運行特征,具體為其設計故障分析邏輯。
但是不同的故障分析邏輯,其本源是對性能、告警、狀態(tài)等數據源產(chǎn)生數據的分析。因此,針對單一數據源的特征分析和針對多數據源的聯(lián)合分析,作為基本分析方法,是故障檢測系統,實(shí)現不同硬件故障分析邏輯的技術(shù)基礎。其中涉及的一些技術(shù)要點(diǎn)會(huì )在下文給出簡(jiǎn)要介紹。
技術(shù)要點(diǎn)一
性能數據異常實(shí)時(shí)發(fā)現。上文提到,在開(kāi)放光網(wǎng)絡(luò )系統中,設備因秒級的性能數據采集和推送變得透明化和可視化。這也對實(shí)時(shí)性能處理和分析提出了更高的要求,采集窗口必須實(shí)時(shí)貼近故障事件的反應時(shí)間,監測算法必須保證低算法復雜度以配合實(shí)時(shí)故障發(fā)現的需求。為了應對這些需求,我們引入了時(shí)間序列自適應滑動(dòng)窗口階躍監測技術(shù)。
圖四 自適應滑動(dòng)窗口階躍監測
如圖所示,我們將設備推送的秒級數據(例如模塊發(fā)光頻率,發(fā)光頻偏,板卡溫度等)收集到控制器端,然后對歷史時(shí)間窗進(jìn)行滑動(dòng)監測。監測算法的思想是動(dòng)態(tài)截取時(shí)間窗,并計算時(shí)間窗在當前時(shí)刻的統計值,這個(gè)統計值和數據的波動(dòng)情況正相關(guān)。換言之,異常性能數據時(shí)間窗內經(jīng)過(guò)統計分析會(huì )計算得到一個(gè)較高值。該值與統計所得閾值做比較,低于閾值則為正常范圍波動(dòng),高出閾值則被判定為故障態(tài)。算法中的各項具體數值(例如閾值、標準差)都是經(jīng)過(guò)對歷史故障數據的詳細分析后得出的,使故障態(tài)識別更加精確。另外,性能數據的偶然波動(dòng)(單個(gè)采集窗口的數據異常,可能是設備誤報導致)導致的信號突變也會(huì )在該算法中進(jìn)行排除。通過(guò)這種滑動(dòng)窗口階躍監測技術(shù),20s內的窗口異常波動(dòng)都可以有效檢出,且占用資源低,可以實(shí)時(shí)對控制器管控的海量設備同時(shí)監控。在性能監測方面,除了自適應滑動(dòng)窗口階躍監測之外,還有發(fā)光平坦度監測、電源實(shí)時(shí)轉化率分析、風(fēng)扇轉速與設備功耗數據關(guān)聯(lián)度分析等手段,可根據設備的特性進(jìn)行應用。
技術(shù)要點(diǎn)二
多維度信息綜合分析提升根因定位準確性。雖然上述的性能數據是可以通過(guò)數學(xué)建模來(lái)利用算法直接判斷異常態(tài),但是某些設備的性能數據對于故障的指向性不是特別明確,甚至缺少關(guān)鍵性能數據,此時(shí)就需要控制器采集設備其他維度的信息來(lái)進(jìn)行綜合研判。例如設備自身上報的告警,設備關(guān)聯(lián)業(yè)務(wù)的健康度,相關(guān)聯(lián)的交換機端口狀態(tài)等等。我們以波長(cháng)轉換板卡(OTU板卡)為例簡(jiǎn)要說(shuō)明綜合分析過(guò)程。在之前的運營(yíng)中,OTU板卡故障一般是在上層業(yè)務(wù)受損后被發(fā)現的。然后人工查詢(xún)并判斷是數通層面故障還是波分層面故障,定位到波分層面故障后再定位具體的故障點(diǎn)位。定位到具體故障設備后,再來(lái)通過(guò)相關(guān)的設備告警定位故障具體發(fā)生在客戶(hù)側模塊,線(xiàn)路側模塊還是OTU電卡。整個(gè)故障定位流程十分冗長(cháng)且需要人工確認,并且在確認眾多告警和故障之間的關(guān)聯(lián)時(shí)需要豐富的經(jīng)驗,這對后續的排障工作也帶來(lái)了較很高的難度。
圖五 多維度信息綜合分析流程
因此我們將告警、業(yè)務(wù)狀態(tài)、巡檢結果都融入自動(dòng)化故障監測體系中。從OTU板卡告警觸發(fā),開(kāi)始關(guān)聯(lián)分析業(yè)務(wù)的狀態(tài)。若業(yè)務(wù)狀態(tài)異常,則進(jìn)一步分析這個(gè)告警的嚴重程度,根據其和故障的相關(guān)性分級處理,結合受影響業(yè)務(wù)的數量來(lái)判斷具體是OTU故障還是潛在的上插模塊的故障。另一方面,日常的巡檢收集對業(yè)務(wù)無(wú)影響的告警,從故障防控的角度提前知曉設備劣化的動(dòng)態(tài),并發(fā)出故障預測??傮w而言,通過(guò)編排告警的優(yōu)先級以及對應處理方式,可以為后續排障工作提供準確的指導建議,進(jìn)一步提高故障處理的效率。
總結
騰訊開(kāi)放光網(wǎng)絡(luò )系統實(shí)時(shí)設備故障監測系統,依托于騰訊開(kāi)放光網(wǎng)絡(luò )系統秒級telemetry性能監控能力的海量運營(yíng)數據,引入先進(jìn)數據分析算法,實(shí)時(shí)發(fā)現設備性能異動(dòng);結合設備告警、業(yè)務(wù)狀態(tài)信息分析等手段,顯著(zhù)提升了故障定位的準確性、查全度、時(shí)效性,有效解決了在不同廠(chǎng)商設備混合組網(wǎng)的開(kāi)放網(wǎng)絡(luò )中,定位設備故障的難題,提升了光網(wǎng)絡(luò )系統故障應對效率。展望未來(lái):一方面故障監測系統將會(huì )不斷優(yōu)化算法,進(jìn)一步提升故障定位準確率和排障效率,同時(shí),更多新的故障類(lèi)型將會(huì )納入實(shí)時(shí)監測體系中。另一方面,將會(huì )探索故障監測系統與優(yōu)化系統聯(lián)動(dòng)配合,實(shí)現故障、監測,優(yōu)化的閉環(huán)。
作者:懷健、王宇、明剛