石云輝
(貴州電網(wǎng)有限責(zé)任公司計(jì)量中心, 貴州,貴陽(yáng) 550000)
南方電網(wǎng)大力推進(jìn)“數(shù)字化”轉(zhuǎn)型,融合新一代數(shù)字技術(shù)在新型經(jīng)濟(jì)生態(tài)中的價(jià)值延伸。用大數(shù)據(jù)分析和數(shù)學(xué)模型,構(gòu)建智能化運(yùn)維體系。計(jì)量采集鏈路上的異常數(shù)量日益激增,根源的異常是運(yùn)維實(shí)際中很迫切需要解決的問(wèn)題[1],但是計(jì)量采集是基于鏈路架構(gòu),單點(diǎn)異常處理缺乏找到根源原因的辦法[2]。近年來(lái),關(guān)于異常定位的研究一直受到國(guó)內(nèi)外學(xué)者的重視[3-4]。當(dāng)前,針對(duì)計(jì)量單環(huán)節(jié)的異常分析,以及通過(guò)關(guān)聯(lián)分析找異常根源的算法比較多,具有成熟的研究成果[5-9]。由于缺少?gòu)逆溌返恼w上定位異常根源,造成待處理的異常較多、根本問(wèn)題得不到解決等問(wèn)題。因此,本文引入異常預(yù)處理與全鏈路異常定位算法,按權(quán)重面積排序,提供全鏈路異常定位依據(jù),既提升了運(yùn)維的智能化水平又從業(yè)務(wù)前后環(huán)節(jié)的整體角度對(duì)異常進(jìn)行監(jiān)控,提升電力計(jì)量運(yùn)維效率。
目前運(yùn)維工作主要通過(guò)人工巡檢,通過(guò)經(jīng)驗(yàn)排查運(yùn)行中鏈路和采集裝置的異常原因。存在以下問(wèn)題:第一,排查單個(gè)環(huán)節(jié)異常,運(yùn)維工作中主要通過(guò)人工與系統(tǒng)自動(dòng)統(tǒng)計(jì)方式進(jìn)行運(yùn)維,以解決一個(gè)環(huán)節(jié)的異常為目的;第二,缺乏鏈路整體定位,電力計(jì)量主站運(yùn)維存在很多離散的監(jiān)控點(diǎn);第三,整體智能程度不高,異常點(diǎn)存在誤報(bào)、漏報(bào)現(xiàn)象,大部分需要人工經(jīng)驗(yàn)排查。
異常定位模型包含信息預(yù)處理、異常定位及定位路徑與規(guī)則固化三方面。模型構(gòu)建過(guò)程如圖1所示。
電力計(jì)量業(yè)務(wù)通常被設(shè)計(jì)為網(wǎng)狀的業(yè)務(wù)拓?fù)浣Y(jié)構(gòu),需要先將網(wǎng)狀拓?fù)浣Y(jié)構(gòu)進(jìn)行降維處理,同時(shí)過(guò)濾冗余異常,使有效異常疊加至鏈路環(huán)節(jié)之上,此過(guò)程是對(duì)異常信息的預(yù)處理。計(jì)量主站業(yè)務(wù)主要分為數(shù)據(jù)采集與指令下發(fā)2類(lèi)業(yè)務(wù)鏈路,如圖2所示。
業(yè)務(wù)拓?fù)鋱D中的業(yè)務(wù)邏輯、節(jié)點(diǎn)間的相互關(guān)聯(lián)是交叉往復(fù)且?guī)в袕?fù)雜的邏輯判斷關(guān)系。通過(guò)對(duì)鏈路各環(huán)節(jié)間數(shù)據(jù)流轉(zhuǎn)、指令調(diào)用等關(guān)系的分析,將網(wǎng)狀鏈路處理成具有獨(dú)立調(diào)用的關(guān)系鏈路,最后形成不同的鏈路結(jié)構(gòu)。將業(yè)務(wù)拓?fù)鋱D降為單一指令流與數(shù)據(jù)流的多條鏈路,如圖3所示。

圖1 計(jì)量全鏈路異常定位建模流程圖
處理后的鏈路中節(jié)點(diǎn)與節(jié)點(diǎn)間的關(guān)系直觀,都將降維拆解出一條獨(dú)立的鏈,形成從業(yè)務(wù)起點(diǎn)到終點(diǎn)的業(yè)務(wù)鏈路。
為實(shí)現(xiàn)對(duì)非關(guān)注異常的有效過(guò)濾,從而提高異常定位的精準(zhǔn)度,需要設(shè)置時(shí)間序列,對(duì)異常信息進(jìn)行切割,鎖定異常定位范圍。計(jì)量關(guān)鍵業(yè)務(wù)異常項(xiàng)獲取如圖4所示。
(1) 同一時(shí)間片內(nèi)節(jié)點(diǎn)異常重復(fù)處理。節(jié)點(diǎn)異常內(nèi)容包括時(shí)間完全相同,只按第一次判定的異常節(jié)點(diǎn)進(jìn)行異常鏈標(biāo)記,其余節(jié)點(diǎn)異常判定為不參與異常鏈標(biāo)記。
(2) 按時(shí)間序列劃歸異常項(xiàng)。確定需定位異常點(diǎn)前后需劃分的時(shí)間范圍,設(shè)置t為前后時(shí)間范圍。設(shè)置e為劃歸間隔時(shí)間,鏈路數(shù)量m=t/e(t時(shí)間范圍以實(shí)際情況配置,e間隔時(shí)間以實(shí)際情況配置)。

圖2 計(jì)量全鏈路關(guān)鍵業(yè)務(wù)拓?fù)鋱D
(3) 同一環(huán)節(jié)持續(xù)或閃退的異常判定處理。對(duì)長(zhǎng)時(shí)間存在的異常,或者在短期內(nèi)自行消除的異常進(jìn)行標(biāo)記,通過(guò)規(guī)則分析,判斷為冗余的,k天內(nèi)不再參與異常智能診斷(k設(shè)置天數(shù)以實(shí)際情況配置)。
2.3.1 異常鏈路數(shù)字化處理
結(jié)合業(yè)務(wù)信息與時(shí)間信息的異常鏈,將調(diào)序后的異常鏈進(jìn)行抽象化處理,刪減多余的業(yè)務(wù)信息和時(shí)間信息,用1代表異常節(jié)點(diǎn),0代表非異常節(jié)點(diǎn),得到抽象后的01異常鏈,如圖5所示。
2.3.2 特殊倍率賦值
為進(jìn)一步提高異常鏈路的計(jì)算準(zhǔn)確性,需對(duì)異常權(quán)重算法進(jìn)行調(diào)整,其規(guī)則如下。
(1) 全鏈僅存在單個(gè)異常節(jié)點(diǎn)的單節(jié)點(diǎn)異常鏈:乘因c=1+異常節(jié)點(diǎn)序/總節(jié)點(diǎn)數(shù)。
(2) 存在單個(gè)異常密集段且在鏈最后的后置異常鏈:乘因c=整體異常權(quán)重放大10倍。
(3) 全鏈各節(jié)點(diǎn)都異常的全異常鏈:乘因c=整體異常權(quán)重放大10倍。
2.3.3 異常鏈路權(quán)重面積計(jì)算
通過(guò)鏈路環(huán)節(jié)上的異常數(shù)量和異常密集程度計(jì)算鏈路異常關(guān)聯(lián)程度,為異常定位提供參考,具體算法如下。
(1) 異常數(shù)量以寬度表示:如鏈路異常節(jié)點(diǎn)數(shù)N=1,則寬度a=1。如鏈路異常節(jié)點(diǎn)數(shù)N>1,則寬度a=max(相連異常節(jié)點(diǎn)數(shù))。
(2) 異常密集程度以長(zhǎng)度表示:如鏈路異常節(jié)點(diǎn)數(shù)N=1,則長(zhǎng)度b=1+告警節(jié)點(diǎn)所在鏈路的序號(hào)/鏈路總節(jié)點(diǎn)數(shù)。如鏈路異常節(jié)點(diǎn)數(shù)N>1,則長(zhǎng)度為
(1)
(3) 異常權(quán)重面積公式:S=a×b×100×c。

圖3 計(jì)量關(guān)鍵業(yè)務(wù)降維鏈路圖

圖4 計(jì)量鏈路冗余異常處理架構(gòu)
(4) 異常鏈路權(quán)重面積計(jì)算:評(píng)價(jià)計(jì)算與日志記錄的異常項(xiàng)對(duì)應(yīng)到鏈路的環(huán)節(jié)之上,并且通過(guò)時(shí)間戳進(jìn)行顯示。將異常信息數(shù)字化成0和1表示的標(biāo)準(zhǔn)鏈,通過(guò)權(quán)重面積算法得出每一條鏈的面積,以此表示不同鏈的異常優(yōu)先級(jí),以實(shí)現(xiàn)輔助運(yùn)維異常排查的目的。
(5) 計(jì)量全鏈路根源異常定位:設(shè)置鏈路優(yōu)先級(jí),在優(yōu)先級(jí)范圍內(nèi)依據(jù)時(shí)間戳順序確定根源異常。
將異常置于優(yōu)先級(jí)高的鏈路中尋找鏈路上的異常根源,并保留全鏈路徑。同時(shí),從驗(yàn)證中提取匹配的異常定位規(guī)則,形成規(guī)則庫(kù)。

圖5 計(jì)量鏈路異常節(jié)點(diǎn)抽象化
以貴州電網(wǎng)公司計(jì)量主站2020年4月10日至2020年4月18日期間8條關(guān)鍵數(shù)據(jù)采集上行鏈路為例,環(huán)節(jié)分別為前置通訊、規(guī)約服務(wù)、消息隊(duì)列、任務(wù)觸發(fā)、任務(wù)分發(fā)、消息隊(duì)列和入庫(kù)隊(duì)列,對(duì)環(huán)節(jié)異常信息進(jìn)行標(biāo)識(shí)與時(shí)間戳,如表1所示。
通過(guò)權(quán)重面積算法得出每一條鏈的面積,以此表示不同鏈的異常優(yōu)先級(jí),進(jìn)而對(duì)面積進(jìn)行排序,得到優(yōu)先級(jí)高的鏈路,以實(shí)現(xiàn)輔助運(yùn)維異常排查的目的,如表2所示。
為驗(yàn)證計(jì)量全鏈路關(guān)鍵業(yè)務(wù)異常定位的準(zhǔn)確性,以2020年4月10日至2020年4月24日的5.32萬(wàn)條數(shù)據(jù)作為訓(xùn)練樣本集,建立計(jì)量全鏈路關(guān)鍵業(yè)務(wù)異常定位驗(yàn)證數(shù)據(jù)庫(kù),將其與已排查運(yùn)維工單數(shù)據(jù)進(jìn)行比較驗(yàn)證,具體流程如圖6所示。

圖6 驗(yàn)證流程圖

表1 數(shù)據(jù)采集業(yè)務(wù)異常鏈路信息

表2 數(shù)據(jù)采集業(yè)務(wù)異常鏈路權(quán)重面積計(jì)算
選取15天5類(lèi)鏈路環(huán)節(jié)中重要程度較高的報(bào)錯(cuò)作為異常信息,對(duì)異常信息前后10 min內(nèi)的異常信息,每間隔2 min獲取一次,最終對(duì)異常關(guān)聯(lián)度優(yōu)先級(jí)設(shè)置為排名前3的鏈路進(jìn)行分析,如表3所示。

表3 異常定位與運(yùn)維排查準(zhǔn)確率對(duì)比表
經(jīng)過(guò)實(shí)際對(duì)比驗(yàn)證,本文提出的權(quán)重面積較大鏈路的異常定位準(zhǔn)確率較高,此類(lèi)鏈路范圍覆蓋根源異常的比例均超過(guò)50%,其中5類(lèi)關(guān)鍵異常的定位準(zhǔn)確性高于75%,驗(yàn)證了本文提出的電力計(jì)量全鏈路關(guān)鍵業(yè)務(wù)異常定位規(guī)則的準(zhǔn)確性和有效性。
本文采用融合業(yè)務(wù)拓?fù)涞碾娏τ?jì)量全鏈路關(guān)鍵業(yè)務(wù)異常定位,為標(biāo)準(zhǔn)化異常信息,繪制計(jì)量關(guān)鍵業(yè)務(wù)拓?fù)鋱D,并通過(guò)數(shù)字化將異常信息進(jìn)行預(yù)處理,引入異常權(quán)重面積算法來(lái)確定鏈路異常關(guān)聯(lián)程度,通過(guò)對(duì)鏈路異常關(guān)聯(lián)程度高的鏈路進(jìn)行異常定位,提高了運(yùn)維排查并解決鏈路異常的效率,保障電網(wǎng)穩(wěn)定運(yùn)行。但是計(jì)量鏈路異常根源很多,其中非鏈路異常也是主要原因,本文提到的異常定位方法無(wú)法完全滿(mǎn)足定位要求。因此,下一步將從鏈路與單點(diǎn)異常定位兩個(gè)角度入手,提高異常根源定位能力。