張莎 李玉兵 高偉 潘虹
[摘 要] 針對當前電網可靠性問題,以輸電線路缺陷數據為研究核心,分析缺陷發生的各種規律,找出引發缺陷的關鍵因素;通過數據實際反映線路缺陷與桿塔信息間的邏輯關系,實現多角度、多維度數據分析。通過篩選關聯性高解釋能力強的桿塔信息做缺陷預測,及時發現設備隱患,分析設備存在的問題,輔助管理人員決策。
[關鍵詞] 多維度數據分析;隨機森林分類模型;輸變電設備;缺陷評估
中圖分類號:F407.61 文獻標識碼:A
一、輸電線路設備缺陷評估分析現狀
輸電線路設備是電網內重要設備,各級輸電線路多數處在野外,所以其遭受自然、人為破壞的影響比較大,缺陷的出現會造成各級線路處于危險當中,因此研究缺陷發生的線路、發生的部位、地段等,對指導線路運檢和管理具有很現實的意義[1]。以某市供電公司330kV及110kV輸電線路為例,其普遍采用人工巡檢的方式,該方式有顯著的不足:
一是工作效率低。據輸電線路人員定額標準測算,每人平均工作效率為4公里/日,在沒有大規模應用機巡作業之前,輸電運維缺員嚴重。二是巡檢質量不高。受地形、觀察視角、技能、經驗等因素影響,工人依靠肉眼或望遠鏡等簡單工具容易對隱患判斷失誤。三是作業風險高。工人經常需要翻山越嶺、登塔走線,不僅勞動強度大,而且工作條件艱苦,且工作中存在野生動物傷人、高空墜落、中暑、凍傷等人身安全風險[2]。
二、輸電線路缺陷評估分析設計思路
針對目前輸電線路巡檢管理存在的一些現狀,為有效對輸電線路設備的缺陷進行有效管理,需要我們運用新的技術來開展工作。根據分析結果,可以準確判別缺陷類別、缺陷嚴重程度、設備的狀態等信息。及時發現設備隱患,分析設備存在的問題,輔助管理人員決策,從而進一步完善輸電線路設備管理體系。
三、輸電線路設備缺陷評估數據分析
數據挖掘是從大量的、不完全的、有噪聲的、模糊的和隨機的實際應用數據中發現隱含的、規律的信息和知識的技術,是統計學、數據庫技術和人工智能技術的綜合。結合項目需求,項目組對某市供電公司的輸電線路設備歷史缺陷數據進行了如下分析:
(一)數據集構建
原始數據來源見下圖:
其中基礎數據規模約30 Mb,缺陷數據規模約2Mb。
基礎數據的質量問題重點來自于缺失值,通過對數據整體做非空頻次分析,利用唯一值判斷等手段評估缺失率超過90%的多列數據挖掘意義不大,予以舍棄;缺陷數據的質量問題重點來自于編碼不一致,存在大量主觀描述、同義近義詞數據,通過查閱輸電運檢規程予以統一。
數據預處理分為數據清洗、數據轉換、數據整合三個步驟:
1.數據清洗。通過確定缺失值范圍,去除不需要的字段,連續變量使用平均值或中值填充,其余根據輸電業務知識推測填充。2.數據轉換。對數據做了統一化、標準化、離散化處理。3.數據整合。基于已完成清洗、轉換工作的基礎數據和缺陷數據,基于所屬線路和桿塔編號兩個關聯變量,整合完成寬表。
(二)多維相關性分析
1.通過缺陷大類和電壓等級的Pareto分析,確定分析的重點在于330kV和110kV線路的本體缺陷。2.通過本體缺陷的分布分析,得知本體缺陷多發于鄉鎮及農牧區的戈壁灘平原;且在本體缺陷中占比最高的是桿塔缺陷和金具缺陷。3.通過桿塔外部缺陷的鳥害缺陷數據分析,發現該地區輸電線路鳥害有季節性、反復性、區域性三個明顯特征。4.通過缺陷分類和所屬線路的偏差分析,得到宗龍線、永夾線無論是一般還是危急缺陷異常值高,急需安排B、C類檢修的分析結論。
(三)隨機森林模型預測分析
通過K折交叉驗證法,項目組選取準確率最高的模型:隨機森林(RandomForest)作為本研究的建模工具。
隨機森林從本質上屬于機器學習的一個很重要的分支,叫做集成學習。它的工作原理是生成多個分類器/模型,各自獨立地學習和作出預測。這些預測最后結合成單預測,因此優于任何一個單分類做出的預測。
隨機森林最主要的兩個參數是n_estimators和max_ features以及max_depth。
n_estimators:表示森林里樹的個數。理論上是越大越好,但是計算時間也相應增長。所以,并不是取得越大就會越好,預測效果最好的將會出現在合理的個數。
max_depth:決策樹最大深度。
max_features:每個決策樹的隨機選擇的特征數目。每個決策樹在隨機選擇的max_features特征里找到某個“最佳”特征,使得模型在該特征的某個值上分裂之后得到的收益最大化。max_features越少,方差就會減少,但同時偏差就會增加。對于分類問題,max_features=sqrt(n_features)。
由于本研究使用的模型為隨機森林,主要的可調超參數為多個,故用網格搜索法確定最優參數。主要評價指標為擬合效果,次要評價指標為訓練時間。
n_estimators取值為[1,2,3,4,5,6,7,8,9,10,15,20,30]
引入網格搜索,實驗結果如下:
最佳的弱學習器迭代次數= {n_estimators: 30}
擬合結果= 0.7558819171324392
網格搜索經歷時間:0.978 S
接著項目組選取對決策樹最大深度max_depth和內部節點再劃分所需最小樣本數min_samples_split進行網格搜索。
實驗結果如下:
決策樹最大深度 {max_depth: 7}
擬合結果 0.791231732776618
網格搜索經歷時間:0.792 S
引入以上兩個最佳參數后,看看現在模型的袋外分數,實驗結果如下:
{max_features: 5}
擬合結果0.8225469728601252
最后用搜索到的最佳參數(n_estimators=30,max_ depth= 7,max_features=5)結合最終的模型擬合,得到袋外分數oob_score_= 0.868,模型此時已經接近最優了。
通過網格搜索進行參數調優,驗證模型的質量分別從耗時、準確率、誤差和ROC曲線方面比較判斷,驗證了改進的系統分類模型無論在耗時上還是在分類的精確率上都有所提高,促使本機器學習模型能夠變成得到較高精度的缺陷預測模型。
四、輸電線路設備缺陷評估成果應用
本項目的多維分析內容在輸電線路設備缺陷數據結構化后,可作為智能監測分析平臺的應用參考,結合輸電運維指標體系,形成一套完整的輸電運維駕駛艙系統。
本項目使用的交叉驗證法-隨機森林分類模型在訓練樣本不斷充實、基礎數據不斷完善的趨勢下,可以有諸多的應用擴展。例如通過對時間序列再次建模,可以對未來1-2個檢修基準周期內任意線路的任意桿塔做缺陷預測,從而達到故障預警輔助運維人員決策的目的;
五、輸電線路設備缺陷評估成果成效
項目應用預期成效主要體現在以下三個方面:
(一)資金方面合理高效使用
通過對缺陷和隱患的分析,評估線路運行狀態,為線路規劃設計、施工驗收、大修技改項目儲備等各環節提供依據。
(二)管理更高效智能
目前基層班組普遍缺員嚴重,通過數據分析情況評價線路風險及狀態,自動告警,為輔助決策提供依據。更合理使用人力資源,避免人力資源的浪費以及該巡視的地方沒有巡視到情況的發生。
(三)線路運檢更加科學
通過數據的分析和模型預測應用,可以發現設備缺陷和隱患的具體位置,自動告警,為輔助決策。從多個維度分析各類缺陷的發生規律,建立分類模型進行缺陷預測,更有助于有的放矢,大大減少資源浪費,增強輸電運檢單兵戰斗力。
六、結語
通過建立智能監測分析平臺,輸電線路缺陷數據將由非結構化轉向結構化,過程管控也由人工化轉為科學化,不僅降低了電力企業的成本預算,還提高了電力巡檢工作的效率,這讓供電公司輸電運檢智能化業務能力支撐能力明顯增強。
通過對桿塔臺賬數據和無人機自動巡視缺陷報告數據資源的梳理和整合,使供電公司輸電運維檢修方案決策第一次實現“用數據說話”,有助于公司未來更好地運用大數據,實現電力大數據的價值挖掘,激發企業的創新模式,實現公司管理水平的全面飛躍。
參考文獻:
[1]李志鵬.基于大數據分析的輸電線路管理系統及故障診斷研究[D].武漢:湖北工業大學,2015.
[2]李龍.輸電線路的狀態檢修技術的探討初探[J].山東工業技術,2018(22):209.