齊金定 孫濤 單巖 鄭少華 于振洪 孫靜
摘要:輸電線路具有距離長、覆蓋區域廣等特點,容易受天然環境及人為成分的影響較多,致使線路的運作維護工作存在較大困難,如何從海量數據中挖掘出有效信息,實現對輸電線路的故障診斷,是急需要解決的問題。提出一種基于支持向量機(Support Vector Machine,SVM)算法的數據挖掘方法,將其應用于輸電線路故障診斷方面,可以從輸電線路海量信息中找出潛藏的模式和其中的規則,成為調度人員處理事件的協助工具,起到降低事故處理耗時、防止事故擴大的作用,提高輸電線路運行和維護的質量。
關鍵詞:大數據;數據挖掘;SVM算法;故障分析
中圖分類號:TP393文獻標志碼:A文章編號:1008-1739(2019)23-68-4

0引言
輸電線路是電力系統的重要組成部分,將發電、變電、供配電的廠站設備和用戶有機地聯接成一個整體,具有線長、點多和面廣的特點。它的運行狀態直接關系到電力系統的可靠運行,影響著電力用戶的用電安全和良好的用電體驗。并且,隨著現代電網的規模、容量和覆蓋范圍越來越大,輸電線路在國民經濟和人民生活中占有重要地位,電網故障停電將會給社會生產和人民生活造成重大的經濟損失。輸電線路因為具有運送距離長、覆蓋區域廣等特點,容易受自然環境及人為因素的影響較多,致使線路的運維工作存在較大困難[1],同時隨著信息化的建設,輸電線路每年都會產生大量數據,因此,如何從海量數據中挖掘出所需要的知識,使現代電力系統在完成日常生產管理工作的基礎上,實現對電力系統的實時監測、故障診斷以及故障預測等功能,是現代智能電網需要解決的問題。數據挖掘技術是大數據分析中的關鍵技術,其實質是從海量數據中挖掘出隱含的知識,并將發現的數據轉化為信息,信息轉化為知識,知識轉化為行動,行動轉化為價值。
1數據挖掘技術
數據挖掘(Data Mining,DM)的概念由美國計算機學會在1995年提出,是指從海量的、隨機的、不完整的、模糊的數據中,提取出人們所需信息的過程。與這一術語相近的有許多,例如從數據庫中發現知識、數據分析、知識抽取、模式分析、數據采集和信息收割等[2]??偟膩碚f,DM可以被認為是機器學習和數據庫衍生的產物,主要作用就是利用這二者對海量數據進行分析和管理。本文選取SVM算法進行研究。
1.1 SVM算法
SVM算法由Vapnik等學者提出,是近些年來機器學習、模式識別以及神經網絡等學術界公認的最有影響力的成就之一。SVM是統計學習理論中較新的理論,采用結構風險最小化原理,兼顧訓練誤差和泛化能力,在解決小樣本、非線性和高維數局部極小值等問題中表現出特有優勢[3]。
SVM自提出以來,經過近二十年的發展,已經在許多領域取得了豐碩成果。現有SVM發展方向主要分為4個方面:
①改進SVM的運算速度,使其適應大規模數據集的研究,例如序列最小化算法等;
②對原有的SVM的形式優化,簡化其中的計算過程;
③根據結構風險最小化原則以及SVM的一些原理而提出的新算法,例如廣義SVM等;
④根據結構風險最小原則以及核函數思想,在傳統的線性算法上構造出相應的核形式,例如核主成分分析。
1.2 SVM基本原理
SVM的核心內容就是升維、線性化和核函數,最終目的是尋找一個定義最優線性超平面,使得訓練樣本集中類型不同的點處于超平面的兩側,與此同時,超平面兩側的空白區域必須達到最大。SVM理論能完美地支持二維2類線性可分數據。



1.3 SVM算法求解過程
SVM優化的實質是對其參數進行優化。SVM分類器的好壞判別標準,主要取決于其泛化能力和機器學習的復雜程度,簡而言之就是所構建模型對未知數據測試的精準程度,SVM模型的確定主要在于懲罰系數與核函數參數的選擇。
傳統SVM參數分類問題尋優需要對,(分別表示懲罰系數、核函數參數)組合在給定范圍(2個參數范圍)一般為lb =-1:1:14,lb =-8:-1:-23內進行窮盡搜索,搜索次數等于2個參數向量長度的乘積,搜索總耗時等于搜索次數與訓練樣本個數的乘積。
SVM算法求解過程如圖2所示。

2輸變電系統大數據分析概述
電力系統的整個運行過程中會產生海量多源異構數據,也就是大數據,保證現代電網安全運行的前提是能夠及時處理這些海量數據。其中,輸變電設備狀態監測數據占絕大部分,既包含設備的基本信息,也包含設備運行中的在線狀況監測信息,數據量十分巨大,這對數據處理能力的可靠性和實時性要求很高[5]。
2.1輸變電系統大數據特點
輸變電系統中的數據具備大數據標志性的“4V”特征,即規模大、類型多、價值密度低和變化快[6],具體特點如下。
①規模大
輸變電設備狀態數據規模很大,量級一般都是以TB,PB為單位。例如,數據采集與監視控制SCADA系統,按10 000個遙測點,采樣間隔為3~4 s計算,每年將會產生1.03 TB數據(1.03 TB=12字節/幀* 0.3幀/s*10 000遙測點*86 400 s/d*365天)。
②類型多
輸變電設備狀態數據類型呈現多樣化的特點,包括各種歷史數據、實時數據、文本數據、多媒體數據等結構化、半結構化以及非結構化數據。對于不同類型的數據處理方式以及處理要求也都是不一樣的。例如,輸電線路系統中線路的臺賬信息通常是以文本數據的形式被記錄,而線路的運行狀況則往往是以圖片或者視頻的方式被記錄。
③價值密度低
輸變電設備狀態數據存在價值密度低的特點。輸變電設備運行過程中記錄了海量數據,而其中絕大多數都屬于正常數據,僅有非常稀少的故障數據,然而這些極少量的故障數據比正常數據更具有價值,它能夠有助于操作者了解設備的真實狀況。例如,輸變電設備狀態監測連續24 h的監測數據中真正有價值的可能僅僅只有1~2 s。
④數據處理速度要求快
由于電力系統的特殊性,操作者往往需要在極短暫的時間內做出正確的操作,這就需要系統能在數以ms的時間內對海量數據進行有效分析,以輔助操作者做出決策[7]。
3基于SVM算法的故障診斷分析
選取某地一條輸電線路的連續4個月的運行數據作為訓練樣本,以第5個月的運行數據作為基礎測試樣本,由于輸電線路實際運行中出現的故障極少,而故障樣本數量較少將會使實驗結果展現不夠直觀,因此在訓練樣本以及測試樣本中添加了該等級線路歷史數據中的故障數據,擴充了故障數據量,使實驗展示的結果更加直觀,增強了實驗的說服力。
實驗選取輸電線路的有功功率、無功功率、電流和電壓4個指標作為故障判斷依據。運用SVM模型進行實驗。此外,實驗過程中針對不同的故障類型,分別建立了訓練模型,并利用測試樣本數據進行了實驗。將SVM模型的參數設定為lb =-1:1:14,lb =4:-1:-11能搜尋到最優參數組合,以得到最優的時間效率和精確度。
通過算法驗證表明,訓練樣本數據在經過訓練之后,使該模型實現智能故障診斷功能,用測試樣本數據進行故障診斷時,測試樣本中的輸電線路故障類型已被檢測,基本實現了輸電線路智能化診斷功能,達到了實驗預期效果,達到了將大數據技術運用到輸電線路故障診斷的目的。
4結束語
通過介紹大數據分析中的DM、SVM算法等技術,輸變電系統大數據的特點和關鍵問題,提出的SVM算法在處理回歸和模式識別等問題上具有獨到的優勢,使其非常適應于輸電線路故障診斷研究,可以從輸電線路海量的信息中,找出潛藏的模式和其中的規則,成為調度人員處理事件的協助工具,能夠起到降低事故處理耗時、防止事故擴大的作用,提高輸電線路運行和維護的質量,提高電力系統的運行穩定性,保障大電網穩定安全運行。
參考文獻
[1]張東霞,苗新,劉麗平,等.智能電網大數據技術發展研究[J].中國電機工程學報,2015,35(1):2-12.
[2]邵峰晶,于忠清.數據挖掘原理與算法[M].北京:中國水利水電出版社,2003.
[3]芮璋現,肖海波.支持向量機(SVM)及其應用[J].福建電腦, 2007(4):110.
[4] Vapnik V N, Golowich S E, Smola A. Support Vector Method for Function Approximation, Regression Estimation, and Signal Processing [J]. Advances in Neural Information Processing Systems, 1997: 281-287.
[5]周志華.機器學習與數據挖掘[J].中國計算機學會通訊, 2007,3(12):27-37.
[6]夏火松.數據倉庫與數據挖掘技術[M].北京:科學出版社, 2004.
[7]宋亞奇,周國亮,朱永利.智能電網大數據處理技術現狀與挑戰[J].電網技術,2013,37(4):927-935.
[8]金澈清,錢衛寧,周傲英.流數據分析與管理綜述[J].軟件學報,2004,5(8):1172-1181.