基于K-means聚類算法的數據分析模型應用研究

2017-04-13 01:34:42沈泓，劉順

軟件導刊 2017年3期

關鍵詞：模型

沈泓，劉順

(1.國網江蘇省電力公司常州供電公司電力調度控制中心，江蘇常州 213001；2.江蘇瑞中數據股份有限公司，江蘇南京 210012)

基于K-means聚類算法的數據分析模型應用研究

沈泓1，劉順2

(1.國網江蘇省電力公司常州供電公司電力調度控制中心，江蘇常州 213001；2.江蘇瑞中數據股份有限公司，江蘇南京 210012)

闡述了如何使用數據分析模型進行數據收集分析和處理，以及如何通過K-means聚類算法及線性回歸模型建立合理預估模型。電能在從發電廠傳輸到用戶的過程中，在輸電、變電、配電以及營銷管理的各環節中會產生電能損耗，如果線路損耗較高，則會對電網運行的安全性與經濟性造成直接影響，同時也會加快線路老化或損壞速度。合理分析預估模型，可以找出差異性較大的臺區著重進行管理與監測，并于用戶操作區的Web端進行展示，進而有效預測出哪些臺區可能存在偷竊電行為或其它影響正常供電的不合理行為，為供電工作提供有效輔助。

回歸模型;K-means聚類算法;分析模型;預估;顯著性

0 引言

電網數據作為一種對供電公司規劃設計、生產運行、經營管理水平的綜合反映與直觀展示，是供電公司日常管理工作中關注的重要內容。合理分析處理與利用海量的電網數據，能夠帶來可觀的經濟與社會效益。以分析預測線損為例，臺區線損管理通過比較理論線損與實際線損的差值，對不合理線損進行分析和預測，可提供較為科學有效的降損措施，有利于提升電力部門的管理水平與經濟效益，加強電網建設與改造的科學性。傳統的臺區線損管理中尚存在一些問題：①采取一刀切方式，人為設置合理線損率范圍，而缺乏理論依據和數據支撐，離精益化管理目標相差甚遠；②臺區理論線損的計算主要基于潮流的計算方法，但是由于低壓臺區下分支線路復雜、元件多樣、設備臺賬數據不全，理論線損計算難度很大；③供電公司管轄范圍內臺區數量巨大，彼此之間差別較大，無法采用統一模式進行管理。因此，如何進一步提高臺區線損管理的精益化水平，給出每個臺區可參照的合理線損范圍，并科學合理地對臺區線損進行監視，及時發現異常臺區，分析原因并及時解決問題，成為電力營銷工作迫切需要解決的問題。

鑒于此，本文以預測臺區線損率為例，依據供電公司轄區內各臺區的基礎數據，并應用基于K-means算法的數據分析模型，研究一種可以對電網關鍵數據進行預測分析的技術，以期為電網管理優化提供參考。

1 整體設計

基于K-means算法的數據預估模型的建立包含K-means聚類與線性回歸兩部分。首先通過K-means聚類算法，依據與臺區線損率相關的基本特征屬性將臺區分為K類，然后給每一類數據分別建立各自的線性回歸模型，最后將不同分類的臺區特征數據引入對應的線性回歸模型，得出合理的數據預測值，并將此值定義為合理預測。合理預測與實際值之差即為預測誤差。具體步驟如下：①通過K-means聚類方法按照臺區特征對供電公司的海量臺區數據進行分類，將供電公司轄區內的臺區分為特征不同的類群；②將每一類典型臺區的基礎數據與預測值相關聯，通過線性回歸的方式建立數學預測模型；③將需要預測的數據輸入模型，得到輸出，從而得出每一類臺區的合理預測值。整個模型建立的流程如圖1所示。

數據分析過程的主要活動由識別信息需求、收集數據、分析處理數據、數據分析模型的建立組成。

2 關鍵技術

2.1 K-means聚類算法

K-means算法是一種基于樣本間相似性度量的間接聚類方法，屬于非監督學習方法。此算法以k為參數，將n個對象分為k個簇，使簇內具有較高相似度，而且簇間的相似度較低。K-means算法是一種較典型的逐點修改迭代的動態聚類算法，其要點是以誤差平方和為準則函數[1-2]。該算法的優點是可以處理大量數據集，具有很好的可伸縮性，且簡單快速，故合理數據預估模型的分類采用了K均值聚類算法。

圖1 模型建立流程

K-means算法的基本步驟如下：①從數據集中隨機取k個元素，作為k個簇各自的中心；②分別計算剩下元素到k個簇中心的相異度，將這些元素分別劃歸到相異度最低的簇；③根據聚類結果，重新計算k個簇各自的中心，計算方法是取簇中所有元素各自維度的算術平均數；④將數據集中全部元素按照新的中心重新聚類；⑤重復第4步，直到聚類結果不再變化；⑥輸出結果。

2.2 線性回歸建模方法

線性回歸建模的思路是根據K-means聚類結果數據,將不同分類的臺區數據分別作為線性回歸的輸入，以線損率作為輸出，建立線性回歸模型，并對結果作相應分析，得出兩種分類對應的回歸方程[3]。

線性回歸建模的原理如下：在線性關系相關性條件下，兩個或兩個以上自變量對一個因變量，為多元線性回歸分析，表現這一數量關系的數學公式，稱為多元線性回歸模型。多元線性樣本回歸方程為：

(1)

其中β0,β1,β2,…,βk是k+1個未知參數，β0稱為回歸常數，β1,β2,…,βk稱為回歸系數，y稱為被解釋變量。x1,x2,…,xk是k個可以精確控制的一般變量，稱為解釋變量。

多元線性回歸方程中回歸系數的估計同樣可以采用最小二乘法，計算殘差平方和:

(2)

根據微積分中求極小值的原理，可知殘差平方和SSE存在極小值。欲使SSE達到最小，SSE對β0,β1,β2,…,βk的偏導數必須為零。

將SSE對β0,β1,β2,…,βk求偏導數，并令其等于零，加以整理后可得到k+1個方程式如下：

(3)

(4)

3 應用案例

3.1 原始樣本數據收集分析及處理

首先應該進行識別信息需求的工作。識別信息需求是確保數據分析過程有效性的首要條件，可為收集、分析數據提供清晰的目標。有目的的收集數據，是確保數據分析過程有效性的基礎。組織需要對收集數據的內容、渠道、方法進行策劃。策劃時應考慮：①將識別的需求轉化為具體要求，如評價供方時，需要收集的數據可能包括其過程能力、測量系統不確定度等相關數據；②明確由誰在何時何處、通過何種渠道和方法收集數據；③記錄表應便于使用；④采取有效措施，防止數據丟失和虛假數據對系統的干擾。

本次建模收集的數據包括臺區基礎信息表、線路線損率分月報表、臺區線損率分月報表、生產經營報表(按月分)、竊電用戶統計報表。建模數據收集涉及的部門包括發展策劃部、電力營銷部、運維檢修部。數據范圍包括供電公司轄區內各線路下的臺區，分別為：220KV線路、110KV線路、35KV線路、10KV線路、10KV以下線路以及1KV以下線路等臺區。經過ETL數據工具的處理以及對數據報表的整合，最終收集到的報表數據如圖2所示。包含的字段有：臺區名稱、臺區居民戶數、臺區非居民戶數、居民容量、非居民容量、居民戶均容量、非居民戶均容量、居民容量占比、非居民容量占比、臺區總容量、臺區竊電量、功率因數平均水平、最大負荷、最大負載率以及以臺區統計線損率。

下面進行分析處理數據的工作，將收集的數據通過加工、整理和分析，使其轉化為信息，通常采用的方法有：①傳統的7種工具，即排列圖、因果圖[4]、分層法、調查表、散步圖、直方圖、控制圖；②新的7種工具，即關聯圖、系統圖、矩陣圖[5]、KJ法、計劃評審技術、PDPC法矩陣數據圖。

按照K-means算法的基本步驟代入分析所得的初始數據。具體如下：

輸入：k，data[n]。

(1)選擇k個初始中心點，例如c[0]=data[0]，…，c[k-1]=data[k-1]。

(2)對于data[0]，…，data[n]，分別與c[0]，…，c[k-1]比較，假定與c[i]差值最少，則標記為i。

(3)對于所有標記為i的點，重新計算c[i]等于所有標記為i的data[j]之和，除以標記為i的個數。

(4)重復(2)、(3)，直到所有c[i]值的變化小于給定閾值。

圖3為將k值設為3時，K-means聚類算法的詳細示意圖,圖中(+)符號表示每次聚類選取的中心。

圖2 樣本數據

圖3 K-means聚類示意圖(k=3)

3.2 利用K-means聚類算法對臺區分類

以供電公司轄區下的臺區數據作為樣本數據(共630個)，作為K-means算法的輸入。聚類樣本特征輸入量包括：臺區名稱、居民戶數、非居民戶數、居民容量、非居民容量、居民容量、居民戶均容量、居民容量占比、非居民容量占比、臺區總容量、臺區竊電量、功率因數平均水平、臺區最大負荷、最大負載率、實際線損率。在K-means聚類算法中，初始聚類數設定2～12為合理范圍，通過嘗試設定不同的初始聚類數，計算不同聚類數時的輪廓系數值(輪廓系數值越接近1，表明聚類數越合理)。不同K值聚類的輪廓系數如表1所示。

通過不同K值輪廓系數的對比，可以看出聚類數為2時，輪廓系數值為0.5，在所有的輪廓系數中最接近1，表明聚類數為2時，K-means聚類質量最好，輸入13對應的聚類結果如下：

最小聚類大小為：95(15.1%)

最大聚類大小為：535(84.9%)

大小比率(最大聚類比最小聚類)：5.63

K-means聚類算法中各變量對于聚類的重要性不同，如圖4所示。可以看出，居民容量占比、非居民容量占比、非居民容量、非居民戶均容量在聚類中對聚類結果影響比較明顯。

表1 K-means輪廓系數

聚類數為2時，各變量在聚類-1與聚類-2中的均值如表2所示，各變量按照在聚類算法中體現出的重要性從上到下依次排序。可以看出，居民容量占比與非居民容量占比對聚類的影響最大，是臺區分類過程中的主要依據。其它變量在聚類中對聚類結果有影響，但不是主要影響因素。

圖4 K-means聚類中變量重要性

表2 聚類數為2時聚類模型各變量均值

從表2中可以看出，聚類1中居民容量占比為0.92，可以認為此類為居民用戶類；聚類2中非居民容量占比為0.59，可以認為此類為非居民用戶類。故通過K-means聚類算法將臺區分為居民用戶類臺區、非居民用戶類臺區。

3.3 通過線性回歸模型建立合理線損數據分析預測模型

將上述K-means聚類得出的兩類數據作為線性回歸模型的輸入(見表3)，包括：聚類-1、聚類-2。建模特征參數包括：臺區居民戶數、臺區非居民戶數、居民容量、非居民容量、居民戶均容量、非居民戶均容量、居民容量占比、非居民容量占比、臺區總容量、臺區竊電量、功率因數[6]平均水平、最大負荷、最大負載率[7]。輸出參數為：臺區線損率。

現對上述K-means聚類得出的聚類-1與聚類-2分別建立線性回歸模型，并對模型進行分析。依據調整后的R平方值、F檢驗系數、T檢驗系數、sig值檢驗系數等對模型進行評估，從而判斷出合理線損預測模型的擬合程度。

T檢驗是對單個變量進行顯著性檢驗，檢驗該變量獨自對被解釋變量的影響。

F檢驗是檢驗回歸模型的顯著意義，即所有解釋變量聯合起來對被解釋變量的影響。對方程聯合顯著性檢驗的F檢驗，實際上也是對可決系數的顯著性檢驗。

R的平方值系數實際反映樣本數據與預測數據間的相關程度。越接近1，回歸平面擬合程度越高；反之，越接近0，擬合程度越低。

sig值的含義是顯著性。一般將該sig值與0.05相比較，如果大于0.05，說明差異不顯著，從而認為兩組數據之間的平均值相等；如果小于0.05，說明差異顯著，認為兩組數據之間的平均值不相等。

3.3.1 聚類-1線性回歸模型分析

調整后的R平方值為0.824，擬合優度較高，不被解釋的變量較少，即表示輸入變量中82.4%的自變量對因變量線損值有影響。依據此系數可知，樣本數據與預測數據間的相關程度與模型模擬程度較高，模型具有可用性。

回歸方程顯著性檢驗(sig值)的概率為0，小于顯著性水平0.05，則認為系數不同時為0，被解釋變量與解釋變量全體的線性關系是顯著的，說明生成的模型具有明顯的統計學意義。

如圖5所示，給出了回歸方程的系數值，即常量為1.930，居民容量為0.010，居民戶均容量為1.068，臺區竊電電量為0.013，居民戶數為0.012，最大負載率為0.920。

所以線性回歸方程為[8]：

線損率=1.930+0.01*居民容量+1.068*居民戶均容量+0.012*居民戶數+0.013*臺區竊電量+0.92*最大負載率

將臺區樣本數據代入線性回歸方程可得出臺區線損率預測值，并將臺區預測線損率與臺區實際線損率通過折線圖作比較，如圖6所示。可知大部分臺區的實際線損率與預測線損率較為接近，但存在少數臺區的線損率實際值遠大于預測值的情況。出現這一現象的可能原因如下：①臺區的實際線損率在日常統計工作中有較大誤差，導致預測結果不合理；②該部分臺區的線損率有異常，可能存在用戶偷竊電行為，需加強管理與核實。

圖5 聚類-1的線性回歸模型系數

圖6 聚類-1臺區實際線損率和預測線損率誤差值

3.3.2 聚類-2線性回歸模型分析

調整后的R2值為0.612，擬合優度較高，不被解釋的變量較少，即表示輸入變量中61.2%的自變量對因變量線損值有影響。依據此系數可知，樣本數據與預測數據間的相關程度較高，模型模擬程度較高,模型具有可用性。回歸方程顯著性檢驗的概率為0，小于顯著性水平0.05，則認為系數不同時為0，被解釋變量與解釋變量全體的線性關系是顯著的，表明生成的模型具有明顯的統計學意義。

如圖7所示，給出了回歸方程的系數值，即常量為5.681，非居民戶均容量為0.045，臺區總容量0.005，最大負載率為2.952，臺區竊電電量為0.015，所以線性回歸方程為：

線損率=5.681+0.045*非居民戶均容量+0.005*臺區總容量+2.952*最大負載率+0.015*臺區竊電總量

同樣，將聚類-2中的臺區樣本數據代入線性回歸方程可得出臺區預測線損率，并將臺區預測線損率與臺區實際線損率通過折線圖作比較，如圖8所示。可知大部分臺區的實際線損率與預測線損率較為接近，存在少數臺區的線損率實際值遠大于或遠小于線損預測值的情況。出現這一現象的可能原因如下：①臺區的實際線損率在日常統計工作中有較大誤差，導致預測結果不合理；②該部分臺區的線損率有異常，可能存在用戶偷竊電行為，需加強管理與核實。

圖7 聚類-2的線性回歸模型系數

圖8 聚類-2臺區實際線損率與預測線損率誤差值

4 結語

在企業的供電管理中，應加大對線損數據的分析預測，這是降低電網線損率的有益舉措，同時也是提高企業供電管理水平的有效手段。使用合理的數據分析模型有以下3方面優勢：①可以找出線損管理工作的不足與降損方向。針對線損較高或居高不下的情況，可以找出電網結構的薄弱環節，以及管理方面存在的問題，確定改善電網結構工作的重點，加強管理，降低線損；②可及時查找出線損升降原因，特別是上升原因，準確掌握每條線路在不同用電季節、各種用電負荷情況下所引起的線損變化規律及特點，以確定降損的主攻方向，以便有針對性地采取降損措施，使電網的線損率降到合理范圍，提高企業的經濟效益和社會效益；③可以找出電網運行存在的問題，確定最佳運行方案。

在實際應用中，需要不斷加強該數據分析模型技術應用于電網數據的管理，提高計量遠程采集管理水平。通過此技術預測各電網指標的運行狀態及偏差值，并及時作出指導建議，為供電工作提供有效的輔助。

[1] 周愛武,于亞飛.K-Means聚類算法的研究[J].計算機技術與發展,2011,21(2):62-65.

[2] 馮能山,林志華,等.一種K-means聚類的改進算法與實現[J].軟件導刊,2012，11(3)：66-70.

[3] 李芳.DE算法在多元線性回歸模型參數估計中的應用[J].軟件導刊,2012,11(6):46-48.

[4] 蕭萍.基于因果圖的測試用例設計及應用[J].軟件導刊,2016,15(4):44-46.

[5] 周天祥.通俗易懂的QCC——矩陣圖法[J].中國質量,2003(12)：59.

[6] 顧軍,王清靈,等.基于SVG的電網功率因數控制系統[J].電力自動化設備,2011(2)：40-43,47.

[7] 于群,曹娜,等.負載率對電力系統自組織臨界狀態的影響分析[J].電力系統自動化,2012(1)：24-27,37.

[8] 周紅艷.配電網理論線損率的分析與預測[D].蕪湖:安徽工程大學,2015.

(責任編輯：黃健)

沈泓(1970-)，女，江蘇常州人，國網江蘇省電力公司常州供電公司電力調度控制中心高級工程師，研究方向為電網調度自動化技術；劉順(1990-)，男，江蘇南京人，江蘇瑞中數據股份有限公司工程師，研究方向為智能分析技術在電網領域的挖掘。

10.11907/rjdk.162534

TP319

1672-7800(2017)003-0103-05