鄭細端
(福建工程學院管理學院 福州 350118)
?
增強的K-均值算法在城市能源計量數據平臺的應用研究*
鄭細端
(福建工程學院管理學院福州350118)
摘要能源的節能降耗一直是個熱點問題,論文根據Oracle數據挖掘流程,運用Oracle Data Miner,闡述了如何將ODM增強的K-均值聚類算法應用于城市能源計量數據平臺。選定某公司的煤耗數據為研究對象,對增強的K-均值聚類算法結果進行分析,為行業發展提供科學決策。
關鍵詞Oracle數據挖掘; 增強的K-均值算法; Oracle Data Miner; 數據挖掘
Class NumberTP393
知識挖掘的主要步驟有:數據清洗、數據集成、數據轉換、數據挖掘、模式評估、知識表示。人們常使用“數據挖掘”來表示整個知識挖掘過程[1~2]。國家城市能源計量中心(福建)把城市能源計量數據平臺的建設作為工作重點。該平臺利用能源數據采集終端對煤、水、油、氣、電等能耗數據進行采集和科學計量。如何充分利用采集數據分析能耗情況,獲得數據信息價值,提高數據準確性、降低虛假程度、精細管理,促進節能降耗,縮小成本,提高企業競爭力,為行業發展提供策略依據,已成為亟待解決的問題[3]。
2.1Oracle數據挖掘流程
Oracle數據挖掘(Oracle Data Mining,ODM)支持數據挖掘的跨行業標準流程CRISP-DM(Cross Industry Standard Process for Data Mining),流程構成如圖1所示[4~5]。
1) 確定應用問題:確定應用目標,背景分析,確定數據挖掘目的、工具和技術。
2) 數據采集和準備:利用能源數據采集終端進行數據采集,并用相關技術對數據進行預處理,完成ODM模型應用的數據準備。
3) 建模和評估:通過不斷調試設置參數選項,進行過程控制,評估模型結果,測試數據挖掘目標是否達到。
4) 部署分析:分析數據挖掘結果,做出部署計劃,做好監測和維護,回顧數據挖掘流程,預測下一步的數據挖掘工作[3~6]。

圖1 Oracle數據挖掘過程
2.2增強的K-均值算法
ODM增強的K-均值(Enhanced K-means,EKM)聚類算法,是在保持傳統的K-均值算法優點基礎上,用與層次有關的方式加以改進[7~8],具有以下特點:
1) 以分層方式構建模型。采用二進制構建了一個自頂向下分裂模型,在結點形成簇后繼續分裂和細化。在層次結構中以內部節點的質心改變來反映樹的變化,返回整棵樹。
2) 建成的樹可形成平衡和不平衡兩種樹。分裂最大的結點,增加樹的大小,直到達到所需葉簇的數量。
3) 提供聚類數據的概率計分和分配。
4) 有一個內部數據匯總的步驟,允許具有大量案例的數據集。
5) 返回時,為每個簇返回一個質心、直方圖、和規則。質心報告了分類屬性或數值屬性的均值和方差模式。
增強的K-均值的這種漸進的方式,避免了需要建設多個K-均值模型,并提供始終優于傳統的K-均值聚類結果。
2.3Oracle數據挖掘工具
Oracle Data Miner是Oracle Data Mining提供的一個圖形用戶界面(GUI)[9~10]。生成的代碼只使用PL/SQL和SQL,不生成Java代碼,但是生成的PL/SQL包,可以從一個Java程序中使用JDBC調用[10~11]。Oracle Data Miner在Tools->Publish as Database Table,可發布以下數據挖掘結果:屬性重要性、關聯規則、應用結果、決策樹規則、聚類規則、分類測試度量、表或視圖[3~12]。
3.1確定應用問題
富煤、少氣、貧油是我國的能源結構,煤炭是重要的一次能源[5]。所以煤炭行業要參與各種發展機制,發展煤炭能源策略,促進并落實節能降耗,同時也要為以煤作為原料的企業減少成本,提高競爭力。因此選定煤耗數據為增強的K-均值算法的研究對象[3]。
3.2數據采集和準備
3.2.1數據集說明
能源數據采集終端包括記錄ID、數據段信息FILEDINFOID、設備唯一標識碼MN、采集時間DATATIME、通信代碼PARAMNO、通信字段CPNO、傳輸值VALUE等字段。數據集中通信代碼A01代表一線原煤1路、A02代表二線原煤1路、A03代表一線原煤2路、A04代表二線原煤2路[3]。
3.2.2數據預處理
數據預處理是數據挖掘過程的重要工作。數據預處理得精妙與否直接影響數據分析的成敗[1,3]。首先,通過SQL語句進行數據清洗去除不規范數據;然后,篩選出大于0的煤炭數據,集成到統一格式的Excel表中;最后,用寫字板把數據轉換成能導入Oracle Data Miner中的文本文件格式。

圖2 數據預處理后的部分數據
經分析和篩選,ID、DATATIME、PARAMNO、和VALUE四個字段會影響數據挖掘結果,完成應用于Oracle Data Mining的增強的K-均值算法的數據準備。部分數據結果形式如圖2所示[3]。
3.3增強的K-均值算法應用
1) 建立模型
增強的K-均值是以分層方式構建模型的,最終形成平衡或不平衡二叉樹[1]。按Oracle Data Miner的既定模式建模,在Advanced Settings Dialog對話框中EMK算法的具體參數設置如下[12]:
· 樣本(Sample):樣本總數選擇Retrieve Case Count自行計算,樣本類型為隨機,創建為表格,樣本大小中事件和隨機迭代數按默認設置,其中的Percentage of cases自動計算為39.63%;
· 異常處理(Outlier Treatment):中斷點按標準誤差形式(i取3),并以邊界值進行替代;
· 缺失值(Missing Values):均值代數值形式替,模式代替分類形式;
· 正常化(Normalize):非稀疏屬性按最大最小的默認形式,最大值為1,最小值為0,稀疏屬性按線性比例處理;
· 建模屬性(Build):葉簇數量設置為4,按歐幾里德距離函數進行聚類,分類標準是按標準方差的形式,最小容錯率為0.1,最大的迭代次數為2,最小支持度為0.1,分箱的數量為4,塊增長為2。
增強的K-均值算法生成的層次二叉樹如圖3所示,其中葉結點(2、4、6、7)即為葉簇的數目。


圖3 增強的K-均值算法生成的層次二叉樹
從Detail按扭,即可查詢每個簇屬性的質心報告和直方圖,圖4是其中一個簇的質心和屬性直方圖,增強的K-均值所獲得的簇的質心情況如表1所示。

圖4 增強的K-均值算法A04部分簇的質心和屬性直方圖

PARAMNOVALUE(噸)A016.6409A029.8217A0311.4524A049.142
A01~A04分別代表四個采煤點,因為分布于不同的地方,所以需要通過四條線路進行數據采集。由圖4直方圖示意每路數據的分布百分比和表1的質心報告可知,應用增強的K-均值算法可得A01-A04四條通信線路的質心分別為:6.6409噸、9.8217噸、11.4524噸、9.142噸,即四條線路所采集的煤數據的大致消耗情況。
2) 生成規則
在生成的二叉樹中,每個葉簇都代表著一條判定規則。例如從根節點1到葉結點2對應的規則如下:
IF PARAMNO in (A04) and VALUE >= 0.0039 and VALUE <= 19.065975 THEN Cluster equal 2 Confidence (%)=94.71873129862361 and Support =6331
規則解釋如下:如果PARAMNO為(A04)、VALUE值在(0.0039,19.065975)之間,那么它屬于簇2,置信度為94.72%,一共有6331支持數。
EKM算法根據所設置的參數,所獲得的規則置信度,即準確率較高,一共生成了四條規則,另外三個葉結點4、6、7對應的規則如下:
(1)IF PARAMNO in (A03) and VALUE >= 0.0039 and VALUE <= 25.42 THEN Cluster equal 4 Confidence (%)=100.0 and Support =6509。
(2)IF PARAMNO in (A02) and VALUE >= 0.0039 and VALUE <= 19.065975 THEN Cluster equal 6 Confidence (%)=98.36715282181359 and Support =6205。
(3)IF PARAMNO in (A01) and VALUE >= 0.0039 and VALUE <= 12.71195 THEN Cluster equal 7 Confidence (%)=91.1041339612768 and Support =5223。
3) 模型應用
將生成質心、屬性直方圖和規則的模型應用于預處理后的煤耗數據。由算法原理可知,增強的K-均值算法所有組件有相同的方差,符合貝葉斯概率模型的數據點分配到相應的簇中。圖5是模型應用的部分結果。

圖5 增強的K-均值算法應用結果
PROBABILITY即為概率模型,也相對于算法形成的葉簇所對應的規則,由圖5的結果顯示可知,增強的K-均值算法的應用效果好,準確率高,在設置參數下應用,概率均為1,說明Oracle Data Mining數據挖掘工具聚類算法在煤耗數據應用分析確實可行。每個葉簇,所對應的規則如下:
葉簇2:VALUE less Or Equal 0.75 AND VALUE greater Or Equal 0.0;
葉簇4:VALUE less Or Equal 1.0 AND VALUE greater Or Equal 0.0;
葉簇6:VALUE less Or Equal 0.75 AND VALUE greater Or Equal 0.0;
葉簇7:VALUE less Or Equal 0.5 AND VALUE greater Or Equal 0.0。
3.4應用結果分析與說明
從增強的K-均值算法模型的應用表明,該數據挖掘算法在城市能源計量數據平臺的應用確實可行,運用所獲的數據挖掘結果有較高的準確率。在數據形式的應用中,增強的K-均值算法有較好的容忍度,對缺失值和“0”值較為敏感,處理不當會影響數據挖掘結果。下面對增強的K-均值(EKM)算法挖掘出的煤耗數據知識進行說明[3]:
1) 從時間的記錄,如“12.03.11.00”、“12.03.11.23”說明該公司的運作是24小時流水線作業。從能源數據采集終端的記錄可知,終端對數據的采集穩定。
2) 終端采集的煤耗數據中有諸如0.0000等異常值,A01~A04四個采集點所采集的煤耗數據情況有差異。
3) 該公司屬于煤耗萬噸的企業,需要改進的是煤耗熱量的外排處理,確實落實節能減排工作。
結合著能源的節能降耗的熱點問題,將數據挖掘技術應用在城市能源計量平臺中具有較高的研究價值和實踐指導意義。節能減耗工作的有效落實任重道遠,希望增強的K-均值算法在城市能源計量數據平臺應用的數據挖掘結果,能為煤炭行業的發展提供參考意見,也為其他能源行業帶來借鑒依據。
參 考 文 獻
[1] 馮寵亮.數據挖掘中若干關鍵算法的研究[D].西安:西安電子科技大學,2010.
FENG Hongliang. Some Critical Algorithms Study of Data Mining[D]. Xi’an: Xidian University,2010.
[2] 蔡少偉.數據挖掘在入侵檢測中的應用研究[D].廣州:華南理工大學,2010.
CAI Shaowei. Application Research on Data Mining to Intrusion Detection[D]. Guangzhou: South China University of Technology,2010.
[3] 鄭細端.Oracle數據挖掘在城市能源計量數據平臺的應用[J].計算機與數字工程,2014,32(7):1299-1302.ZHENG Xiduan. Application of Oracl Data Mining in the Urban Energy Measurement Data Platform[J]. Computer & Digital Engineering,2014,42(7):1299-1302.
[4] 石磊.數據挖掘在金融業中的應用[D].上海:上海交通大學,2011.
SHI Lei. Data Mining in Finance by Discussing IPO Underpricing[D]. Shanghai: Shanghai Jiaotong University,2011.
[5] 白冬艷.數據挖掘在煤炭綜合統計系統的應用研究[D].邯鄲:河北工程大學,2010.
BAI Dongyan. Application and Research of Data Mining in Comprehensive Statistic System for Coal Enterprise[D]. Handan: Hebei University of Engineering,2010.
[6] 張虹波,匡銀虎.一種應用ODM的人侵檢測原型系統[J].計算機與現代化,2009(9):92-95.
ZHANG Hongbo, KUANG Yinhu. Model of Instrsion Decection on System Based on ODM[J]. Computer and Modernization,2009(9):92-95.
[7] 左國才,楊金民.K-means算法在電信CRM客戶分類中的應用[J].計算機系統應用,2010,19(2):155-159.
ZUO Guocai, YANG Jinmin. K-means Algorithun for CRM Customers in the Telecommunications Classification[J]. Computer Systems & Applications,2010,19(2):155-159.
[8] 吳湘寧,胡炫,胡光道.Oracle中使用支持向量機的時間序列預測方法[J].計算機工程與應用,2013,49(14):121-125.
WU Xiangning, HU Xian, HU Guangdao. Applying Support Vector Machines to Time Series Prediction in Oracle[J]. Computer Engineering and Applications,2013,49(14):121-125.
[9] 司桂琴.基于GIS數據庫的數據挖掘研究[D].烏魯木齊:新疆大學,2011.
SI Guiqin. Research of Data Mining Based on GIS Database[D]. Urumqi: Xinjiang University,2011.
[10] 王春華.基于互聯網的人力資源供求信息挖掘分析系統研究與實現[D].濟南:山東大學,2011.
WANG Chuahua. Based on the Internet Human resources Supply and Demang Information Minging Analysis System Research and Implemetation[D]. Jinan: Shandong University,2011.
[11] 張濤.ODM數據挖掘技術在塔河數字營林中的探索與研究[D].哈爾濱:東北林業大學,2007.
ZHANG Tao. Exporation and Research of ODM Data Mining to Forest Management in Tahe[D]. Harbin: Northeast Forestry Universiy,2007.
[12] Oracle 10g Release 2 Data Mining Tutorial April 2006 Copyright, Oracle. All rights reserved,2006.
收稿日期:2015年10月9日,修回日期:2015年11月25日
作者簡介:鄭細端,女,碩士研究生,助教,研究方向:系統工程、管理科學、數據挖掘、計算機審計、計算機過程控制系統等。
中圖分類號TP393
DOI:10.3969/j.issn.1672-9722.2016.04.041
Application of Enhanced K-means Algorithm in Urban Energy Measurement Data Platform
ZHENG Xiduan
(School of Management, Fujian University of Technology, Fuzhou350118)
AbstractSaving energy and reducing consumption of energy have always been a hot issue. According to oracle data mining process. The application of Enhanced K-means algorithm in the urban energy measurement data platform is described by using data mining tools Oracle Data Miner(ODM). A company’s coal consumption in Fujian is selected as the research object. Scientific decision will be provided to coal industry by analyzing the results of the Enhanced K-means clustering algorithm.
Key WordsOracle data mining, enhanced K-means algorithm, Oracle Data Miner, data mining