王 瑛,雷書彧,趙學軍
(中國礦業大學 (北京)機電與信息工程學院,北京 100083)
基于ID3算法的煤礦技術創新能力研究
王 瑛,雷書彧,趙學軍
(中國礦業大學 (北京)機電與信息工程學院,北京 100083)
煤礦的技術創新能力是評價綠色礦山的關鍵指標之一,對于完善礦產資源管理共同責任機制、全面規范礦產資源開發秩序、促進科學發展新機制具有重要意義。論文綜合綠色礦山建設與評價的煤礦企業數據,使用數據挖掘技術給出一個比較合理的評價規則,通過評價規則構建煤礦技術創新能力評價模型。其主要方法及流程是計算技術創新能力評價指標的信息熵,以其數值大小作為分類節點排序依據,通過合理剪枝形成決策樹,完整的決策樹便對應完整的評價規則。將原始數據帶入決策規則,得出準確評價,并驗證了評價規則的正確性。
技術創新能力;ID3算法;決策樹
我國正處于工業化、城鎮化發展的關鍵階段,資源需求剛性上升,資源環境壓力日益增大,加強生態文明制度建設,把資源消耗、環境損害、生態效益納入經濟社會發展評價體系,建立體現生態文明要求的目標體系、考核辦法、獎懲機制是立足國內提高能源資源保障能力的現實選擇,對我國經濟社會發展具有十分重要的現實意義和深遠的戰略意義。
然而多年來,綠色礦山評價缺乏統一標準,評價主管決策因素太大,有失公平。因此,國土資源部提出創建一個統一的綠色礦山評價標準,而礦山企業的技術創新能力作為重要的評價內容列入其中。
在此背景下,本文專門研究礦山企業中煤礦的技術創新能力評價體系,運用數據挖掘技術中的ID3決策樹算法,在很大程度上提高了評價準確度,為評選綠色礦山企業提供了可靠的依據,同時也為煤礦企業在技術創新領域的效果做出分析,便于進一步改進提高。
1.1 ID3算法模型
ID3算法是Quinlan于1979年提出的一種經典的決策樹算法,此算法將屬性的信息增益作為各級結點的屬性選擇標準。在幾種決策樹算法中,ID3算法可以說是最有影響力的。為了實現達到以最小信息量最大程度對測試數據分類目的,樣本劃分的測試屬性要選擇信息增益最大的屬性。該算法內容概括如下:
樹從訓練樣本的某單個結點開始,若樣本都屬于同一類,那么該結點成為樹葉,分類結束,用該類標號。如果樣本屬性不屬于同一個類,算法使用信息增益度量作為啟發信息,來計算能將樣本最好地分類的屬性。計算出的屬性便是該節點的測試屬性。在此算法中,所有的屬性都是要分類的,即本算法只適用于離散值,如果是連續屬性的話必須進行離散化。對每個已知的測試屬性值都要創建一個分支,以此來劃分樣本。根據以上步驟,遞歸此算法形成樣本判定樹。每個分支上的屬性只會出現一次,一旦使用某屬性對樣本集劃分后,此屬性在這個分支上就不會出現了。
遞歸劃分步驟只要出現下列條件便會停止:①所有屬性都以完成對樣本的劃分;②所有樣本屬于同一類;③某個測試屬性值上已經沒有樣本。
測試屬性的取值是樣本集的劃分依據,樣本集將劃分為多少子樣本集取決于測試屬性有多少不同取值。以信息增益度量作為選擇測試屬性的依據,屬性的信息增益越大就越重要,也就更靠近根節點,所以要選擇具有最高信息增益的屬性作為當前結點的測試屬性。由于采用此信息理論方法可以使一個對象分類的期望測試數目最小,以保證能找到一棵簡單的樹。
設S是s個數據樣本的集合,類標號屬性有m個不同值,并定義 n個不同類 Ci(i=1,2,...,n)。設Si是類中的樣本數,則對一個樣本分類所需的期望信息為:

其中,pi—任意樣本屬于的概率,用Si/S表示。設屬性A具有v個不同值{a1,a2,...av},可以用屬性A將S劃分為v個子集{S1,S2,...,Sv},在屬性A上,Si中的樣本的取值為aj。設子集中類Ci的樣本數為sij,則屬性A的熵可以這樣計算:


Gain(A)=I(s1,s2,...sm)-E(A)
通過上述公式計算每個屬性的信息增益,選擇具有最高信息增益的屬性作為集第一個屬性,即根節點的決策屬性,當創建結點之后,對屬性的每個值分別創建分枝,劃分樣本。
引入信息增益的概念是ID3算法的一大特點。該算法應用簡單,基礎理論清晰。該算法的計算時間是結點個數、例子個數和特征個數之積的線性函數。由于目標函數一定在搜索空間中,而搜索空間又是完全的假設空間,所以此算法一定有解。該算法不是像候選剪除算法逐個地考慮訓練例,而是全盤使用訓練數據,這樣的優點是可以抵抗噪音,利用全部訓練例的統計性質進行決策。
總的來說,ID3算法是一種具有實用價值的學習算法,它的學習能力較強,基礎理論清晰,算法較簡單,是機器學習和數據挖掘領域中的一個經典方法。
1.2 ID3算法應用
構建煤礦技術創新能力評價數據集。根據煤礦技術創新能力評價指標體系,選擇了11家煤礦的技術創新數據,并將其整理,如表1所示。

表1 煤礦技術創新基礎數據
由于分類屬性太多,而當前的訓練集數據太少,若按照當前分類建模,準確率會很低,在實驗后得到的準確率為9.0909%,不符合要求。若根據指標權值合并劃分屬性,將原先的22個屬性合并到4個。并用等寬間距法將每個屬性五等分,由高到低劃分為5個級別,對原始數據進行數據處理,得到處理后的數據集如表2所示。
對訓練集進行標準化后,用ID3算法進行分類并計算,得到結果如圖1所示。從圖中可以看到,通過對屬性的合并以及對原始訓練集數據進行相應轉換后,再次運用ID3算法得到的分類模型比之前的分類準確率高出很多,達到63.6364%,這說明對于當前訓練集的劃分屬性改進是比較正確的,也得到了更為理想的結果。根據上圖中的分類規則創建對應的決策樹。如圖2所示。

表2 劃分為五個級別的處理數據

圖1 計算結果

圖2 數據決策樹
解析上圖的決策規則為:


以上為最終得到的分類規則,即評價模型,通過此模型可以對其他實例進行劃分,得到相應的分類。
本論文運用數據挖掘中ID3算法,通過對煤礦技術創新能力數據研究分析,產生決策規則,通過對決策規則進行驗證,正確率較高,基本能夠反映煤礦的技術創新能力。
由于訓練集數據量小,采用了合并指標的辦法來減少劃分屬性,其中引入的專家權值造成了一定的主觀影響。
[1]陳燕.數據挖掘技術與應用[M].北京:清華大學出版社,2010.
[2]王宏云.基于數據挖掘的煤礦安全監測系統研究[D].遼寧工程技術大學,2009,12.
[3]彭蓬.基于神經網絡的煤礦企業技術創新能力評價及經濟學分析[J].煤礦現代化,2008,87.
[4]馮陳雷.基于決策樹方法的煤炭企業效績評價研究[D].山東科技大學,2007,5.
[5]J Ciurana,G.Quintana,M.L.Garcia-Romeu.Estimating the cost of vertical high-speed machining centers,a comparison between multiple regression analysis and the neural networks approach[J].International Journal of Production Economics,2008,1.
[6]王濤,李舟軍,顏躍進,陳火旺.數據流挖掘分類技術綜述[J].計算機研究與發展,2007,11.
Research on Coal Mining Technological Innovative Ability Based on ID3 Algorithm
WANG Ying,LEI Shu-Yu,ZHAO Xue-Jun
(School of Mechanical Electronic&Information,China University of Mining&Technology(Beijing),Beijing 100083,China)
The technological innovative ability of coal mine is one of the key indicators for green mine evaluation.It is of great significance to improving the shared responsibility mechanism of mineral resources management,total normalization on mineral resources development order and promoting scientific development new mechanisms.The paper give a reasonable evaluation rule through synthesis of the green mine construction and evaluation of coal mine enterprise data und using data mining.Then through the evaluation rule a coal mining technological innovation ability evaluation model can be built.Its main method process is that calculating the information entropy technology innovation ability evaluation indexes,according to the classification node order by the numerical size and through a decision tree’s reasonable pruning,finally a complete decision tree can correspond to the complete evaluation rule.Taking original data into the decision rule and obtaining the accurate evaluation,the correctness of the evaluation rule can be verified.
technological innovative ability;ID3 algorithm;decision tree
F4
:Adoi:10.3969/j.issn.1002-6673.2014.03.002
1002-6673(2014)03-003-03
2014-03-31
項目來源:2012年度國土資源公益性行業科研專項(綠色煤炭礦山標準研究-201211003)
王瑛(1972-),女,工程師,畢業于北京師范大學,目前就職于中國礦業大學(北京)機電與信息工程學院。