韓 戟何成浩蘇 星施成云劉東映
(1.云南電網有限責任公司物資部,昆明 650011;2.云南電網有限責任公司臨滄供電局,云南 臨滄 677000;3.昆明能訊科技有限責任公司,昆明 650051)
一種基于SVM的電力行業物資需求預測方法
韓 戟1何成浩2蘇 星2施成云2劉東映3
(1.云南電網有限責任公司物資部,昆明 650011;2.云南電網有限責任公司臨滄供電局,云南 臨滄 677000;3.昆明能訊科技有限責任公司,昆明 650051)
為了減少物資需求審核工作量,提高審核效率和準確率,提出一種基于SVM的電力行業物資需求預測方法。該方法首先分析歷史樣本數據,把物資需求審核轉換分類問題,然后對數據預處理,結合電力領域知識庫,定義及提取需求特征,最后通過支持向量機訓練出模型,實現對物資采購數量和種類的審核。實驗結果表明,該方法審核精度為87.3%,說明利用領域知識庫,基于能夠SVM的電力行業物資需求預測方法能夠有效提高審核效率和準確率。
支持向量機;分類;領域知識庫;物資采購;審核
隨著電網行業的迅速發展,物資采購量日益增長,迫切需要在物資管理系統中引進一個有效的審核模型,用機器協助人工提出物資采購審核參考意見,以減少審核工作量,提高審核準確率。
近年來,統計機器學習技術突飛猛進,支持向量機(SVM)便是其中顯著代表。支持向量機是以統計學習理論為基礎的一種機器學習方法,它克服了神經網絡和傳統分類器的過學習、局部極值點和維數災難等諸多缺點,具備較強的泛化能力,現已是機器學習的主流方法,在各領域廣為使用,屢試不爽[1-2]。例如,基于SVM的天氣預報,基于SVM的WiFi定位,SVM在微博話題跟蹤的應用等,并且取得良好的效果。
針對電網行業物資需求審核實際情況,審核結果無非就是根據申報的各項來判別提出的需求是合理還是不合理,完全可以符合一個分類問題,根據需求參數把審核結果分為兩類。這樣,就可以采用主流機器學習方法解決審核問題了。同時,該行業上報的物資需求記錄具有不完全結構化、短文本的特點,在當前分類的方法中,SVM是基于統計的機器學習模型,它在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優勢。鑒于SVM的特點,其在小樣本分類問題上的效果已經在文本分類、手寫體識別、自然語言處理等方面得到了驗證[2]。
本文圍繞如何讓電網行業需求計劃審核轉換為一個分類問題,利用歷年經驗數據,通過機器協助審核,減少審核工作量,降低對審核人員的要求,提高審核效率和準確率,提出一種基于SVM的電力行業物資需求預測方法。
本文創造性地提出,將電力行業物資需求預測問題轉換為文本分類問題。基于SVM的電力行業物資需求預測模,首先,抽取物資需求歷史的文本數據,在電力領域知識庫下進行特征提取,特征向量通過SVM進行電力行業文本內容分析模型訓練。然后,選出電力行業物資文本數據,對半結構化數據預處理,進行領域實體識別等信息抽取,確定好物資需求文本特征[3-4]。最后,SVM 通過訓練好的模型,對行業物資需求做出預測。
1.1 電力行業物資需求模型特征選擇
首先對文本進行預處理,預處理包括,分詞、去除停用詞(stop words)、詞頻統計等。首先對電力行業文本進行中文分詞處理,采用中科院計算所的分詞系統接口實現,并在此基礎上借助于電力領域知識詞庫,進行領域詞分詞處理,并進行領域詞標識[5]。文本分詞完成后,由于該半結構化需求文本的特殊性,并沒有停用詞出現,所以不需要去除停用詞這一步驟[7]。本文采用的是NLPIR分詞系統,NLPIR分詞系統在漢語分詞體系架構下增加了對英文詞法分析的支持,可以自動識別英文詞匯的原型、詞性標注、命名實體與關鍵詞;并在當前漢語詞法分析的基礎上,實現了文檔的完整語義分析,自動提取文檔的人名、地名、機構名、文章作者、發布的媒體、關鍵詞與摘要,是當前中文信息處理的必備神器[8-9]。然后掃描文檔,統計出每個詞的詞頻、領域內文檔頻率及非領域內文檔頻率。
巧妙借用文檔聚類的思想,根據基建工程物資需求,整理出一些典型工程樣本,從樣本里選出特征值,對項目名稱、所屬部門、物料等單獨做特征不太靈活的樣本值進行預處理、分詞、實體識別后,進行特征選取,再確定特征集。對于建設性質、項目類別、等級、工期等樣本值可以單獨做特征,得到特征如 2014年臨滄供電局辦公用品(低值易耗品)項目,從中提取為臨滄、供電局、辦公用品 3個特征,建設性質里提取新建、緒建特征等,每一個特征為一維,構造一個SVM向量空間[10-11]。

表1 構建的特征向量
1.2 電力行業物資需求模型訓練
在對文檔進行訓練和分類前,把文檔表示成計算機可以處理的形式[12]。
選擇已審核的物資需求的歷史數據記錄 4000條,將每一條記錄做成一個txt文本,標上類別號。
以預先準備好的4000個訓練文本作為輸入,進行分詞、去停用詞等處理,然后進行TFIDF詞頻統計、縮放等構造標準的輸入向量,格式見表2。
<索引>是以1開始的整數,可以是不連續的,表示在一篇文檔中出現第幾個特征項;<特征值>為實數,在此設為該特征項的權重。
2.1 實驗數據分析
為了驗證提出基于 SVM文本分類方法解決物資需求預測的有效性,本文設計了幾種分類方法的對比實驗,測試語料采用了云南電力近兩年的4000篇歷史審核數據作為領域測試文本。實驗初步選取,將文檔頻率大于一定閾值α 的詞作為特征空間,選取1000維特征空間。分別采用改進TFIDF、DTFIDF方法、WTFIDF方法選擇特征空間和特征權重進行計算。實驗訓練了一個兩類分類器,用于對審核合理文本和不合理文本進行分類。

表2 構建的特征向量

表3 三種不同文本分類方法的時間測試結果
2.2 實驗評價方法
采用準確率、召回率、F值的評價方法,具體評價參數見表4。

表4 三種不同文本分類方法的時間測試結果
2.3 實驗結果分析
實驗結果表明:測試的準確率為 87.8,召回率為97.825,而準確率的沒有達到90%以上原因是,系統中很多細節方面有待改進,比如文本預處理提高,一些特征不易獲取等都直接影響到審核的準確率;表明該模型對解決實際問題還未考慮周全,有待進一步融合更多特征。
本文針對電網行業物資需求審核準確率和效率問題,提出了一種基于SVM的電力行業物資需求預測模型。通過把物資需求審核轉換為分類問題,對歷史采購數據進行預處理,利用領域知識庫,抽出特征轉換成特征向量,由支持向量機訓練成模型,實現物資采購種類預測,物資采購數量預測。實驗結果表明,本方法相對于同類分類方法精度高、可靠性好。需要說明的是,①本文的數據來源于歷年項目采購數據,這些數據不包含那些難于獲得的特征,比如地理環境,天氣狀況以及工程項目更詳細的信息等,這些特征也是影響物資需求的重要因素;②隨著時間的推移,技術革新,原模型沒有的一些新的零件,物品涌現,預測精度自然會下降;③如何獲得這些特征并融合進模型來提升預測準確率,如何提升對新物品的采購數量和種類預測的準確率,是下一階段研究的重點。
[1]代六玲,黃河燕,陳肇雄.中文文本分類中特征抽取方法的比較研究[J].中文信息學報,2004,18(1): 26-32.
[2]Chih-Chung Chang,Chih-Jen Lin,LIBSVM:a Library for Support Vector Machines[DB/OL].http://www.csie.ntu.edu.tw/cjlin/libsv,2001-05-15/2003-10-25.
[3]劉麗珍,宋瀚濤.文本分類中的特征選取[J].計算機工程,2004,30(4): 14-15,175.
[4]劉曉志,黃厚寬,尚文倩.帶專業詞庫的特征選擇[J].北京交通大學學報(自然科學版),2006,30(2): 97-100.
[5]張玉芳,彭時名,呂佳.基于文本分類 TFIDF方法的改進與應用[J].計算機工程,2006,32(19): 76-78.
[6]張學工.關于統計學習理論與支持向量機[J].自動化學報,2000,26(1): 32-42.
[7]文勖,張宇,劉挺,等.基于句法結構分析的中文問題分類[J].中文信息學報,2006,20(2): 33-39.
[8]俞鴻魁,張華平,劉群,等.基于層疊隱馬爾可夫模型的中文命名實體識別[J].通信學報,2006,27(2): 87-94.
[9]周俊生,戴新宇,尹存燕,等.基于層疊條件隨機場模型的中文機構名自動識別[J].電子學報,2006,34(5): 804-809.
[10]王浩暢,趙鐵軍.基于SVM的生物醫學命名實體的識別[J].哈爾濱工程大學學報,2006,27(z1): 570-574.
[11]陳錦,常致全,許軍.基于HMM的生物醫學命名實體的識別與分類[J].計算機時代,2006(10): 40-42.
[12]劉非凡,趙軍,呂碧波,等.面向商務信息抽取的產品命名實體識別研究[J].中文信息學報,2006,20(1): 7-13.
The Kind of Electric Power Industry Material Demand Forecasting Method based on SVM
Han Ji1He Chenghao2Su Xing2Shi Chengyun2Liu Dongying3
(1.Yunnan Power Grid Co.,Ltd,Kunming 650011;2.Yunnan Power Grid Co.,Ltd,Lincang Power Supply Bureau,Lincang,Yunnan 677000;3.Kunming NXScience and Technology Co.,Ltd,Kunming 650051)
The method,based on SVM,a kind of electric power industry material demand forecasts ,has been proposed,in order to reduce audit work of the material demand,improving the efficiency and accuracy.Firstly,the method analyzed historical sample data and translated materials demand audit into classification problem.Secondly,it need preprocessing the data,making it standardization.Defining and extracting demand characteristics by combining power domain knowledge base.Finally,support vector machine,by training model,finished the audit work on types and amounts of material purchase.
SVM; classification; domain knowledge base; material purchasing; review
云南電網有限公司科技項目基金資助項目(YNKJ00000099)
韓 戟(1971-),男,山東省濟南市章丘市人,本科,高級經濟師,主要從事物資倉儲配送、招標采購與綜合管理工作。