李景民
(吉林工商學院,長春130000)
分類算法在科研管理系統數據挖掘中的應用
李景民
(吉林工商學院,長春130000)
分析了科研管理系統自動分類的現狀,指明了網頁自動分類當前主要采用的是文本自動分類的方法;確定了在分類時的重點和難點問題;提出了一種新型的分類算法,根據實際應用情況將KNN算法和Rocchio算法有機結合,應用了一種Rocchio-KNN分類算法,經實際應用證明,該方法不僅保證了一定的分類準確率,而且還可以提高分類效率。
分類算法;科研管理;數據挖掘;文本分類
在高校的科研管理系統中,隨著數據挖掘技術的發展,網上需要管理的數量龐大,需要對這些數據進行分類,但是傳統管理方法采用人工的方法進行分類,無法完成對龐大數據的大范圍覆蓋,因此自動分類技術已經成為組織和管理在線文本數據的關鍵技術。
從近期的研究結果分析,即使自動分類的準確率不十分高,自動分類的研究對基于內容的信息檢索、Web數據挖掘等應用仍然具有較為深遠的意義。
研究者從不同角度已經提出了很多行之有效的文本分類方法,這些方法大多是基于機器學習方法的,根據其分類原理的不同,分為線性分類器、統計學習分類器、基于實例的分類器、決策樹方法、支持向量機方法等。
線性分類器學習算法的主要目的是建立類的特征向量?;趯嵗膶W習方法也被叫作被動學習方法,此方法的全部處理工作需要延時到分類時才能進行[1],這種方法的缺點是因為缺少必要的訓練,計算的開銷相對比較大,分類的速度相對比較低。其優點是針對每個新的實例可以進行局部的和差異的估算,特別是當目標函數較為復雜的時候,此種處理具備顯著的優勢。
筆者研究的分類系統主要是科研管理系統中面向大規模的網頁集,要求的實時性比較高,因此在確保一定分類準確率的基礎上,分類速度的提升才是我們的側重點。常用的基于向量空間模型,KNN方法雖然是較好的方法之一,但是這種方法復雜性過高,特別是當樣本規模比較大的情況下,其分類速度是較慢的。Rocchio方法雖然是在向量空間模型的架構下最簡單且有效的一種方法,但是它的分類精度不是很高。本文融合了Rocchio及KNN方法的優勢設計了一種Rocchio與KNN相結合的分類器,簡稱Rocchio-KNN分類器。
2.1分類器的分析與設計
分類器的主要功能是訓練學習和自動分類,而KNN的方法沒有訓練學習的過程,因而在訓練學習的階段考慮用Rocchio的方法。Rocchio方法的主要問題是建立合適的類別中心向量。初始項權重、正例平均權重、反例平均權重三部分構成了類別中心向量的項權重[2]。因為我們采用類別獨立的特征選擇方案,網頁的表示也是類別獨立的,所以可以忽略反例平均權重的影響。如何降低KNN的時間復雜性,是在自動分類階段應解決的主要問題。實際可從減少向量比較時的冗余計算和縮小測試樣本的比較范圍兩個層面考慮[3]。減少向量比較時有大量權值為0的項,它們對比較沒有幫助,因此可以不參與運算。
另外一個重點問題是縮小測試樣本的比較范圍,采用只與限定類別的訓練樣本進行比較的方式是一種常用的方法。關鍵在于需要獲得能夠比較的類別,處理方法是引入一個調解因子,類別基準值減去調解因子即成為該類別的閥值[4]。確定K值的辦法是先設定初始值,然后采用實驗的方法進行調整。
2.2分類器的具體實現
根據上述的設計思路,實現Rocchio-KNN分類器的步驟大致分為以下幾步:第一,分析計算不同類別的對應的特征向量,由計算結果推得各類別的相似度閥值。第二,用向量形式表示測試網頁的不同類別,根據余弦距離公式計算其相似度。第三,把大于相似度閥值的樣本組成新的比較集合。第四,集合初始值是空集,的每一項對應測試網頁與相應訓練網頁的距離。第五,簡化測試樣本向量,保留非0的項的權值和位置號,計算被測樣本與中樣本的距離,把計算結果和標識放在中。第六,按升序將中的項目進行排序,計算前K項,確定測試網頁的類別。
2.3實驗數據和效果分析
我們分別利用KNN方法、Rocchio方法和Rocchio-KNN方法進行分類,在此過程中特征詞的抽取使用基于多步過濾漢字結合模式的無詞典特征抽取方法,特征選擇使用基于改進的MI函數的特征選擇方法。因為至今沒有中文訓練及測試語料的標準,所以筆者從某網站收集了由領域專家分類網頁語料1 180個作為訓練語料,得到類別分布表如下:
筆者使用的是開放的測試方法,在不同時段的從某網站上收集與訓練網頁,總數為899個。測試語料庫的類別分布如下:

表1 類別分布表Tab.1 Category distribution table

表2 測試語料庫的類別分布表Tab.2 Test the category distribution table
在網頁分類的過程中,兩個主要的指標是分類準確率和分類速度。評定分類準確率,主要考慮召回率和準確率兩個方面。筆者使用可平衡測量召回率和準確率的F1測量法計算。

測試分類速度過程中,采用KNN方法時事先假設的K=500,采用Rocchio-KNN方法時假設類別相似度調解因子值等于0.1,經測試得到準確率和分類時間的實驗結果如下表所示:

表3 分類準確率實驗結果Tab.3Classification accuracy rate of experimental results table

表4 分類時間實驗結果Tab.4Sorted time results table
通過數據分析發現,使用Rocchio-KNN算法分類準確率較好,分類時間較短。在處理大量的訓練樣本、分類樣本和類別數目的情況下,這種方法更加適合。
本文提出了一種新的自動分類器,經實驗證明,在滿足準確率的條件下,進一步提高了分類效率,能夠適應大規模樣本集實時自動分類的工作。
[1]王昊,鄧三鴻,蘇新寧.中文短文本自動分類中的漢字特征優化研究[J].情報理論與實踐,2015,(06):121-122.
[2]鄭津,景彥昊.中文網頁自動分類構架設計[J].福建電腦,2014,(04):153-154.
[3]李瑞.海量文本信息的Web采集與自動分類研究[D].北京:北京郵電大學,2014.
[4]繆建明,賈廣威,張運良.基于摘要文本的專利快速自動分類方法[J].情報理論與實踐,2016,(08):103-105.
Application of classification algorithm in scientific research management system data mining
LI Jing-min
(Jilin Business and Technology College,Changchun 130000,China)
This paper analyzes the status of research management system automatic classification,indicates the current web page automatic classification method is mainly used in automatic text classification;determines the focus and difficulty in classification;proposes a new classification algorithm,and a Rocchio-KNN classification algorithm was applied whichcan not only guarantee the certain classification accuracy,but also improve the classification efficiency.
Classification algorithms;Research management;Data mining;Text classification
TP311.13
A
1674-8646(2016)19-0058-02
2016-09-12
李景民(1974-),男,副教授,碩士。