999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分類算法在科研管理系統數據挖掘中的應用

2016-12-01 08:18:14李景民
黑龍江科學 2016年19期
關鍵詞:分類方法

李景民

(吉林工商學院,長春130000)

分類算法在科研管理系統數據挖掘中的應用

李景民

(吉林工商學院,長春130000)

分析了科研管理系統自動分類的現狀,指明了網頁自動分類當前主要采用的是文本自動分類的方法;確定了在分類時的重點和難點問題;提出了一種新型的分類算法,根據實際應用情況將KNN算法和Rocchio算法有機結合,應用了一種Rocchio-KNN分類算法,經實際應用證明,該方法不僅保證了一定的分類準確率,而且還可以提高分類效率。

分類算法;科研管理;數據挖掘;文本分類

在高校的科研管理系統中,隨著數據挖掘技術的發展,網上需要管理的數量龐大,需要對這些數據進行分類,但是傳統管理方法采用人工的方法進行分類,無法完成對龐大數據的大范圍覆蓋,因此自動分類技術已經成為組織和管理在線文本數據的關鍵技術。

從近期的研究結果分析,即使自動分類的準確率不十分高,自動分類的研究對基于內容的信息檢索、Web數據挖掘等應用仍然具有較為深遠的意義。

1 自動分類技術的應用概況和主要存在的問題

研究者從不同角度已經提出了很多行之有效的文本分類方法,這些方法大多是基于機器學習方法的,根據其分類原理的不同,分為線性分類器、統計學習分類器、基于實例的分類器、決策樹方法、支持向量機方法等。

線性分類器學習算法的主要目的是建立類的特征向量?;趯嵗膶W習方法也被叫作被動學習方法,此方法的全部處理工作需要延時到分類時才能進行[1],這種方法的缺點是因為缺少必要的訓練,計算的開銷相對比較大,分類的速度相對比較低。其優點是針對每個新的實例可以進行局部的和差異的估算,特別是當目標函數較為復雜的時候,此種處理具備顯著的優勢。

2 新分類器的基本設計思路和實現步驟

筆者研究的分類系統主要是科研管理系統中面向大規模的網頁集,要求的實時性比較高,因此在確保一定分類準確率的基礎上,分類速度的提升才是我們的側重點。常用的基于向量空間模型,KNN方法雖然是較好的方法之一,但是這種方法復雜性過高,特別是當樣本規模比較大的情況下,其分類速度是較慢的。Rocchio方法雖然是在向量空間模型的架構下最簡單且有效的一種方法,但是它的分類精度不是很高。本文融合了Rocchio及KNN方法的優勢設計了一種Rocchio與KNN相結合的分類器,簡稱Rocchio-KNN分類器。

2.1分類器的分析與設計

分類器的主要功能是訓練學習和自動分類,而KNN的方法沒有訓練學習的過程,因而在訓練學習的階段考慮用Rocchio的方法。Rocchio方法的主要問題是建立合適的類別中心向量。初始項權重、正例平均權重、反例平均權重三部分構成了類別中心向量的項權重[2]。因為我們采用類別獨立的特征選擇方案,網頁的表示也是類別獨立的,所以可以忽略反例平均權重的影響。如何降低KNN的時間復雜性,是在自動分類階段應解決的主要問題。實際可從減少向量比較時的冗余計算和縮小測試樣本的比較范圍兩個層面考慮[3]。減少向量比較時有大量權值為0的項,它們對比較沒有幫助,因此可以不參與運算。

另外一個重點問題是縮小測試樣本的比較范圍,采用只與限定類別的訓練樣本進行比較的方式是一種常用的方法。關鍵在于需要獲得能夠比較的類別,處理方法是引入一個調解因子,類別基準值減去調解因子即成為該類別的閥值[4]。確定K值的辦法是先設定初始值,然后采用實驗的方法進行調整。

2.2分類器的具體實現

根據上述的設計思路,實現Rocchio-KNN分類器的步驟大致分為以下幾步:第一,分析計算不同類別的對應的特征向量,由計算結果推得各類別的相似度閥值。第二,用向量形式表示測試網頁的不同類別,根據余弦距離公式計算其相似度。第三,把大于相似度閥值的樣本組成新的比較集合。第四,集合初始值是空集,的每一項對應測試網頁與相應訓練網頁的距離。第五,簡化測試樣本向量,保留非0的項的權值和位置號,計算被測樣本與中樣本的距離,把計算結果和標識放在中。第六,按升序將中的項目進行排序,計算前K項,確定測試網頁的類別。

2.3實驗數據和效果分析

我們分別利用KNN方法、Rocchio方法和Rocchio-KNN方法進行分類,在此過程中特征詞的抽取使用基于多步過濾漢字結合模式的無詞典特征抽取方法,特征選擇使用基于改進的MI函數的特征選擇方法。因為至今沒有中文訓練及測試語料的標準,所以筆者從某網站收集了由領域專家分類網頁語料1 180個作為訓練語料,得到類別分布表如下:

筆者使用的是開放的測試方法,在不同時段的從某網站上收集與訓練網頁,總數為899個。測試語料庫的類別分布如下:

表1 類別分布表Tab.1 Category distribution table

表2 測試語料庫的類別分布表Tab.2 Test the category distribution table

在網頁分類的過程中,兩個主要的指標是分類準確率和分類速度。評定分類準確率,主要考慮召回率和準確率兩個方面。筆者使用可平衡測量召回率和準確率的F1測量法計算。

測試分類速度過程中,采用KNN方法時事先假設的K=500,采用Rocchio-KNN方法時假設類別相似度調解因子值等于0.1,經測試得到準確率和分類時間的實驗結果如下表所示:

表3 分類準確率實驗結果Tab.3Classification accuracy rate of experimental results table

表4 分類時間實驗結果Tab.4Sorted time results table

通過數據分析發現,使用Rocchio-KNN算法分類準確率較好,分類時間較短。在處理大量的訓練樣本、分類樣本和類別數目的情況下,這種方法更加適合。

3 總結

本文提出了一種新的自動分類器,經實驗證明,在滿足準確率的條件下,進一步提高了分類效率,能夠適應大規模樣本集實時自動分類的工作。

[1]王昊,鄧三鴻,蘇新寧.中文短文本自動分類中的漢字特征優化研究[J].情報理論與實踐,2015,(06):121-122.

[2]鄭津,景彥昊.中文網頁自動分類構架設計[J].福建電腦,2014,(04):153-154.

[3]李瑞.海量文本信息的Web采集與自動分類研究[D].北京:北京郵電大學,2014.

[4]繆建明,賈廣威,張運良.基于摘要文本的專利快速自動分類方法[J].情報理論與實踐,2016,(08):103-105.

Application of classification algorithm in scientific research management system data mining

LI Jing-min
(Jilin Business and Technology College,Changchun 130000,China)

This paper analyzes the status of research management system automatic classification,indicates the current web page automatic classification method is mainly used in automatic text classification;determines the focus and difficulty in classification;proposes a new classification algorithm,and a Rocchio-KNN classification algorithm was applied whichcan not only guarantee the certain classification accuracy,but also improve the classification efficiency.

Classification algorithms;Research management;Data mining;Text classification

TP311.13

A

1674-8646(2016)19-0058-02

2016-09-12

李景民(1974-),男,副教授,碩士。

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 国产精品不卡片视频免费观看| 精品三级网站| 亚洲人成网站18禁动漫无码| 国产成人亚洲无码淙合青草| 丁香六月综合网| 丰满人妻一区二区三区视频| 国产簧片免费在线播放| 欧美成人免费午夜全| 欧美日韩第三页| 国产欧美日韩资源在线观看| av无码久久精品| 丁香五月激情图片| 五月婷婷丁香色| 欧美精品不卡| 亚洲激情99| 欧美成人在线免费| 国产性精品| 丁香亚洲综合五月天婷婷| 亚洲一区毛片| 国产色婷婷| 福利一区在线| 国产乱子伦无码精品小说| 美女视频黄频a免费高清不卡| 日韩经典精品无码一区二区| 亚洲国产成熟视频在线多多| 国产三级韩国三级理| 一级毛片无毒不卡直接观看| 伦精品一区二区三区视频| 青青操国产视频| 日本在线欧美在线| 国产91丝袜在线播放动漫 | 成人一级免费视频| 国产国产人在线成免费视频狼人色| 狠狠ⅴ日韩v欧美v天堂| 久热中文字幕在线| 91青草视频| 免费一级毛片在线播放傲雪网| 欧美另类视频一区二区三区| 思思99热精品在线| 国产噜噜噜视频在线观看| 亚洲免费福利视频| 日韩精品免费一线在线观看| 国产精品男人的天堂| 丰满少妇αⅴ无码区| 热99精品视频| 国产尤物在线播放| AV无码一区二区三区四区| 国内精品一区二区在线观看| 丁香五月激情图片| 亚洲电影天堂在线国语对白| 免费观看三级毛片| 无码啪啪精品天堂浪潮av| 精品91自产拍在线| 亚洲国产av无码综合原创国产| 国产毛片高清一级国语| 久久婷婷六月| 一级毛片无毒不卡直接观看| 成人av手机在线观看| 幺女国产一级毛片| 亚洲精品自拍区在线观看| 国产精品深爱在线| 精品福利网| 伊人91在线| 色网在线视频| 亚洲乱强伦| 亚洲日韩精品无码专区97| 欧美日韩高清| 成人午夜视频网站| 高清大学生毛片一级| 亚洲国产精品美女| 精品国产欧美精品v| 欧美精品v欧洲精品| 欧美日韩国产在线播放| 三上悠亚精品二区在线观看| 在线观看91香蕉国产免费| 亚洲开心婷婷中文字幕| 国产亚洲精品97AA片在线播放| 国产成人综合在线观看| 四虎精品免费久久| 国产欧美亚洲精品第3页在线| 国模视频一区二区| 欧美日韩国产综合视频在线观看 |