999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分類算法在科研管理系統數據挖掘中的應用

2016-12-01 08:18:14李景民
黑龍江科學 2016年19期
關鍵詞:分類方法

李景民

(吉林工商學院,長春130000)

分類算法在科研管理系統數據挖掘中的應用

李景民

(吉林工商學院,長春130000)

分析了科研管理系統自動分類的現狀,指明了網頁自動分類當前主要采用的是文本自動分類的方法;確定了在分類時的重點和難點問題;提出了一種新型的分類算法,根據實際應用情況將KNN算法和Rocchio算法有機結合,應用了一種Rocchio-KNN分類算法,經實際應用證明,該方法不僅保證了一定的分類準確率,而且還可以提高分類效率。

分類算法;科研管理;數據挖掘;文本分類

在高校的科研管理系統中,隨著數據挖掘技術的發展,網上需要管理的數量龐大,需要對這些數據進行分類,但是傳統管理方法采用人工的方法進行分類,無法完成對龐大數據的大范圍覆蓋,因此自動分類技術已經成為組織和管理在線文本數據的關鍵技術。

從近期的研究結果分析,即使自動分類的準確率不十分高,自動分類的研究對基于內容的信息檢索、Web數據挖掘等應用仍然具有較為深遠的意義。

1 自動分類技術的應用概況和主要存在的問題

研究者從不同角度已經提出了很多行之有效的文本分類方法,這些方法大多是基于機器學習方法的,根據其分類原理的不同,分為線性分類器、統計學習分類器、基于實例的分類器、決策樹方法、支持向量機方法等。

線性分類器學習算法的主要目的是建立類的特征向量?;趯嵗膶W習方法也被叫作被動學習方法,此方法的全部處理工作需要延時到分類時才能進行[1],這種方法的缺點是因為缺少必要的訓練,計算的開銷相對比較大,分類的速度相對比較低。其優點是針對每個新的實例可以進行局部的和差異的估算,特別是當目標函數較為復雜的時候,此種處理具備顯著的優勢。

2 新分類器的基本設計思路和實現步驟

筆者研究的分類系統主要是科研管理系統中面向大規模的網頁集,要求的實時性比較高,因此在確保一定分類準確率的基礎上,分類速度的提升才是我們的側重點。常用的基于向量空間模型,KNN方法雖然是較好的方法之一,但是這種方法復雜性過高,特別是當樣本規模比較大的情況下,其分類速度是較慢的。Rocchio方法雖然是在向量空間模型的架構下最簡單且有效的一種方法,但是它的分類精度不是很高。本文融合了Rocchio及KNN方法的優勢設計了一種Rocchio與KNN相結合的分類器,簡稱Rocchio-KNN分類器。

2.1分類器的分析與設計

分類器的主要功能是訓練學習和自動分類,而KNN的方法沒有訓練學習的過程,因而在訓練學習的階段考慮用Rocchio的方法。Rocchio方法的主要問題是建立合適的類別中心向量。初始項權重、正例平均權重、反例平均權重三部分構成了類別中心向量的項權重[2]。因為我們采用類別獨立的特征選擇方案,網頁的表示也是類別獨立的,所以可以忽略反例平均權重的影響。如何降低KNN的時間復雜性,是在自動分類階段應解決的主要問題。實際可從減少向量比較時的冗余計算和縮小測試樣本的比較范圍兩個層面考慮[3]。減少向量比較時有大量權值為0的項,它們對比較沒有幫助,因此可以不參與運算。

另外一個重點問題是縮小測試樣本的比較范圍,采用只與限定類別的訓練樣本進行比較的方式是一種常用的方法。關鍵在于需要獲得能夠比較的類別,處理方法是引入一個調解因子,類別基準值減去調解因子即成為該類別的閥值[4]。確定K值的辦法是先設定初始值,然后采用實驗的方法進行調整。

2.2分類器的具體實現

根據上述的設計思路,實現Rocchio-KNN分類器的步驟大致分為以下幾步:第一,分析計算不同類別的對應的特征向量,由計算結果推得各類別的相似度閥值。第二,用向量形式表示測試網頁的不同類別,根據余弦距離公式計算其相似度。第三,把大于相似度閥值的樣本組成新的比較集合。第四,集合初始值是空集,的每一項對應測試網頁與相應訓練網頁的距離。第五,簡化測試樣本向量,保留非0的項的權值和位置號,計算被測樣本與中樣本的距離,把計算結果和標識放在中。第六,按升序將中的項目進行排序,計算前K項,確定測試網頁的類別。

2.3實驗數據和效果分析

我們分別利用KNN方法、Rocchio方法和Rocchio-KNN方法進行分類,在此過程中特征詞的抽取使用基于多步過濾漢字結合模式的無詞典特征抽取方法,特征選擇使用基于改進的MI函數的特征選擇方法。因為至今沒有中文訓練及測試語料的標準,所以筆者從某網站收集了由領域專家分類網頁語料1 180個作為訓練語料,得到類別分布表如下:

筆者使用的是開放的測試方法,在不同時段的從某網站上收集與訓練網頁,總數為899個。測試語料庫的類別分布如下:

表1 類別分布表Tab.1 Category distribution table

表2 測試語料庫的類別分布表Tab.2 Test the category distribution table

在網頁分類的過程中,兩個主要的指標是分類準確率和分類速度。評定分類準確率,主要考慮召回率和準確率兩個方面。筆者使用可平衡測量召回率和準確率的F1測量法計算。

測試分類速度過程中,采用KNN方法時事先假設的K=500,采用Rocchio-KNN方法時假設類別相似度調解因子值等于0.1,經測試得到準確率和分類時間的實驗結果如下表所示:

表3 分類準確率實驗結果Tab.3Classification accuracy rate of experimental results table

表4 分類時間實驗結果Tab.4Sorted time results table

通過數據分析發現,使用Rocchio-KNN算法分類準確率較好,分類時間較短。在處理大量的訓練樣本、分類樣本和類別數目的情況下,這種方法更加適合。

3 總結

本文提出了一種新的自動分類器,經實驗證明,在滿足準確率的條件下,進一步提高了分類效率,能夠適應大規模樣本集實時自動分類的工作。

[1]王昊,鄧三鴻,蘇新寧.中文短文本自動分類中的漢字特征優化研究[J].情報理論與實踐,2015,(06):121-122.

[2]鄭津,景彥昊.中文網頁自動分類構架設計[J].福建電腦,2014,(04):153-154.

[3]李瑞.海量文本信息的Web采集與自動分類研究[D].北京:北京郵電大學,2014.

[4]繆建明,賈廣威,張運良.基于摘要文本的專利快速自動分類方法[J].情報理論與實踐,2016,(08):103-105.

Application of classification algorithm in scientific research management system data mining

LI Jing-min
(Jilin Business and Technology College,Changchun 130000,China)

This paper analyzes the status of research management system automatic classification,indicates the current web page automatic classification method is mainly used in automatic text classification;determines the focus and difficulty in classification;proposes a new classification algorithm,and a Rocchio-KNN classification algorithm was applied whichcan not only guarantee the certain classification accuracy,but also improve the classification efficiency.

Classification algorithms;Research management;Data mining;Text classification

TP311.13

A

1674-8646(2016)19-0058-02

2016-09-12

李景民(1974-),男,副教授,碩士。

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 伊人丁香五月天久久综合| 国产成人综合欧美精品久久| 国产亚洲欧美在线中文bt天堂| 国产乱子伦手机在线| 亚洲人免费视频| 国产激情第一页| 无码精油按摩潮喷在线播放 | 黄色在线网| 亚洲一级毛片免费看| 国产在线视频自拍| 国产精品大尺度尺度视频| 国产成人综合久久精品尤物| 一级成人欧美一区在线观看| 天堂亚洲网| 亚洲欧美激情小说另类| 色屁屁一区二区三区视频国产| 麻豆精品视频在线原创| 72种姿势欧美久久久久大黄蕉| 996免费视频国产在线播放| 国产精品永久久久久| 情侣午夜国产在线一区无码| 国产91精品久久| 在线日韩日本国产亚洲| 一本大道视频精品人妻 | 美女国产在线| 不卡视频国产| 久久青草热| 国产美女久久久久不卡| 啊嗯不日本网站| 亚洲天堂在线视频| 波多野结衣一区二区三区四区| 任我操在线视频| 全部免费毛片免费播放| 亚洲精品国产精品乱码不卞| 欧美成人综合在线| 免费欧美一级| 日韩国产另类| 91久久偷偷做嫩草影院电| 国产成人精品一区二区不卡| 欧美三级视频网站| 99久久精彩视频| 国产亚洲欧美日韩在线观看一区二区| 综合网久久| 久草视频精品| 99这里只有精品免费视频| 国产 在线视频无码| 制服丝袜在线视频香蕉| 男女男精品视频| 制服丝袜无码每日更新| 22sihu国产精品视频影视资讯| 国产美女在线观看| 国产成人h在线观看网站站| 国产日韩欧美一区二区三区在线| 国产精品亚洲五月天高清| 女人18一级毛片免费观看 | 亚洲成人一区二区| 亚洲伊人天堂| 激情午夜婷婷| 白浆视频在线观看| 久久国产黑丝袜视频| 9966国产精品视频| 亚洲一级毛片在线观播放| 国产永久无码观看在线| 成人精品午夜福利在线播放| 国产福利一区二区在线观看| 天天躁日日躁狠狠躁中文字幕| AV在线天堂进入| 久久久久亚洲av成人网人人软件| 色网站在线免费观看| 国产一级无码不卡视频| 久久久久免费精品国产| 亚洲色图在线观看| 精品国产一区91在线| 国产女人18毛片水真多1| 欧美人人干| 91综合色区亚洲熟妇p| 男女猛烈无遮挡午夜视频| 蜜臀av性久久久久蜜臀aⅴ麻豆| 欧美国产在线一区| 亚洲男人在线天堂| 国产亚洲精品97AA片在线播放| 在线欧美日韩|