999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于優化類中心分類算法的文本分類研究

2011-08-30 06:11:42邵華清
科技傳播 2011年18期
關鍵詞:分類文本

王 斌,邵華清,劉 振

1.佳木斯大學信息電子技術學院,黑龍江佳木斯 154007

2.佳木斯大學經濟管理學院,黑龍江佳木斯 154007

3.桂林理工大學,廣西桂林 541004

0 引言

當前,隨著計算機技術的飛速發展,各類電子郵件和電子文檔以前所未有速度的迅速增長,用戶如何能從海量文本中快速準確的獲取有效的信息,是人們普遍關注的問題。文本形式是互聯網上大部分信息的載體,文本的識別的速度決定了是否能高效獲取信息的速度。文本分類識別技術可以把海量但缺乏結構的文本數據組織成規范的文本數據,以達到提高檢索信息和利用信息的效率的目的。文本分類已經成為組織和管理文本數據的重要形式。傳統的人工分類已經不能滿足如今的需要,它耗費大量的人力、物力和精力,并且分類結果一致性不高。本文針對傳統類中心分類算法由于訓練文檔分散,不能準確的表示各類別的中心向量,提出了優化算法,從而提高分類準確度。

1 類中心分類算法

文本分類的訓練集是已經分類好的文本,這些分類好的文本都具有各自類別的特點,我們可以通過學習這些分類好的文本,提取出代表每一類別各自的特點,這些特點能唯一的代表一個類別。在用向量空間模型表示的文本中,可以通過提取能代表該類別的特征項來表示類別。類中心分類算法是典型的應用代表類別特點的特征項來表示類別的算法。它具有容易理解、思路清晰、分類效果好等優點。類中心分類算法思路比較簡單,將訓練集中的每個文本應用一定的特征權重算法表示成一個特征權重的向量 :為了對不同長度的文檔統一描述,每一篇文檔都被規范化為統一的長度,例如:然后根據平均算法為每類文本生成代表該類的中心向量。令表示預定義的類別集合,類別Ci的中心向量定義為:

類中心分類算法是從訓練集中得到類別的中心向量,它對訓練集依賴性比較大,對訓練集的集中程度和規模非常敏感,一般情況下訓練集文本代表性越強、規模越大分類效果會越好。

2 優化的類中心分類算法

在類中心文本分類算法中,類別的中心向量是由該類別文本特征向量的簡單算術平均得到。在訓練集中,就分類而言,文檔一般比較分散,所以在空間上,有些分類與其它類就會有重疊的區域,如果直接用這些文檔來計算各個類別的中心向量,就會出現模型偏差,因此不能達到理想的分類結果。研究一種優化的類中心分類算法,以修正這種模型偏差。即用當前的中心向量對訓練集進行分類,然后用訓練錯誤文檔來更新中心向量,并假設文檔集中的每一篇文檔都只屬于一個類別。它的中心思想為:在進行的每一次迭代過程中用規范化中心向量對訓練文本進行分類,其目的是為了找出所有訓練錯誤文檔。并對它進行歸類。但因為文檔分散原因的影響,不少文檔的分類弄錯,可以適當增加中心向量中這些文檔特征項的權重,相反,應該減少中心向量中misin-ofi的各文檔特征權重大的特征項的權重。利用這些分類錯誤文檔,更新類中心向量,并規范化,得到迭代后的規范化中心向量。

3 實驗方法與結果

3.1 實驗樣本

在文本自動分類系統中,用于實驗的文本集一般分為兩個部分:訓練集和測試集。訓練集是由一組文本組成,并且這些文本已經分好類,用于歸納出各個類別的特性以構造分類器。根據分類體系的設定,每一個類別都應含有一定數量的訓練文本;測試集是用于測試分類效果的文檔的集合。其中每個文本都通過分類器分類,然后與正確決策的分類結果相對比,從而得到對分類器效果的評價,但測試集并不參與分類器的建設。

3.2 結果評測標準

評估分類準確程度的依據是通過專家對文本的正確分類結果的比較,與人工分類結果越相近,分類的準確程度就越高。文本分類中常用的評測指標有:準確率和查全率。本文使用如下的評估標準:

查準率:是在所有輸入系統中,進行分類處理的文本中與專家分類結果完全吻合的文本所占的比率,即:被正確分到類別i的文本數與所有被分到類別i的文本數的比值。

查全率:是在分類系統中,分類正確的文本所占的比率,即:被正確分到類別i的文本數與實際屬于類別i的文本數的比值。

查準率和查全率反映了分類質量的兩個不同方面,兩者必須綜合考慮,不可偏廢。因此,存在一種新的評估指標,Fl測試值,其數學公式如下:

從對比中可以看到,類中心分類算法在任何類別的分類效果都不如優化后的類中心分類算法。

[1]旺建華.中文文本分類技術研究[D].吉林大學,2007,9.

[2]王小燕.文本分類相關技術應用與研究[D].西北大學,2007,4.

猜你喜歡
分類文本
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 四虎永久在线视频| 91成人在线观看| 精品视频福利| 国产精品漂亮美女在线观看| 日本一区二区三区精品国产| 亚洲欧美日韩另类| 亚洲国产精品一区二区第一页免 | 欧美亚洲国产精品第一页| 日韩在线成年视频人网站观看| 欧美精品亚洲二区| 亚洲人成电影在线播放| 青青草国产精品久久久久| 久无码久无码av无码| 香蕉久久国产超碰青草| 国产00高中生在线播放| 美女无遮挡被啪啪到高潮免费| 国产AV毛片| 国产成人三级| 日本人妻丰满熟妇区| 欧美成人精品高清在线下载| 国产网站免费| 久久亚洲精少妇毛片午夜无码| 欧美.成人.综合在线| 五月激情婷婷综合| 国产成人综合网| 91精品免费久久久| 中文字幕va| 88av在线| 鲁鲁鲁爽爽爽在线视频观看| 久操中文在线| 欧美日韩va| 亚洲伊人天堂| 性视频久久| 亚洲天堂视频在线观看免费| 无码人妻免费| 国产91精品最新在线播放| 亚洲精品自拍区在线观看| 人妻丝袜无码视频| 亚洲美女视频一区| 国产a网站| 日韩免费无码人妻系列| 亚洲 日韩 激情 无码 中出| 午夜三级在线| 国产小视频a在线观看| 99在线视频网站| 欧美一级夜夜爽| 谁有在线观看日韩亚洲最新视频 | 欧美在线国产| 亚洲国产天堂久久九九九| 日本尹人综合香蕉在线观看| 亚洲成人免费看| 中文字幕久久精品波多野结| 人妻一本久道久久综合久久鬼色| 精品国产免费人成在线观看| 亚洲成av人无码综合在线观看| 欧洲亚洲一区| 怡红院美国分院一区二区| 9999在线视频| 她的性爱视频| 特级毛片免费视频| 精品视频91| 秋霞午夜国产精品成人片| 亚洲色图狠狠干| 国产视频一区二区在线观看| 国产拍揄自揄精品视频网站| 小说区 亚洲 自拍 另类| 日韩在线中文| 日本免费高清一区| 精品精品国产高清A毛片| 国产剧情一区二区| 黄色不卡视频| 91色在线观看| 人妻精品久久久无码区色视| 国产99视频在线| 91网红精品在线观看| 人妻无码一区二区视频| 亚洲美女高潮久久久久久久| 欧美h在线观看| 一本综合久久| 婷婷色婷婷| 亚洲无码A视频在线| 亚洲bt欧美bt精品|