999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林的文本分類研究

2014-04-29 00:00:00陳海利孫志偉龐龍
科技創新與應用 2014年2期

摘 要:文本分類是處理和組織大量文本數據的關鍵技術,它一直是信息檢索領域中的一個研究熱點。文本分類旨在將大量文本劃分到若干子類,使得各文本子類代表不同的概念主題。文章采用了一種基于隨機森林的文本分類方法。該方法來源于基于決策樹的機器學習,依據文本內容的分詞結果進行機器學習,將文本中信息量高的詞匯提取出來作為學習維度,可以準確地對文本進行分類。由于隨機森林算法[1]具有高并發,快速收斂的優點,非常適合海量數據的處理。

關鍵詞:決策樹分類;機器學習;森林

1 問題分析和算法描述

隨機森林可以看成是Bagging和隨機子空間的結合。隨機森林是由一系列的分類器組合在一起進行決策[2],期望得到一個最“公平”的學習方法。如圖1所示,構造每一個分類器需要從原數據集中隨機抽取出一部分樣本作為樣本子空間,然后再從樣本子空間中隨機的選取一個新的特征子空間[4],在這個新空間中建立決策樹作為分類器,最后通過投票的方法得到最終決(如圖1)。

圖1

1.1 構建單棵決策樹

(1)對于訓練集S,如果訓練集數據都屬于一個類標簽C,或S足夠純凈(85%以上的數據都屬于類標簽C時),否則創建葉子節點,表明類標簽C。

(2)否則,

·選擇“最具有信息”的屬性A:

·依據A來劃分訓練集S;

·遞歸的劃分訓練集來構造子樹。

1.2 構建隨機森林

·從原始數據中產生n個隨機抽樣。

·對于每一個抽樣,訓練一個未剪枝的決策樹,對于每個節點,不是在所有屬性中挑選分割最好的決策樹,而是在m個抽樣出來的屬性中挑選最好的那個。

·對數據集進行預測,并搜集各個樹的預測結果,以眾數(出現最多的值)給出最后的預測結果。

1.3 說明

一個單詞包含的信息量,用特征單詞在文檔中出現的頻率p,和該詞的反文檔頻率q來表示(如果一個單詞在很多文檔中出現的頻率都很高,那么這個單詞過于普遍,不足以用來表征一篇文檔)。文本中詞匯信息量的維度可以采“熵”來衡量,設D為用類別對訓練元組進行的劃分,則D的熵(entropy)表示為:

其中pi表示第i個類別在整個訓練元組中出現的概率,可以用屬于此類別元素的數量除以訓練元組元素總數量作為估計。熵的實際意義是D中元組的類標號所需要的平均信息量。現在我們假設將訓練元組D按屬性A進行劃分,則A對D劃分的期望信息為:

在選取信息量最大的屬性是我們依照公式[3]選取對樣本及最大的屬性A。

2 實驗步驟

2.1 提取實驗文檔

實驗采用搜狗語料庫精簡版,其分類體系包括幾十個分類節點,網頁規模約為十萬篇文檔。

2.2 文本特征提取、降維

采用前面提到的信息增量的辦法來衡量信息的有效性,分別計算分詞后各詞的信息增量gain(A),對語料庫中1791篇短文分詞,共得到共有前4685個不同的詞組,如果全部計算,則運算矩陣維數過高,需要依據gain(A)選取區分度高的詞匯作為候選特征。

2.3 文本向量化

依據詞在文本中出現的頻率,采用tf*idf向量化對文本進行向量化。向量化結果如表1所示:

表1

按照上面描述的算法對文檔進行分類。如果原始訓練集S中有N篇文本,使用有放回抽樣,從S中抽出N篇文本作為建立第i棵樹的訓練集Si,調用建立決策樹過程,訓練單個文本分類器。其中,如果Si有mall維特征,則隨機地選取mtry維特征,并且在這mtry維特征中選取分類效果最好的一個特征A作為該結點的分裂屬性。

2.4 試驗結果分析及解釋(表2):

表2

3 試驗結果分析

依據實驗結果,隨機森林方法分類的平均準確率和平均查全率要優于貝葉斯方法,主要原因是排除了貝葉斯方法中特征互相獨立的不合理假設,將對文檔區分度貢獻大的詞(在本文中多次出現,而在其他文章中出現次數較少)提取出來作為特征,對系統進行無監督分類訓練。

參考文獻

[1]Svetnik V,Liaw A,Tong C,et al. Random forest: a classification and regression tool for compound classification and QSAR modeling[J].Journal of chemical information and computer sciences,2003,43(6): 1947-1958.

[2]張華偉,王明文,甘麗新.基于隨機森林的文本分類模型研究[J].山東大學學報:理學版,2006,41(3):139-143.

[3]張建兵,戴新宇,陳家駿.文檔分類之特征選擇方法的實驗比較[J].廣西師范大學學報:自然科學版,2008,26(3):181-185.

[4]張海龍,王蓮芝.自動文本分類特征選擇方法研究[J][J].計算機工程與設計,2006,27(20):3838-3841.

作者簡介:陳海利(1987-),男,河北省滄州市,同濟大學軟件工程專業,碩士,研究方向:數據挖掘。

孫志偉(1958-),男,遼寧省沈陽市,沈陽機床股份有限公司高級工程師,本科,研究方向:數據庫優化。

龐龍(1981-),男,遼寧省沈陽市,沈陽機床股份有限公司中級工程師本科,研究方向:數據庫優化。

主站蜘蛛池模板: 国产在线观看人成激情视频| 国产女人综合久久精品视| 午夜a视频| 日韩欧美国产综合| 亚洲精品无码在线播放网站| 69综合网| 男人天堂伊人网| 欲色天天综合网| 91色国产在线| 亚洲天堂日本| 免费人成又黄又爽的视频网站| 日本人又色又爽的视频| 亚洲狠狠婷婷综合久久久久| 日本a级免费| 国产AV毛片| 亚洲色偷偷偷鲁综合| 日本在线亚洲| 在线欧美a| 99热6这里只有精品| 国产精品思思热在线| 狠狠亚洲婷婷综合色香| 亚洲精品天堂自在久久77| 欧美69视频在线| 国产幂在线无码精品| 免费无遮挡AV| 亚洲精品国产综合99| av在线人妻熟妇| 国产剧情国内精品原创| 无码精品国产dvd在线观看9久| 青青国产视频| 国产免费羞羞视频| 在线看片国产| 超碰精品无码一区二区| 精品久久人人爽人人玩人人妻| 呦女精品网站| 亚洲欧美精品一中文字幕| 欧美www在线观看| 亚洲免费福利视频| 亚洲三级电影在线播放| 伊人成人在线视频| 亚洲精品在线91| 国产成年无码AⅤ片在线| 亚洲综合色吧| 一级全黄毛片| 欧美翘臀一区二区三区 | 亚洲福利视频网址| 亚洲日韩精品综合在线一区二区| 国产一级在线播放| 永久免费无码日韩视频| 精品撒尿视频一区二区三区| a级免费视频| 中文字幕永久在线看| аⅴ资源中文在线天堂| 99er精品视频| 美女高潮全身流白浆福利区| 国产精品99在线观看| 国产女人在线观看| 亚洲精品桃花岛av在线| 国产91在线|中文| 超薄丝袜足j国产在线视频| 久久99国产综合精品女同| 国产麻豆永久视频| 欧美激情首页| 成人在线观看不卡| 自慰高潮喷白浆在线观看| a欧美在线| 91蜜芽尤物福利在线观看| 久久精品这里只有国产中文精品| 狠狠ⅴ日韩v欧美v天堂| jizz在线免费播放| 天天做天天爱天天爽综合区| 四虎永久在线精品影院| 最新国产在线| 看看一级毛片| 99精品在线看| 色成人亚洲| 国产一区二区三区在线观看视频| 日韩午夜伦| 久久黄色视频影| 精品久久777| jizz亚洲高清在线观看| 欧美午夜在线观看|