999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于特征詞句子環境的文本分類器

2007-01-01 00:00:00孫曉霞鄭玉明廖湖聲
計算機應用研究 2007年2期

摘 要:提出一種基于特征詞句子環境的文本分類方法,介紹了創建分類規則的文本句子信息模型,比較詳細地給出訓練算法和語句聚集算法。該算法依據訓練文本集的特征詞句子環境,獲取識別文本主題類別的特征詞集合。最后給出了分類器性能的測試結果。

關鍵詞:文本分類; 特征詞句子環境; 訓練算法; 語句聚集算法

中圖法分類號:TP311文獻標識碼:A

文章編號:1001—3695(2007)02—0116—04

1 引言

中文文本分類是指根據文本的內容,按照用戶預先指定的主題類別集合,使用計算機軟件自動為每一篇文本確定一個或幾個主題類別。實現有指導的文本分類算法主要分兩個步驟:①訓練階段。使用已知類別的訓練文本集,創建文本分類規則。②使用文本分類規則,對每一篇未知類別的文檔進行分類。

任何一篇具有確定主題的文檔都是由若干個句子構成的。一個能夠用于識別某類文本的特征詞集合,按照文檔作者的需要,被分散、有重復地安排在若干中文句子之中。一個句子是若干個能夠識別文本類別的特征詞與其他詞匯的混合體。文本分類的訓練階段可以看作從構成文檔的所有詞匯中抽取特征詞的過程。因此,在訓練階段的開始,不妨把構成文本句子的所有詞匯通稱為特征詞。構成一個句子的不同特征詞之間,需要服從各種語義及語法約束。換句話說,構成一個特定句子的特征詞對內營造一種和諧的句子環境,對外饋送一組特有信息。由此想到,識別某類文本的特征詞集合,應該相對集中地分布在文檔的若干個句子當中。文本分類的訓練階段可以利用特征詞的句子環境,通過聚集[5]這些句子環境去發現與識別某類文本的特征詞集合。

本文提出了一種基于特征詞句子環境的文本分類方法,介紹了用于創建分類規則的文本句子信息模型,比較詳細地給出使用訓練文本集,利用特征詞的句子環境,獲取識別文本主題類別的特征詞集合,創建并優化分類規則的訓練算法。最后給出分類器性能測試結果及結論。

2 文本句子的信息模型

通過識別句號、問號或感嘆號等標點符號,一篇中文文檔很容易被劃分為若干個句子。使用中文處理專用軟件可以把句子進一步劃分為若干個詞匯。把文檔或句子劃分為詞匯的過程,一般稱為分詞操作。分詞操作所產生的詞匯經過簡單的詞匯壓縮處理,生成了句子的特征詞集合。

2.1 句子的構成及其信息量

定義1中,特征詞集合{w1,w2,…,wn}仍然保持關于集合的最原始性質,即構成集合的元素是無序的。也就是說,在構造文本分類器時,只關注一個句子由哪些特征詞構成,而忽略該句子內部特征詞之間應該遵循的其他約束(如句子的特征詞至少需要按照一定先后次序關系排列等)。

2.2 任意兩個句子之間的互信息量相關度

3 分類規則的創建與優化

創建分類規則的主要過程以句子為處理對象。

3.1 從句子獲取識別文本類別的特征詞集

使用若干篇已知文本主題類別是ck的文本,執行訓練算法,可以獲取用于識別ck主題類別文本的特征詞集。

訓練算法描述如下:

(1)隨機選取已知類別為ck的訓練文本若干篇,構成訓練文本集。

(2)對每一篇文本,重復如下操作:

①記下該文本編號,并執行分詞操作。經過簡單的詞匯壓縮處理,生成數據表T。數據表T以句子為元素,每一個句子元素由若干個特征詞組成。

②在生成數據表T的過程中,同時統計每一個特征詞在ck類訓練文本集中出現的次數。

(3)精簡數據表T。從數據表T刪去在ck類訓練文本集中出現次數小于指定閾值的特征詞。

(4)再次掃描數據表T,統計任意兩個特征詞在ck類訓練文本集中出現的次數。

(5)使用語句聚集算法,對ck類訓練文本集以句子為單位,實施特征詞聚集操作。

(6)根據語句聚集算法執行結果,創建用于識別ck主題類別的分類規則。

除了步驟(5)之外,訓練算法的各個步驟所進行的操作目的都比較明確,操作比較容易實現。

3.2 訓練算法的核心:語句聚集算法

訓練算法步驟(5)所采用的語句聚集算法是訓練算法的核心。總體上講,語句聚集算法的思想是以句子為單位,把那些具有較大統計相關性的句子,聚集成一個有更多特征詞的新句子。

語句聚集算法具體描述如下:

值得注意的是,在語句聚集算法步驟(5.3.2.1)與步驟(5.3.2.2)中,凡是發生兩個句子進行并入操作的,都要對兩個句子的相同特征詞集合中的各個特征詞,分別累計并入操作的次數。

3.3 分類規則的創建與優化

當系統執行了訓練算法的步驟(5)之后,用于識別ck主題類別的所有訓練文本的句子,已經被聚集到一個主語句集合MAIN_set之中。執行訓練算法的步驟(6),逐一檢查MAIN_set中的每一個句子,刪去那些語句聚集過程中并入操作次數低于指定閾值的特征詞(乃至刪去MAIN_set中的一些句子!),就得到以句子形式組織的識別ck類文本的特征詞集。

對經過精簡后的MAIN_set中的特征詞集,以句子為單位,以組合的方式構造形如ck←w1,w2,…,wn的分類規則,就可以得到一個用于識別ck主題類文本的分類規則集合。

不難想到,對于不同的ck主題類別,重復訓練過程,就創建了一個可以識別多種主題類別的分類規則集合。

上述分類規則集合必須經過優化處理,才能用于實際分類操作。其主要原因為:①采用上述訓練算法產生的分類規則,難免混入一些通用詞匯,甚至出現一些單純由通用詞匯構成的規則。這些通用詞匯無論在哪一種主題類別的文本中,都有比較高的使用頻率。②經過訓練算法步驟(6)產生的分類規則中,由于文本主題所屬領域相近性的原因,使用不同類別訓練文本集,可能產生若干個“←”左部不同,而“←”右部內容非常接近的分類規則。例如,同屬于自然災害類的地震和海嘯主題類別訓練文本,可能同時出現“地震、傷亡、損失”這樣的詞匯。一旦由這樣的詞匯構造分類規則,系統就很難決定文檔應該屬于地震類,還是應該屬于海嘯類了。

為了優化分類規則,必須另選屬于不同主題類別的優化文本各若干篇,構成優化文本集。同時,引入了查全率和查準率定義用于優化過程,檢測每一條分類規則的性能優劣。

設:參與當前優化操作的文本類別共M類。每一類包含Ci(i=1,2,…,M)篇文本。若經過優化操作,被當前分類規則集合判別為屬于第i類的文本數量有Ti篇,而經過與優化文本自身的實際主題類別核對后,確認屬于該主題類別的文本數量有Ri篇。于是,對于第i類文本有

優化算法的思想是首先對每一篇優化文本執行分詞操作,經過簡單的詞匯壓縮處理后,交付各條分類規則進行文檔主題類別的判斷,并按照各條規則分類正確與否累計它們的分類結果數據;然后,淘汰那些查全率與查準率偏低的規則。

3.4 訓練算法的復雜度

創建分類器的時間開銷取決于訓練算法的時間復雜度。為了獲取某一主題類別特征詞集,訓練算法需要創建并兩次掃描數據表T。不過,訓練算法的主要開銷將由語句聚集算法決定。

設:用于獲取某一主題類別特征詞集的訓練文本一共有N篇。假定每一篇訓練文本可以劃分為M個句子。于是,執行語句聚集算法步驟(5.3),所涉及句子的上界將是O(N×M2)。更進一步地分析,如果每一個句子最多由k個特征詞構成,那么,找出句子SE與句子ME的所有相同特征詞集合SAME_set的時間開銷,將有上界O(k)。因此,訓練算法所處理的特征詞數量將以O(k×N×M2)為上界。

4 分類器性能測試和結論

4.1 分類器性能測試及其結果

分類器性能測試使用了一個已知文本主題類別的測試文本集。通過對每一篇文本的分類操作,對比文本自身固有的主題類別,計算并得到測試結果數據。

測試文本集由總數達到2200篇、分別屬于11種主題類別的文檔構成。11種主題類別可歸納為四大類:災害類(含地震類、低溫霜凍類、水災類、冰雹類、旱災類、火災類)、社會類(含治安案件類、爆炸類、交通事故類)、建設類(含交通建設類)和經濟類(含經濟統計報告類)。

分類器分類性能測試包括對不同主題類別文本的查全率和查準率,以及系統準確率測試。查全率和查準率仍然采用定義4和定義5。而系統準確率定義如下:

4.2 結論

(1)利用文本句子環境引導,能夠創建性能良好的分類器。測試結果表明,分類器系統精度達到95%以上。

(2)分類器α,β和γ參數的選擇,對分類器的分類性能會產生一定影響。測試過程曾經對α,β和γ采用多種參數取值搭配,其系統準確率變化在0.5%范圍之內。

(3)訓練文本集所包含文本的數量也會對分類器性能產生一定影響。在α,β和γ參數分別取值為1,7,2的情況下,每一種主題類別的訓練文本集各使用50,30和16篇文本。經過訓練后,對分類器進行分類測試,其系統分類準確率分別是96.8%,96.3%,96.1%。可見,訓練文本數量減少到原來的三分之一,其系統分類性能下降0.7%,但系統準確率仍然在95%以上。因此,在獲取文檔條件受限的情況下,使用數量較少的已知主題類別文檔,仍然能夠創建分類性能令人滿意的分類器。

本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 亚洲国产天堂久久综合226114| 18禁影院亚洲专区| 日本爱爱精品一区二区| 久久精品人人做人人爽97| 亚洲日韩精品无码专区97| 国产激爽爽爽大片在线观看| 亚洲 欧美 偷自乱 图片| 粗大猛烈进出高潮视频无码| 国产精品一区二区无码免费看片| 欧美伊人色综合久久天天| 91人妻日韩人妻无码专区精品| 国产 在线视频无码| 国产精品一线天| 992tv国产人成在线观看| 国产91全国探花系列在线播放| 伊人成人在线| 亚洲欧美一级一级a| 久久人搡人人玩人妻精品一| 日本久久网站| 幺女国产一级毛片| 国产综合精品日本亚洲777| 不卡国产视频第一页| 婷五月综合| 亚洲人成影院在线观看| 最新午夜男女福利片视频| 亚洲人视频在线观看| 国产精品开放后亚洲| 亚洲中文字幕在线观看| a级毛片免费网站| 成人精品免费视频| 久久综合结合久久狠狠狠97色| 午夜一级做a爰片久久毛片| 欧美区一区| 国产成人综合日韩精品无码首页| 91精品专区国产盗摄| 欧美亚洲欧美区| 波多野结衣AV无码久久一区| 久久国产亚洲欧美日韩精品| 国产迷奸在线看| 亚洲αv毛片| 成人一区在线| 国产亚洲欧美日韩在线一区二区三区 | 国产日本欧美亚洲精品视| 成人综合在线观看| 亚洲精品另类| 日韩天堂网| 国产精品第| 亚洲综合天堂网| 先锋资源久久| 日本高清免费一本在线观看| 天堂网亚洲系列亚洲系列| 亚洲Av激情网五月天| 国产在线视频导航| 久热99这里只有精品视频6| 毛片网站免费在线观看| 久久毛片网| 亚洲国产无码有码| 欧美成人免费| 国产网友愉拍精品| 国产96在线 | 一级毛片在线播放免费| 玖玖精品在线| 成人亚洲天堂| 亚洲开心婷婷中文字幕| 国产成人亚洲无吗淙合青草| 91精品啪在线观看国产| 婷婷色中文| 亚洲欧洲综合| 99在线视频免费观看| 伊人久久影视| 农村乱人伦一区二区| 日日拍夜夜操| 亚洲成综合人影院在院播放| 99精品免费欧美成人小视频| 一级片一区| 天天做天天爱夜夜爽毛片毛片| 亚洲日本韩在线观看| 亚洲视频影院| 久久a级片| 亚洲黄网视频| 国产精品亚洲а∨天堂免下载| 欧美精品一区在线看|