999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

談文本分類中的相關技術

2012-03-05 05:29:40亮楊柳霍
合作經濟與科技 2012年13期
關鍵詞:分類特征文本

□文/霍 亮楊 柳霍 烽

(1.河北金融學院;2.河北大學經濟管理實驗教學中心;3.保定市科學技術協會 河北·保定)

談文本分類中的相關技術

□文/霍 亮1楊 柳2霍 烽3

(1.河北金融學院;2.河北大學經濟管理實驗教學中心;3.保定市科學技術協會 河北·保定)

本文從整體上介紹文本分類系統的任務,簡單描述文本分類的流程,并對文本表示、特征抽取和性能評價等關鍵環節常用的技術進行介紹。

文本分類;文本表示;特征抽取

收錄日期:2012年5月11日

一、文本分類系統的任務

簡單地說,文本分類系統的任務就是:在給定的分類體系下,根據文本的內容自動確定文本的類別。從數學角度來看,文本分類是一個映射的過程,它將未標明類別的文本映射到已有的類別中,該映射可以是一對一的映射,也可以是一對多的映射,因為通常一篇文本可以同多個類別相關聯。文本分類的映射過程是根據映射規則完成的。映射規則是系統根據已經掌握的每類樣本的數據信息,通過總結分類的規律性而建立的判別規則。在遇到新文本時,根據總結出的判別規則,確定新文本的類別。

二、文本表示

人類在閱讀文章后,能夠根據自身的理解能力和已經掌握的知識對文章內容產生總體的認識,但計算機并不具有人類這樣的智能,因而它也就不能輕易地“讀懂”文章。因此,文本自動分類的基本問題是如何將文本按照計算機可以“理解”的方式進行有效的表示,從而在這個表示的基礎上進行分類。向量空間模型是目前常用的文本表示模型。

向量空間模型的基本思想是以文本的特征向量來表示文本,其中wi為第i個特征項的權重。因此,基于向量空間模型的文本分類方法中,第一步就是如何從文本中提取出反映文本類別的有效特征。一般可以選擇字、詞或詞組作為文本的特征,但由于詞是信息表示和處理的基本單位,故選取詞作為特征項要優于字和詞組。

在向量空間模型中,文本集合是用詞-文本形成的矩陣表示,矩陣中的每一項表示一個詞在某個文本中出現的情況:

這里aik表示詞i在文本k中的權重,因為詞不是均勻分布在各個文本中的,所以A通常為稀疏矩陣。

令fik表示詞i在文本k中出現的頻率,N為文本集合中文本的數目,ni為詞i在文本集合中出現的總次數,下面介紹幾種計算權重的方法。

(1)布爾權重。這是最簡單的一種方法:如果詞在文本中出現,其權重就為1,否則為0:

(2)詞頻權重。該方法直接使用詞頻作為權重:

(3)t f×idf權重。以上兩種方法都沒有考慮詞在文本集合中出現的頻率。tf×idf權重對此進行了改進:

(4)t fc權重。tf×idf權重沒有考慮到集合中文本長度的問題,tfc權重將長度歸一化因子作為計算詞權重的因素:

(5)l tc權重。ltc權重與tfc權重方法稍有不同,它不是簡單的采用詞頻,而是使用了詞頻的對數,減小了因詞頻的差異所造成的影響:

(6)熵權重。熵權重基于信息理論,被認為是最經典的權重衡量方法,詞i在文本k中的權重按如下公式計算:

三、特征抽取

通常情況下,構成文本的詞匯數量是相當大的,這樣表示文本的向量空間的維數也會非常大,因此需要進行維數壓縮的工作。這樣做的目的主要有兩個:第一,提高分類效率;第二,提高分類精度。不同詞匯對文本分類的意義是不同的:通用的、在各個類別中都普遍存在的詞匯對分類的貢獻小;在某一類中出現的比重大而在其他類中出現的比重小的詞匯對文本分類的貢獻大。因此,我們應去除那些對分類貢獻小的詞匯,篩選出每一類文本的特征項集合。下面簡單介紹幾種提取特征詞的方法:

(1)文本頻度閾值。這是最簡單的特征提取方法,包含某詞條的文本的數目被定義為該詞條的文本頻度。給定一文本頻度閾值,去掉文本頻度小于該閾值的詞條,剩余詞條即為特征詞。

(2)互信息。互信息衡量的是詞和類別之間的統計獨立關系,考慮詞t和類別c,互信息定義如下:

式中p(t∧c)表示t和 c同時出現的概率;p(t)為 t出現的概率;p(c)為 c 出現的概率。

(3)信息增益。信息增益需要已知某個詞在文本中是否出現及出現的情況。假設C1∪C2∪…∪Ck為已知的k個類別,對每個詞w,通過以下公式求出其IG值:

式中P(C)j表示Cj類文本占文本總數的比重;P(w)表示包含詞w的文本占文本總數的比重;P(Cj)表示 Cj類中包含詞w的文本占Cj類文本總數的比重;P(C)表示Cj類中不包含詞w的文本占Cj類文本總數的比重。

通過計算得到每個詞的IG值,再選取適當的閾值,只保留IG值大于此閾值的詞作為向量空間的特征項,即可達到降維的目的。

圖1 文本分類流程

四、文本分類流程

在文本分類過程中,首先將文本表示成以某種形式的元素(通常用詞)表示的向量,然后按照某種方法進行特征提取,并用權值對提取的特征元素進行描述,這樣就可以對元素-權值表示的文本向量進行訓練,得到向量模型(即分類器)。在對新文本進行分類時,同樣要將待分類的文本表示成元素-權值文本向量,然后將其與訓練得到的向量模型進行比較,最終判斷其類別。圖1給出了文本分類的流程。(圖1)

本文主要對文本分類中的一些相關技術進行了總結。從整體上介紹了文本分類系統的任務,簡單描述了文本分類的流程,并對文本表示、特征抽取幾個關鍵環節常用的技術進行了介紹。

[1]Salton G,Wang A,Yang C.A Vector Space Model for Information Retrieval[J].Journalof the America Society for Information Science,1975.18.

[2]宮秀軍,孫建平,史忠植.主動貝葉斯網絡分類器 [J].計算機研究與發展,2002.39.5.

[3]李靜梅,孫麗華,張巧榮等.一種文本處理中的樸素貝葉斯分類器[J].哈爾濱工程大學學報.

F49

A

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 91精品小视频| 成人午夜精品一级毛片| 国产国模一区二区三区四区| 99精品在线看| 小说 亚洲 无码 精品| 国产亚洲美日韩AV中文字幕无码成人| 国产亚洲欧美日韩在线观看一区二区| 嫩草国产在线| 毛片三级在线观看| 欧美人人干| 亚洲另类国产欧美一区二区| 国产屁屁影院| 色天天综合| 国产福利微拍精品一区二区| 亚洲香蕉在线| 亚洲精品制服丝袜二区| 国产福利一区视频| 国产9191精品免费观看| 一级一级一片免费| 国产精品开放后亚洲| 国产在线拍偷自揄拍精品| www.亚洲一区| 深夜福利视频一区二区| 日本影院一区| 亚洲第一黄片大全| a毛片在线播放| 日韩精品免费一线在线观看| 麻豆精选在线| 伊人激情综合网| 久久久黄色片| 天堂在线亚洲| 69国产精品视频免费| 色悠久久综合| 亚洲一区二区三区香蕉| 亚洲综合二区| 欧美黄网站免费观看| 免费观看无遮挡www的小视频| 国产一级小视频| 片在线无码观看| 欧美激情视频一区二区三区免费| 99在线观看免费视频| 亚洲国产清纯| 欧美丝袜高跟鞋一区二区| 亚洲精品va| 一级不卡毛片| 老色鬼久久亚洲AV综合| 中文字幕人成乱码熟女免费| 久久一色本道亚洲| 伊人福利视频| 久久亚洲中文字幕精品一区| 精品国产www| 性激烈欧美三级在线播放| 免费AV在线播放观看18禁强制| 国产欧美在线观看一区| 亚洲香蕉久久| 中文字幕精品一区二区三区视频| 91国内在线视频| 青青草原国产| 国产综合欧美| 国产麻豆另类AV| 国产成人综合网| 国产精品太粉嫩高中在线观看| 天天激情综合| 尤物成AV人片在线观看| 99热国产这里只有精品9九| 国产全黄a一级毛片| 国产一区二区精品福利| 国产凹凸视频在线观看| 欧美天天干| 亚洲最大看欧美片网站地址| 国产精品综合久久久| 国产精品片在线观看手机版| 91精品国产自产91精品资源| 美女国内精品自产拍在线播放 | 亚洲国产日韩在线观看| 天天婬欲婬香婬色婬视频播放| 九色最新网址| 爆操波多野结衣| 亚洲综合在线最大成人| 亚洲色图在线观看| 日韩无码真实干出血视频| 2021天堂在线亚洲精品专区|