999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據抽取中文本分類分析與研究

2014-12-23 07:13:42郭東峰
科技視界 2014年9期
關鍵詞:分類特征文本

郭東峰

(新鄉學院 計算機與信息工程學院,河南 新鄉453000)

0 引言

Web 信息抽取技術可以大大的縮短人們對資料的整理時間,為信息檢索提供方便,有利于現實文檔的存檔管理。而Web 信息抽取技術所抽取的內容主要為文本,不斷迅速發展的互聯網可以被看作是十分巨大的文檔庫,大量的文檔信息通常分散存放在不同網站上,它們具有不同的表現形式。為實現數據抽取,首要任務是需要將文本分類處理。

1 文本的表示方法

普通的文本是無結構的,為了讓計算機分析它們所屬的類別,需要將文本轉化成可被處理的結構化形式,目前應用最廣泛方法的是向量空間模型,基本思想是把文檔表示向量空間中的一個向量。特征項必須具備一定的特性:

1)特征項要能夠準確標識文本內容,表征文本的主題信息;

2)特征項具有將目標文本與其他文本相區分的能力;

3)特征項的在數量上不能太多,且出現頻率適中;

4)特征項要容易從文本中分離,具有明確的語義。

在中文文本類中最常用的是采用詞語作為文本的特征項。詞語有幾個優點:相對于字具有更強的語義信息歧義較少;相對于短語,詞更容易從文本中進行切分。詞語由于含了多個文字組合,在文本中出現的頻率較低,不適合作為特征項。

文本中關鍵字出現的頻率統計量用x 表示,最高關鍵字出現頻率取值為1,其它關鍵字頻率取其與最高關鍵字出現次數的比值。頁面向量空間表達式為:Dt(x1w1,x2w2,…,xnwn),i=1,2,…,n。關鍵字構成的主題向量Dk=(w1,w2,…,wn), i=1,2,…,n。網頁文本Dt 與領域主題Dk之間的內容相關度Sim(Dt,Dk)使用向量夾角余弦值表示:

選擇合適的多個特征詞構成特征向量來表征所在的文本主題,使用特征向量作為文檔的中間表示形式進行相互比較,降低了文本相似度算法復雜度。

2 文本特征的選擇

待分類的網頁文本中往往包括很多詞語,這些詞語對分類沒有太大幫助,未經篩選特征項集合規模較大,文本特征向量維數較高給計算帶來困難。需要提取一個能夠很好地概括領域相關網頁內容的特征子集,同時該子集要求能很好的區分領域主題。領域關鍵詞是從領域文本集中經過算法選取出來的,能夠高度概括和體現領域文本基本內容的詞語。本文將這些詞語通過特征提取算法選擇出來構成空間向量。目前常用的特征選擇方法有CHI 統計、信息增益和互信息等。

2.1 CHI 統計

CHI 統計方法衡量詞語t 和文檔類別c 之間的依賴關系,并假設t 和c 之間的非獨立關系符合具有一階自由度的x2 分布。詞條對于某類別的x2 統計值越高,表明它們之間的相關性越大,特征詞t 對類別c 表征能力越強。令N 表示訓練語料中的文檔總數,c 為某一特定類別,t 表示特定的詞條,A 表示屬于類別c 且包含t 的文檔頻數,B表示不屬于類別c 但是包含t 的文檔頻數,C 表示屬于類別c 但不包含t 的文檔頻數,D 是既不屬于c 也不包含t 的文檔頻數。則t 對于類別c 的CHI 值由下列計算:

2.2 互信息

互信息的基本思想:以詞條t 和類別ci 之間的共同出現程度來表示詞條t 與類別ci 的相關程度。詞條對于類別的公共概率越大,它們之間的互信息也越大。假設p(t,ci)表示訓練集合中既包含特征t 又屬于類別ci 的文本出現的概率,p(t)表示包含特征t 的文本在訓練集合中出現的概率,p(ci)表示訓練集合中屬于類別ci 的文本的概率,A 為包含詞語t 且屬于類別ci 的文本數,B 為為包含詞語t 且不屬于類別ci 的文本數,C 為類別Ci 中不出現特征t 的文本數,N 為文本總數,則特征t 與類Ci 之間的互信息定義為:

為了衡量一個特征在全局特征選擇中的重要性,計算特征提供的關于類別信息的加權平均值。

2.3 信息增益

信息增益方法的基本思想是:通過計算某個特征詞語存在與否對文檔的信息熵的差值來判斷該特征詞的類別表征能力。具體方法是把訓練文檔集D 看作按某種概念分布的信息源,依靠文檔集的信息熵和文檔中詞語t 的條件熵之間信息量的增益關系確定該詞語在文本分類中所能提供的信息量。

3 中文文本分類方法

文本分類的方法中要有貝葉斯分類、支持向量機、K 近鄰等方法。

3.1 樸素貝葉斯文本分類

貝葉斯分類器其原理是計算文本屬于某個類別的概率,將文本分到概率最大的類別中去,計算時,利用了貝葉斯公式:

P(ci)是類的先驗概率,P(dx|ci)是類的條件概率。對同一篇文本,P(dx)不變。設dx 表示為特征集合(t1,t2,..,tn),n 為特征個數,假設特征之間相互獨立,則有:

其中P(tj|ci)為特征詞的條件概率。

貝葉斯分類器因具有容易實現,運算速度快的特點而被廣泛使用。

3.2 K 近鄰

K 近鄰分類算法是一種非參數的分類技術, 在基于統計的模式識別中非常有效。

基本原理是通過計算待分類文檔與訓練文檔集所有文檔之間的相似度,找出K 個與待分類文檔距離最相近的樣本,即K 個鄰居,并依據這K 個鄰居所屬的類別來判定待分類文檔的類別。先比較待分類文檔與其k 個鄰居的相似度,并以此作為候選類別的權重,然后使用預先得到的相似度的閾值,就可以得到文檔的最終所屬類別。

4 結束語

文本分類技術在自然語言處理、信息檢索、文本挖掘等領域都有著廣泛的應用,其主要任務是在預先給定的主題類別標記集合下,根據文本內容判定它所屬的類別。文本分類是許多數據管理任務的重要組成部分,基于文本分類技術的應用領域越來越多,自動論文摘要,數字圖書館、網絡分類新聞組、文本過濾、機器翻譯等獲得大量應用。同時,經過分類后的文本可以減少用戶甄別信息時間,滿足不同用戶需求,發揮信息自身其最大使用價值。

[1]鄭慶華,劉均,田鋒,等.Web 知識挖掘理論、方法與應用[M].科學出版社,2010,6:136-140.

[2]蒲筱哥.基于Web 的信息抽取技術研究綜述[J].現代情報,2007,10:215-219.

[3]陳釗,張冬梅.Web 信息抽取技術綜述[J].計算機應用研究,2010,12.

[4]劉偉,孟小峰,孟衛一.Deep Web 數據集成研究綜述[J].計算機學報,2007,30(9):1475-1489.

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产一区二区精品高清在线观看| 免费欧美一级| 国产欧美日韩综合一区在线播放| 亚洲女人在线| 人人看人人鲁狠狠高清| 国产成在线观看免费视频| 99热这里只有成人精品国产| 亚洲侵犯无码网址在线观看| 国产在线八区| 中文字幕在线视频免费| 中国国产A一级毛片| 亚洲国产成人精品青青草原| 71pao成人国产永久免费视频| 免费A∨中文乱码专区| 亚洲国产AV无码综合原创| 国产杨幂丝袜av在线播放| 精品国产成人av免费| 国产成人a在线观看视频| 亚洲福利网址| 欧美国产菊爆免费观看| 四虎在线观看视频高清无码| 91精品专区| 99精品影院| 成年人国产视频| 日韩精品成人在线| 青青青视频免费一区二区| 少妇高潮惨叫久久久久久| 午夜精品久久久久久久99热下载| 天天综合网站| 亚洲综合极品香蕉久久网| 亚洲天堂.com| 国产精品久久久精品三级| 欧美激情视频二区| 精品日韩亚洲欧美高清a| 午夜啪啪网| 18禁高潮出水呻吟娇喘蜜芽| 四虎成人免费毛片| 欧美精品在线看| 国产欧美日韩综合一区在线播放| 国产精品.com| 青草视频网站在线观看| 精品国产毛片| 国产精品久久久久久搜索| 国产高清无码第一十页在线观看| 91小视频在线播放| 91免费在线看| 亚洲成人在线免费观看| 欧美综合中文字幕久久| 激情亚洲天堂| 波多野结衣一区二区三区四区视频 | 中文字幕亚洲专区第19页| 伊人久久久久久久久久| 午夜欧美理论2019理论| 国产福利在线免费观看| 国产欧美日韩综合在线第一| 国产精品第一区| 日本欧美精品| 色欲色欲久久综合网| 91九色视频网| 日韩精品久久无码中文字幕色欲| 欧美日韩在线亚洲国产人| 国产一区在线视频观看| 天堂在线视频精品| 国产乱人乱偷精品视频a人人澡| 亚洲国产清纯| 久久久国产精品无码专区| 国产哺乳奶水91在线播放| 精品人妻AV区| 国产综合网站| 国产男女免费视频| 久久久久无码精品| 女高中生自慰污污网站| 熟妇无码人妻| 亚洲v日韩v欧美在线观看| 久久青草视频| 九月婷婷亚洲综合在线| 色天天综合久久久久综合片| 亚洲欧美成人在线视频| 乱人伦99久久| 国产欧美精品午夜在线播放| 久久99国产综合精品1| 国产午夜一级毛片|