999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于MIDF(t)的短文本特征權重計算方法研究

2016-09-18 05:35:24夏冰
黑龍江科學 2016年16期
關鍵詞:分類特征文本

夏冰

(哈爾濱金融學院基礎教研部,哈爾濱 150030)

基于MIDF(t)的短文本特征權重計算方法研究

夏冰

(哈爾濱金融學院基礎教研部,哈爾濱 150030)

隨著互聯網的飛速發展,傳統的文本分類已經不能滿足人們對信息服務系統的要求,為了實現大規模海量信息的有效利用,高準確率的分類算法成為近年的研究熱點。通常情況下,網絡上的影評屬于短文本,文本中可供抽取的信息詞量較少,而對文本分類不起作用的停用詞比例相對較大,產生了向量維度高和特征稀疏這兩大難題,因而研究難度更大。針對短文本特征稀疏和樣本高度不均衡等特點,本文提出方法作為短文本特征權重的計算方法,既考慮了特征項在單個樣本中的分布,又考慮了文本的類別特征,提高了短文本分類的查準率和查全率。實驗結果表明,與傳統的特征權重計算方法相比,該方法更適合短文本的分類。

短文本;文本分類;特征權重

隨著互聯網的飛速發展,傳統的文本分類已經不能滿足人們對信息服務系統的要求,為了實現大規模海量信息的有效利用,高準確率的分類算法成為近年的研究熱點。在文檔分類中,通過分詞后的文檔詞匯量相當大,產生的高維度特征空間不僅導致計算量巨大,還影響文本分類精度。因此,在分類之前務必要進行特征抽取來剔除那些表現力不強的詞匯,即需要對文本的維度進行約簡,這個過程稱為特征選取。

通常情況下,網絡上的影評屬于短文本,文本中可供抽取的信息詞量較少,而對文本分類不起作用的停用詞比例相對較大,產生了向量維度高和特征稀疏這兩大難題,因而研究難度更大。針對短文本的自身特點,本文綜合考慮樣本在正類和負類中的分布情況,結合反文檔頻和相關性頻率的特點,提出MIDF(t)方法作為短文本特征權重的計算方法。

1 短文本特征選擇方法

1.1 互信息

在特征選擇的方法中,互信息(Mutual Information)是通過特征項和類別共同出現時的概率來判斷特征項和類別之間的相關性。特征項t和類別Ci之間的互信息計算公式如下:

其中,P(t,ci)表示特征項t出現在屬于類別Ci的文本中的概率;P(t)表示特征項t出現在訓練文本中的概率;P(ci)表示類別Ci的文本出現在訓練文本中的概率。

在類別Ci中出現包含特征項t的文本出現的概率越大,則這樣的文本在別的類中出現的幾率越低,這樣就表示特征項t和類別Ci的互信息就越大,反之就越小。

1.2 反文檔頻率

影評文本分為褒義文本和貶義文本,本文將褒義文本視為“正類”(Positive Category,PC),將貶義文本視為“負類”(Negative Category,NC)。

一般的文本分類主要考慮以下幾方面:一方面,特征項t在類別Ci中出現的概率較大,而在其他類別中出現的幾率低,這就表示特征項t和類別Ci的互信息就越大,反之就越小;另一方面,特征項t在正類中出現的頻率比在負類中出現的頻率高,說明它具有較好的類別區分能力,稱為反文檔頻率。

其中,N表示訓練文檔總數,n表示訓練文檔中包含特征項t的文檔數,加0.01是為避免在特征項t未出現的情況下造成分母為零的情況。

基于上面的分析,既要考慮特征項在單個樣本中的分布,又要考慮文本的類別特征,本文提出一種針對短文本的特征選擇方法,計算公式如下:

2 仿真實驗

2.1 選擇文本

從IMDB(Internet Movie Data Base,互聯網電影數據庫)和爛番茄(ROTTEN TOMATOES)英文網站中選出800條具有情感色彩(褒義或貶義)的影評,將這些文本分為褒義文本和貶義文本,類別c1代表褒義,類別c2代表貶義。將其中300條褒義文本和200條貶義文本作為訓練樣本,其余200條褒義文本和100條貶義文本作為測試樣本。

2.2 分離器

采用K最近鄰(K-Nearest Neighbor,KNN)分類算法進行短文本分類仿真。作為一種傳統的模式識別算法,KNN算法分類精度較高,并且不需要因加入新的訓練文本而重新訓練,簡單且易操作。

2.3 評價方法

分類效果評估采用國際上通用的準確率、召回率以及F1測試值進行評估:

準確率=分類的正確文本數/實際分類文本數

召回率=分類的正確文本數/應有文本數

F1=2×(準確率×召回率)/(準確率+召回率)

表1 分類效果比較Tab.1 Classification results comparison

由表1可以看出,改進后的短文本特征選擇方法具有較好的分類效果。

3 結語

由于短文本語料類別分布不均衡,因此沿用長文本的特征權重計算方法很難取得理想的分類效果。為此,本文提出MIDF(t)特征權重計算方法,既考慮特征項在單個樣本中的分布,又考慮了文本的類別特征,并進行了仿真實驗。實驗結果驗證了該短文本特征權重算法的可行性。

[1] 馬雯雯,鄧一貴.新的短文本特征權重計算方法[J].計算機應用,2013,22 (8):2280-2282.

[2] 汪正中,張洪淵.基于英文博客文本的情感分析研究[J].計算機技術與發展,2011(8):153-156.

[3] 林少波,楊丹,徐玲.基于類別相關的新文本特征提取方法[J].計算機應用研究,2012,(5):1680-1683.

[4]Liu Zitao,Yu Wenchao,Chen Wei,et al.Short Text Feature Selection for Microblog Mining[C]//The 4th International Conference on Computational Intelligence and Software Engineering.Wuhan,China,2010:1-4.

[5] Bharath Sriram,David Fuhry,Engin Demir,Hakan Ferhatosmanoglu.Short Text Classification in Twitter to Improve Information Filtering Computer Science and Engineering Department[D].Ohio State University,Columbus,OH 43210,USA.2010:24-34.

Feature weight calculation approach based on short text ofMDF(t)

XIA Bing
(Harbin Finance University,Basic Research Department,Harbin 150030,China)

With the rapid development of the Internet,the traditional text classification can not satisfy people's requirements of information service system,in order to achieve effective use of large-scale mass of information,high accuracy of classification algorithms has become a hot topic in recent years.Under normal circumstances,the filmreviewon network belongs to short text,there are less information words for extraction available in the text,while stop words make a large proportion in the text,resulting in two big issues of high vector dimension and sparse feature that are more difficult to study.In view of the inherent sparse features and unbalanced sample of the short text,the paper proposes a approach to resolve this problem,an approach of short text feature weight named MIDF(t)was proposed.This approach integrated the distribution of features in sample,and improved the precision and recall of short text categorization.The result of experiment indicates that the proposed approach is more suitable for short text classification compared to traditional feature weight calculation methods.

Short text;Text classification;Feature weight

TP311

A

1674-8646(2016)16-0028-02

2016-06-07

黑龍江省哲學社會科學研究規劃項目“基于模糊支持向量機的英語語篇情感分析”(13E024)

夏冰(1977-),女,黑龍江哈爾濱人,碩士,副教授,主要從事數學建模,機器學習、數據挖掘的研究。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产在线专区| 国产精品亚洲一区二区三区z| 不卡的在线视频免费观看| 91区国产福利在线观看午夜| 人妻少妇久久久久久97人妻| 色天天综合| 亚洲91在线精品| 国产成人1024精品| 亚洲成肉网| 欧美激情成人网| 亚洲a级毛片| www成人国产在线观看网站| 亚洲人成色在线观看| 久久99国产综合精品女同| 美女一区二区在线观看| 亚洲天堂2014| 日本欧美一二三区色视频| 国产又黄又硬又粗| 欧美 国产 人人视频| 福利片91| 最新国产成人剧情在线播放| 扒开粉嫩的小缝隙喷白浆视频| 伊人五月丁香综合AⅤ| 日本在线国产| 91久久偷偷做嫩草影院免费看| 亚洲天堂高清| 国产精品自拍合集| 少妇露出福利视频| 欧美国产综合视频| 国产一区三区二区中文在线| swag国产精品| 国产亚洲精品97AA片在线播放| 欧美黄网站免费观看| 制服丝袜一区| 伊人中文网| 国产成人毛片| 中文字幕va| 日韩欧美综合在线制服| 久草国产在线观看| 国产精品久久久免费视频| 综合色婷婷| 2020国产精品视频| 欧美日韩一区二区在线播放| 日韩高清欧美| 狼友视频国产精品首页| 99精品欧美一区| 欧美v在线| 国产成年无码AⅤ片在线| 亚洲av无码久久无遮挡| 亚洲国产精品不卡在线| 午夜精品区| 午夜成人在线视频| 91精品最新国内在线播放| 国产天天射| 99热6这里只有精品| 18禁色诱爆乳网站| 国产精品第页| 午夜性刺激在线观看免费| 真人高潮娇喘嗯啊在线观看| 午夜福利亚洲精品| 欧美一级爱操视频| 亚洲高清资源| 四虎影视库国产精品一区| 欧美成人看片一区二区三区| 99精品视频在线观看免费播放| 中文字幕欧美日韩| 97超爽成人免费视频在线播放| 99久久婷婷国产综合精| 成人蜜桃网| 国产精品无码作爱| 美臀人妻中出中文字幕在线| 日韩黄色精品| 在线高清亚洲精品二区| 日本不卡在线视频| 欧美黑人欧美精品刺激| 视频一本大道香蕉久在线播放| 免费观看精品视频999| 青青青视频91在线 | 国产97区一区二区三区无码| 亚洲三级网站| 免费无码AV片在线观看中文| 精品无码一区二区三区在线视频|