999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于多重因子加權的文本特征項權值計算方法

2007-01-01 00:00:00周經野
計算技術與自動化 2007年1期

摘要:根據中文文本的特點,不僅考慮文本中詞匯概率信息,還結合文本語義等多方面信息來計算文本特征項的權值,從而提出一種基于多重因子加權的特征項權值計算方法,并給出具體算法#65377;通過與基于詞頻及基于TF-IDF的特征項權值計算方法的比較試驗,證明文中提出的特征項權值計算方法能有效提高文本聚類的正確率#65377;

關鍵詞:特征項;文本聚類;中文文本;自然語言處理

中圖分類號:TP301

文獻標識碼:A

1引言

隨著Internet的日益發展和網上各類信息的迅猛增長,文本聚類成為處理和組織大量文本數據的關鍵技術之一[1]#65377;因此,研究利用計算機進行文本聚類成為自然語言處理和人工智能領域中一項具有重要應用價值的課題#65377;

但是,在現在的文本自動信息處理的研究中,研究者往往只試圖從改進后期的處理算法來提高其效率或精度,而忽略了特征項權值計算方法的重要性#65377;因此,文章對特征項的權值計算方法進行了研究,并提出了一種基于多重因子加權的特征項權值計算方法#65377;在該方法中,首先不是簡單的依據詞頻來計算特征項的權值,而是對詞匯在文本中的出現概率及語義特點進行分析并通過多重加權的方法來確定特征項的權值#65377;文章將此特征項權值計算方法應用于文本聚類,并進行了對比實驗,實驗表明這種特征項權值計算方法提高了聚類精度#65377;這說明好的特征項權值計算方法能夠更好地反映文本類型的根本特點和屬性,對于提高文本信息處理的性能有著重要的作用#65377;

2特征項分析及多重加權

通常文本數據具有有限的結構, 甚至大部分沒有結構, 而文本的內容是用自然語言描述, 計算機無法直接理解其語義和進行相應的處理,所以需要對文本進行特征表示,抽取代表其特征的元數據#65377;在中文文本中,詞是具有獨立語義特性的最小單位,因此,在文本的特征值提取中都是按詞來抽取特征項,然后將這些特征項用結構化的形式表示#65377;目前, 在文本信息處理領域中, 向量空間模型(Vector Space Model, VSM)是應用較多且效果較好的表示方法之一[2]#65377;在VSM中,文本被形式化為多維空間中的一個點,其形式為:d=d(t1,w1,t2,w2,…,tn,wn),其中ti為特征項,wi為特征項的權值,簡記為d=d(w1,w2,…,wn)#65377;可見,向量空間模型中每一維的值表示該詞語在此文本中的權重,用以刻畫該詞語在描述文本內容時所起作用的重要程度#65377;傳統計算詞語權重的方法是詞頻,但是詞頻只是反映詞語的出現頻率,不能真正反映詞語在文本中出現的重要程度#65377;因此,文章從文本特征項的出現頻率和語義兩個角度來考慮提出了一種基于多重因子加權的文本特征項權值計算方法#65377;下面,先介紹頻率加權因子#65377;

2.1頻率加權因子

頻率加權因子是指特征項在文本中出現的概率(即詞頻)及特征項在文本集中出現的頻率(即文本頻數)兩個權重因子#65377;

將這兩個因子結合在一起,就得到了頻率加權因子的計算公式,也就通常的TF-IDF公式[3],如公式(1)所示:

其中,tf(ti,d)表示ti在文本d中出現的頻率,如果一個詞在這個文本中出現得非常多,那么它就非常可能與這個主題密切相關,所以重要性就高,反之重要性就低#65377;N是文本集中文本的個數,df(ti)是詞ti在文本集中出現詞ti的文本個數,N/df(ti)是逆文本頻數,說明特征項在較多的文本出現,它的重要性就越低,集中在少數文本中,就具有較高的權重#65377;

在得到w(ti,d)之后,下一步就來考慮詞語的語義信息,并且通過不斷修改權值w(ti,d)的方式來反映詞匯不同的特點#65377;

2.2語義加權因子

對于自然語言(這里指中文),詞語與詞語之間存在著大量的語義關系,如同義#65380;近義#65380;同現等,另外,詞語出現在文中的不同位置也有不同的語義特點#65377;語義分析,就是從中文文本的語義角度出發,希望能用對相應權值的改變來反映文本的語義特征#65377;文章主要從下面三個方面來將語義信息反映到向量權值中#65377;

2.2.1位置權重

國內有人抽樣統計,國內中文期刊自然科學論文的標題與文本的基本符合率為98%,新聞文本的標題與主題的基本符合率為95%[4]#65377;美國一學者進行過統計,反映主題的句子,80%出現在段首,10%出現在段尾#65377;這說明不同位置的詞對文本的作用也是不一樣的,有些詞雖然出現頻率不高,但卻很能反映文本的特性#65377;因此,對于不同位置的詞進行加權來處理#65377;位置權重設為σti,其值為:σti=1.0如果ti出現在標題中0.8如果ti出現在第一段中0.4如果ti出現在其它段中0.6如果ti出現在段尾(2)設sti為詞在相應位置出現的次數,加入了位置權重的詞權重計算公式如公式(3)所示:

2.2.2詞長權重

一般說來,短詞具有較高的頻率和更多的含義, 是面向功能的;而長詞的頻率較低,是面向內容的, 增加長詞的權重, 有利于詞匯進行分割, 從而更準確地反映出特征詞在文章中的重要程度#65377;例如,“計算機”,“電子計算機”,“數字電子計算機”三個詞專指性依次增強,而概括性依次減弱#65377;因此,長詞應該具備較高的權重,加入了詞長權重的計算公式如公式(4)所示:其中,ɑ表示詞ti的長度,如“電子計算機”中ɑ=5

2.2.3詞同現頻率

在中文文本中,句義的表達是由組成句的詞義以及詞與詞的關系表達,而同現關系是詞與詞之間最直接的關系#65377;根據文獻[5]:在同一詞中出現的所有字兩兩之間的同現關系是詞所表現的意義所在#65377;

如果兩個詞出現在同一句子中,這兩個詞具有最直接的相關性,所以文章指的同現頻率是指句內同現頻率#65377;

設詞ti在文本d中出現的總次數為si,即詞頻tf(ti,d),詞tj在文本d中出現的總的次數為sj,即詞頻tf(tj,d),詞ti與詞tj同現頻率記為sij(句內不重復計數),可知

其中,pij為詞ti與詞tj的同現概率,可知pij=pji,pii≡1#65377;

最終,在一篇文本中我們能夠得到一個詞空間內的詞與詞之間的一個同現概率矩陣,它是一 個n 行n 列的對稱矩陣,n 表示的該文本特征項的數量#65377;

利用該矩陣對w(ti,d)的權值進行修正,特征項ti的權值修正為:

這樣,對同現概率大的詞的權重就得到了加強,同現概率大就表示該詞經常修飾其他詞或被其他詞修飾,那么,就認為這是一個比較重要的詞,對反映文本的主題思想具有重要的貢獻,相應的該詞的權重應該得到加強,并且與之關聯比較大的詞的權重也得到了加強,新得到的文本特征描述蘊涵了詞的同現特點,突出了該文本的語義信息,與人的思維習慣相符#65377;

2.3基于多重因子加權的特征項權值計算算法

設待聚類的文本集為D, D={d1,d2,…,dN},N為文本集中的文本個數,文本集中的特征項集為T,特征項權值計算方法如下:

對于每個tr∈T,其中r=1,…,v#65377;

步驟1 計算tr在di中出現的次數及它與其它詞同時出現在一個句子內的次數,在文本集D中出現該詞的文本數及位置信息以及tr的詞長ɑ;

步驟2 分別計算出tr的詞頻tf(tr,di)#65380;文本頻數df(tr);

步驟3 利用詞頻和文本頻數計算tr的權值w(tr,di) (公式(1));

步驟4 利用步驟1中給出的位置信息,計算加入了位置權重的特征項的權值(公式(2))

步驟5 利用步驟1計入的詞長,擴充w(tr,di) (公式(3),(4));

步驟6 計算tr的同現概率矩陣(公式(5),(6));

步驟7 根據詞的同現頻率矩陣修正w(tr,di)((公式(7));

步驟8 tr的最終權值為w(tr,di),程序結束#65377;

3實驗與結果

文本來源:人民網(www.people.com.cn)聚類算法:k-means聚類算法;

評價指標:F-meɑture=2×準確率×查全率準確率+查全 率;

測試結果:如表1所示#65377;表1比較實驗結果基于詞頻的特征 項權值計算方法基于TF-IDF的特征項權值計算方法基于多重因子加權的特征項權值計算方法類型名稱文本數目測試分析:從實驗結果可以看出,基于多重因子加權的特征項權值計算方法的準確率要比基于詞頻的特征項權值計算方法的F—measure值平均高15~20個百分點;比基于TF-IDF的特征項權值計算方法的F—measure值平均高6~10個百分點#65377;

當然,文中采取k-means算法來聚類,由于k-means算法是隨機選擇初始聚類中心,使得在聚類時正確率并不是很好,這些方面將在今后的工作中加以改進#65377;

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 日韩123欧美字幕| 激情综合图区| 亚洲无码精品在线播放| 日韩高清欧美| 91小视频在线| 成·人免费午夜无码视频在线观看| 丰满人妻久久中文字幕| 亚洲丝袜中文字幕| 日韩精品久久久久久久电影蜜臀| 国产69囗曝护士吞精在线视频| 欧美日本一区二区三区免费| 免费不卡在线观看av| 国产在线视频欧美亚综合| 丰满人妻中出白浆| 亚洲人成影视在线观看| 91在线高清视频| 久久免费观看视频| 在线不卡免费视频| 91福利一区二区三区| 国产精品亚洲va在线观看| 国产极品美女在线| 久久国产精品嫖妓| 99精品影院| 99热亚洲精品6码| 四虎永久免费地址在线网站| 亚洲男人的天堂在线观看| 亚洲欧美日韩久久精品| 国产办公室秘书无码精品| 国产欧美性爱网| 成人午夜网址| 久久久久青草大香线综合精品| 精品一区二区三区无码视频无码| 欧美福利在线播放| 午夜福利免费视频| 2048国产精品原创综合在线| 热99精品视频| 免费看a级毛片| 国产va在线观看免费| 美女无遮挡免费视频网站| 91精品国产一区| 青草国产在线视频| 国产亚洲欧美日韩在线一区二区三区| 免费激情网址| 久久99热这里只有精品免费看| 四虎影视永久在线精品| 国产成人免费视频精品一区二区| 国产呦精品一区二区三区网站| 日韩精品一区二区三区swag| 国产午夜看片| 无码AV高清毛片中国一级毛片| 亚洲国产第一区二区香蕉| 一级毛片在线播放| 亚洲欧美成人在线视频| 蜜臀AVWWW国产天堂| 国产成人永久免费视频| 中文字幕 91| 一本久道久综合久久鬼色| 女同国产精品一区二区| 国产一级裸网站| 无码日韩视频| 97se亚洲| 区国产精品搜索视频| 视频一本大道香蕉久在线播放| 久久视精品| 深爱婷婷激情网| 黄色网址免费在线| 91毛片网| 国产91丝袜在线播放动漫| 91在线一9|永久视频在线| 欧美精品色视频| 日本伊人色综合网| 久久婷婷六月| 欧美日本视频在线观看| 91在线播放免费不卡无毒| 免费国产好深啊好涨好硬视频| 毛片在线播放a| 精品国产成人高清在线| 狠狠色噜噜狠狠狠狠色综合久| 国产毛片基地| 亚洲天堂啪啪| 久久亚洲天堂| 亚洲欧洲日韩综合|