999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于高維聚類技術(shù)的中文關(guān)鍵詞提取算法

2011-12-31 00:00:00高學(xué)東吳玲玉
中國管理信息化 2011年9期

[摘要]關(guān)鍵詞提取是中文信息處理技術(shù)的熱點(diǎn)和難點(diǎn),基于統(tǒng)計(jì)信息的方法是其中一個(gè)重要分支。本文針對(duì)基于統(tǒng)計(jì)信息關(guān)鍵詞提取方法準(zhǔn)確率低的問題,提出基于高維聚類技術(shù)的中文關(guān)鍵詞提取算法。算法通過依據(jù)小詞典的快速分詞、二次分詞、高維聚類及關(guān)鍵詞甄選四個(gè)步驟實(shí)現(xiàn)關(guān)鍵詞的提取。理論分析和實(shí)驗(yàn)顯示,基于高維聚類技術(shù)的中文關(guān)鍵詞提取方法具備更好的穩(wěn)定性、更高的效率及更準(zhǔn)確的結(jié)果。

[關(guān)鍵詞]關(guān)鍵詞提取;小詞典分詞;高維聚類;CABOSFV

Chinese Keywords Extraction Algorithm Based on the High-dimensional Clustering Technique

Wu Lingyu, Chen Yuan(與漢語不符)

(School of Economics and Management, University of Science and Technology Beijing, Beijing 100083, P. R. China)

Abstract: Keywords extraction methods are hot and difficult spots in Chinese information processing technology, one of which is the method based on statistical information. In order to improve the inaccuracy of it, Chinese keywords extraction algorithm based on the high-dimensional clustering technique is proposed. After word segmenting with small volume dictionary, secondary word segmenting, high-dimensional clustering and word selecting, the algorithm finds the keywords from article. Theoretical analysis and test show that the Chinese keywords extraction algorithm based on the high-dimensional clustering technique has better stability, efficiency and accuracy.

Keywords: keywords extraction, word segmentation with small volume dictionary, high-dimensional clustering, CABOSFV

1引言

關(guān)鍵詞提取是通過對(duì)一篇輸入文章做內(nèi)容分析,按一定比例或字?jǐn)?shù)要求提取出重要且語義相似性凝聚的關(guān)鍵詞的過程。關(guān)鍵詞自動(dòng)提取是文本挖掘領(lǐng)域的一個(gè)重要分支,在自動(dòng)摘要、文本分類、文本聚類、文本過濾、話題跟蹤、信息檢索、自動(dòng)問答等很多領(lǐng)域有重要作用。

迄今為止,關(guān)鍵詞自動(dòng)提取吸引了不少國內(nèi)外學(xué)者的關(guān)注和研究,其理論成果主要包括基于統(tǒng)計(jì)信息的方法、機(jī)器學(xué)習(xí)方法和淺層式語義分析方法三大類。其中應(yīng)用最為廣泛的是基于統(tǒng)計(jì)信息的關(guān)鍵詞提取方法,具備簡潔易懂、通用性強(qiáng)等優(yōu)勢(shì)。

本文針對(duì)基于統(tǒng)計(jì)信息關(guān)鍵詞提取方法準(zhǔn)確率不高的問題,引入高維聚類思想進(jìn)行改進(jìn),提出基于高維聚類技術(shù)的中文關(guān)鍵詞自動(dòng)提取算法。經(jīng)過基于小詞典的快速分詞、二次分詞、高維聚類、關(guān)鍵詞甄選四個(gè)步驟,算法抽取出的關(guān)鍵詞更加準(zhǔn)確,并且具有更好的穩(wěn)定性和更高的效率。

2關(guān)鍵詞提取方法

關(guān)鍵詞自動(dòng)提取方法分為基于統(tǒng)計(jì)信息的方法、機(jī)器學(xué)習(xí)方法和淺層式語義分析方法三大類。

基于統(tǒng)計(jì)信息的方法主要包括基于詞頻的關(guān)鍵詞抽取方法[ ]、基于TFIDF指標(biāo)的關(guān)鍵詞抽取方法[ ]、利用字同現(xiàn)信息的關(guān)鍵詞抽取方法、利用詞共現(xiàn)信息的關(guān)鍵詞抽取方法、基于N-Gram信息統(tǒng)計(jì)的關(guān)鍵詞獲取方法、構(gòu)建復(fù)雜網(wǎng)絡(luò)提取關(guān)鍵詞的方法[ ]等。盡管具有簡單易用的優(yōu)勢(shì),但這類方法的準(zhǔn)確性不高,提取出的關(guān)鍵詞往往包含文章中普遍出現(xiàn)卻與主題無關(guān)的高頻詞。此外,這類方法需統(tǒng)計(jì)所有詞匯出現(xiàn)的頻率,制約了運(yùn)行效率。

機(jī)器學(xué)習(xí)方法是建立在大量語料庫上的關(guān)鍵詞自動(dòng)提取方法,包括基于決策樹的方法、基于Naive Bayes 的方法、基于SVM的方法[ ]、基于最大熵模型的方法等。這類方法將關(guān)鍵詞提取問題視為二元分類問題,構(gòu)造關(guān)鍵詞提取分類模型,判斷詞語類別是否為關(guān)鍵詞。由于在實(shí)際應(yīng)用中有限的訓(xùn)練樣本難以接近整個(gè)樣本空間上的數(shù)據(jù)分布,這類方法很難訓(xùn)練出效果好的分類器。此外,這類方法在訓(xùn)練分類器的過程中可能存在過擬合問題,且生成的分類器只在與訓(xùn)練樣本類似的文章中才能取得較理想效果。

淺層式語義分析方法[ ]是近幾年發(fā)展起來的一種關(guān)鍵詞自動(dòng)提取方法。通常,這類方法借助一種中間模型表示文章語義結(jié)構(gòu),通過分析詞語間的語義關(guān)系,獲取關(guān)鍵詞。顯然,這類方法需要專業(yè)相關(guān)的先驗(yàn)知識(shí)。

本文提出的基于高維聚類技術(shù)的中文關(guān)鍵詞提取算法是針對(duì)基于統(tǒng)計(jì)信息的方法所作的改進(jìn)。在依據(jù)動(dòng)詞、虛詞、停用詞小詞典實(shí)現(xiàn)快速分詞及二次分詞后,將待處理文本數(shù)據(jù)轉(zhuǎn)化為以句子為對(duì)象、以詞為屬性的高維二態(tài)關(guān)系數(shù)據(jù)。調(diào)用高屬性維聚類算法CABOSFV實(shí)現(xiàn)聚類后,進(jìn)行類內(nèi)詞頻統(tǒng)計(jì),甄選出其中的高頻詞作為最終的關(guān)鍵詞。分析可知,算法具有更高的準(zhǔn)確度,更好的穩(wěn)定性,并提高了運(yùn)行效率。

3基于高維聚類技術(shù)的中文關(guān)鍵詞提取算法

基于高維聚類技術(shù)的中文關(guān)鍵詞提取算法分為依據(jù)小詞典的快速分詞、二次分詞、高維聚類及關(guān)鍵詞甄選四個(gè)步驟,見圖1。

3.1依據(jù)小詞典快速分詞

漢語以字為單位,詞與詞之間沒有天然的分隔符,因此中文關(guān)鍵詞提取的第一步是進(jìn)行分詞。常用的中文分詞法是依據(jù)名詞、形容詞大詞典的機(jī)械分詞法。由于名詞、形容詞的數(shù)量約占總體詞匯的70%,且難以及時(shí)收錄很多新生詞,所以依據(jù)大詞典進(jìn)行匹配存在效率低、擴(kuò)展性不強(qiáng)的問題。

鑒于此,算法選用較為新穎的依據(jù)動(dòng)詞、虛詞、停用詞小詞典的快速分詞法[ ]。其中,虛詞包括連詞、介詞、副詞及助詞,停用詞包括數(shù)詞、量詞、代詞、方位詞、擬聲詞、嘆詞、無實(shí)際意義的動(dòng)詞(如“可能”)及太過常用的名詞(如“操作”)。

對(duì)于文章中的每個(gè)句子,首先分別依據(jù)這三個(gè)小詞典對(duì)其進(jìn)行切分,即將句中的動(dòng)詞、虛詞、停用詞分別抽取出來,生成集合V,X,T:

V={c | c經(jīng)動(dòng)詞切分后被匹配為動(dòng)詞};

X={c | c經(jīng)虛詞切分后被匹配為虛詞};

T={c | c經(jīng)停用詞切分后被匹配為停用詞},

而每類切分余下的字符串構(gòu)成集合 。

隨后通過下述處理,生成初始分詞集W。設(shè)某句可表示為Sentence = S1,S2,…,Sn,其中,Si,i=1,2,…,n為字符串,則具體操作如下:

While SiSi+1 ∈ , i=1,2,…,n-1,

{

if [Si (or Si+1)∈ ] [Si+1 (or Si)];

Then W=W∪{ Si+1 (or Si)};

}

由于動(dòng)詞詞典、虛詞詞典以及停用詞詞典的詞匯量不多,算法初次分詞的效率得到改善。同時(shí)由于少有這三類新生詞匯,無需經(jīng)常性地?cái)U(kuò)充詞典,算法具有很好的穩(wěn)定性。

3.2二次分詞

由于沒有與大容量名詞詞庫進(jìn)行匹配,經(jīng)過快速分詞后產(chǎn)生的初始分詞集W中存在不必要的復(fù)合詞。為此,對(duì)初始分詞集進(jìn)行二次切分,生成最終分詞集。二次分詞的具體做法如下:

Step1:假設(shè)初始分詞集W={Z1,Z2,…,Zn},其中Zi (i =1,2,…,n)代表字符串,設(shè)定字符串長度閾值α;

Step2:對(duì)任意Zi ( i =1,2,…,n),

{ 若Zi.Length > α,

則將Zi與Z1,Z2,…,Zi-1,Zi+1,…Zn分別匹配,

{若Zi包含Zj ( j#61646;1,2,…,n且j≠i);

則將Zi以Zj為界進(jìn)行切分,并用切分后

的詞替換原詞,存入集合W;}

}

經(jīng)過二次切分后,清除了詞與詞之間不必要的包含關(guān)系,生成了最終分詞集,為后續(xù)聚類做好鋪墊。

3.3高維聚類

將最終分詞集中的詞視作屬性,將文章中的每個(gè)句子視作對(duì)象,若某個(gè)句子中包含某個(gè)詞,則該句子對(duì)象相應(yīng)的詞屬性取值為1,否則為0。經(jīng)過這樣的處理將原來的文本信息被轉(zhuǎn)化成一張高屬性維稀疏二維表。針對(duì)該表,調(diào)用高維聚類算法CABOSFV(Clustering Algorithm Based On Sparse Feature Vector)[ ]對(duì)句子對(duì)象進(jìn)行聚類。

CABOSFV算法專門用于求解二態(tài)變量高屬性維稀疏聚類問題,利用其稀疏差異度計(jì)算方法及“稀疏特征向量”對(duì)數(shù)據(jù)進(jìn)行有效壓縮,只需一次數(shù)據(jù)掃描就可完成聚類。假設(shè)有n個(gè)對(duì)象,描述第i個(gè)對(duì)象的m個(gè)稀疏特征取值分別對(duì)應(yīng)于二態(tài)變量值xi1, xi2,…, xim,一個(gè)類內(nèi)對(duì)象的差異度上限為b,則算法處理步驟如下:

Step1:為每個(gè)對(duì)象建立一個(gè)集合,分別記為 ,i#61646;{1,2,…,n}。

Step2:計(jì)算 和 合并后集合的稀疏差異度,若不大于類內(nèi)對(duì)象的差異度上限b,則將 和 合并到一個(gè)集合,作為一個(gè)初始類,記為 ;若合并后集合的內(nèi)部差異度大于上限b,那么將 和 分別作為一個(gè)初始類,記為 和 。將類的個(gè)數(shù)記為c。

Step3:針對(duì)集合 ,計(jì)算其與現(xiàn)存所有類合并后的集合稀疏差異度,并尋找i0,使得 與類 合并后的差異度最小。隨后判斷其是否符合b的要求,若符合,將 加入到類 中;否則,則將 作為一個(gè)新的初始類,記為 ,類的個(gè)數(shù)c=c+1。

Step4: 對(duì) , ,依次進(jìn)行類似于Step3的操作。

Step5:在最終形成的每一個(gè)類 ,k#61646;1,2,…,c中,刪除對(duì)象個(gè)數(shù)較少的孤立點(diǎn),余下各類為最終聚類結(jié)果。

算法詳見文獻(xiàn)[9]。

由于將文本信息轉(zhuǎn)化成了計(jì)算機(jī)易于處理的結(jié)構(gòu)化數(shù)據(jù),且CABOSFV計(jì)算復(fù)雜度低,整體算法的處理速度非常理想。同時(shí),由于將文章中一些主題不相關(guān)的句子判斷為孤立點(diǎn)刪除,保證了后續(xù)關(guān)鍵詞甄選的準(zhǔn)確率。

3.4關(guān)鍵詞甄選

通過高維聚類技術(shù)CABOSFV,算法將文章中意思相近的句子聚集在一起,它們對(duì)文章主題具有更強(qiáng)的表達(dá)力。因此,以高維聚類結(jié)果中的各個(gè)類為基礎(chǔ),對(duì)詞頻進(jìn)行統(tǒng)計(jì),并甄選出文章的關(guān)鍵詞,具體做法如下:

Step1:計(jì)算最終分詞集中每個(gè)詞的類內(nèi)詞頻,即用包含該詞的類內(nèi)句子數(shù)除以類內(nèi)句子總數(shù)。

Step2:判斷每個(gè)詞的類內(nèi)詞頻是否大于事先設(shè)定的詞頻閾值λ,將大于閾值的詞加入到初始關(guān)鍵詞集。

Step3:結(jié)合具體問題,對(duì)初始關(guān)鍵詞集進(jìn)行修剪,生成最終關(guān)鍵詞集。

算法在類內(nèi)統(tǒng)計(jì)詞頻,避免了傳統(tǒng)統(tǒng)計(jì)方法將常用名詞誤判為關(guān)鍵詞的情況,提高了關(guān)鍵詞抽取的準(zhǔn)確率。

4算法實(shí)驗(yàn)

為檢驗(yàn)算法效果,對(duì)《智利發(fā)生8.8級(jí)強(qiáng)震,多國拉響海嘯預(yù)警》[ ]、《莫斯科地鐵遭兩女人彈襲擊,至少38人喪生》[ ]及《云南局部干旱已達(dá)100年一遇》[ ]三篇發(fā)表于新華網(wǎng)、人民網(wǎng)上的新聞文章進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)信息見表1。

在依據(jù)小詞典分詞及二次分詞后,將文本數(shù)據(jù)轉(zhuǎn)化為二維表。表2所示為文章智利地震對(duì)應(yīng)的二維表。

調(diào)用CABOSFV算法聚類后,計(jì)算最終分詞集中每個(gè)詞的類內(nèi)詞頻,并判斷產(chǎn)生初始關(guān)鍵詞集。三篇文章初始關(guān)鍵詞的類內(nèi)詞頻統(tǒng)計(jì)分別見圖2、圖3及圖4。

經(jīng)過對(duì)初始關(guān)鍵詞集的修剪,三篇文章生成的最終關(guān)鍵詞集分別為{智利、地震}、{地鐵、爆炸}及{云南、干旱}。

結(jié)合原文可以看出,基于高維聚類技術(shù)的中文關(guān)鍵詞提取算法準(zhǔn)確挖掘出了文章的關(guān)鍵詞。此外,從運(yùn)行時(shí)間可以看出,算法具有較高的效率。

5 結(jié)論

通過依據(jù)動(dòng)詞、虛詞、停用詞小詞典的快速分詞、針對(duì)復(fù)合詞拆分的二次分詞、基于CABOSFV算法的高維聚類、類內(nèi)詞頻統(tǒng)計(jì)及關(guān)鍵詞的最終甄選,基于高維聚類技術(shù)的中文關(guān)鍵詞提取算法完成了對(duì)關(guān)鍵詞的識(shí)別。理論分析和實(shí)驗(yàn)結(jié)果顯示,算法的準(zhǔn)確度較高,運(yùn)算效率理想,并具有很強(qiáng)的穩(wěn)定性。

主要參考文獻(xiàn)

[1] Luhn H P. A statistical approach to the mechanized encoding and searching of 1iterary information. IBM Journal of Research and

Development,1957,1(4):309-317.

[2] Li Juanzi, Fan Qina, Zhang Kuo. Keyword extraction based on TF/IDF for Chinese news document. Wuhan University Journal of Natural Sciences,2007,12(5).

[3] 趙鵬,蔡慶生.一種基于復(fù)雜網(wǎng)絡(luò)特征的中文文檔關(guān)鍵詞抽取算法.模式識(shí)別與人工智能,2007,20(6):827-831.

[4] Zhang K, Xu H, Tang J. Keyword extraction using support vector machine. In: Proceedings of the Seventh International Conference on Web-Age Information Management, Hong Kong , 2006:85-96.

[5] 索紅光,劉玉樹,曹淑英.一種基于詞匯鏈的關(guān)鍵詞抽取方法.中文信息學(xué)報(bào),2006,20(6):25-30.

[6] 羅杰,陳力,夏德麟.基于新的關(guān)鍵詞提取方法的快速文本分類系統(tǒng).計(jì)算機(jī)應(yīng)用研究,2006 (4):32-34.

[7] 武森,高學(xué)東,M Bastian.高維稀疏聚類知識(shí)發(fā)現(xiàn).北京:冶金工業(yè)出版社,2002.

[8] 趙世俊.智利發(fā)生8.8級(jí)強(qiáng)震 多國拉響海嘯預(yù)警.新華網(wǎng),2010[2010-2-28].http://news.Xinhuanet

.com/world/2010-02/28/content_13065435.htm.

[9] 高軼軍.莫斯科地鐵遭兩女人彈襲擊 至少38人喪生.人民網(wǎng),2010 [2010-3-30].http://world.

people.com.cn/GB/1029/11252259.html.

[10] 蘇楠.云南局部干旱已達(dá)100年一遇.人民網(wǎng),2010 [2010-3-16].http://society.people.com.cn/GB/41158/11154789.html.

作者簡介

高學(xué)東(1963-),男,河北唐山人,北京科技大學(xué)經(jīng)濟(jì)管理學(xué)院教授,博士生導(dǎo)師,主要研究方向:管理過程優(yōu)化,數(shù)據(jù)挖掘.

吳玲玉(1983-),女,內(nèi)蒙人,博士研究生,主要研究方向:數(shù)據(jù)挖掘

主站蜘蛛池模板: 国产乱人免费视频| 亚洲人成网站日本片| 日本午夜精品一本在线观看 | 久久国产V一级毛多内射| 国产主播喷水| 国产又粗又爽视频| 欧美色综合网站| 午夜毛片免费看| 久久久久夜色精品波多野结衣| 五月天综合网亚洲综合天堂网| 国产亚洲精品自在线| 午夜不卡福利| 亚洲手机在线| 欧美精品1区| 91视频日本| 色偷偷av男人的天堂不卡| 伊人丁香五月天久久综合| 成人a免费α片在线视频网站| 成人在线观看不卡| 成人午夜精品一级毛片| 色偷偷综合网| 国产乱子伦一区二区=| 亚洲男人的天堂在线| 四虎精品国产永久在线观看| 国产精品久久自在自线观看| 2021无码专区人妻系列日韩| 韩日免费小视频| 国产一区免费在线观看| 亚洲最大情网站在线观看 | 婷婷在线网站| 波多野结衣一区二区三区四区视频 | 免费国产不卡午夜福在线观看| 免费三A级毛片视频| 免费视频在线2021入口| 欧美一区二区三区不卡免费| 91欧美亚洲国产五月天| 国产高颜值露脸在线观看| 国产AV无码专区亚洲A∨毛片| 无遮挡国产高潮视频免费观看| 原味小视频在线www国产| 久久综合干| 色老二精品视频在线观看| 国产女人在线| 久久久久免费看成人影片 | yjizz视频最新网站在线| 伊人久久影视| 啊嗯不日本网站| 国产打屁股免费区网站| 亚洲精品无码久久久久苍井空| 国产菊爆视频在线观看| 国产一区二区影院| 国产欧美日韩va另类在线播放| 亚洲AV无码久久精品色欲| 久久99精品久久久久久不卡| 青青青伊人色综合久久| 国产精品久久久久无码网站| 色综合久久无码网| 女同国产精品一区二区| 国产成人精品免费视频大全五级| 伊人久久综在合线亚洲2019| 人人91人人澡人人妻人人爽| 亚洲性视频网站| 亚洲AⅤ综合在线欧美一区| 精品视频一区二区观看| 亚洲人成网站在线播放2019| 老司国产精品视频91| 国模沟沟一区二区三区| 欧美日韩激情| 国产成人一区在线播放| 久久综合伊人 六十路| 综合色亚洲| 亚洲精品麻豆| 黄色一级视频欧美| 性欧美精品xxxx| 国产96在线 | 一区二区三区四区日韩| 亚洲IV视频免费在线光看| 亚洲精品国产成人7777| 亚洲视频免费在线| 国产精品福利社| 国产精品无码久久久久久| 免费无码AV片在线观看国产|