999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于瑤湖論壇的關鍵字搜索的應用與研究

2014-04-29 00:44:03孫飛謝旭升
電子世界 2014年17期

孫飛 謝旭升

【摘要】本文是基于瑤湖論壇的關鍵字搜索應用,在進行文本的選擇與分詞、關鍵字權重的計算、文本向量空間模型的表示和帖子分類算法的選擇上都充分考慮了論壇的性質,并且在分詞時增加了人工干預的形式,使得更好的滿足論壇的需要。

【關鍵詞】關鍵字搜索;中文分詞;文本聚類

1.引言

隨著科技的發展,計算機技術的應用也越來越普及,中文分詞、文本分類,信息檢索等各項技術在各大搜索引擎公司都得到了很好的應用,但是商業引擎的處理信息量大,處理文本的信息各種各樣,它們有很強的通用性,但對于特定的領域或者特定信息空間的處理確有很大的提升空間[1]。本文基于瑤湖論壇,根據論壇的特點,在文本的分詞、文本的向量模型表示、文本分類算法的選擇等方面都因地制宜的進行了改動,以期望達到更好的效果。

2.文本的分詞與關鍵字權重的計算

2.1 文本內容的選取

提取計算帖子中關鍵字對帖子內容而言所承載的信息量,和建立帖子空間向量模型的第一步是對帖子文本內容進行分詞。在文本內容的選取上,充分考慮到論壇中帖子的語言表達方式基于學生生活用語,并且帖子的文本篇幅長度較短,同時對于帖子的回帖,其內容較為固定和單一,帖子之間的區分度不高,噪聲較大。所以只將帖子的標題和帖子的內容作為帖子的文本信息進行分詞。

2.2 分詞工具的選擇

我們將IK Analyzer作為分詞工具對取得的文本信息進行處理,IK Analyzer是一個開源的,基于java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer已經推出了4個大版本。最初,它是以開源項目Luence為應用主體的,結合詞典分詞和文法分析算法的中文分詞組件。從3.0版本開始,IKAnalyzer發展為面向Java的公用分詞組件,獨立于Lucene項目,同時提供了對Lucene的默認優化實現。在2012版本中,IKAnalyzer實現了簡單的分詞歧義排除算法,采用了特有的“正向迭代最細粒度切分算法”,支持細粒度和智能分詞兩種切分模式,詞典支持中文、英文、數字混合詞語。

2.3 關鍵字權重的計算

查詢中每一個關鍵字的權重應該反映這個詞對于查詢來講提供了多少信息,搜索關鍵字權重的科學度量是TF-IDF。其主要思想是:如果某個詞或短語在一篇文章中出現的頻率TF高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。TF-IDF實際上是:TF×IDF,TF詞頻(Term Frequency),IDF逆向文件頻率(Inverse Document Frequency)。TF表示詞條在文檔d中出現的頻率。IDF的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區分能力。一篇帖子中關鍵字的權重公式如公式(1)所示。

(1)

其中|D|為語料庫中的文件總數,表示包含詞語ti的文件數目(即的文件數目)如果該詞語不在語料庫中,就會導致被除數為零,因此一般情況下使用都會加上1。并且由于文本長度的不同進行了歸一化處理。

2.4 分詞與關鍵字權重中的人工干預

由于中文特殊的語言語境模式,雖然中文分詞已經取得很大的發展,但是但無論按照人的智力標準,還是同實用的需要相比較,差距還很大。為了彌補機器分詞的不足,我們先將文本內容進行分詞并計算出每個詞語的IDF值,將IDF值大于一定閾值的設為關鍵字,存入關鍵字表,將IDF值小于一定閾值的設為停止詞,這些詞大部分是沒有意義的虛詞。并且提供了可以通過的導入關鍵字詞典和停止詞典及修改詞典的方式來輔助分詞器在分詞時判斷哪些詞可以作為關鍵字,并且將停止詞典中的詞語作為無意義的詞而忽略掉。其后臺處理界面如圖1所示。

圖1 后臺處理界面

3.文本向量空間模型的建立與分類

3.1 文本向量空間模型的建立

最常用的文本表示模型是G..Salton在1975年提出的向量空間模型(VectorSpaceModel),其基本思想是把文本d看作向量空間中的一個n維向量(w1,w2,w3...wn),其中w1,w2,...wn為表示該文本的n個特征所對應的權重,一般取為詞頻的函數。文本分類的第一步是對文本集進行基于詞典的分詞處理。由于通用的的詞典收錄詞條數共有116921,如果把每個帖子表示成一個116921維的向量,由于帖子文本內容較少且語言較為生活化,所以很多詞語都不會在帖子中出現,導致生成的向量極為稀疏,浪費的存儲空間,影響了分類時的計算效率和分類精度,所以要進行文本的特征選擇[2]。

常用的文本特征選擇的方法有很多,如信息增益、期望交叉熵、互信息、文檔頻率[3],其核心都是基于信息論,基本思想都是對每一個特征中文詞,計算某種統計度量值,然后設定一個閾值T,把度量值小于T的那些特征過濾掉,剩下的即認為是有效特征。我們第二小節已經做了相關的工作[4],通過設置停止詞典的方式,在分詞時忽略了很多沒有意義的虛詞,有效的降低了文本向量的維度。將帖子文本的結果按照“關鍵字=tfidf值”的形式表示成空間向量存入SQL Server數據庫中。部分數據如圖2所示。

圖2 帖子的向量空間模型的存儲

3.2 帖子文本的聚類

將主題內容相似的帖子分成一類,實現上認為同一類的帖子含有的相同的關鍵字就較多。以此思想對帖子進行分類。帖子的相似度就表示為兩個帖子的余弦值,既有:

(2)

圖3 帖子之間的余弦值

通過對論壇的一定帖子之間余弦值的計算和前期人工類別的核實發現當閾值大于0.18時,帖子之間表現出了一定的相關性。部分數據如圖3所示。

文本分類是事先定義好類別,類別數不變。分類器需要由人工標注的分類訓練語料訓練得到,由于論壇中帖子的文本內容隨意且文本長度較短,單一類型的特征向量難以確定,類別數也不好判斷,所以我們使用聚類的方法來處理,將比較相似的文章或文本信息歸為同一組。文本的聚類算法采用K-means算法,是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大[5]。算法過程如下:

(1)從n個數據對象任意選擇k個對象作為初始聚類中心。

(2)根據每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;并根據最小距離重新對相應對象進行劃分。

(3)重新計算每個(有變化)聚類的均值(中心對象)。

(4)循環(2)到(3)直到每個聚類不再發生變化為止。

根據上面的理論基礎,在NetBeans平臺下用java實現了該系統的的相關功能,界面截圖如圖4所示。

圖4 關鍵字搜索界面

4.結束語

本文的應用是基于特定的論壇,在系統實施的每個方面如文本的分詞、關鍵字權重的計算、文本向量空間模型的建立、分類算法的選擇都充分的考慮的論壇的性質,并且增加了人工干預的方式,使得應用更加靈活和準確。但是限于原始帖子的測試數據較小,從論壇抓取的數據類型還不夠多樣,導致在帖子分類算法的選擇上沒有提供很好的參照。系統的完善和改進將是我們下一步的工作。

參考文獻

[1]李銀松,施水才等.用戶興趣分類在個性化搜索引擎中的應用[J].情報學報,2008,27(4):535-540.

[2]孫建濤.Web挖掘中的降維和分類方法研究.北京:清華大學計算機科學與技術系,2005.

[3]YangYiming,Pederson J O.AComparative Study on Feature Selection inText Categorization[A].Proceedings of the 14th International Conference on Machine learning[C].Nashville:Morgan Kaufmann,1997:412-420.

[4]余俊英.文本分類中特征選擇的研究.江西:江西師范大學計算機信息工程院,2007,36(l):35-41.

[5]姚明宇,皮德常等.基于k-means的中文文本聚類算法[A].Proceedings of 2010 International Conference on Services Science,Management and Engineering(Volume 2)[C].2010.

作者簡介:

孫飛(1988—),男,江蘇人,碩士研究生,現就讀于江西師范大學計算機信息工程學院。

謝旭升(1963—),男,江西人,教授,現供職于江西師范大學計算機信息工程學院,主要研究方向:分布式數據庫。

主站蜘蛛池模板: 亚洲中文字幕久久无码精品A| 国产va视频| 亚洲日韩第九十九页| 国产精品香蕉在线| 日本不卡在线播放| 999精品视频在线| 免费国产在线精品一区| 日韩中文无码av超清| 四虎免费视频网站| 亚洲欧美人成人让影院| 亚洲女同一区二区| 欧美日韩另类在线| 国产毛片基地| 91成人在线免费视频| 国产视频欧美| 久久久精品无码一区二区三区| 国产精品冒白浆免费视频| 成AV人片一区二区三区久久| 国产免费黄| 久久午夜夜伦鲁鲁片无码免费| 欧美亚洲一区二区三区在线| 亚洲一区国色天香| 国产丝袜91| 69国产精品视频免费| 久久黄色影院| 日本伊人色综合网| 女人av社区男人的天堂| 亚洲欧美一级一级a| 99er精品视频| 国产精品人成在线播放| 国产99热| 有专无码视频| 亚洲男人的天堂久久香蕉网| 日本精品一在线观看视频| yy6080理论大片一级久久| 国产在线拍偷自揄观看视频网站| 亚洲美女操| 在线99视频| 久久一级电影| 99无码中文字幕视频| 看av免费毛片手机播放| 亚洲精品黄| 一区二区三区精品视频在线观看| 久久久久免费精品国产| 国产成人精彩在线视频50| 久久精品国产亚洲AV忘忧草18| 久草视频精品| 91精品啪在线观看国产91| 亚洲精品爱草草视频在线| 国产香蕉国产精品偷在线观看| 五月激情婷婷综合| 亚瑟天堂久久一区二区影院| 国产亚洲欧美日韩在线一区二区三区| 亚洲色无码专线精品观看| 色婷婷狠狠干| 日韩成人免费网站| 久久人妻xunleige无码| 鲁鲁鲁爽爽爽在线视频观看| 中文天堂在线视频| 国产最爽的乱婬视频国语对白| 人妻丰满熟妇av五码区| 欧美在线导航| 亚洲欧美成aⅴ人在线观看| 日本在线视频免费| 中日韩一区二区三区中文免费视频| 四虎成人免费毛片| 亚洲美女操| 国产精品不卡永久免费| 67194成是人免费无码| 国产乱人伦精品一区二区| 亚洲欧美另类中文字幕| 热99re99首页精品亚洲五月天| 久久美女精品| 免费网站成人亚洲| aaa国产一级毛片| 亚洲欧美精品一中文字幕| 成年女人a毛片免费视频| www.日韩三级| 免费无码网站| 国产一级特黄aa级特黄裸毛片 | 永久免费无码日韩视频| 在线播放国产99re|