999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于瑤湖論壇的關鍵字搜索的應用與研究

2014-04-29 00:44:03孫飛謝旭升
電子世界 2014年17期

孫飛 謝旭升

【摘要】本文是基于瑤湖論壇的關鍵字搜索應用,在進行文本的選擇與分詞、關鍵字權重的計算、文本向量空間模型的表示和帖子分類算法的選擇上都充分考慮了論壇的性質,并且在分詞時增加了人工干預的形式,使得更好的滿足論壇的需要。

【關鍵詞】關鍵字搜索;中文分詞;文本聚類

1.引言

隨著科技的發展,計算機技術的應用也越來越普及,中文分詞、文本分類,信息檢索等各項技術在各大搜索引擎公司都得到了很好的應用,但是商業引擎的處理信息量大,處理文本的信息各種各樣,它們有很強的通用性,但對于特定的領域或者特定信息空間的處理確有很大的提升空間[1]。本文基于瑤湖論壇,根據論壇的特點,在文本的分詞、文本的向量模型表示、文本分類算法的選擇等方面都因地制宜的進行了改動,以期望達到更好的效果。

2.文本的分詞與關鍵字權重的計算

2.1 文本內容的選取

提取計算帖子中關鍵字對帖子內容而言所承載的信息量,和建立帖子空間向量模型的第一步是對帖子文本內容進行分詞。在文本內容的選取上,充分考慮到論壇中帖子的語言表達方式基于學生生活用語,并且帖子的文本篇幅長度較短,同時對于帖子的回帖,其內容較為固定和單一,帖子之間的區分度不高,噪聲較大。所以只將帖子的標題和帖子的內容作為帖子的文本信息進行分詞。

2.2 分詞工具的選擇

我們將IK Analyzer作為分詞工具對取得的文本信息進行處理,IK Analyzer是一個開源的,基于java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer已經推出了4個大版本。最初,它是以開源項目Luence為應用主體的,結合詞典分詞和文法分析算法的中文分詞組件。從3.0版本開始,IKAnalyzer發展為面向Java的公用分詞組件,獨立于Lucene項目,同時提供了對Lucene的默認優化實現。在2012版本中,IKAnalyzer實現了簡單的分詞歧義排除算法,采用了特有的“正向迭代最細粒度切分算法”,支持細粒度和智能分詞兩種切分模式,詞典支持中文、英文、數字混合詞語。

2.3 關鍵字權重的計算

查詢中每一個關鍵字的權重應該反映這個詞對于查詢來講提供了多少信息,搜索關鍵字權重的科學度量是TF-IDF。其主要思想是:如果某個詞或短語在一篇文章中出現的頻率TF高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。TF-IDF實際上是:TF×IDF,TF詞頻(Term Frequency),IDF逆向文件頻率(Inverse Document Frequency)。TF表示詞條在文檔d中出現的頻率。IDF的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區分能力。一篇帖子中關鍵字的權重公式如公式(1)所示。

(1)

其中|D|為語料庫中的文件總數,表示包含詞語ti的文件數目(即的文件數目)如果該詞語不在語料庫中,就會導致被除數為零,因此一般情況下使用都會加上1。并且由于文本長度的不同進行了歸一化處理。

2.4 分詞與關鍵字權重中的人工干預

由于中文特殊的語言語境模式,雖然中文分詞已經取得很大的發展,但是但無論按照人的智力標準,還是同實用的需要相比較,差距還很大。為了彌補機器分詞的不足,我們先將文本內容進行分詞并計算出每個詞語的IDF值,將IDF值大于一定閾值的設為關鍵字,存入關鍵字表,將IDF值小于一定閾值的設為停止詞,這些詞大部分是沒有意義的虛詞。并且提供了可以通過的導入關鍵字詞典和停止詞典及修改詞典的方式來輔助分詞器在分詞時判斷哪些詞可以作為關鍵字,并且將停止詞典中的詞語作為無意義的詞而忽略掉。其后臺處理界面如圖1所示。

圖1 后臺處理界面

3.文本向量空間模型的建立與分類

3.1 文本向量空間模型的建立

最常用的文本表示模型是G..Salton在1975年提出的向量空間模型(VectorSpaceModel),其基本思想是把文本d看作向量空間中的一個n維向量(w1,w2,w3...wn),其中w1,w2,...wn為表示該文本的n個特征所對應的權重,一般取為詞頻的函數。文本分類的第一步是對文本集進行基于詞典的分詞處理。由于通用的的詞典收錄詞條數共有116921,如果把每個帖子表示成一個116921維的向量,由于帖子文本內容較少且語言較為生活化,所以很多詞語都不會在帖子中出現,導致生成的向量極為稀疏,浪費的存儲空間,影響了分類時的計算效率和分類精度,所以要進行文本的特征選擇[2]。

常用的文本特征選擇的方法有很多,如信息增益、期望交叉熵、互信息、文檔頻率[3],其核心都是基于信息論,基本思想都是對每一個特征中文詞,計算某種統計度量值,然后設定一個閾值T,把度量值小于T的那些特征過濾掉,剩下的即認為是有效特征。我們第二小節已經做了相關的工作[4],通過設置停止詞典的方式,在分詞時忽略了很多沒有意義的虛詞,有效的降低了文本向量的維度。將帖子文本的結果按照“關鍵字=tfidf值”的形式表示成空間向量存入SQL Server數據庫中。部分數據如圖2所示。

圖2 帖子的向量空間模型的存儲

3.2 帖子文本的聚類

將主題內容相似的帖子分成一類,實現上認為同一類的帖子含有的相同的關鍵字就較多。以此思想對帖子進行分類。帖子的相似度就表示為兩個帖子的余弦值,既有:

(2)

圖3 帖子之間的余弦值

通過對論壇的一定帖子之間余弦值的計算和前期人工類別的核實發現當閾值大于0.18時,帖子之間表現出了一定的相關性。部分數據如圖3所示。

文本分類是事先定義好類別,類別數不變。分類器需要由人工標注的分類訓練語料訓練得到,由于論壇中帖子的文本內容隨意且文本長度較短,單一類型的特征向量難以確定,類別數也不好判斷,所以我們使用聚類的方法來處理,將比較相似的文章或文本信息歸為同一組。文本的聚類算法采用K-means算法,是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大[5]。算法過程如下:

(1)從n個數據對象任意選擇k個對象作為初始聚類中心。

(2)根據每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;并根據最小距離重新對相應對象進行劃分。

(3)重新計算每個(有變化)聚類的均值(中心對象)。

(4)循環(2)到(3)直到每個聚類不再發生變化為止。

根據上面的理論基礎,在NetBeans平臺下用java實現了該系統的的相關功能,界面截圖如圖4所示。

圖4 關鍵字搜索界面

4.結束語

本文的應用是基于特定的論壇,在系統實施的每個方面如文本的分詞、關鍵字權重的計算、文本向量空間模型的建立、分類算法的選擇都充分的考慮的論壇的性質,并且增加了人工干預的方式,使得應用更加靈活和準確。但是限于原始帖子的測試數據較小,從論壇抓取的數據類型還不夠多樣,導致在帖子分類算法的選擇上沒有提供很好的參照。系統的完善和改進將是我們下一步的工作。

參考文獻

[1]李銀松,施水才等.用戶興趣分類在個性化搜索引擎中的應用[J].情報學報,2008,27(4):535-540.

[2]孫建濤.Web挖掘中的降維和分類方法研究.北京:清華大學計算機科學與技術系,2005.

[3]YangYiming,Pederson J O.AComparative Study on Feature Selection inText Categorization[A].Proceedings of the 14th International Conference on Machine learning[C].Nashville:Morgan Kaufmann,1997:412-420.

[4]余俊英.文本分類中特征選擇的研究.江西:江西師范大學計算機信息工程院,2007,36(l):35-41.

[5]姚明宇,皮德常等.基于k-means的中文文本聚類算法[A].Proceedings of 2010 International Conference on Services Science,Management and Engineering(Volume 2)[C].2010.

作者簡介:

孫飛(1988—),男,江蘇人,碩士研究生,現就讀于江西師范大學計算機信息工程學院。

謝旭升(1963—),男,江西人,教授,現供職于江西師范大學計算機信息工程學院,主要研究方向:分布式數據庫。

主站蜘蛛池模板: 97视频免费看| 亚洲欧洲日韩国产综合在线二区| 亚洲 欧美 中文 AⅤ在线视频| 99免费视频观看| 在线va视频| 国产日韩丝袜一二三区| 婷婷伊人五月| 福利一区三区| 欧美专区日韩专区| 国产精品欧美激情| 精品国产成人国产在线| 色网站免费在线观看| 亚洲国产精品不卡在线| 一区二区三区四区精品视频| 91av成人日本不卡三区| 国产av剧情无码精品色午夜| 久精品色妇丰满人妻| 91区国产福利在线观看午夜| 欧美日韩激情在线| 伊人91视频| 91精品久久久久久无码人妻| 国产精品v欧美| 中文字幕一区二区视频| 无码aⅴ精品一区二区三区| 中国毛片网| 亚洲日韩欧美在线观看| 97久久免费视频| 国产毛片不卡| 国产女人在线视频| 亚洲国产天堂在线观看| 国产精品部在线观看| 夜夜拍夜夜爽| 国产资源站| 欧美日韩国产成人高清视频| 911亚洲精品| 亚洲国产精品VA在线看黑人| 人妻中文久热无码丝袜| 国产成人亚洲日韩欧美电影| 欧美日韩国产系列在线观看| 欧美福利在线观看| 亚洲福利网址| 欧美国产日韩一区二区三区精品影视| 国产凹凸视频在线观看| 久久婷婷色综合老司机| 91口爆吞精国产对白第三集| 一级毛片免费高清视频| 中文字幕资源站| 国产综合另类小说色区色噜噜| 欧洲高清无码在线| 国产性爱网站| 91黄视频在线观看| 亚洲乱码精品久久久久..| 亚洲中文字幕在线观看| 丰满的少妇人妻无码区| 亚洲激情区| 国产精品对白刺激| 国产精品福利一区二区久久| 久久精品波多野结衣| 看你懂的巨臀中文字幕一区二区| 凹凸国产分类在线观看| 亚洲天堂免费观看| 久久久噜噜噜久久中文字幕色伊伊 | 97超碰精品成人国产| 被公侵犯人妻少妇一区二区三区| 91在线一9|永久视频在线| 天堂成人在线| 国产成人乱无码视频| 精品成人一区二区| 青青草久久伊人| 人妻免费无码不卡视频| 超薄丝袜足j国产在线视频| 无码AV日韩一二三区| 亚洲国产欧美目韩成人综合| 日韩AV无码一区| 噜噜噜久久| 国产成人AV综合久久| 国产青榴视频在线观看网站| 国产97色在线| 国产交换配偶在线视频| 色偷偷综合网| 国产精品无码在线看| 97无码免费人妻超级碰碰碰|