999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義和統計特征的中文文本表示方法

2009-04-29 00:00:00曾德華
中國管理信息化 2009年15期

[摘 要]本文基于關鍵詞集的中文文本特征表示方法,將本體和詞共現的思想引入到中文文本的特征表示中,能夠更加準確地表達中文文本特征,進而提高中文文本聚類的質量。

[關鍵詞]個性化;Web挖掘;文本聚類

doi:10.3969/j.issn.1673-0194.2009.15.020

[中圖分類號]TP391[文獻標識碼]A[文章編號]1673-0194(2009)15-0065-03

1 文本聚類問題及詞共現模型

目前個性化信息服務主要是針對文本資源,中文文本聚類是教育政務資源庫個性化信息服務中重要的基礎性工作。

文本信息多數是無結構化的,如何準確地表示文本是影響聚類性能的重要因素。文本聚類是一個將文本集分組的全自動處理過程,是一種典型的無監督的機器學習問題,它將文本集分為若干個子集,稱為聚類,使得類內的成員相似度盡可能大,類間的成員相似度盡可能小。

文本聚類的本質是是對一個給定的文本集合D={d1,d2,…,dn}進行劃分,從而得到一個聚類的集合C={c1,c2,…,ck},其中cjD(j=1,2,…,k),使得對di(di∈D),cj(cj∈C),且di∈cj,同時使得∑di∈cjSim(di,cj)∑dicjSim(di,cj)達到最大,其中Sim(di,cj)為文檔di與聚類cj的相似度函數。

中文文本信息多數是無結構化的,并且使用自然語言,很難被計算機處理。因此,如何準確地表示中文文本是影響聚類性能的主要因素。

目前的文本聚類系統主要采用向量空間模型(Vector Space Module,VSM)來表示文本。傳統的向量空間模型是基于關鍵詞集的,它是根據詞頻建立向量的一種統計模型。然而,中文文本存在語法修飾和上下文的語義關聯,例如不同的詞匯表示相同的概念,相關的詞匯共現表示一個主題等,因此,基于關鍵詞集的向量空間模型無法表示中文文本中的深層語義信息。

將詞共現模型是基于統計方法的自然語言處理研究領域的重要模型之一。它是建立在這樣一個基本假設的基礎之上:如果在大規模語料中,兩個詞經常共同出現(共現)在文本的同一窗口單元(如一句話、一個自然段或一篇文本等),則認為這兩個詞在意義上是相互關聯的,并且,共現的概率越高,其相互關聯越緊密。

詞共現模型的思想引入到文本表示中,在文本集中超過一定比例的文本中共同出現的特征項可以看作是同主題的特征項。

2 相關概念

首先給出有關核心本體論及基于知網的本體論的相關概念。

核心本體論(Core Ontology)定義為一個元組O:=(C,≤c),其中C是概念標識符的集合,≤c是集合C上的偏序,稱之為概念層次或者概念分類。

對于c1,c2,如果c1

本體論O的詞典定義為一個元組lex:=(Sc,Refc),Sc是概念符號(signs for concepts)的集合,RefcSc×C稱為概念的詞典索引。根據Refc,可以定義對于s∈Sc,Refc(s):={c∈C|(s,c)∈Refc},對于c∈C,Ref-1c:={s∈SC|(s,c)∈Refc}。

基于知網的本體論ObH的詞典定義為一個元組lex:=(Sa,RefE,RefA),其中SA是詞條的集合,A是義原的集合,E是概念的集合,RefAE×A為概念的詞典索引(即概念的相關義原),RefESA×E為詞條的詞典索引(即詞條的相關概念)。對于s∈SA,RefE(s):=(e∈E|(s,e)∈RefE);對于e∈E,RefA(e):=(a∈A|(e,a)∈RefA)。

例如,對于詞條S1“足球”,概念e1=“[SportTool|運動器材,(football|足球)]”,概念e2=“[fact|事情,exercise|鍛煉,sport|體育,(football|足球)]”,那么RefE(s1):={e1,e2},RefA(e1);={SportTool|運動器材, football|足球},RefA(e2)={fact|事情,exercise|鍛煉,sport|體育,football|足球}。

義原主要分為以下10大類:事件(Event)義原、實體(Entity)義原、屬性(Attribute)義原、屬性值(aValue)義原、數量(Quantity)義原、數量值(qValue)義原,次要特征(Secondary Feature)義原、語法(Syntax)義原、動態角色(EventRole)義原以及動態屬性(EventFeatures)義原。考慮到一些類型的義原對文檔類別貢獻很弱,本章選擇了對區分文檔類別貢獻比較大的3類義原:實體義原、事件義原、次要特征義原組成概念屬性體系,其他類別的義原則忽略不計。

在選取規則中,本章將3類義原中概括性的、通用性的義原,如“entity|實體”、“event|事件”、“static|靜態”等,放入“禁用義原表”。因為這些義原對于刻畫文檔的特性沒有具體的意義,不予考慮。

3 詞義排歧

在知網中,多義詞就是具有多個概念的詞條,然而對于一個多義詞,在特定的上下文中一般只表達一種語義,如果在特征向量中考慮多義詞的每個概念中涉及到的義原,那么反而會出現喧賓奪主的現象,因此需要對多義詞進行詞義排歧。

每個詞,特別是實詞,都是為了適應上下文的需要而被選擇的,因此可以通過分析上下文中概念的分布情況,來確定該詞在文中恰當的語義解釋,即在文檔d中,對于一個具有兩個或兩個以上語義概念的詞 tk ,某一特定的語義概念ei的權值系數pi計算方法為:首先統計該概念所涉及的義原出現在文檔d中其他關鍵詞的語義概念中的頻數,然后對頻數進行歸一化處理,得到的結果就是在文檔d中關鍵詞tk對應其每個語義解釋的概率權值系數。

Pi=∑ij∈TM|RefA(tj)∩RefA(ei)|∑ei∈RefE(tk)∑tj∈TM|RefA(tj)∩RefA(ei),if∑ei∈RefE(tk)∑tj∈TM|RefA(tj)∩RefA(ei)≠0

1|ReFE(tk)|, if ∑ei∈RefE(tk)∑tj∈TM|RefA(tj)∩RefA(ei)=0

其中,TM為文檔d中單義詞集合,RefA(tj)為單義詞 tj對應的義原集合,RefE(tk)為多義詞tk對應的概念集合, RefA(ei)為概念ei對應的義原集合。

4 中文文本表示方法的步驟

在傳統的基于統計特征的中文文本表示方法中引入基于知網和特征項共現的語義特征后,實現中文文本表示的流程如圖1所示。

圖1 基于語義和統計特征的中文文本表示流程圖

構造基于語義和統計特征的中文文本表示方法主要分為以下4步:

Step 1:對文本集D中的每一篇文本d進行預處理,抽取關鍵詞。根據經驗,本章抽取每篇文章權重最高的前20個詞作為關鍵詞,構成基于關鍵詞集的特征向量:V(di)=(w(di,t1),w(di,t2),…,w(di,tn)) 。

Step 2:引入知網,將關鍵詞映射到義原。在將文本di中的每個關鍵詞t映射為義原時,首先對具有兩個或兩個以上語義解釋的詞t,進行語義排歧,獲取其對應每個語義解釋的概率p。然后為語義解釋涉及到的每個義原a所對應的特征向量的維度賦值。由于目前知網收錄的詞條有限,有些關鍵詞沒有被知網收錄,對于這些關鍵詞,本章予以保留,這樣就形成了義原加關鍵詞的特征向量:

V(di)=(w(di,a1),…,w(di,am),w(di,t1),w(di,t2),…,w(di,tk)) 。

其中, ti(1≤i≤k)為沒有被知網收錄的關鍵詞,w(di,ap)為義原ap在文本di中的權值:w(di,ap)=∑eq∈RefE(tj)tw(di,tj,ap)。tw(di,tj,ap)為文檔di中詞條tj對義原ap的權重貢獻:tw(di,ap)=∑eq∈RefE(tj)(|RefA(eq)∩{ap}|×pq×λ×w(di,tj)),RefE(tj)為詞條tj對應的語義概念的集合,RefA(ep)為語義概念eq對應的義原集合,λ為該義原類別的權重系數。

考慮到對于分類的貢獻而言,實體義原>次要特征義原>事件義原,對于每種義原分別設定一個權重系數,實體義原的權重系數為 λ1,次要特征義原的權重系數為λ2,事件義原的權重系數為λ3,并有:λ1>λ2>λ3,如可取λ1=0.9,λ2=0.8,λ3=0.7。

Step 3:抽取特征項共現集。將特征項作為事務項,一個文本作為一個事務,由于只關心特征項 a或 t在文本中是否出現,所以權重函數采用布爾函數,即若特征項 a或t在文本中出現,則其對應的事務項取值為1,否則取值為0。生成文本庫的事務矩陣,然后采用關聯規則挖掘的Apriori算法來發現滿足最小支持度Smin的特征項共現集FC=(fc1,fc2,…,fc1)。

Step 4:將特征項共現集加入到特征向量的表示中,形成基于語義和統計特征的中文文本特征向量:

V(di)=(w(di,a1),…,w(di,am),w(di,t1),…,w(di,tk),w(di,fc1),…,w(di,fcj)) 。

其中,w(di,fcj)為特征項共現fcj在文本di中的權重:w(di,fcj)=s|fcj|。

其中,s為di中含有特征項共現fcj中特征項的個數。

主要參考文獻

[1] 曾春, 邢春曉, 周二柱. 個性化服務技術綜述[J]. 軟件學報, 2002,13(10): 874-880.

[2] H J Peat, P Willet. The Limitations of Term Co-occurence Data for Query Expansions in Document Retrieval System[J]. Journal of American Society for Information Science, 1991,42(5): 378-383.

[3] 周雪忠.中文文本分類特征表示及分類方法比較研究[C]// 孫茂松,姚天順,等主編. Advances in Computation of Oriental Languages. 北京: 清華大學出版社,2003.

[4] 趙豐年,劉林,商建云.基于概念的文本過濾模型[J].計算機工程與應用,2006 (4): 186-188.

主站蜘蛛池模板: 国产免费羞羞视频| 天天摸天天操免费播放小视频| AV老司机AV天堂| 亚洲视频影院| 国产三级国产精品国产普男人| 久久香蕉国产线看观看式| 国产视频一二三区| 日韩人妻无码制服丝袜视频| 亚洲无线视频| 26uuu国产精品视频| 国产成人精品一区二区三区| 亚洲第一页在线观看| 91福利在线观看视频| 色天堂无毒不卡| 在线观看国产网址你懂的| 小说区 亚洲 自拍 另类| 国产幂在线无码精品| 亚洲中文无码av永久伊人| 美女视频黄频a免费高清不卡| 亚洲国产天堂久久综合| 国产成人精品视频一区视频二区| 老色鬼久久亚洲AV综合| 91热爆在线| 久久精品电影| 国产激情无码一区二区免费 | 波多野结衣在线se| a亚洲视频| 青青青草国产| 亚洲首页国产精品丝袜| 国产成人福利在线| aaa国产一级毛片| 亚洲高清日韩heyzo| 婷婷六月激情综合一区| 黄色网站在线观看无码| 国产va视频| 天天躁夜夜躁狠狠躁图片| 国产成人在线无码免费视频| 久久国产精品电影| 国外欧美一区另类中文字幕| 日韩欧美综合在线制服| 曰韩人妻一区二区三区| 成人国产三级在线播放| 欧美a级完整在线观看| 激情视频综合网| 国产在线一区视频| 亚洲第一国产综合| 在线播放91| 国产aⅴ无码专区亚洲av综合网| 色哟哟色院91精品网站| AV老司机AV天堂| 97国内精品久久久久不卡| 成人亚洲视频| 久久6免费视频| 无码一区18禁| 青青草原偷拍视频| 97免费在线观看视频| 国内精品91| 欧美成人精品高清在线下载| 男女精品视频| 日韩精品一区二区深田咏美| 国产一级小视频| 成人va亚洲va欧美天堂| 动漫精品啪啪一区二区三区| 无码精品一区二区久久久| 青草娱乐极品免费视频| 亚洲AV无码不卡无码| 99精品福利视频| 国产精品一区二区不卡的视频| 高清乱码精品福利在线视频| 在线国产91| 好吊日免费视频| 一级爆乳无码av| 亚洲综合在线最大成人| 亚洲综合欧美在线一区在线播放| 日韩东京热无码人妻| 91久久大香线蕉| 国产在线一区二区视频| 国产亚洲精久久久久久无码AV| 五月婷婷激情四射| 日韩AV无码免费一二三区| 日本午夜影院| 2018日日摸夜夜添狠狠躁|