999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于并列結構的部分整體關系獲取方法

2015-04-25 09:57:29曹馨宇符建輝曹存根
中文信息學報 2015年1期
關鍵詞:語義概念實驗

夏 飛,曹馨宇,符建輝,王 石,曹存根

(1. 中國科學院計算技術研究所智能信息處理重點實驗室,北京 100190;2. 中國科學院大學,北京 100049)

?

基于并列結構的部分整體關系獲取方法

夏 飛1,2,曹馨宇1,2,符建輝1,王 石1,曹存根1

(1. 中國科學院計算技術研究所智能信息處理重點實驗室,北京 100190;2. 中國科學院大學,北京 100049)

部分整體關系是一種基礎而重要的語義關系,從文本中自動獲取部分整體關系是知識工程的一項基礎性研究課題。該文提出了一種基于圖的從Web中獲取部分整體關系的方法,首先利用部分整體關系模式從Google下載語料,然后用并列結構模式從中匹配出部分概念對,據此形成圖,用層次聚類算法對該圖進行自動聚類,使正確的部分概念聚集在一起。在層次聚類基礎上,我們挖掘并列結構的特性、圖的特點和漢語的語言特點,采用懲罰逗號邊、去除低頻邊、獎勵環路、加重相同后綴和前綴等5種方法調整圖中邊的權重,在不損失層次聚類的高準確率條件下,大幅提高了召回率。

部分整體關系;圖模型;并列結構;層次聚類;邊權重

1 引言

WordNet和HowNet之類的語義詞典在解決自然語言處理問題時發揮著越來越重要的作用,自動文摘、信息檢索、自動問答等系統常常需要借助這些詞典確定概念之間的語義關系。語義關系是構建語義詞典的基礎,例如,WordNet中的概念之間就有上位(hypernym)、下位(hyponym)、部分(part-meronym)、整體(part-holonym)等關系[1]。人工編纂這類語義詞典費時費力,因此,有必要研究如何從文本中自動獲取語義關系。

部分整體關系是一類基礎而重要的語義關系,人造物及其部件、組織及其成員、化學試劑及其成分,這些都包含著部分整體關系。研究部分整體關系,不僅有助于解決一系列自然語言處理問題,在人造物的設計、生化試劑的配置等實際問題中也有重要應用。

近年來網絡迅猛發展,電子文檔越來越多,其中蘊含的信息越來越豐富,從Web中挖掘知識成為熱門研究課題。基于此,本文提出了一種基于并列結構的從Web中獲取部分整體關系的方法,利用部分整體關系模式從Google獲取語料,匹配出具有并列結構的句子,從中獲取出給定整體概念的部分概念,用層次聚類算法對候選的部分概念進行自動聚類。在此基礎上,重點研究了利用圖的特點和漢語的語言特點,對圖中邊的權重進行調整而提升層次聚類算法的實驗效果。

本文結構如下: 第2部分將介紹國內外相關工作,第3部分給出了從Web中初步獲取部分整體關系的方法,第4、5部分研究利用并列結構特點和漢語語言特點的改進方法;第6部分給出實驗結果并做分析,最后是總結并展望下一步工作。

2 相關工作

基于詞匯—句法模式獲取語義關系,這種方法的依據是人們經常用一些特定的句法結構(即模式)來表述某種語義關系,因此可以從滿足某些模式的句子中獲取出對應的語義關系。這種方法由文獻[2]提出。文獻[3]首先將這一方法用于部分整體關系的獲取,使用模式獲取候選的部分概念,再根據統計函數likelihood選取正確的部分概念,然而受限于使用的模式,他們獲取的部分整體關系的實例很少,準確率較低。

模式的方法也被引入中文領域的部分整體關系獲取。文獻[4-5]利用基于圖論的方法構造部分整體圖,將所有候選概念從全局的角度進行分析驗證,形成可供使用的知識庫。文獻[6-7]利用中文語義特征和部分整體關系的特性,構造一系列啟發式規則,對獲取的部分整體關系進行驗證。這些方法都是在發現模式方法的局限性下,希望加強后期的驗證以提高獲取效果。

文獻[8]利用模式的方法獲取到部分整體關系后,借助WordNet標注概念的語義特征,構建大量的訓練集實例,使用C4.5算法學習關于部分整體關系的分類規則,利用這些規則驗證候選的部分整體關系。在包含10 000條句子的語料中進行實驗,最終獲取結果的準確率為83%,召回率為98%。然而這一方法對外部資源和工具的依賴較大,并且需要手工標注大量的訓練集。

隨著互聯網的發展,Web開始替代傳統的語料庫作為知識獲取的資源。文獻[9]利用Google從Web中獲取表示部分整體關系的模式,再利用Google和獲取到的模式從Web中獲取已知部分概念的部分整體關系。他們將這種方法應用在食品安全領域,取得了較好的實驗結果。但是這種方法非常依賴相關領域的詞典,擴展不易。

以并列結構形式出現的概念往往是語義相似的,文獻[10-11]利用這種特性構建和擴充語義詞典,首先對于某一類別選出一些種子概念,然后從語料庫中找出與種子概念并列出現的概念,利用一些統計方法從中篩選出新的種子概念,循環迭代,最后對獲取到的所有概念進行統計排名,得到屬于選定類別的概念。

文獻[12]利用并列關系對獲取到的概念建圖,以概念為點,以并列關系為邊,通過增量的聚類算法對該圖進行聚類,將語義相似的概念聚在一起,最終得到了82%的準確率。他們更進一步將這種方法用于語義消歧,對于一個概念的多個義項,利用并列結構找出與這些義項的語義關系相近的概念,用這些概念作為消歧的依據。

并列結構也被用于語義關系的獲取,文獻[13]在初步獲取到的上下位關系基礎上,利用并列結構從語料中抽取新的上下位關系,將召回率提高了5倍。文獻[16]將并列結構用于同義詞集的自動獲取上,通過并列關系作圖,使用聚類方法和一些語言學特征提高獲取精度,取得了很好的結果。

3 部分整體關系初步獲取

3.1 部分整體關系的定義

目前,對于部分整體關系的定義和分類,研究者們并沒有統一的認識。Winston et al.在大量語言心理學實驗的基礎上提出將meronymic關系分為6類,分別是: component-integral object、member-collection、portion-mass、stuff-object、feature-activity、place-area[14]。這種分類在以后的研究中被廣泛使用。本文獲取的部分整體關系主要集中在component-integral object這一類,其中的整體通常有一個結構,它們的組成部分是可分離的并且有特定的功能。這是一類常見的部分整體關系,主要體現在物體與其部件的關系上,例如,汽車和輪胎,桌子和桌腿。

一般來說,對于兩個概念X與Y,如果它們的關系可以由“X是Y的一部分”、“Y的組成部分中包括X等”、“Y由X等構成”等句子描述,那么可以認為它們滿足部分整體關系,記作partof(X,Y)。例如,partof(發動機,汽車),表示發動機是汽車的部分。

3.2 部分整體關系的模式

表述部分整體關系的句法模式有很多,例如,“X是Y的一部分”、“Y包含X”、“Y由X等組成”,這些句子可能都預示著X與Y之間存在部分整體關系。然而,有些部分整體關系模式具有很大的模糊性,例如,常用的“<整體>的<部分>”這一模式,既可以表示部分整體關系(如,汽車的發動機),也可以表述屬性(如,汽車的速度)。

因此,我們選擇那些包含并列結構的模式,實驗發現,這樣的模式獲取到的概念較多,其中的概念較易抽取,且概念之間可以相互驗證。

例如,對于模式“<整體>由<部分>等組成”,可以匹配出下面的句子

1) 汽車由發動機、底盤、變速箱等組成。

從句子1)中,我們可以很容易抽取出汽車的3個部分概念: 發動機、底盤和變速箱。我們使用的模式如表1所示。

表1 部分整體關系模式

其中,(?整體)是整體概念區,構造查詢串時會用給定的整體概念去替換;(?部分)是部分概念區,表示所要獲取的部分概念,這部分會替換成通配符“*”;(!部分詞)是一些可以表示部分關系的詞,例如,“部件”、“零件”、“器件”等,搜索時會替換成這些詞。經過這些轉化,我們就可以得到查詢串。

例如,獲取“汽車”的部分概念時,模式Com003將轉化為下面的查詢串

查詢串: 1)“(等|之類)汽車(部件|零件|器件|元件|組件|構件|配件|零部件|元器件)”。

查詢串1)就可以提交給搜索引擎進行網頁搜索。

3.3 部分整體關系的初步獲取

我們使用上面的模式獲取給定整體概念的部分概念,步驟如下:

1) 利用給定的概念將模式轉化為查詢串;

2) 到Google中查詢,將搜索出的頁面摘要切割成句子,形成語料;

3) 篩選出滿足模式的句子,并且要求句子中包含并列結構;

4) 用并列符號和并列詞從句子的并列結構中切割、抽取出概念。

例如,對于模式Com001和給定的概念“電腦”,我們首先將它轉化為下面的查詢串。

2) “電腦(是由|由)”“(組成|構成)”。

Google利用查詢串2)獲取到很多的頁面摘要(snippets),我們抓取出其中的前1 000項,將它們用句號、問號、感嘆號等標點符號切割成句子,再次利用模式Com001從中篩選出可以匹配的句子,并且要求句子中包含并列符號(頓號、逗號)或者并列詞(和、與、及等),最后對句子中的并列結構進行切割,抽取出其中的詞或短語。

例如,Com001匹配到下面的句子,

2) 大家知道,電腦是由主機、顯示器以及鍵盤、鼠標等外設構成的。

利用模式中的關鍵詞“由”、“構成”以及并列符號和并列詞,我們可以從句子2)中抽取出“主機”、“顯示器”、“鍵盤”和“鼠標等外設”4個部分。

我們用一些規則對這些初步獲取到的詞或短語進行簡單的預處理,例如切去頭部的數量詞,如“四個輪胎”切成“輪胎”,“一些車燈”切成“車燈”;或者剝離尾部多余的詞,如“鼠標等外設”剝離為“鼠標”。最后得到的概念作為候選的部分概念。

我們的評價指標包括準確率(P)、召回率(R)和F值,定義如式(1)、(2)、(3)所示。

其中,Cnt(correct-extracted)表示獲取結果中正確的部分概念數,Cnt(all-extracted)表示獲取結果中總的概念數,Cnt(correct-all)表示語料庫中正確的部分概念數。我們選取了“冰箱”、“電腦”、“汽車”等27個常見的人造物做實驗,除了“U盤”、“電熨斗”沒有獲取到相關的部分概念,“攝像頭”只獲取到了3個部分概念無法繼續后面的實驗外,其他概念的初步獲取都取得了較好的結果。初步獲取實驗中,我們的模式對部分整體關系的覆蓋率達到了88.89%,部分實驗結果如表2所示。可以看出,使用并列結構模式獲取部分整體關系,準確率較高,獲取的結果數也很多。下面的實驗將以初步獲取的結果為基準進行對比。

表2 初步獲取部分實驗結果

4 基于層次聚類的部分整體關系分析

為了從候選的部分概念中抽取出正確的概念,本節將介紹一種基于層次聚類的部分整體關系分析方法。

4.1 層次聚類方法

聚類分析是數據挖掘中一種重要的學習方法,它按照事物的某些屬性,把事物聚集成類,使類間的相似性盡可能小,類內的相似性盡可能大。層次聚類是一種常用的聚類方法,按照層次的形成方式,又分為凝聚的方法和分裂的方法。本文采用的是分裂的方法,它又稱為自頂向下的方法,一開始將所有的對象都置于同一個類中,然后通過不斷的迭代,一個類被分裂為更小的類,直到每個對象被歸入某個單獨的類中,或者達到某個終止條件[15]。

層次聚類算法描述如下:

算法4?1 層次聚類算法輸入:包含n個對象的數據庫,閾值λ輸出:k個類(1)將所有對象置于同一個類中(2)DoBegin(3)在所有類中挑選出具有最大基數的類Cmax;(4)從Cmax里找出與其他點平均相似度最小的一個點,記該相似度為Simmin,將該點放入新類Cnew,剩余的放入舊類Cold中。(5)從Cold里找出與Cnew中點的最小相似度不小于Cold中點的最小相似度的點,并將這些點放入Cnew,直到沒有新的Cold的點被分配給Cnew(6)Cnew和Cold為Cmax分裂成的兩個類,與其他類一起組成新的類集合(7)Repeat(2)~(6)UntilSimmin<λ(8)End

4.2 實驗結果

我們在初步獲取的部分概念集上采用分裂的層次聚類方法,是基于以下假設。

假設1 初始結果中正確的部分概念占多數。

假設2 大多數正確的部分概念可以通過某些聯系聚集在一個類中。

假設3 錯誤的結果會聚集成其他不同的類。

其中,假設1已經在初始獲取結果中得到驗證,后兩個假設則有待后面實驗的驗證。因此,一開始我們假定初始結果中所有的概念都是正確的部分概念,即將它們置于同一個類中,然后通過每次迭代,將錯誤的概念劃分出去,最后留下所有我們認為正確的結果。

我們定義部分概念共現圖G(V, E),其中V為結點的集合,每一個結點即為初步獲取到的一個部分概念;E是邊的集合,結點間是否有邊連接取決于它們所代表的概念是否以并列結構的形式出現在同一個句子中,邊的權重為共現次數。即,對于兩個概念Pi、Pj,若它們以并列結構“Pi+ /c + Pj”的形式出現了w次,則它們所在邊的權重weight(Pi, Pj)=w。在權重基礎上,我們定義兩個概念Pi、Pj的相似度為它們邊的權重與其中度較小的點的度的比值,即式(4)。

simWeight(Pi, Pj)=

對于聚類過程中的某個類Ci,我們定義它的基數為其中對象的個數,即Card(Ci)=| Ci|。基于這樣的定義,分裂聚類時每次都將基數最大的類,即具有最多對象的類別分開,將錯誤的概念劃分出去,最后留下的是我們認為正確的結果。這與我們上文的假設是一致的。這樣做雖然會降低召回率,并造成F值偏低,但可以大大提高準確率。通過觀察研究這一部分準確率較高的結果,我們提出后文的改進方法,將“散落在外”的其他正確概念吸收回來,以提高最終的F值。

例如,初步獲取到的“汽車”的部分概念可以構成如下概念共現圖(圖1),省略的概念用加矩形框的省略號表示。

圖1 “汽車”的部分概念共現圖

我們用算法4-1對該圖進行聚類,最后輸出的k個類中基數最大的類為實驗結果。表3給出了實驗結果,可以看出層次聚類對準確率的提升較明顯,對比初步獲取59.9%的準確率,在λ的不同取值下“汽車”的準確率均提升了超過20%。其中,λ越小,聚類算法分裂次數越多,對象越“分散”,準確率高,召回率則相應較低;λ越大,聚類算法分裂次數越少,對象越“集中”,準確率降低,召回率則相應提升。λ取0.4時,F值最大,所以我們的實驗將在λ=0.4下進行。總的來看,實驗結果顯示出召回率的不足,接下來的實驗將逐步改進層次聚類的效果。

表3 層次聚類實驗結果

5 對部分整體關系獲取層次聚類方法的改進

為提高層次聚類方法的效果,我們可以利用各種知識來調整邊的權重。本文通過去除原始數據中的噪音,以及利用漢語的語言特點,大幅提升了部分整體關系獲取的準確率和召回率。

5.1 懲罰逗號邊

漢語中,逗號除了可以表示句子成分之間的并列外,還可以用于分開句內各詞語或表示語氣的停頓等。相比頓號,逗號連接的兩個概念表示并列關系的可能性降低。例如,下面這條句子:

3) 凱翔達汽車配件有限公司,日產公爵前嘴,機蓋,車門,葉子板,倒車鏡等汽車配件。

“日產公爵前嘴”、“機蓋”、“車門”等等都是汽車的部件,此時中間的逗號作并列成分的分隔用;但句首的“凱翔達汽車配件有限公司”并非汽車的部件,后面的逗號用來表示分句的停頓。

因此,對于逗號連接的邊,可以施行懲罰,降低它的權重。

設概念Pi和Pj在“Pi+ ,+ Pj”中出現了c1次,在“Pi+ 、+ Pj”中出現了c2次,則式(5)為:

Weight1(Pi,Pj)=λ1×c1+c2

(5)

其中0<λ1<1,即將圖中逗號邊的權重縮小為原來的λ1倍。懲罰逗號邊的實驗結果如表4所示。

表4 懲罰逗號邊實驗結果

其中λ1=1時即為表3層次聚類算法的結果。由表中數據看出,懲罰逗號邊可以略微提升準確率,λ1越小,準確率提升越多,但召回率也會相應降低。λ1取0.75時,F值最大,所以我們后續的實驗將在λ1=0.75下進行。

5.2 去除低頻邊

當一個錯誤的概念Pi偶然與一個正確的部分概念Pj共現在并列結構中時,這種關聯很有可能會造成錯誤傳染,使得與Pi共現的其他錯誤概念聚集到表示正確概念的類中。因此,出現次數較少的邊有可能是噪音,可以通過切斷權重小于某個閾值的邊來減少此類錯誤。

在4.1節懲罰逗號邊實驗的基礎上:

若Weight1(Pi, Pj)≤λ2,則去除邊(Pi, Pj);否則

Weight2(Pi, Pj)=Weight1(Pi, Pj)

表5顯示了去除低頻邊的實驗結果,其中λ2=0時為表4懲罰逗號邊的結果,即不刪除任何邊。λ2越大,刪除的邊越多,此時召回率降低較多。λ2取0.75時F值最大,此時去除只用逗號連接的邊,后續的實驗將在這一取值下進行。這一節實驗與上一節結合在一起,顯示出逗號在句中作用的模糊性,即通過逗號連接的句子成分不一定是并列的。

表5 去除低頻邊實驗結果

5.3 獎勵環路

對于兩個概念Pi和Pj,若它們同時出現在對稱的并列結構“Pi+ /c + Pj”和“Pj+ /c + Pi”中,則它們之間的聯系要比只出現在單向并列結構中的概念要緊密。推而廣之,對于概念Pk1, Pk2, … , Pkn(n>=3),若它們形成“Pk1+ /c + Pk2”, “Pk2+ /c + Pk3”, … , “Pkn+ /c + Pk1”這樣的環路,則它們之間的聯系也更緊密,可以增加這些邊的權重。

我們在圖上進行搜索,找到所有這樣的環路。對于概念Pi、Pj,如果邊(Pi, Pj)出現在環路上,則如式(6)所示。

表6顯示了獎勵環路后的實驗結果,其中 λ3=1 時為表5去除低頻邊的結果,即不增加環路上的邊的權重。總的來看,獎勵環路對準確率的提升并不明顯,原因應當是圖中的環路并不多。λ3取3時F值最大,后續的實驗將在這一取值下進行。

表6 獎勵環路實驗結果

5.4 加重相同后綴

觀察發現,同屬一個整體的部件概念常常有相同的后綴,如“汽車”的部件“發動機”、“發電機”、“方向機”、“起動機”有相同的后綴“機”,“車架總成”、“前缸骨架總成”、“轉向縱橫拉桿總成”有相同的后綴“總成”。這是因為根據漢語的構詞特點,如果兩個概念的后綴相同,則它們屬于同一個語義類的可能性就很大。因此,如果兩個概念的后綴相同,可以增加它們的邊的權重。

本文在分詞后的基礎上計算概念的后綴,對于某個概念P,設其分詞后的結果為w1w2…wn,則其后綴Suf(P)按式(7)計算:

(7)

其中LC(P)表示取P的最后一個字(Last Character)。例如,“怠速馬達”的分詞結果為“怠/a 速/a 馬達/n”,則Suf(“怠速馬達”)=“馬達”,同理,Suf(“倒車雷達”)=“雷達”, Suf(“馬自達”)=“達”,三者的后綴并不相同。另外,“發動機”作為常見詞,其分詞結果為“發動機/n”,則Suf(“發動機”)=“機”,同理,Suf(“發電機”)=“機”,Suf(“暖風機”)=“機”,它們具有相同的后綴。

兩個概念Pi和Pj基于后綴的相似度定義為式(8)所示。

在5.2節去除低頻邊實驗的基礎上如式(9)所示。

Weight4(Pi, Pj)= Weight3(Pi, Pj)+

表7顯示了加重相同后綴的實驗結果,其中 λ4=0時為表6獎勵環路的結果。可以看出,這一步改進對實驗結果的影響主要體現在召回率上,λ4不同取值下“汽車”的召回率都有超過30個百分點的提升,顯示出“汽車”的很多部件概念都有相同的后綴。λ4取3時F值最大,后續的實驗將在這一取值下進行。

表7 加重相同后綴實驗結果

5.5 加重相同前綴

在漢語中,概念的前綴常常與概念本身構成部分整體關系。例如,“車把”、“車座”、“車軸”、“車筐”、“車輪”有相同的前綴“車”,它們都是“(自行)車”的部件;“發動機罩蓋”、“發動機散熱器”、“發動機缸體”有相同的前綴“發動機”,它們都是“發動機”的部件,也是“汽車”的部件。因此,如果兩個概念的前綴相同,則它們與同一個概念構成部分整體關系的可能性就很大,可以增加它們的邊的權重。

本文在分詞后的基礎上計算概念的前綴,對于某個概念P,設其分詞后的結果為w1w2…wn,則其前綴Pre(P)按式(10)計算:

(10)

其中FC(P)表示取P的第一個字(First Character)。例如,“車把”的分詞結果為“車把/n”,則Pre(“車把”)=“車”;“車筐”的分詞結果為“車/n 筐/n”,則Pre(“車筐”)=“車”,兩者具有相同的前綴。

兩個概念Pi和Pj基于前綴的相似度定義如式(11)所示。

在5.2節去除低頻邊實驗的基礎上如式(12)所示。

Weight5(Pi, Pj)= Weight4(Pi, Pj)+

表8顯示了加重相同前綴的實驗結果,其中 λ5=0時為表7加重相同后綴的結果,λ5=1時F值最大,最終的準確率達到了76.87%,召回率更是達到91.68%。這一節與上一節一起,顯示出在漢語詞匯中,前后綴蘊含了豐富的語義信息。

表8 加重相同前綴實驗結果

6 實驗結果及分析

我們選擇了初步獲取結果中可以繼續實驗的24個概念,用層次聚類算法與上一節提出的改進方法和取值進行實驗。因為我們是在獲取未知的知識,無法確知某一概念有哪些部分概念,數量多少,理論上我們無法計算實驗的召回率。因此,我們在初步獲取后,從語料中人工標注出其中的正確與錯誤的結果,假設其中正確的部分概念數為總的正確概念數,以此為基準計算召回率和F值,結果如表9所示。其中Cnt(correct-all)表示語料中正確的部分概念數。

可以看出,我們的層次聚類算法擁有較高的準確率,普遍在70%以上;在聚類基礎上的改進研究主要在召回率的提升上發揮了作用,從而提高了F值。綜合來看,我們的方法的優點是: 既有效地利用了統計信息(詞頻、共現度),又結合了語義信息(漢語前后綴)。

對于初步獲取得到部件較多的概念,這種優點帶來的效果很明顯。例如,“打印機”、“手機”、“自行車”等,我們從Web中獲取到的對應語料較多,統計出來的詞頻等信息較豐富,可利用的前后綴等信息也較明顯。因此,它們的F值都達到80%以上。

我們的方法也存在不足,數據稀疏是我們面臨的一大問題。對于“冰箱”、“收音機”這些概念,我們下載到的對應語料較少,從中獲取的部件概念也少,因而可利用的統計信息不明顯,前后綴等語義信息也不豐富,導致這些概念的實驗結果稍差,尤其是召回率。

表9 實驗結果

除此之外,我們還有其他待解決的問題。

1) 術語識別不干凈帶來的錯誤。例如,在獲取到的“手機”的部件中,存在“商務電池”、“諾基亞耳機”這樣的概念,需要從中識別出“電池”、“耳機”這樣的“干凈”的術語。達到這樣的識別效果,可能需要借助某些領域詞典。

2) 配件概念帶來的錯誤。在獲取到的部件中,夾雜著一些配件概念。例如,獲取“電腦”的部件時,也返回了一些“網線”、“鼠標墊”之類的配件。這既源自于網頁文本中表述部分整體關系的不嚴謹,也與我們下載語料時所用的模式有關。

根據我們實驗的初步結果,當這些問題得到解決后,實驗結果的準確率可以提升2%~4%。

在將來的工作中,我們會引入其他模式和方法,以獲取更多的語料;同時會用迭代的方法獲取更多的候選部分概念,以使層次聚類發揮出應有的效果。區分出部件和配件的不同,有賴于對部分整體關系分類的更深入研究。

7 結束語

從文本中自動獲取部分整體關系是知識工程的一項基礎性研究課題,本文利用Google獲取語料,采用并列結構模式從中匹配出部分概念對形成圖,用層次聚類算法對候選的部分概念進行自動聚類。在此基礎上,重點研究了利用圖的特點和漢語的語言特點,對圖中邊的權重進行調整而提升層次聚類算法的實驗效果。我們的方法的優點是既有效地利用了統計信息,又結合了語義信息。我們選擇了一些概念,用本文的方法獲取它們的部分概念,實驗表明,我們的方法是有效的。

當然,我們的方法也存在一些不足,主要表現在以下兩個方面。

1) 由于數據稀疏,統計和語義特征不明顯,當給定的整體概念在初步獲取時得到的候選部分概念較少時,層次聚類和改進方法并沒有給出較好的結果;

2) 獲取的部件結果中也存在一些術語識別和配件夾雜的問題。

[1] George A Miller. WordNet: A Lexical Database for English[J]. Communications of the ACM, 1995, 38:39-41

[2] M A Hearst, Automatic Acquisition of hyponyms from large text corpora[C]//Proceedings of the 14th International Conference on Computational Linguistics (COLING-92), Nantes,France, 1992: 539-545.

[3] M Berland, E Charniak. Finding Parts in Very Large Corpora[C]//Proceedings of the the 37th Annual Meeting of the Association for Computational Linguistics (ACL-99). 1999.

[4] J Wu, B Luo, C G Cao,et al. Acquisition and Verification of Mereological Knowledge from Web Page Texts[J]. Journal of East China University of Science and Technology(Natural Science Edition), Shanghai, China, 2006: 1310-1317.

[5] 吳潔. 網絡文本中部分關系知識的獲取與驗證方法[D]. 上海:華東理工大學碩士學位論文. 2006

[6] Xinyu C, Cungen C, Shi W, et al. Extracting Part-Whole Relations from Unstructured Chinese Corpus[C]//Proceedings 4th International Conference on Natural Computation (ICNC’08) and 5th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD’08), Jinan, China. 2008.

[7] 曹馨宇. 部分整體關系的獲取與分析研究[D]. 北京: 中國科學院大學博士學位論文. 2012

[8] R Girju, A Badulescu, D Moldovan, Automatic Discovery of Part-Whole Relations[J].Computational Linguistics, 2006,32(1): 83-135.

[9] R H Willem, H Kolb, G Schreiber. A method for learning part-whole relations[C]//Proceedings of the 5th Int. Semantic Web Conf., LNCS, 2006:723-736.

[10] Ellen Riloff, Jessica Shepherd. A corpus-based approach for building semantic lexicons[C]//Proceedings of the Second Conference on empirical Methods in Natural Language Processing, 1997:117-124.

[11] Brian Roark, Eugene Charniak. Noun-phrase cooccurence statistics for semi-automatic semantic lexicon construction[C]//Proceedings of COLING-ACL, 1998:1110-1116.

[12] Dominic Widdows, Beate Dorow. A graph model for unsupervised lexical acquisition[C]//Proceedings of the 19th International Conference on Computational Linguistics,2002:1093-1099.

[13] Cederberg S, D Widdows. Using LSA and noun coordination information to improve the precision and recall of hyponymy extraction[C]//Proceedings of CoNLL, 2003:111-118.

[14] M E Winston, R Chaffin, D Herrman. A taxonomy of part-whole relations[J]. Cognitive Science, 1987,11(4):417-444.

[15] Jiawei H, Micheline K, Jian P. Data Mining: Concept and Techniques[M], Second Edition. Morgan Kaufmann, 2005:408-410.

[16] 吳云芳,石靜,金彭.基于圖的同義詞集自動獲取方法[J].《計算機研究與發展》,2011,48(4): 610-616.

Extracting Part-Whole Relations Based on Coordinate Structure

XIA Fei1,2, CAO Xinyu1,2, FU Jianhui1, WANG Shi1, CAO Cungen1

(1. Key Laboratory of Intelligent Information Processing,Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;2. University of Chinese Academy of Sciences, Beijing 100049, China)

Automatic discovery of part-whole relations from the Web is a fundamental but critical problem in knowledge engineering. This paper proposes a graph-based method of extracting part-whole relations from the Web. Firstly, we download snippets from Google using part-whole query patterns, and then we built a graph by extracting word pairs with a coordinate structure from these snippets, with the co-occurring words as nodes and the frequency count as edges’ weight. A hierarchical clustering method is used to cluster the correct parts, which is optimized by five methods of adjusting the edge weight: reduce the weight of comma-edges, cut the low-frequency edges, enlarge the weight of edges in the loop, enlarge the weight of edges in which two nodes share the same suffix, and enlarge the weight of edges in which two nodes share the same prefix. Experimental results show that the five methods increase the recall substantially.

part-whole relations; graph model; coordinate structure; hierarchical clustering; edge weight

夏飛(1986—),博士研究生,主要研究領域為知識獲取、文本挖掘。E?mail:xiafei.1986@163.com曹馨宇(1982—),博士,主要研究領域為人工智能、知識工程。E?mail:cxy8202@163.com符建輝(1985—),博士研究生,助理研究員,主要研究領域為智能軟件和大規模知識處理。E?mail:fjh5228203@126.com

1003-0077(2015)01-0088-09

2012-06-07 定稿日期: 2012-10-29

國家自然科學基金(91224006、61173063、61035004、61203284、309737163)、國家社科基金(10AYY003)

TP391

A

猜你喜歡
語義概念實驗
記一次有趣的實驗
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
做個怪怪長實驗
學習集合概念『四步走』
聚焦集合的概念及應用
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 91在线日韩在线播放| 国产免费精彩视频| 香蕉久人久人青草青草| 午夜a级毛片| 亚洲欧美日韩色图| 日韩欧美在线观看| 国产亚洲欧美日韩在线一区| a级毛片在线免费观看| 日韩福利在线视频| 日本人妻一区二区三区不卡影院 | 91外围女在线观看| 国产在线小视频| 日本91视频| 98精品全国免费观看视频| 日韩二区三区| 欧美一区中文字幕| 亚洲精品国产成人7777| 国产不卡在线看| 日本高清有码人妻| 久久精品无码国产一区二区三区| 熟女成人国产精品视频| 亚洲国产日韩欧美在线| 亚洲精品少妇熟女| 高清国产在线| 91丝袜美腿高跟国产极品老师| 成人看片欧美一区二区| 精品久久久久久中文字幕女| 欧美福利在线播放| 97国产成人无码精品久久久| 国产真实乱子伦视频播放| 亚洲视频一区| 精品国产香蕉在线播出| 亚洲天堂首页| 成人午夜在线播放| 国产午夜一级毛片| 伊人久久久久久久| 亚欧美国产综合| 成人午夜免费观看| 综合色亚洲| 国产va视频| 国产亚洲视频中文字幕视频| 国产欧美成人不卡视频| 欧美成在线视频| 亚洲欧美不卡视频| 久久国产精品无码hdav| 亚洲精品卡2卡3卡4卡5卡区| 国产精品jizz在线观看软件| 97国产在线播放| 亚洲Av综合日韩精品久久久| 激情无码视频在线看| 国产69精品久久久久孕妇大杂乱| 高清欧美性猛交XXXX黑人猛交 | 女同国产精品一区二区| 亚洲bt欧美bt精品| 天堂网亚洲系列亚洲系列| 凹凸国产分类在线观看| 福利在线一区| 色首页AV在线| 伊人久久综在合线亚洲2019| 97在线碰| 欧美综合成人| 国产成人亚洲综合A∨在线播放 | 欧美人人干| 再看日本中文字幕在线观看| 亚洲第一黄色网址| 久久亚洲黄色视频| 四虎国产永久在线观看| 美女啪啪无遮挡| 久久婷婷色综合老司机| 国产成人精品男人的天堂下载| 国产精品久线在线观看| 亚洲三级成人| 啪啪国产视频| 福利在线不卡| 九色视频线上播放| 91在线视频福利| 亚洲国产精品人久久电影| 国产精品综合久久久| 好久久免费视频高清| 99人妻碰碰碰久久久久禁片| WWW丫丫国产成人精品| 欧美人与动牲交a欧美精品|