黃蓓靜 賀 樑 楊 靜
(華東師范大學計算機科學技術系 上海 200241)
?
遠程監督人物關系抽取中的去噪研究
黃蓓靜 賀 樑 楊 靜
(華東師范大學計算機科學技術系 上海 200241)
在遠程監督人物關系抽取算法中,訓練集的構造是利用知識庫對齊自由文本的方式完成的。這一過程會產生部分共現句無法表達當前實體對關系的情況。分析此問題產生的原因,結合詞法、句法兩個方面,提出一種利用句子模式聚類及模式評分對遠程監督人物關系抽取過程訓練集進行去噪的方法。該方法首先利用詞向量生成特定關系描述候選詞,其次針對關系描述候選詞提取句子模式并進行模式聚類,最后對模式聚類結果進行評分。通過篩選評分較低模式對應句子去掉對關系描述能力不強甚至無法描述關系的句子,得到過濾后的訓練集。實驗證明,利用該方法對不同語料庫進行遠程監督原始訓練集句子過濾能夠在保證召回率的情況下取得3%~5%準確率提升。
人物關系抽取 遠程監督 模式提取 模式聚類 模式評分
關系抽取是自然語言處理研究的熱點之一,人物關系抽取是關系抽取的一個重要研究方向。
關系抽取方法主要分為有監督、無監督、半監督三類。為了解決有監督方法構造訓練集耗費人力及無監督方法準確率不高的缺點,Mintz等人于2009年提出的遠程監督關系抽取方法[1]。
Mintz等人利用Freebase作為知識庫,將Freebase豐富的關系對齊到Wikipedia文本中,獲取同時出現關系對實體句子(下文稱共現句),構成訓練集正樣本,并隨機抽取Freebase中不存在關系的實體對對齊得到共現句作為訓練集負樣本,構成訓練集。這既解決了有監督方法訓練樣本標注大量花費人力的問題,又一定程度上避免了無監督方法準確率較低的問題。
然而,遠程監督方法在構造訓練集中利用了一個條件很強的基本假設:如果兩個實體對存在某種關系,那么任何包含這兩個實體的句子都表達了它們的這種關系。實際上,這個假設并不一定成立。這里以人物關系抽取任務舉例。如圖1所示,“趙子琪”和“路金波”是知識庫中一對關系實體,關系類型是“夫妻”,通過遠程監督方法對齊得到該實體對的三個共現句。其中共現句1能夠表明人物關系,而共現句2、共現句3雖然同時出現了實體“趙子琪”和“路金波”,但語義上卻不能表達他們之間的“夫妻”關系。這種包含兩個實體但不表明實體間關系的無效共現句會影響訓練集的質量,作為噪聲數據,應該予以去除。

圖1 遠程監督人物關系抽取過程中產生無效共現句的一個例子
從圖1給出的例子可以分析得到噪聲產生的原因有:
1) 共現句中不包含能夠描述人物對關系的關系描述詞,如共現句2;
2) 雖然共現句包含描述關系的關系描述詞,但此關系描述詞描述的并非實體1和實體2之間的關系,如共現句3中雖然出現了描述“夫妻”關系的關系描述詞“妻子”,但“妻子”并非描述路金波和趙子琪之間的關系。
針對原因1,我們可以從詞法的角度進行解決。近年來,深度學習在NLP領域取得了巨大進展,Bengio等[2]提出的三層神經網絡語言模型訓練出的詞向量在一定程度上包含了詞語含義。根據Mikolov等[3]研究表明,詞向量間存在關系:vec(King)-vec(Man)+vec(Woman)≈vec(Queen)。基于詞向量我們可以計算出詞語之間語義相似度,文獻[4]對使用詞向量進行同義詞擴展進行了研究。關系共現句中關系描述詞通常和關系類型本身有密切的語義聯系,比如關系類型“夫妻”和關系描述詞“結婚”在詞向量表示下具有較高相似度。基于此,我們設計了一種基于詞向量篩選關系描述候選詞的方法。我們首先利用百度百科、互動百科等中文在線百科抓取的關系類型整合出預定義關系描述詞集合。然后利用語料訓練出詞向量。最后篩選出共現句中詞頻大于閾值且與預定義關系描述詞的詞向量相似度大于閾值的動詞和名詞,作為關系描述候選詞。
對于原因2,結合共現句3可以看出,對于包含相同關系描述詞的不同句子,由于句式結構不同,導致對關系描述強弱程度不同。句子模式抽取方法廣泛應用于關系抽取特別是開放式領域關系抽取中[5]。Snowball[6]系統對由種子實例得到的關系共現句提取模式,并對模式評分,使用置信度較高的模式抽取出新的關系實例。文獻[7]在對于關系共現句提取模式的基礎上進行句子模式相似度、句子模式泛化,實驗結果表明,利用泛化后的句子模式進行關系抽取取得了較高準確率。受此啟發,我們引入了句子模式提取、句子模式相似度計算、句子模式聚類以及句子模式聚類結果評分等手段,對關系描述較弱或者不能描述關系的句子模式對應的句子進行去除,完成訓練集的去噪。
1.1 遠程監督
文獻[8]首次在解決生物信息學領域問題時提出了遠程監督方法,而后文獻[1]首次將遠程監督方法引入關系抽取任務中。文獻[1]將Freebase豐富的關系實例映射到Wikipedia文本中,獲取了大量的訓練樣本,從而有效解決了有監督關系抽取方法標注訓練語料需要耗費大量人力物力及無監督關系抽取方法準確率較低的缺點。
文獻[9]嘗試將90多種不同關系類型的DBpedia關系實例映射到Wikipedia文本中,得到100 000多個訓練樣本,使用logistic回歸訓練分類器,關系抽取結果F值達80%。文獻[10]首次嘗試利用中文在線資源(互動百科)構建中文人物關系抽取系統。該系統利用互動百科抓取到的人物關系對齊多種中文自由文本語料(百度、搜狐、搜狗中文新聞語料),以此獲取訓練樣本,采用標簽傳播算法訓練模型,得到68%左右的準確率。這充分說明了遠程監督方法在人物關系抽取任務中的適用性和有效性。但以上文獻并沒有對遠程監督方法基本假設引入的噪聲訓練數據進行去噪處理,某種程度限制了模型準確率的進一步提升。
1.2 關系抽取中的句子模式提取
句子模式抽取是關系抽取中一種重要方法[7]。相關學者對應用句子模式提取的關系抽取進行了大量的研究。文獻[5,11-12]利用人工定義正則表達式方式對上下位關系、整體部分關系進行了抽取。文獻[13]提出了一種基于序列模式挖掘的人物關系抽取方法。文獻[14]利用模擬退火算法挖掘Web中人物關系的最小描述模式集合,利用得到的模式進行關系抽取。文獻[7]通過對利用WordNet對齊Wikipedia得到的共現句替換實體1、實體2為特殊標志及為其他詞語加上詞性標注得到模式。此后利用最小編輯距離對模式進行泛化,最后利用泛化后模式進行新的關系實例抽取。文獻[15]在文獻[7]的基礎上進行了改進,預先提取關系描述詞,并在最小編輯距離計算時代價函數加入詞性的考慮。Snowball[6]也運用了模式提取的方式來生成更多種子實例。Snowball提出了一種模式置信度計算方式來過濾“不可靠”模式,防止“不可靠”模式提取得到“不可靠”種子實例。但Snowball系統的句子模式提取方法過于簡單,對于語義相近、結構相似的句子模式沒有進行合并,句子模式泛化性不強。
句子模式描述了句式特點,一定程度上體現了句子的語義。本文結合文獻[7,15],提出了一種利用句子模式抽取、聚類的方法對遠程監督方法中的共現句進行去噪。由于文獻[7,15]提出的句子模式提取方法沒有對模式進行評分,本文結合文獻[6]中對句子模式置信度評分的方法對句子模式聚類結果進行進一步過濾,得到關系表述能力較強的句子模式。
針對第0節分析的噪聲共現句產生原因及對策,我們設計了圖2所示算法框架進行遠程監督人物關系抽取的去噪。

圖2 遠程監督人物關系抽取去噪算法框架
如圖2,步驟1是遠程監督方法的標準步驟,得到的共現句集Whole是傳統遠程監督方法不經過去噪得到的訓練集。步驟2-步驟5組成了本文提出的方法,主要步驟包括關系描述候選詞集WS生成、句子模式提取、句子模式聚類、句子模式聚類結果評分。通過這四個步驟,我們將共現句集Whole過濾得到共現句集Filter,即本文方法得到的最終產物:經過篩選得到的高質量訓練集。
本節余下內容將對框架上步驟2-步驟5這四個關鍵環節分別展開進行詳細闡述,分別是:基于詞向量的關系描述候選詞生成方法(對應步驟2)、句子模式提取(對應步驟3)、句子模式相似度計算及聚類(對應步驟4)、句子模式置信度計算及句子篩選(對應步驟5)。后文算法中輸入輸出符號與本算法框架圖采用一致的符號。
2.1 基于詞向量的關系描述候選詞生成方法
對于特定的關系類型,一般能夠找到一系列關系描述詞來表達該關系。比如表達“夫妻”關系的關系描述詞可能是“丈夫”、“妻子”、“結婚”等;表達“父母/子女”關系的關系描述詞可能是“父親”、“母親”、“兒子”、“女兒”等。關系描述詞一般與關系類型在語義上存在較高相似度,且關系描述詞一般在共現句中出現的次數較高。根據此基本假設,我們提出了一種基于詞向量的關系描述候選詞生成方法。
首先,我們定義詞語w與關系類型r的相似度如下:
(1)
其中RSr表示關系類型r的預定義關系描述詞列表,similarity(w,w′)表示采用詞向量表示的詞語w和預定義關系描述詞w′的余弦相似度,count(RSr)表示關系類型r的預定義關系描述詞個數。
預定義關系描述詞可以由知識庫的關系類型整合得到,也可以人工定義。由于在線百科的詞條是由眾多網民共同維護編輯而得,對于同一關系的關系類型描述詞并不唯一,這給我們整合預定義關系描述詞帶來了便利。比如對于“夫妻”關系,不同的描述有“夫妻”、“妻子”、“丈夫”、“老婆”、“老公”等。我們把表述同一關系的不同詞語作為該關系的預定義關系描述詞,得到表1所示預定義關系描述詞集RS。

表1 由在線百科關系類型整合得到的預定義關系描述詞
例如,我們要計算詞語“同班同學”和關系“同學”的相似度,由式(1)及表1給出的預定義關系描述候選詞,我們可以得到:
similarity(w=同班同學,r=同學)=
下面給出基于詞向量的關系描述候選詞生成算法:
算法1 基于詞向量的關系描述候選詞生成算法
輸入:共現句集Whole、預定義關系描述詞集RS、詞向量模型Model、保留詞占所有詞比例ratio、相似度閾值ts、待抽取關系
輸出:關系描述候選詞集WS
1. FOR EACH 關系r IN 待抽取關系
2. FOR EACH 句子s IN Whole AND s對齊關系為r
3. FOR EACH 詞語w IN s的中文分詞結果列表
4. IF(w是動詞或者名詞)
5. 記錄w詞頻
6. END FOR
7. END FOR
8. 按照詞頻從高到低排序,取前ratio*所有詞個數個詞語組成集合words
9. END FOR
10. FOR EACH w IN words
11. IF(Model.similarity(w,r)>ts)
12. w加入對應于r的關系描述候選詞子集WSr
13. END FOR
14.FOR EACH關系r IN 待抽取關系
15. Wsr整合至WS中
16.END FOR
17.RETURN關系描述候選詞集WS
由于后續算法會進一步剔除某些描述能力弱的關系描述詞對應的句子,故算法1的主要目的是粗篩選關系描述詞,應較全面獲取關系描述候選詞。由此,算法1中的保留詞占所有詞比例ratio可適當取20%,相似度閾值ts可以適當取最高詞語相似度的0.4~0.6倍,以獲得較全面的關系描述候選詞。
2.2 句子模式提取
對于擁有相同關系描述詞的共現句,其表述關系類型的能力不盡相同。比如,共現句 1“馮小剛和徐帆看望了朋友生病的妻子”和共現句2“作為馮小剛妻子的徐帆”。雖然兩個句子都擁有關系描述詞“妻子”,但共現句1不能表明馮小剛和徐帆的“夫妻”關系,共現句2則說明了馮小剛和徐帆是“夫妻”關系。不同句式擁有不同的描述關系能力。我們可以采用句子模式提取的方法來抽象出句式特點。本文提出的句子模式提取方法基于文獻[7,15]進行改進。句子模式提取算法描述如下:
算法2 句子模式提取算法
輸入:共現句sentence、人物實體1、人物實體2、共現句對應關系r、關系候選描述詞集WS
輸出:句子模式pattern
1. 初始化pattern=sentence
2. 將pattern中人物實體1和實體2分別替換為
3. 保留pattern中對應關系r的關系描述候選詞子集WSr內的詞語及詞性
4. 保留pattern中詞“是”、“的”、“與”、“和”、“跟”及其詞性
5. 將pattern中時間替換成
6. 對于pattern中非2、3、4步驟中需要保留的詞語,只保留詞性,詞語替換成“.”
7. 只截取保留pattern中
8. RETURN pattern
根據算法2,我們可以抽取共現句1“馮小剛和徐帆看望了朋友生病的妻子”對應的句子模式。句子1“馮小剛和徐帆看望了朋友生病的妻子”中“妻子”是關系類型“夫妻”描述候選詞,經過算法2進行句子模式提取可以得到對應模式為“
2.3 句子模式相似度計算及聚類
利用算法2抽取的句子模式已經具有一定的泛化性,比如“佟大為妻子關悅通過為小兩口送上祝?!焙途渥印包S磊妻子孫莉也一下成了眾人羨慕嫉妒恨的對象”映射到了相同的句子模式“
最短編輯距離由文獻[16]提出,常用于描述字符串之間相似度。最短編輯距離被定義為字符串A使用的最少的刪除、增加、替換步驟來修改成字符串B的步驟次數。最短編輯距離可以使用動態規劃來求解,詳細求解方法可參考文獻[16]。
我們計算出任意兩個句子模式之間的最短編輯距離,以此作為兩個句子模式的相似度。隨后,對于在相同關系類型下擁有相同關系描述候選詞的句子模式使用譜聚類的方式進行聚類,使句子模式得到泛化,過程描述如算法3。
算法3 句子模式聚類算法
輸入:句子模式集PS1、聚類簇大小t1、關系描述候選詞集WS、待抽取關系
輸出:聚類后句子模式集PS2
1. FOR EACH 關系r IN 待抽取關系
2. FOR EACH 關系描述候選詞f IN r對應關系描述候選詞子集WSr
3. 得到r、f對應的句子模式子集
PSrf={p∈PS1∧p描述關系類型為r∧p包含關系描述侯選詞f}
4. FOR EACH p1 IN PSrf
5. FOR EACH p2 IN PSrf
6. IF(p1≠p2)
7. 計算p1、p2最短編輯距離distance,并令sim(p1,p2)= distance,構造相似度矩陣Msim
8. 使用譜聚類算法對PSrf內的所有模式進行聚類,簇大小為t1,結果保存到聚類結果PS2rf中
9. END FOR
10. END FOR
11. END FOR
12.END FOR
13.FOR EACH 關系r IN 待抽取關系
14. FOR EACH 關系描述候選詞f IN WSr
PS2rf整合至PS2中
15. END FOR
16.END FOR
17.RETURN PS2
算法3中,為了增強聚類后句子模式的泛化性,聚類簇大小不宜過大。具體可根據聚類前句子模式數量,適當取聚類簇大小t1為3~5。
2.4 句子模式置信度計算及句子篩選
對于經過算法2句子模式提取和算法3句子模式聚類得到的句子模式集PS2,需要引入一定的評分機制來評價不同模式聚類結果描述關系類型能力的強弱。為此,我們借鑒了文獻[6]中給出的模式評分方法,句子模式聚類結果置信度評分采用式(3)進行計算:
(2)
ConfRlogF(Rcluster)=Conf(Pcluster)×log(Pcluster·positive)
(3)
其中,式(2)采用句子模式聚類結果Pcluster對應的句子正例占所有句子的比例作為Pcluster的置信度。式(3)對式(2)進行了擴展,在置信度計算中加入了句子模式常見程度,認為常見的句子模式具有更高的置信度。
我們在語料中尋找符合句子模式Pcluster的共現句,如果共現句實體對關系和知識庫一致,則判為正例;若共現句實體對關系和知識庫矛盾,則判斷為負例。
比如某個表示“父母子女”關系的句子模式簇里面擁有模式“
算法4 句子篩選算法
輸入:共現句集Whole、保留句子比例ratio、句子模式簇評分結果ConfPattern、待抽取關系輸出:篩選后的共現句集Filter
1. FOR EACH r IN 待抽取關系
2. 在共現句集Whole中獲取關系r對應的共現句子集Wholer
3. 保留句子數量countSentence = Wholer句子數量count(Wholer)*ratio
4. 對Wholer內句子抽取對應pattern,以pattern的置信度評分conf作為句子對應的置信度評分conf
5. 按照句子置信度評分conf從大到小對Wholer內句子進行排序,抽取前countSentence 個句子放入關系r過濾后的共現句子集Filterr
6. END FOR
7. FOR EACH r IN 待抽取關系
8. Filterr整合至Filter中
9. END FOR
10.RETURN Filter
借助算法4,我們可以把對齊后得到的共現句集Whole經過篩選,得到描述關系類型能力較強的句子,組成共現句集Filter,作為訓練集。
3.1 數據集
作為兩大中文在線百科,互動百科[18]及百度百科[19]由數量眾多的用戶參與編輯,詞條資源豐富。我們首先由新浪娛樂明星資料頁[20]獲取部分明星姓名作為人物種子,而后在百度百科、在線百度獲取對應人物關系,并把不在種子列表的明星姓名加入種子列表,進行迭代,擴充我們的知識庫。最終獲取的知識庫共有人物7 954人,人物對19 472對,關系描述詞1 078種。
我們采取爬蟲抓取的方式獲取語料庫。我們抓取了新浪娛樂新聞網、搜狐娛樂新聞網、騰訊娛樂新聞網等大型新聞網近期娛樂新聞,文本文件共計400 MB。
我們挑選出6種常見關系(夫妻、父母子女、兄弟姐妹、情侶、同學、經紀人)進行實驗。知識庫中6種關系的人物對共有3 963人,我們按照6∶4的比例劃分出訓練集和測試集。訓練集對齊得到共現句集Whole情況見表2所示。

表2 訓練集Whole人物對數量、句子數量
3.2 實驗及評價
3.2.1 訓練集設置、模型及特征選擇
實驗目的在于對比本文方法篩選出的句子構成的訓練集是否對訓練模型性能有所提升。我們設計了兩個對比訓練集,一個是采用原始共現句集Whole,并隨機挑選不存在關系的實體對對齊得到共現句作為關系類型“其他”,加入共現句集Whole形成訓練集Whole。另一個采用篩選后的共現句集Filter,同樣加入與訓練集Whole相同的關系類型為“其他”的共現句。由表2可知,不同關系類型的共現句數量差別較大,為了使樣本比例不過于懸殊,我們對訓練集Whole進行了采樣。對共現句數量大于5 000的關系類型,隨機采樣5 000個共現句,數量小于等于5 000的關系類型,保留所有共現句,組成最終的訓練集Whole。另外,我們由共現句集Filter和訓練集Whole求交集得到訓練集Filter。訓練集Filter相當于在訓練集Whole的基礎上進行句子篩選得到。
本文采用HanLP中文分詞工具[21]進行中文分詞,并使用gensim[22]進行詞向量訓練。
特征采用關系抽取任務常用特征[17],即實體1、實體2前后w個窗口大小詞語、詞性。根據文獻[17],w取2效果最好,這里,我們取w=2。
對于訓練集Whole和訓練集Filter我們分別使用libsvm[23]進行模型訓練。
為了對比算法3里保留句子比例ratio的不同取值對訓練集Filter的性能影響。我們設置了3.2.2節的對比實驗,旨在找到使訓練集Filter性能最佳的ratio,分析其原因,并對訓練集Whole和最佳情況下訓練集Filter的性能進行對比。此外,為了驗證本文去噪方法的移植性,3.2.3節對原始訓練集Whole和訓練集Filter在不同語料庫上進行對比實驗。3.2.4節給出了訓練集Whole和訓練集Filter訓練時間、訓練集存儲空間、模型存儲空間等對比。
3.2.2 不同保留句子比例對篩選訓練集性能的影響對比
為了研究算法3中不同保留句子比例ratio對訓練集Filter性能影響,我們對算法3中不同保留句子比例ratio分別嘗試了7組不同取值:0.2、0.4、0.5、0.7、0.8、0.9、0.95。以橫坐標代表ratio的不同取值,縱坐標代表對應的準確率、召回率、F值,水平虛線代表訓練集Whole該指標的數值,用于比較。繪制出ratio在不同取值下關系抽取結果的準確率、召回率、F值情況,得到圖3-圖5。

圖3 不同句子保留比例下的準確率

圖4 不同句子保留比例下的召回率

圖5 不同句子保留比例下的F值
由圖3可知,當ratio小于等于0.9時,隨著句子保留比例ratio的增大,準確率逐漸增加,到達0.9時最大,往后隨著ratio增加準確率不再升高,反而略有下降。另外,當ratio小于0.7時訓練集Filter的準確率不如訓練集Whole。這是因為保留的句子過少,訓練樣本不足以涵蓋足夠多的關系表達模式,且樣本數量不足,導致訓練得到的模型容易過擬合,從而準確率不高。當ratio大于等于0.7時,去除部分噪聲共現句能得到質量更高的訓練集Filter,而從提高訓練模型的準確率。但當ratio大于0.9時準確率會有所下降,這是因為去除的噪聲共現句不足導致的。當ratio等于0.9的時候準確率最高,此時丟棄的句子大部分為噪聲共現句,并且保證了訓練樣本數量,所以準確率最高。
由圖4分析可知,當句子保留比例ratio達到0.4時,訓練集Filter能夠達到和訓練集Whole接近或更高的召回率,并且隨著ratio增大,召回率保持穩定。這從另一個側面說明用本文方法進行訓練集去噪能夠在保持召回率不降低的情況下提升準確率。
由圖5分析得,在句子保留比例ratio大于等于0.5的情況下,訓練集Filter能夠獲得比訓練集Whole更高的F值。在ratio小于等0.9時,隨著ratio的增大,F值逐漸增加,當ratio達到0.9時F值最大,此后ratio增加不會再提高F值。這是因為ratio大于等于0.5以后,召回率基本穩定不變,而準確率獲得逐步提升,至ratio=0.9時準確率最高。由此可以得到結論,在句子保留比例小于等于0.9時F值逐步升高,往后F值略有降低。ratio等于0.9時能獲得最佳模型。
由上面不同句子保留比例準確率、召回率、F值對比,我們得出句子保留比例ratio=0.9的時候訓練集Filter性能較佳。我們對比此時訓練集Filter和原始訓練集Whole,統計得到表3所示的訓練集Whole和訓練集Filter對應模型比較情況。

表3 訓練集Whole和訓練集Filter對應模型比較(ratio=0.9)
由表3可知,對于所有六種關系訓練集Filter訓練模型較訓練集Whole準確率都獲得了3%~8%的提升。與此同時,只有“同學”關系的召回率略微下降,其他關系召回率上升或者保持不變。六種關系的F值均獲得上升。這說明,在合理選擇句子保留比例的情況下,經過本文方法過濾句子得到的訓練集Filter較原始訓練集Whole得出的模型能夠在保證召回率的情況下,提升關系抽取的準確率,從而提升關系抽取任務F值。
3.2.3 不同語料庫準確率、召回率、F值對比
為了驗證本文提出的方法是否具有移植性,我們對不同語料庫采用本文提出方法進行對比實驗。我們對比了爬蟲抓取的新聞、維基百科中文語料兩種不同中文語料。對于不同語料庫我們采用相同的預處理方法、相同的閾值進行實驗,匯總六種關系的準確率、召回率、F值,得到表4結果。

表4 不同語料庫下訓練集Whole和訓練集Filter對應模型比較
由表4分析得出,對于不同的語料庫,使用本文提出方法進行訓練集句子篩選都能達到在保證召回率的情況下提升準確率的目標,從而提升F值。同時可以看到,由于維基百科中文語料對齊知識庫得到的測試集句子數比爬蟲抓取新聞語料少很多。所以在準確率及召回率上維基百科中文語料較爬蟲抓取新聞語料有所下降,其中召回率下降較為嚴重。這給我們啟發:互聯網上有大量冗余自由文本,我們可以充分利用互聯網豐富的文本資源,擴大語料庫規模,而從提高召回率。
3.2.4 同語料庫準確率、召回率、F值對比
使用本文提出方法進行去噪,不僅能提升模型的準確率,還能減少樣本量、節約訓練集存儲空間及訓練模型存儲空間。以爬蟲抓取新聞語料為例,我們統計了訓練集Whole及訓練集Filter在訓練時間、存儲空間等項目的對比情況,匯總得到表5。

表5 訓練集Whole和Filter存儲空間、訓練時間等比較
由表5可以看出,訓練集Filter較訓練集Whole樣本總數減少,從而節約了模型訓練時間、模型存儲空間。
本文提出了一種利用詞向量及句子模式抽取、聚類及評分的方法對遠程監督人物關系抽取過程語料庫對齊知識庫得到的原始訓練集中噪聲句子過濾,去掉對特定關系描述能力弱甚至不能描述關系的句子,達到對遠程監督人物關系抽取方法訓練集去噪目的。我們首先通過使用詞頻及詞向量相似度信息確定了待抽取關系的關系描述候選詞;接著我們借助關系描述候選詞對句子進行了模式抽取,利用最短編輯距離進行句子模式相似度計算,利用譜聚類方式進行句子模式聚類;最后引入置信度評分對句子模式聚類結果進行置信度評分,保留置信度評分較高的句子作為訓練集。實驗證明,本文提出的遠程監督人物關系抽取去噪方法能對原始訓練集中關系描述較弱的句子進行提出,達到保證召回率情況下提高準確率的目標,縮減訓練集大小和訓練時間,提升了模型性能。
但遠程監督在知識庫和語料庫對齊獲取共現句的過程,如何合理地分割句子是一個難點。句子分割粒度太細(如用逗號分割),會出現共現句數量減少的情況,但句子分割粒度太粗,則會出現共現句中實體對距離過遠,描述關系的句子模式不顯著的情況,下一步工作我們將對此展開研究。
[1] Mintz M,Bills S,Snow R,et al.Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP:Volume 2-Volume 2.Association for Computational Linguistics,2009:1003-1011.
[2] Bengio Y,Schwenk H,Senécal J S,et al.Neural probabilistic language models[M].Innovations in Machine Learning.Springer Berlin Heidelberg,2006:137-186.
[3] Mikolov T,Yih W,Zweig G.Linguistic Regularities in Continuous Space Word Representations[C]//HLT-NAACL,2013:746-751.
[4] 張為泰.基于詞向量模型特征空間優化的同義詞擴展研究與應用[D].北京郵電大學,2015.
[5] Hearst M A.Automatic acquisition of hyponyms from large text corpora[C]//Proceedings of the 14th Conference on Computational Linguistics-Volume 2.Association for Computational Linguistics,1992:539-545.
[6] Agichtein E,Gravano L.Snowball:extracting relations from large plain-text collections[C]//ACM Conference on Digital Libraries.ACM,2000:85-94.
[7] Ruiz-Casado M,Alfonseca E,Castells P.Automatic extraction of semantic relationships for wordnet 15[M].Natural Language Processing and Information Systems.Springer Berlin Heidelberg,2005:67-79.
[8] Craven M,Kumlien J.Constructing biological knowledge bases by extracting information from text sources[C]//PubMed,1999:77-86.
[9] Nunes T,Schwabe D.Building Distant Supervised Relation Extractors[C]//IEEE International Conference on Semantic Computing.IEEE Computer Society,2014:44-51.
[10] 潘云,布勒布麗汗·伊沙巴依,楊靜,等.利用中文在線資源的遠程監督人物關系抽取[J].小型微型計算機系統,2015,36(4):701-706.
[11] Hearst M A.Automated discovery of WordNet relations[M]//WordNet: an electronic lexical database.MIT Press,1998:131-153.
[12] Berland M,Charniak E.Finding parts in very large corpora[C]//Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics.Association for Computational Linguistics,1999:57-64.
[13] 李丹,羅智勇.基于序列模式挖掘的人物關系識別[C]//中國計算機語言學研究前沿進展(2007-2009),2009:582-587.
[14] 姚從磊,邸楠.一種基于Web的大規模人物社會關系提取方法[J].模式識別與人工智能,2007,20(6):740-744.
[15] 張葦如,孫樂,韓先培.基于維基百科和模式聚類的實體關系抽取方法[J].中文信息學報,2012,26(2):75-81.
[16] Wagner R A,Fischer M J.The String-to-String Correction Problem[J].Journal of the Acm,1974,21(1):168-173.
[17] 車萬翔,劉挺,李生.實體關系自動抽取[J].中文信息學報,2005,19(2):1-6.
[18] Hudong encyclopedia[EB/OL].http://www.baike.com/.
[19] Baidu encyclopedia[EB/OL].http://baike.baidu.com/.
[20] Sina star[EB/OL].http://ku.ent.sina.com.cn/star/search.
[21] HanLP[EB/OL].https://github.com/hankcs/HanLP.
[22] gensim[EB/OL].http://radimrehurek.com/gensim/.
[23] libsvm[EB/OL].http://www.csie.ntu.edu.tw/~cjlin/libsvm.
RESEARCH ON NOISE REDUCTION IN DISTANT SUPERVISED PERSONAL RELATION EXTRACTION
Huang Beijing He Liang Yang Jing
(DepartmentofComputerScienceandTechnology,EastChinaNormalUniversity,Shanghai200241,China)
Distant supervised personal relation extraction heuristically aligns knowledge base with free text to construct training data set. This process can result in invalid aligned sentences which can’t express relation of the given entity pair. In this paper, we analyse the reasons of this problem, combined with the lexical and syntactic aspects, and propose a method to denoise the training data set of distant supervised personal relation extraction by using sentence pattern clustering and pattern scoring. Firstly, we generate relation candidate feature words with the help of word embedding. Then, we adopt an algorithm for sentence pattern extraction and pattern clustering by using relation candidate feature words. Finally, we compute confidence of pattern clusters and discard sentences which pattern confidence below threshold. By filtering low sentences with pattern confidence, we can discard sentences with low or no ability to describe specific relation and get the filtered training data set. Experiments show that this method can be used to monitor the different corpus remotely. The original training data set can achieve 3% to 5% accuracy improvement under the condition of guaranteeing the recall rate.
Personal relation extraction Distant supervised Pattern extraction Pattern clustering Pattern scoring
2016-08-15。上海市經濟和信息化委員會項目(150643);閔行區人才發展專項資金。黃蓓靜,碩士生,主研領域:數據挖掘,關系抽取。賀樑,教授。楊靜,副教授。
TP3
A
10.3969/j.issn.1000-386x.2017.07.003