999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于中文句法結構的關系挖掘

2014-09-29 10:31:56李付民
計算機工程 2014年7期

李付民,楊 靜,賀 樑

(華東師范大學計算機科學技術系,上海 200241)

1 概述

關系挖掘是指從文本中找出多個實體和能夠表示這些實體之間關系的過程。根據所挖掘的關系類型的不同,關系挖掘可以分為2個主要類別:(1)針對特定關系類型(如夫妻、總部)進行的挖掘[1-2]。這類挖掘方法的好處是準確率和召回率高,但是由于在實際情況下總會存在一些關系類型是沒有包含在預定義的關系集合中的,因此該類方法不具有良好的拓展性和移植性。(2)開放的關系挖掘方法[3-4]。這類方法不對關系的具體類型作任何限制而僅僅定義關系的表現形式。例如:將關系關鍵詞定義為動詞,即可從句子中挖掘出以動詞表現出來的關系;當然也可以將關系關鍵詞定義為名詞,這樣就可以挖掘出以名詞為關鍵詞的關系。由于開放式關系挖掘方法中并沒有預定義關系種類,可以從不同類型的數據集中找到更多的關系類型和關系元組實例,因此既可以應用于封閉數據集[5],又可以應用于網絡環境中[3-4],具有良好的移植性。

文獻[3]提出一種傳統的開放式關系挖掘方法,可以從文本中挖掘關系元組,并且這個挖掘過程中并不需要人的參與,但存在以下問題:(1)需要大量的訓練數據來得到挖掘機,并且對訓練集的依賴性很大;(2)在挖掘過程中,其將挖掘問題轉化為序列標記問題,而序列標記帶有一定的不確定性,當句子長度增大時錯誤率會快速上升;(3)存在一些無信息關系和不連續關系。其中,無信息關系是指在挖掘到的關系元組中的關系關鍵詞沒有包含一些重要的信息,“不連續”關系是指挖掘到的關系元組中的關鍵詞是由一些不連續的詞組成。為解決問題(1)和問題(2),文獻[6]將維基百科作為訓練集來得到挖掘機并且在挖掘過程中使用到了語法解析,其準確率和召回率在文獻[3]的基礎上取得了進一步的提升。但文獻[6]方法的缺點也非常明顯,其需要大批量的數據作為訓練集,與文獻[3]方法相比,該方法的挖掘速度明顯降低。為解決問題(3),文獻[4]對文獻[3]的挖掘方法進行了改進,其改進集中在以下3點:(1)定義了關系的詞性模板,這些詞性模板是由以動詞為核心的連續詞語組成的。該改進有效地避免了不連續關系,同時也減少了無信息關系;(2)規定了關系詞的位置,即關系詞必須出現在實體對的中間;(3)要求關系詞必須具有一定的通用型,即如果一個關系詞僅僅滿足很少的實體對,則說明這個關系詞太特殊化了,這種關系詞是不能表達實體間真正的關系的,所以在挖掘的過程中將會被丟棄。

文獻[4]將關系關鍵詞定義為以動詞為核心的連續詞語,導致無法挖掘以名詞或其他詞性的詞作為關系的實體之間的關系。將關鍵詞定義為名詞也會遇到類似的問題。因此,把關系關鍵詞定義為簡單的詞性組合是不合適的,尤其是對于復雜的中文結構而言。筆者通過對中文語法的觀察和統計,發現中文中存在一些典型的句法結構,并且這些句法結構和實體關系之間存在映射,因此,本文提出一種基于中文句法結構的關系挖掘算法,直接利用句法結構進行中文文本的關系挖掘。

2 基于中文句法結構的關系挖掘算法

2.1 相關概念

本文算法涉及的相關概念如下:

(1)動態關系R:動態關系也可以稱之為事件關系,是指未預先定義具體的關系,而通過現實世界中的某個事件表現出來的實體關系。與之相對應的靜態關系,是指在挖掘之前就預定義的關系,本文挖掘的關系類型是一種動態關系。

(2)實體集EC=(E1E2…En):在一個句子中出現的命名實體構成的集合。

(3)關系關鍵詞集RKWC=(KW1KW2…KWm):在一個句子中出現的所有可以作為關系關鍵詞成分的詞語構成的集合。

(4)實體關鍵詞映射矩陣AEK:這個矩陣中的元素Aij是實體集EC中實體Ei和關系關鍵詞集RKWC中關鍵詞在語法樹上的語法關系,如果不存在就用null表示。AEK是一個n×m的矩陣,其中,n表示實體集EC的大小;m表示關系關鍵詞集RKWC的大小。

(5)關鍵詞映射矩陣AKK:這個矩陣中的元素Aij是關系關鍵詞集合中的關鍵詞KWi和KWj在語法樹上的語法關系,如果不存在就用null表示。AKK是一個m×m的矩陣,其中,m是關系關鍵詞集合的大小。

(6)挖掘模板P=(ER1ER2… ERnRR1RR2…RRm):模板是由實體和關鍵詞及關鍵詞和關鍵詞在語法樹上的關系組成的,而這種關系通常以路徑或者圖的形式表現出來[7]。本文將這個路徑或圖表示成詞對的集合。在這個集合中,包含2種不同的元素:1)實體和關鍵詞及它們之間的語法關系構成的三元組:;2)關鍵詞之間的語法關系構成的三元組:,其中,M表示其在語法樹上的關系;E表示實體;KW表示關鍵詞。

例如:“攝影師/n丁玉珍/nr把/p沖/v好/a的/u照片/n交給/v了/u孔玲/nr”,從這個句子里可以得到實體集EC=(丁玉珍,孔玲),關系關鍵詞集RKWC=(攝影師,把,沖,照片,交給),實體關鍵詞映射矩陣AEK和關鍵詞映射矩陣AKK:

可以發現這個矩陣實際上是個稀疏矩陣,可便于在實驗中使用。其中,nsubj表示的是名詞性主語;dobj表示的是直接賓語;nn表示的是名詞修飾;ba表示的是把字結構[8]。

2.2 方法流程

本文提出的算法利用實體和關系關鍵詞在句法結構上的映射關系來挖掘關系實例。算法主要流程如圖1所示。該算法主要由3個部分構成:挖掘機訓練過程,關系挖掘過程和關系元組準確化過程。首先利用訓練集訓練得到一個單通道挖掘機;然后使用這個挖掘機對目標語料中蘊含的關系進行挖掘;最后對挖掘到的關系元組進行進一步的準確化。

圖1 基于句法結構的關系挖掘流程

2.2.1 挖掘機訓練過程

這一部分主要是根據訓練數據集訓練單通道挖掘機。單通道挖掘是指對數據集中的每個句子只進行一次挖掘就完成了整個挖掘過程[3]。訓練集的句子都包含了一個關系元組(E1RKWC E2),其中,E1和E2是實體;RKWC是能夠表示實體間關系的關鍵詞集合。挖掘機訓練過程如下:首先對每個句子進行語法解析;然后根據這些關系元組中實體和關鍵詞在語法樹上的語法關系及關鍵詞和關鍵詞在語法樹上的語法關系得到用于關系挖掘過程的挖掘模板;最后得到的所有模板就構成單通道挖掘機。

例如:“攝影師/n丁玉珍/nr把/p沖/v好/a的/u照片/n交給/v了/u孔玲/nr”,已知實體E1=“丁于珍”,實體E2=“孫玲”,關系關鍵詞集RKWC=(KW1=把,KW2=照片,KW3=交給),利用解析器可以得到圖2所示的句子結構。

圖2 句子結構

可以發現,實體對和關系關鍵詞在結構上的映射關系,從而得到挖掘模板:

將該模板保存在挖掘機里。由于從不同的結構形式中可以得到不同的挖掘模板,因此挖掘機可以方便地拓展。

本文設計了一個基于漢語中類雙賓語和單賓語的單通道挖掘機。對于類雙賓語結構,將關系定義為:2個實體通過在一個事物上發生的動作而產生的聯系,這種關系表現形式為:動詞+名詞或者介詞+名詞。之所以稱為類雙賓語而不是雙賓語,是因為在本文算法中有些典型句式在漢語的句法結構里并不屬于嚴格意義上的雙賓語結構,但它也能表達出本文所定義的關系表現形式,即2個實體通過在一個事物上的動作或行為產生的聯系。例如:“約翰偷了瑪麗的蘋果”,這個句子在漢語中并不是雙賓語結構,但卻也能表達出實體“約翰”和“瑪麗”通過在物體“蘋果”上的動作“偷”發生了聯系,因此,他們之間是有關系的。對于單賓語結構,把關系定義為2個實體通過一個相互之間的行為產生的聯系。例如:“下崗的馬林接替戰績不佳的唐堯東”中,“馬林”和“唐堯東”通過一個“接替”行為而產生了聯系。

由于雙賓語結構和單賓語結構在漢語研究中占有很重要的地位,因此很容易得到這些句式集合,表1給出了部分典型結構和實例。表中并沒有列舉所有的結構,但是只要發現了這種類型的結構都可以加入到表中,而訓練過程不需要變化。

表1 REBSS系統中用到的主要句式結構

2.2.2 關系挖掘過程

本過程主要是利用前面訓練得到的“挖掘機”對文本進行關系挖掘。

(1)文本預處理:這一過程中會去除文本中的一些噪音,并對文本進行分句,以形成后續過程中使用到的數據集。

(2)分詞、詞性標注和命名實體識別:對句子進行分詞是為了形成句子的“詞序列”:W1W2… Wi… Wm-1Wm,其中,Wi代表了在句子的一個詞并且“詞序列”中的每個詞Wi的排列順序和句子中的順序是一致的。對句子進行命名實體識別的過程中,如果該句子中沒有實體或者實體的個數少于2個,則把該句子拋棄。此步驟完成后,可以得到每個句子的實體集EC和關系關鍵詞集RKWC。

(3)語法解析:在這一部分主要是根據前面得到的每個句子的“詞序列”來進行語法解析,得到每個詞之間在語法上的關系,最終形成實體關鍵詞映射矩陣AEK和關鍵詞映射矩陣AKK。

(4)關系挖掘:首先取出挖掘機里的一個挖掘模板P;然后把這個模板中的所有元素都映射到實體關鍵詞映射集合AEK和關鍵詞映射矩陣AKK,如果元素包含實體就映射到AEK,否則就映射到AKK中;最后,如果所有的元素都可以映射成功就表示這個映射過程成功完成,就把矩陣AEK和AKK中的實體和關系關鍵詞取出,形成關系元組;否則繼續從挖掘機中取下一個模板,直到取到最后一個模板。如果所有的模板都無法成功映射,就表示該句子中沒有挖掘到關系。

2.2.3 關系元組準確化過程

這一部分主要是對關系挖掘過程得到的關系元組進行進一步的準確化。所謂準確化是指從句子中再找到一些能夠更清楚明白地表達實體間關系的詞,主要包括形容詞、副詞,將其合并到關系關鍵詞中。本文把對關鍵詞的準確化分為2種:

(1)對動詞關鍵詞的準確化,而對于這種情況可以作為準確成分的是這個動詞前后直接相連的動詞和副詞。

(2)對名詞關鍵詞的準確化,而對于這種情況可以作為準確成分的是和這個名詞直接相連的名詞和形容詞。

準確化算法的具體描述如下:

3 實驗與結果分析

3.1 實驗設置

為證明本文提出方法的可行性,針對漢語中的類雙賓語結構和單賓語結構,設計一個單通道挖掘機——賓語結構挖掘機,并利用這個賓語結構挖掘機對預料庫中的句子進行關系挖掘。為說明本文提出方法既可以應用于網絡環境中也可以應用于封閉的環境中,實驗主要使用了3個數據集:(1)新浪新聞語料:從新浪新聞中搜集整理得到的新聞語料,其中包括體育、娛樂等不同的類型。(2)搜狗語料庫:從網上下載得到的語料,其中包括財經、體育、教育等不同分類的文章。(3)1998年1月《人民日報》:1998年1月份《人民日報》報道的所有文章,所有文章都經過人工標注。本文主要進行以下2個實驗:(1)利用賓語結構挖掘機對3個不同的語料庫進行初步的挖掘實驗:在這個過程中會把來自網絡的語料庫(新浪語料和搜狗語料)和封閉的語料庫(人民日報)都交給賓語結構挖掘機,進行單通道挖掘。挖掘完成后,可以得到初步的挖掘結果,并對結果進行評估。(2)對得到的初步的挖掘結果進行準確化實驗:在這個過程中,會把在每個語料庫上得到的所有的關系元組(包含判定為正確的和判定為錯誤的元組)作為準確化實驗的輸入部分,然后利用關系元組準確化算法進行實驗,并對這個準確化后的結果進行評估。

3.2 實驗結果

對實驗結果的評估標準仍然是采用最為常見也是最重要的標準:準確率P=C1C2,召回率R=C1C3,綜合評價指標F值:F=2 PR(P + R)。其中,C1表示挖掘到的關系元組中正確的個數;C2表示挖掘到的關系元組的總數;C3表示文本中的類雙賓語結構和單賓語結構所包含的關系元組個數。

3.2.1 關系挖掘實驗

利用賓語結構挖掘機對3個不同的語料庫進行初步的挖掘實驗,結果如表2所示。從中可以發現,本文算法在新浪網絡語料和搜狗語料庫上的性能稍微低于《人民日報》,這是由于對開放語料的“清洗”處理并不是完美的,因此其中存在一些噪音,而這些噪音導致了挖掘性能的差異。但是這種差異并不大,從這個方面也說明了提出的方法既可以應用于網絡環境中也可以應用于封閉的環境中。

表2 關系挖掘實驗結果 %

對于一些結構復雜的句子有時并不能找到實體間的關系,這是因為句子結構的復雜性導致了語法解析器的解析正確性下降了,導致了這個句子中所蘊含的關系元組是無法被本文訓練的“單通道挖掘機”找到的。例如:“養路工/n邵永東/nr躲/v到/v路旁/s退休/vn工人/n朱允友/nr家里/s”對于這個句子找到的關系關鍵詞集是(退休,家),也就是實體“邵永東”和“朱允友”通過“退休”和“家”建立起了聯系。可是通過觀察這個句子可以發現實際上關系關鍵詞集應該是(躲到,家),也就是說“邵永東”通過“躲到”“朱允友”的“家”里而使他們之間建立起了聯系。之所以會出現這個問題就是因為沒能正確得到其句法結構的原因,而這個原因也是提出的方法的一個限制。一方面,未來如果語法解析的效果更好一些,這個問題可以得到一部分的解決;另一方面以后在挖掘方法上可以加入一些統計的方法,來改善這個問題。

而對于一些句子能夠正確得到其結構,但是得到的關系關鍵詞卻不能清晰地表達出實體之間的關系。例如:“/w肯尼亞選舉委員會/nt宣布/v現任/b總統/n莫伊/nr在/p 1997年/t底/f舉行/v的/u大選/vn中/f獲勝/v”。從這個句子中可以得到關系元組(肯尼亞選舉委員會,宣布,莫伊),雖然這個關系可以被“挖掘機”找到,但是這個關系關鍵詞“宣布”卻沒有清晰地表達出實體間的關系,也即挖掘出了“無信息”的關系[8]。

3.2.2 關系元組準確化實驗

針對關系關鍵詞無法正確而清晰地表達實體間關系的情況,對挖掘得到的關系元組進一步準確化,具體見準確化算法。通過對關系元組的準確化可在原來結果的基礎上進一步提高性能,結果如表3所示。從中可以發現一個有趣的問題:在《人民日報》上的性能要稍低于新浪網絡語料和搜狗語料庫,這一點和表2中的結果恰好相反。通過觀察數據集,發現這是因為在新浪網絡語料和搜狗語料庫中的一些原來是錯誤的元組經過準確化后可以得到正確的元組,而在《人民日報》中,這樣的元組所占的比例較少。其中,在新浪語料庫可以通過準確化得到的正確元組占元組總數的比例為15%,在搜狗語料庫中這樣的元組所占的比例為17%,而在《人民日報》中只占了7%。

表3 關系元組準確化實驗結果 %

從表3來看,準確化后的關系元組的準確率確實比之前要有所提高。例如:“/w脫/v下/v鐵道兵/n軍裝/n的/u石學海/nr調/v到/v大連電視臺/nt”。最初從這個句子中得到了關系元組(石學海,到,大連電視臺),但關系關鍵詞“到”卻沒有能清晰地表達出“石學海”和“大連電視臺”的關系,甚至使人無法理解“到”是什么含義。在進行準確化后,可以得到關鍵詞是“調到”,這個詞就使人們很容易理解了。然而在極少的一些情況下,準確化過程會把原來清晰的關系變得不清晰。例如:“被害人/n桂召金/nr因/p支氣管炎/n發作/vi找/v吳偉/nr1醫治/v”,最初可以從這個句子中得到關系元組(桂召金,找,吳偉),但在經過準確化后得到的關系元組是(桂召金,發作找,吳偉),這個關系關鍵詞“發作找”反而就很難理解了。

將本文算法的實驗結果與文獻[9-10]方法的實驗結果相比,可以看出,本文算法可以獲得比傳統方法更豐富的關系類型。

4 結束語

本文提出一種基于中文句法結構的關系挖掘算法,同時設計一個針對漢語中類雙賓語結構和單賓語結構的單通道挖掘機,利用其進行關系挖掘。本文算法無需大量訓練集,降低了對訓練集的依賴性,并且在挖掘過程中使用語法解析提高了準確率,同時也減少了無信息關系元組的出現。實驗結果表明,該算法具有良好的拓展性,能夠獲得較為豐富的關系類型。下一步工作將主要集中在以下2個方面:(1)由于現在的方法對挖掘到的關系元組沒有采取自動的有效性驗證,因此將來考慮采用一種有效性驗證方法來對關系元組的正確性進行自動驗證,例如可以采用基于冗余的驗證[11]。(2)利用漢語中其他典型句法結構來訓練單通道挖掘機,以增強其挖掘關系元組的能力。

[1]Agichtein E,Gravano L.Snowball:Extracting Relations from Large Plain-text Collections[C]//Proc.of the 5th ACM International Conference on Digital Libraries.Boston,USA:ACM Press,2000:85-94.

[2]Brin S.Extracting Patterns and Relations from the World Wide Web[R].Palo Alto,USA:The Stanford University InfoLab,Technical Report:SIDL-WP-1999-0119,1998.

[3]Banko M,Cafarella M J,Scderland S,et al.Open Information Extraction from the Web[C]//Proc.of the 20th International Joint Conference on Artificial Intelligence.San Francisco,USA:Morgan Kaufmann Publishers Inc.,2007:2670-2676.

[4]Fader A,Soderland S,Etzioni O.Identifying Relations for Open Information Extraction[C]//Proc.of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,USA:Association for Computational Linguistics,2011:87-96.

[5]Shinyama Y,Sekine S.Preemptive Information Extraction Using Unrestricted Relation Discovery[C]//Proc.of HLTNAACL’06.Stroudsburg,USA:Association for Computational Linguistics,2006:304-311.

[6]de Marneffe M,MacCartney B,Manning C D.Generating Typed Dependency Parses from Phrase Structure Parsers[C]//Proc.of International Conference on Language Resources and Evaluation.Genoa,Italy:[s.n.],2006:449-454.

[7]Takamatsu S,Sato I,Nakagawa H.Reducing Wrong Labels in Distant Supervision for Relation Extraction[C]//Proc.of the 50th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,USA:Association for Computational Linguistics,2012:721-729.

[8]Chang P C,Tseng H,Jurafsky D,et al.Discriminative Reordering with Chinese Grammatical Relations Features[C]//Proc.of the 3rd Workshop on Syntax and Structure in Statistical Translation.Stroudsburg,USA:Association for Computational Linguistics,2009:51-59.

[9]李維剛,劉 挺,李 生.基于網絡挖掘的實體關系元組自動獲取[J].電子學報,2007,35(11):2111-2116.

[10]鄧 擘,鄭彥寧,傅繼彬.漢語實體關系模式的自動獲取研究[J].計算機科學,2010,37(2):183-185.

[11]Downey D,Etzioni O,Soderland S.A Probabilistic Model of Redundancy in Information Extraction[C]//Proc.of International Joint Conference on Artificial Intelligence.San Francisco,USA:Morgan Kaufmann Publishers Inc.,2005:1034-1041.

主站蜘蛛池模板: 国产丝袜无码精品| 一本一道波多野结衣一区二区 | 无码日韩人妻精品久久蜜桃| 最新亚洲av女人的天堂| 亚洲无线一二三四区男男| 久精品色妇丰满人妻| 免费午夜无码18禁无码影院| 欧美亚洲国产一区| 黄片一区二区三区| 永久免费无码日韩视频| 无码精品一区二区久久久| 91娇喘视频| 天天综合网色| 国产尤物jk自慰制服喷水| 国产精品分类视频分类一区| 免费毛片a| 亚洲中文字幕无码爆乳| 日韩欧美高清视频| 小13箩利洗澡无码视频免费网站| 国产专区综合另类日韩一区| 91视频精品| 色综合久久无码网| 国产精品私拍99pans大尺度 | 久久综合九九亚洲一区| 国产在线一区二区视频| 亚洲女人在线| aaa国产一级毛片| 日本在线亚洲| 日本午夜影院| 国产成人精品一区二区三区| 永久成人无码激情视频免费| 欧美亚洲国产精品久久蜜芽| 国产又色又爽又黄| 亚洲精品你懂的| 久久99精品久久久久纯品| 国内a级毛片| 手机成人午夜在线视频| 国产一级视频在线观看网站| 精品视频在线一区| 亚洲黄网在线| 99精品视频在线观看免费播放| 国产激情在线视频| 九色国产在线| 中国丰满人妻无码束缚啪啪| 久久精品一品道久久精品| av免费在线观看美女叉开腿| 国产成在线观看免费视频| 国产精品免费p区| 久久99精品久久久大学生| 亚洲性视频网站| 欧美一级黄片一区2区| 国产精品伦视频观看免费| 精久久久久无码区中文字幕| 成人自拍视频在线观看| 亚瑟天堂久久一区二区影院| 日韩欧美一区在线观看| 色视频国产| 人妻一区二区三区无码精品一区| 亚洲日本在线免费观看| 日韩AV手机在线观看蜜芽| 成人国产一区二区三区| 呦视频在线一区二区三区| 欧美a级在线| 色综合激情网| 国产亚洲精品无码专| 国产亚洲精品91| 国产成人8x视频一区二区| 国产成人免费视频精品一区二区| 国产男人的天堂| 91精品国产麻豆国产自产在线| 中文字幕久久亚洲一区| 亚洲欧洲日韩综合| 国产浮力第一页永久地址| 福利视频一区| a色毛片免费视频| 久久一级电影| 在线精品亚洲一区二区古装| 99久久精品国产精品亚洲| 在线精品亚洲一区二区古装| 97久久人人超碰国产精品| 91网在线| 久久夜色精品|