摘要:從《人民日報》語料庫中抽取4萬多個句子作為訓練集和測試集,選取其主語、謂語等相關特征并根據《知網》將特征量化,然后使用支持向量機進行訓練,獲取判別并列復句的模型。在開放測試中獲得了84%的準確率。關鍵詞:并列復句;知網;支持向量機
中圖分類號:TP301文獻標志碼:A
文章編號:1001-3695(2008)03-0764-03
隨著互聯網技術的飛速發展,人們可以獲得的文本資源呈爆炸式增長。如何利用這些資源幫助人們快捷準確地獲得所需的信息成為當前研究熱點。其中許多應用對句子的深層語義理解有著迫切的要求,漢語的復句處理是句子深層語義分析研究中的一個難題。
復句是從小句到篇章的過渡[1]。《現代漢語》對復句的定義為:復句是由兩個或幾個意義上緊密相關、結構上互不包含的分句構成的句子[2]。復句表達的主要問題是它內部分句之間的語義關系。復句類別的命名大多也著眼于這種不同分句之間的語義關系,如并列、遞進、選擇、條件、因果、目的、轉折等。要理解復句的意義就要先搞清復句內部分句間的語義關系。復句的理解在篇章分析、自動問答系統、信息抽取以及機器翻譯等領域都有重要的用途。
目前現有的復句研究大多集中在兩個方面:a)從語言學的角度探討復句內部的關系。邢福義在《漢語復句研究》中提出了復句的三分法,將復句關系類別分類為廣義因果、廣義并列和廣義轉折三種,并對每種類別的復句所包含的句式特點、語義特點等進行了詳細說明[3]。《現代漢語》中將復句分為聯合復句和偏正復句兩種。其中:聯合復句又分為并列復句、承接復句、遞進復句、解說復句和選擇復句;偏正復句又分為因果復句、條件復句、假設復句、轉折復句、讓步復句和目的復句[2]。李振中則認為復句中分句間存在相互并列而又相互依存的邏輯的和語義的兩種關系,邏輯語義關系才是劃分漢語復句類型的原則依據[4]。b)從機器翻譯角度給出對復句語義關系的新定義并進行自動判別,如文獻[5],它基于BNF范式定義完整的關系判定規則,然后根據規則來判定語義關系。
在自動問答系統和信息抽取等應用中,句子主題的確定非常重要。復句主題的確定相對于單句來說比較困難。并列復句的幾個分句分別說明的是有關的幾件事,或一件事情幾個相關方面,分句之間不分主次、彼此平行[2]。從定義可知并列復句的主題相對于其他形式的復句來說較為特殊。本文研究的目標是將復句自動分為并列句和非并列句兩類,以便能夠進一步對復句主題進行確定。由于復句主題的確定主要依據語義,本文的分類原則遵循文獻[4]所提出的依據分句間的邏輯語義關系來分類的原則。針對此目標,本文提出一種基于統計模型的判別方法,自動學習語料中的知識。經實驗取得了較好的效果。
1研究對象的界定
復句有形合法和意合法兩種[4]。形合復句的“形合”主要限于有關聯性的連詞和副詞,并以之傳遞邏輯信息,虛詞起著重要的作用,如例1所示;意合復句的分句,其結構不互相依賴而依次排列,分句之間的邏輯語義關系在語言上沒有明顯的標志,主要以意相合,語序起著重要的作用,如例2所示。
例1他既不故意地冷淡誰,也不繞著彎子去巴結人。
例2虛心使人進步,驕傲使人落后。
對于形合復句,僅根據關聯詞語就可以準確地判定是何種關系。如例1,可以根據關聯詞語“既……又……”來確定其為并列復句。因此,本文研究重點放在沒有關聯詞語和特殊標記(如分號)的句子(即意合復句)上。多重嵌套的復句還牽涉到復句的整個結構層次以及各種關系之間的制約和關聯,這將是下一步研究的目標。綜上,本文的研究對象為:a)只有兩個分句的復句;b)復句的分類為并列復句和非并列復句兩種;c)沒有關聯詞語和特殊標記(如分號等)的句子。
2總體思路
《人民日報》語料庫是以新聞報刊報道為主的語料庫。本文從初始《人民日報》語料庫中抽取4萬多個句子。其中并列句與非并列句約各占一半,這些句子經過規則分類和人工校正后形成帶分類標記的句子。考慮到實驗中所需要抽取的特征,對這些句子進行了分詞、詞性標注和部分句法分析的預處理。部分句法分析的依據是詞語的詞性和關聯詞語相對于主語的位置關系。其中關聯詞語的位置有如下特點:
a)分句的主語相同時,關聯詞語位于前一分句的主語之后。例如:他的聲音不但沙啞,而且氣息很弱。
b)分句的主語不同時,關聯詞語位于前一分句的主語之前。例如:雖然目前教師的平均生活水平還很差,但是為了祖國的教育事業,甘守清貧者依然大有人在。
后面分句的關聯詞語,無論分句的主語是否相同都放在主語之前;但只有充當關聯詞語的副詞放在主語之后。
根據這些特點可以制訂規則來粗略標注出句子的主語和謂語。預處理后的句子結構如下例所示:
她們/r_sbj是/v_predicate國防/n建設/vn的/u功臣/n, 也/d是/v_predicate人民/n的/u功臣/n。/w
上述并列句中,_sbj代表前面的詞是句子的主語,_predicate代表前面的詞是句子的謂語。
預處理完畢后,將其中的3萬多個句子作為訓練集并作為封閉測試的數據集,余下的1萬多個句子作為開放測試的數據集。人工修正后的語料分類統計情況如表1所示。
3分類特征及其量化
由于本文分類的原則是復句內部各分句間的邏輯語義關系,對意合復句來說,區分其為并列句還是非并列句主要是依據分句間的內在語義關系。而一個句子所描述的事件或狀態總是由它的各個句子成分的組合來體現。對于一個并列句來說,兩個分句是平行的、沒有主次之分,因此它們所描述的事件或狀態往往相同、相反或類似;也就是說,它們描述的是相近的概念。從認知語言學的角度來看,認知上相近的概念在語言形式的時間和空間上也接近[6]。據此,本文選取句子的主語、謂語兩個主干成分再加上時間副詞、地點副詞、方位詞等作為特征來訓練。借助《知網》的事件、實體、屬性和屬性值分類體系以及同義詞表、對義詞表來對選取的特征進行量化。在此基礎上使用支持向量機(SVM)學習算法進行分句間并列關系的識別。
3.1《知網》與概念定義
《知網》描述的是概念與概念之間以及概念的屬性與屬性之間的關系[7]。這些關系在《知網》中通過多種方式表示出來,如上下位關系在義原分類體系體現;對義、反義關系是用單獨的對義表和反義表來表示;屬性與屬性值的關系在概念描述中使用關系符號來表示等。《知網》的事件和實體義原分類體系分別如圖1、2所示。
《知網》給出了兩個義原之間距離的定義,并提供了計算義原距離的API。義原之間的距離指的是一個義原到另一個義原所需的步數,如義原“receive|收受”與“become|成為”之間的距離是6,即“receive|收受”→(1)“own|有”→(2)“possession|領屬關系”→(3)“relation|關系”→(4)“isa|是非關系”→(5)“be|是”→(6)“become|成為”。《知網》對義原的劃分由粗到細,越靠近葉節點,其語義概念粒度越細。義原屬于同一個細粒度的語義類別時意思顯然比屬于同一個粗粒度的語義類別時更為接近。如圖2所示,義原“bird|禽”與“fish|魚”之間的距離是2,義原“human|人”與“animal|獸”之間的距離也是2,前組義原的意思比后組義原更接近。為了更好地根據義原距離量化詞語的語義距離,給出如下的概念定義。
定義1義原距離senseDistance。兩義原s1與s2之間的距離SenseDistance (s1,s2)由其共同祖先在義原分類樹中的深度值與義原s1到另一個義原s2所需的步數來共同決定,即
senseDistance(s1,s2)=depth(ancestor(s1,s2))+step(s1,s2)
其中:ancestor(s1,s2)為兩義原s1與s2距離最近的共同祖先,如ancestor(“bird|禽”“fish|魚”)為“animal|獸”;depth函數的值定義為義原樹的總高度減去該節點調用《知網》計算深度值的API所得出的值;step函數直接調用《知網》計算義原距離的API來計算步數。
定義2距離匹配函數senseMatch。SenseMatch(w1,w2)根據w1與w2在預處理中分別被標注的義原s1和s2的語義距離senseDistance(s1,s2)來計算。若匹配成功,則返回1;否則返回0。即
senseMatch(w1,w2)=0,senseDistance(s1,s2)>T
senseMatch(w1,w2)=1,senseDistance(s1,s2)≤T
其中:T為閾值。在本文實驗中距離匹配函數主要用于判斷兩個詞語的義原距離遠近,并據此判斷兩個分句間是否是并列關系。通過對《知網》義原分類樹的考察,將T取值為7。
定義3詞語語義關系word _Relation。兩詞語w1與w2之間的語義距離word _Relation(w1,w2)要分為幾種情況來考慮:是否完全相同;是否同義詞或者反義詞;是否對義詞;義原距離近;義原距離遠。具體定義如表2所示。
其中:完全相同的情況是指詞語字符串完全匹配成功;同義、反義、對義關系可根據《知網》中相應的同義詞表、反義詞表、對義詞表來判定;距離遠近調用匹配函數(定義2)計算得到,匹配函數返回1說明距離近,返回0說明距離遠。
3.2分類特征選擇
復句語義關系是并列還是非并列可以由很多特征確定。對于不帶關聯詞語的復句,比較顯著的特征有主語、謂語、時間、地點、方位副詞等。下面將詳細分析這些特征以及它們在并列復句的自動判別中所起的作用。
a)主語。漢語中可充當句子主語的主要是名詞和代詞。對于并列句來說,分句的主語之間往往具有某種關聯,如“我唱歌,她跳舞。”根據定義2 計算詞語語義距離可知,“我”和“她”的語義距離很近。主語的分類不需要太細,因此本文的實驗按照表2對主語進行語義分類并量化。在復句中,后一分句的主語缺省是很常見的情況,對此將依據前一分句的主語是否缺省進行不同的處理。對于前一分句主語存在的情況,后一分句主語缺省視為主語完全相同;如果前一分句和后一分句的主語均缺省,則當做其他情況來處理(見表2中“其他”一列)。
b)謂語。謂語決定了句子描述的到底是何種事件或者狀態,因而對句子意義的理解起著至關重要的作用,漢語中充當謂語的大部分是動詞和形容詞。一個符合應用需要的動詞分類系統對問題的解決將帶來很大益處。但目前動詞分類方法尚無定論,本文結合研究目標和現有的資源,依據《知網》的事件義原分類體系對動詞和形容詞的語義關系進行量化的描述。由于并列關系表達的主要是一種語義上的平行,其謂語之間往往是平等的關系,即其最好處于事件義原樹上兄弟的位置。對表2進行改進,加入一列“是否兄弟關系”來滿足謂語量化的特殊要求。
c)時間、地點、方位副詞。當概念上接近的時間、地點或者方位副詞成對地出現在復句中,經常描述的是一種并列的關系。如“白天,他在地里干活;晚上回到家他繼續做研究工作。”這樣的副詞作為一種標記可以強化并列關系。本文將它們作為特征也加入到SVM模型中進行學習,它能夠在一定程度上提高對那些單靠主語、謂語特征較難區分的句子關系判定的準確率。
3.3支持向量機
本文采用SVM機器學習方法自動判定并列復句。Vapnik[8]在1995年基于最大分界距離策略提出了一個二元分類的SVM的概念,這種方法在很多分類任務上有著很好的表現。為了簡化SVM,降低其計算復雜度,Platt[9]提出了序列最小優化(sequential minimal optimization,SMO)方法,其主要思想是把一個大的優化問題分解成一系列只有兩個變量的優化問題。本文實驗采用的是Weka 3.4SMO[10]。
4實驗結果及分析
本文首先對輸入的經過預處理后的句子進行特征抽取并按照前文定義將特征量化,然后將量化后的標記、特征數據輸入到SVM的統計模型來進行訓練。由于量化后每個特征的取值都是少數幾個整型,算法的時間效率很好。對訓練好的模型分別進行封閉測試實驗和開放實驗,其封閉測試實驗數據如表3所示,開放測試實驗數據如表4所示。
分類錯誤主要有以下幾種原因:
a)預處理帶來的錯誤。(a)語法分析時產生的錯誤。這種錯誤導致特征抽取時選用了錯誤的詞語來計算特征,因此SVM無法根據得到的錯誤特征值來將它識別。如句子:“你/r_sbj 想/v飲/v果汁/n,/w當下/d就/d能/v給/p你/r_sbj壓榨/v一/m杯/q。/w”。語法分析將后一分句出現的間接賓語“你”標成了主語,因而影響了特征的抽取。(b)義原標注錯誤,影響了對詞語間語義關系的分類,進而導致特征計算時得出錯誤的值。
b)謂語帶有能愿動詞時會給識別帶來影響。有能愿動詞出現時,會給識別模型帶來復雜性。主要原因是能愿動詞的出現對句子的語義關系的改變不可預料,如“她能在貧寒的日子堅持自己的理想,能為實現理想付出自己的一切。”兩個“能”字強化了句子的并列關系。實驗中出現錯誤的情況往往是由于訓練模型將絕大多數的能愿動詞的同現標注成并列關系,如“你不能這么做,他會反抗到底的。”在這里,“能”和“會”同現,但是這兩個分句不具有并列關系。
5結束語
本文嘗試了一種基于機器學習的自動判別并列復句的方法,對缺乏明顯標記的復句,利用其主干句子成分的語義關系來判定句子間的語義關系。從實驗效果來看,該方法是可行的。本文所作的研究是自動識別復句語義關系的第一步,下一步將嘗試把復句的語義關系劃分到更細的層次進行自動分類以及如何處理多重復句的問題。
參考文獻:
[1]徐陽春.現代漢語復句句式研究[M].北京:中國社會科學出版社,2002:811.
[2]黃伯榮,彥序東.現代漢語(下冊)[M].北京:高等教育出版社,2002:3-20.
[3]邢福義.漢語復句研究[M].北京: 商務印書館,2001:33-80.
[4]李振中.淺談復句中分句間的關系[J].青海師專學報:社會科學版,2002(2):89-92.
[5]魯松,宋柔.漢英機器翻譯中描述型復句的關系識別與處理[J].軟件學報,2001,12(1):83-93.
[6]趙艷芳.認知語言學研究綜述[J].解放軍外國語學院學報,2000(5):26-30.
[7]董振東,董強.知網[EB/OL].[2005].http://www.keenage.com.
[8]VAPNIK V N.The nature of statistical learning theory[M].New York:SpringerVerlag,1995.
[9]PLATT J C.Fast training of support vector machines using sequential minimal optimization[C]//Proc of Advances in Kernel Methods: Support Vector Machines. Cambridge: MIT Press,1998:185-208.
[10]Weka3.4[CP].http://www.cs.waikato.ac.nz/~ml/weka/.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”