張晨
摘 要:對語義的理解能幫助我們更好地理解某個詞語、整句話乃至整個篇章或整個對話的含義,而找出語義識別則就是幫助計算機“理解”詞語、句子和篇章含義的前提性工作。其中,詞語的語義識別是基礎。新詞語的增長早已是一個不可忽視的趨勢,中文信息處理作為應用語言學的一大觸手,面對這樣的形勢當然也要邁出自己的步伐。本文以語料的句法成分和語義角色的標注為基礎,研究滿足某句法成分和語義角色條件的詞語的義類傾向,以期能夠將研究成果用于中文信息處理中新詞語義類的推測研究,來幫助推進中文信息處理早日實現“智能化”。
關鍵詞:中文信息處理 語義角色標注 句法成分標注 義類識別
一、引言
在信息處理中,若能讓計算機對語義做出分析、判斷、預測,讓計算機能夠識別和理解人類自然語言,這將是信息處理的一項重大舉措,也是讓計算機真正實現“智能化”的重要前提。其中,詞語的語義識別是基礎,也是信息抽取、機器翻譯等應用領域的基礎問題。本文的研究重點就是詞語的語義識別。
在句法與語義對應關系的接口問題的研究上,我們認為是詞匯語義在這條鎖鏈中起著決定性作用,它決定著語義角色,進而影響到句法成分,部分研究也正是選用了從詞匯語義到語義角色、句法成分的研究方向。結合阿普列相的語言整合描寫理論,本文采取了與上述研究方向相反的逆向研究方向,以語義角色和句法成分為抓手,反推詞匯語義,以期用于中文信息處理的新詞語處理工作中。
二、本研究思路
詞語組成句子,句子進而構成篇章,這是人類自然語言通常的構成層次,我們也可以據此將語義識別分為詞語語義識別、句子語義識別和文本(篇章)語義識別。對于中文信息處理來說,對詞語的識別是一系列后續工作的基礎。目前,新詞語的增長早已是一個不能忽視的事實,又加上漢語的博大精深,這些都無疑不給中文信息處理帶來巨大的挑戰。同時,阿普列相在他的語言整合描寫理論中主張將詞匯和語法這兩個不同意義層面的概念結合起來,融為一體。綜合以上三點,作者以語料的句法成分和語義角色的標注為基礎,研究滿足某句法成分和語義角色條件的詞語的義類傾向,結合當前新詞語增長給中文信息處理帶來重重困難的漢語真實現狀,以期能夠將研究成果用于新詞語義類的推測研究,來幫助推進中文信息處理進一步實現“智能化”。
(一)語料庫的建設
整個實驗研究分析是以語料庫為依托的,本文研究需要兩個語料庫,分別為《中小學語文課本標注語料庫》和《義類傾向信息庫》。下文將分別介紹這兩個語料庫的構建步驟和方法。
一、《中小學語文課本標注語料庫》的建設
《中小學語文課本標注語料庫》是以人民教育出版社的語文課本為基礎,然后進行擴充形成的。我們選用其中全日制普通高級中學教科書部分為母庫,語料總計約40萬字左右。
我們將目標語料通過分詞系統進行分詞,并做詞性標注,在一定的人工檢查后進行語義角色和句法成分的標注。需要注意的是,在標注語義角色和句法成分時,是以語塊為單位的,而并不是單個的詞。在做句法成分的標注時,我們這里把語塊分為主語語塊(S)、謂語/述語語塊(P)、賓語語塊(O)、定語語塊(A)、狀語語塊(D)、補語語塊(C)、兼語語塊(J)和獨立語語塊(T)。在做語義角色的標注時,我們選用以下幾個語義角色:施事(S)、當事(D)、領事(L)、共事(Y)、受事(O)、客事(K)、致事(Z)、結果(R)、與事(T)、系事(X)、分事(F)、同源(B)、材料(H)、方式(Q)、依據(W)、原因(C)、目的(G)、時間(H)、處所(P)、數量(N)、基準(J)、雜類(U)。同時,還需要注意的是,我們雖然在同一句語料上同時標注句法成分和語義角色,但這兩個工作是互相獨立的,互不干擾。因為句法成分和語義角色是不同的兩個概念,不在同一個層面上,語義角色是更深層次的概念,并且兩者各有一套完整的標注標記,兩者互不牽連。下面用例句來展示標注結果:
(1)[D在/p 20/m 世紀/n 的/u 百年/m 中/f]H ,/w [S中華/b 民族/n 的/u 命運/n]D [P發生/v]V 了/u [O歷史性/b 的/u {轉折/n}@ 和/c {巨變/n}@]K 。(《在慶祝北京大學建校一百周年大會上的講話》)
(2)[D幾乎/d [S所有/b 可/v 被/p 動物/n 用/v 來/v 發聲/v 的/u 東西/n]D [D都/d 被/u [P用/v]V [C上/v] 了/y(《這個世界的音樂》)
(3)[D在/p 文學/n]E ,/w 無論/c [D{閱讀/vn}@ 或/c {寫作/vn}@]E ,/w [S我們/r]L [D必須/d [P有/v]V [O一字/n 不/d 肯/v 放松/v 的/u 謹嚴/n]K 。/w(《咬文嚼字》)
二、《義類傾向信息庫》的生成
我們在已有句法成分和語義角色標記的語料基礎上,設計抽取程序,以語義角色和句法成分為經緯,兩者兩兩組合形成抽取條件,在《中小學語文課本標注語料庫》中抽取符合條件的所有中心詞。由于我們在查詢義類時是參照《同義詞詞林》的義類體系,所以我們在抽取時盡量保證中心詞是一個詞,而不是多個詞或是短語。另外,為了實驗結果的準確,在同一詞語多次出現的情況下,會將其出現的頻次計入統計結果,用于計算概率。按照《同義詞詞林》中的語義分類體系和符號體系給提取出的中心詞打上相應的義類標記。同時,本文將拋棄單純的新詞語本身研究,在對提取出的中心詞,特別是中心詞是多義詞的情況下進行義類標注的時候結合其所在上下文語境情況來幫助確定其語義類。
我們把經過上文操過的信息,包括提取出的中心詞及其頻次、義類,錄入到EXCEL表格中,生成《義類標注信息庫》,以用于后續的研究分析。
(二)詞語語義類傾向研究
在以26個語義角色和8個句法成分兩兩組合作為提取中心詞條件的框架下,我們對語料進行了窮盡式的排查和統計,由于實驗所用的語料庫覆蓋面有限,有些語義角色和句法成分的組合在語料中并未出現,這種情況并不是說明在語言事實中絕對不會出現,但也可以據此推斷,這些現象在實際的語言運用中大多出現的頻率比較低,甚至是幾乎不出現。
由于篇幅有限,我們僅以SS施事主語為例做統計結果的展示:
通過統計可知,處于SS施事主語位置的詞語義類的分布情況,可得其優先度不等式:A人(2716)>B物(341)>D抽象事物(168)>E特征(56)>C時間與空間(39)>K助語(14)>H活動(9)>G心理活動(8)>I現象與狀態(3)>J關聯(2)>F動作(1),沒有出現的是L敬語。其中A類所占比重遠大于排在第二位的B類,是由于A類中包含指代人稱的代詞,像“你”“我”在語料中出現的頻次非常多。
由于僅按照義類大類進行分析比較粗糙,為了細化信息顆粒度,得出更加深入、更精確的結果,我們將義類從大類細化到中類,可得優先度前五名不等式如下:Aa泛稱(2310)>Ah親人眷屬(122)>Ba統稱(116)>Al才識(55)>Af身份(51)。
通過上述操作,我們發現處在SS位置的詞語義類中,Aa類出現的頻次遠大于處于第二位的Ah類,則SS施事主語位置的詞語義類的顯著性特征為Aa類。
我們依據這個思路,依次考察SO施事賓語、SD施事狀語、SP施事述語、SJ施事兼語等位置的詞語義類情況。發現以S為綱的幾個不等式中,大類前幾位保持一致,即A>B>D>C/E,而中類則保持Aa>Ba/Ah的序列。
按此思路繼續考察以當事D為綱、以領事L為綱、以共事Y為綱、以受事O為綱等等不同語義角色與8個句法成分兩兩組合位置的詞語義類情況,并得出符合各個條件的詞語的顯著性特征義類。
(三)新詞語義類的傾向研究
我們選用《新詞語大詞典》,選取其中出現的新詞語的例句作為檢測詞語義類傾向研究效果的測試語料。限于篇幅,我們還是以SS施事主語位置詞語義類情況為例說明。
在我們選取的《新詞語大詞典》的新詞語釋義舉例例句中,經過分詞、語義角色和句法成分標注、提取中心詞等一系列工作,統計出出現在SS施事主語位置的詞語約有2851個,經過義類的標注,發現義類為Aa的約有2365個,占總數的約83%,符合我們在第二步工作中得出的實驗結果,因而,此顯著特征可作為中文信息處理在推測SS位置新詞語義類的一個依據。
其他位置新詞語的義類情況推測思路與做法與上述一致。
三、總結
本研究將詞類、句法成分、語義角色結合起來,從句法成分和語義角色反推詞匯意義,進一步豐富和完善漢語句法語義理論,為漢語句法語義理論研究提供了一種新的思考方式。同時,本研究是基于大型標注語料庫得出的,可以基本反映漢語的真實狀況。研究成果可用于新詞語的詞義識別,為中文信息處理的自動分析提供幫助,也可用于機器翻譯、新詞語詞典的編纂以及信息檢索等有新詞語出現的地方,幫助機器更好地“理解”新詞語,進而更準確地進行語義方面的處理,有助于推動中文信息處理的進一步發展,具有一定的實踐意義。
本研究的創新之處在于在新詞語的識別研究上著重在對其語義類的識別上。采取了在句法、語義接口方面研究時不同的研究方向,并將實驗與中文信息處理有機結合。而不足之處在于本研究所采用的語料庫取材有限,覆蓋面有限,因而實驗結果還有待完善。另外,由于本人專業知識有限,疏漏之處還請批評指正。
參考文獻
[1] 于鑫.阿普列相及其語義理論[J].解放軍外國語學院學報,2006(2):29.
[2] 周明海.核心語義角色句法實現的詞匯語義制約[D].魯東大學碩士學位論文,2011.
[3] 秦春秀,祝婷,趙捧未,張毅.自然語言語義分析研究進展[J].國家情報工作,2014(22):58.
[4]鄒煜,李開拓.漢語新詞語檢測:檢測的不只是語言——新詞語監測與研究5年回顧[J].北華大學學報:社會科學版,2012(5):13.
[5] 楊輝.漢語新詞語發現及其詞性標注方法研究[D].上海:復旦大學,2008.
[6] 田震.非核心語義角色句法實現的詞匯語義制約[D].魯東大學碩士學位論文,2014.
[7] 梅家駒,等.同義詞詞林[M].上海:上海辭書出版社,1983.