昝紅英,張騰飛,張坤麗
(鄭州大學 信息工程學院,河南 鄭州450001)
介詞的研究是自然語言處理技術中的重要部分,計算機對介詞的正確識別將極大的提高機器對自然語言的理解和應用。
目前,已經有不少人對虛詞用法自動識別有了一定的研究,周麗娟等提出了一種基于規則的現代漢語連詞用法自動識別方法[1];昝紅英等采用了統計的方法對副詞 “就”的用法自動識別進行的研究[2]。本文旨在對介詞用法進行討論,分析總結規則方法和統計方法單獨使用的優劣,使用規則與統計相結合的方法,提高介詞用法自動識別的準確率。
本文以現代漢語廣義虛詞知識庫[3-4]為研究背景和基礎,其中介詞共有139個,207個義項,327個用法。介詞在漢語文本中出現頻率是非常高的,以2000年5月 《人民日報》語料為例,約120萬詞的文本中共出現介詞43697次。介詞短語主要充當狀語,修飾動詞或形容詞,如 “從車上下來”“比他高”。有的介詞短語可以作定語,但要加“的”,如 “對歷史人物的評價”。少數介詞短語可以充當補語,如 “睡在床上”。介詞在句子中有一定的指示作用,指出后面詞所代表的內容,包括時間、處所、范圍、對象、目的、原因、方式、排除、被動、比較等[4-7]。
介詞用法的規則識別是虛詞規則庫建設之一,虛詞知識庫由三部分組成:虛詞用法詞典、虛詞規則庫和虛詞用法標注語料庫[8]。本文規則方法使用了鄭州大學自然語言實驗室開發的基于規則的介詞用法識別工具包[9]。
介詞的用法特征擁有不同的表現形式,規則識別方法采用介詞用法特征中可以操作的判斷條件特征,然后以有序的巴科斯范式對介詞進行規則的描述[2,4],利用規則識別介詞用法[9]。
抽取的介詞用法特征有:F為句首,表示句首出現的詞語或詞性特征;M為左搭配,表示介詞左邊搭配的詞語或詞性的特征;L為左緊鄰,表示介詞左邊緊鄰的詞語或詞性特征;R為右緊鄰,表示介詞右邊緊鄰的詞語和詞性特征;N為右搭配,表示介詞右邊搭配的詞語或詞性特征;E為句末,表示句末出現的詞語或詞性的特征。
介詞用法規則的樣例如下[4,9]:
MYM在
@<p_zai4_5>→N^N→看來|來說|而言|說來|來看|來講
@<p_zai4_3b>→L^L→控制|限制|保持|維持|穩定|表現|體現
@<p_zai4_3a>→N^N→方面|問題上|實踐上|生活中|生活上|領域|工作上
@<p_zai4_4>→N^N→ (v|<vn>)<下/f>|(條件|前提|情況|情形|形勢|背景|原則|努力)下|基礎上
@<p_zai4_1c>→N^N→過程中|活動中|活動上|會議中|會議上|會上|會中|賽中|塞上|斗爭中|接觸中|實踐中
@<p_zai4_1a>→N^N→ (年|月|日|天|號|星期|世紀|期間|初|時|秒|之后|之前|之際|夜晚|同時|t)*v
@<p_zai4_1b>→LN^L→v^N→年|月|日|號|天|星期|世紀|期間|初|時|秒|之后|之前| 之際|夜晚|t
@<p_zai4_2a>→N^N→ (<ns>|s)*v
@<p_zai4_2b>→LN^L→v^N→n|f
@<p_zai4_2a>→N^N→ (<ns>|s)
@<p_zai4_1a>→N^N→ (年|月|日|天|號|星期|世紀|期間|初|時|秒|之后|之前|之際|夜晚|t)
@<p_zai4_3a>→R^R→a|v|n
在生成規則時需要對介詞的規則設有優先級,前面的優先級大于后面的,所以,規則之間允許交叉覆蓋,同一條用法也允許有多條規則。優先級的情況不同,對用法的識別準確率有很大影響。
實驗選用2000年5月份 《人民日報》語料,以使用頻率最高的20個介詞為例,在5月份語料中出現次數33904次,識別介詞用法的過程就是在語料中進行標注的過程,原始語料采用已經完成了分詞的 《人民日報》語料,標注前后如下[4]:
沒有標注的原始語料:
“圍/v 在/p 機場/n 和/c 醫院/n 門口/s 歡迎/v 的/ud 人群/n 揮動/v 著/uz 旗子/n ,/wd 高舉/v 皮諾切特/nr 的/ud 畫像/n ,/wd 把/p 他/rr 當成/vl “/wyz 英雄/n ”/wyy 來/vi 歡迎/v。/wj”
機器標注后的語料:
“圍/v 在/p<p_zai4_2b> 機場/n 和/c 醫院/n 門口/s 歡迎/v 的/ud 人群/n 揮動/v 著/uz 旗子/n,/wd 高舉/v 皮諾切特/nr 的/ud 畫像/n,/wd把/p<p_ba3_5b> 他/rr 當成/vl “/wyz 英雄/n”/wyy 來/vi 歡迎/v 。/wj”
實驗結果見表1。

表1 基于規則方法的自動識別結果
在采用基于規則的方法進行標注實驗時,標注正確的總個數有22844個,總準確率為67.38%,從表1可以看出,各個介詞的準確率有較大不同,說明基于規則的方法具有簡單、直觀、針對性強等優點,對于結構比較明確的介詞,有很大優勢。但一般也有覆蓋程度低、難于進一步優化等缺點。
近年來,許許多多的機器學習統計模型在自然語言處理領域得到了廣泛應用,其中包括:條件隨機場 (conditional random fields,CRF)、支持向 量機 (support vector machine,SVM)、最大熵 (maximum entropy,ME)、最大熵馬爾科夫 (maximum entropy markov model,MEMM)以及隱馬爾科夫模型 (hidden Markov model,HMM)[2]。本文采用了條件隨機場統計模型,它可以充分利用的上下文信息作為特征,還可以任意地添加其他外部特征,可有效地解決前述數據稀疏問題[10]。
條件隨機場 (CRF)由Lafferty等人于2001年提出[11],結合了最大熵模型和隱馬爾可夫模型的特點,是一種在給定輸入點的條件下計算輸出點概率的無向圖模型,它考察輸入序列對應的標注序別的條件概率,目的是獲得最大化的條件概率。近年來在分詞、詞性標注和命名實體識別等序列標注任務中取得了很好的效果。
條件隨機場的定義為:G= (V,E)是一個無向圖,Y= {Yv|v(V}是以G中的節點v作為索引的隨機變量Yv構成的集合,在已知X條件下,如果所有隨即變量Yv都服從馬爾科夫屬性,即:P(Yv|X,Yu,u≠v)=P(Yv|X,Yu,u~v),(X,Y)就是一個條件隨機場。在介詞識別中,X表示漢語句子集合,Y表示句中介詞的用法集合。
實驗選用2000年2、3、4月 《人民日報》語料作為訓練語料,用2000年5月 《人民日報》語料作為測試語料,統計方法用的特征包括詞和詞性,比較不同特征窗口訓練實驗的結果,確定每個介詞最佳特征窗口大小。測試實驗結果見表2。

表2 基于統計方法的自動識別結果
采用基于統計的方法進行標注,標注正確的總個數有26037個,總準確率為76.80%。從表2可以看出,基于統計的介詞自動識別方法總體效果比較好,覆蓋面廣,當改變了介詞用法或義項后,也有很好的適應性。不過對于一些結構性較強的介詞就不如規則效果好,比如 “據”、“同”、“比”等詞。同時與規則方法相比,統計方法不能很好發現用法的不足,因為統計方法是在用法確定的情況下,通過訓練得到每個用法的模型,然后識別測試語料中介詞的用法,它不能判斷用法本身的合理性,不能發現新的用法,不利于完善介詞用法的劃分和確定,比如 “由于”,只有一個用法,如果一個用法不能包含其運用時的全部情況,規則方法可以發現這種不足,而統計方法卻不能。
鑒于規則與統計方法各自的優劣,本文使用了規則與統計相結合的方法,提高機器的識別能力。規則與統計相結合的方法有多種,本文使用兩種結合方法:宏觀結合與微觀結合。
基于規則的自動識別和基于統計的自動識別有著不同的準確率,以每個介詞為單位,比較規則與統計準確率的高低,進行分析結合。針對某個介詞,選用準確率高的方法作為優先識別方法,準確率低的方法作為輔助識別方法,如圖1所示。
宏觀結合算法分為5步:
步驟1 從語料中依次提取句子,判斷是否含有介詞,如果含有介詞,從準確率文檔中找到此介詞的規則準確率與統計準確率;否則重復步驟1,繼續提取句子;
步驟2 判斷找到的介詞規則與統計各自準確率的大小,以此確定主要的識別方法和輔助識別方法;
步驟3 采用步驟2確定的主要識別方法進行自動識別;
步驟4 判斷主要識別方法能否識別,能夠識別時,輸出識別結果;不能識別時使用輔助識別方法進行識別,能夠識別時,輸出識別結果,不能識別時,輸出識別失敗;
步驟5 判斷句子是否還有介詞,如果還有介詞,從步驟2繼續執行,否則從步驟1執行。
相對于宏觀結合,微觀結合從更細小的結構進行結合,以每個介詞的每個用法為單位,進行分析結合。同樣以準確率作為參數,進行比較,如圖2所示。
微觀結合算法分為7步:
步驟1 從語料中依次提取句子,判斷句子是否含有介詞,如果含有介詞,執行步驟2;否則,重復步驟1,繼續提取句子;
步驟2 對找到的介詞進行規則識別和統計識別;
步驟3 判斷統計是否識別,如果統計不能識別,從步驟4執行,否則,從步驟5執行;
步驟4 判斷規則是否識別,如果規則識別,輸出規則識別結果;否則,輸出識別失敗,然后從步驟7執行;
步驟5 判斷規則是否識別,如果不能識別,則輸出統計識別結果,然后從執行步驟7;否則,執行步驟6;
步驟6 規則以及統計都識別時,分別從規則準確率文檔中找到規則識別的用法準確率,從統計準確率文檔中找到統計識別的用法準確率,比較大小 (與宏觀結合時不同,微觀結合時準確率是介詞每個用法的,宏觀結合時是介詞總體的),如果規則的準確率高,輸出規則識別結果;否則,輸出統計識別結果;
步驟7 判斷句子中是否還有介詞,如果還有介詞,從步驟2繼續執行;否則,從步驟1執行。

實驗選用2000年2、3、4月 《人民日報》語料作為訓練語料,用2000年5月 《人民日報》語料作為測試語料,實驗結果見表3和表4。

表3 規則統計結合的自動識別結果
由表3可以看出,規則統計相結合的方法對每個介詞自動識別都有一定的提高,宏觀結合標注正確的總個數有26605個,總的準確率為78.47%,比規則方法高11.09%,比統計提高1.67%。微觀結合標注正確的總個數有27808個,總的準確率為82.02%,比規則方法高14.64%,比統計方法高5.22%。由此可以看出,微觀結合效果最好。同時,因為微觀結合是以用法為單位的結合,對于介詞的每個用法識別準確率,同樣是可以比較的,而宏觀結合方法是以詞為單位進行結合,不能比較。在比較單個介詞中不同用法識別情況時,我們以F值為參考 (對于整個介詞來說,由于介詞的個數是確定的,所以整個介詞的準確率、召回率和F值是相同的),以介詞 “在”為例,由表4可以看出,微觀結合的方法對單個用法的識別能力比另兩種方法強。
本文分別對介詞用法進行了規則方法、統計方法以及規則與統計相結合方法的自動識別研究,實驗表明微觀規則與統計相結合的方法吸收了規則方法和統計方法各自的優點,具有更高的自動識別能力。規則與統計結合的方法是多種多樣,找到最有效的結合方法,同時進一步的完善介詞用法規則庫,將是提高介詞用法自動識別能力的有效和主要途徑,也是本文下一步研究的主要方向。另外,介詞用法在信息抽取、句法分析、機器翻譯等方面的應用是本文研究的主要動力和實際意義,是未來的應用研究方向。

表4 介詞 “在”用法自動識別結果
:
[1]ZHOU Lijuan,ZHANG Kunli,YUAN Yingcheng,et al.The studies on automatic recognition of rule-based modern Chinese conjunctions usages [C]// Wuhan:Proceedings of the 5th YWCL,2010:96-102 (in Chinese). [周麗娟,張坤麗,袁應成,等.基于規則的現代漢語連詞用法自動識別研究 [C]//武漢第五屆全國青年計算語言學研討會,2010:96-102.]
[2]ZAN Hongying,ZHANG Junhui,ZHU Xuefeng,et al.Research on usages of Chinese adverb JIU and its automatic indentification [J].Journal of Chinese Information Processing,2010,24 (5):10-16 (in Chinese).[昝紅英,張軍琿,朱學鋒,等.副詞 “就”的用法及其自動識別研究 [J].中文信息學報,2010,24 (5):10-16.]
[3]YU Shiwen,ZHU Xuefeng,LIU Yun.Natural language understanding oriented the researches on Chinese functional words[C]//Xishuangbanna:Proceedings of the 11th the Chinese Language Information Seminar,2007:270-279 (in Chinese).[俞士汶,朱學鋒,劉云.面向自然語言理解的漢語虛詞研究[C]//西雙版納:第十一屆全國民族語言文字信息學術研討會論文集,2007:270-279.]
[4]ZAN Hongying,ZHANG Kunli,CHAI Yumei,et al.Studies on the functional word knowledge base of modern Chinese [J].Journal of Chinese Information Processing,2007,21 (5):107-111 (in Chinese).[昝紅英,張坤麗,柴玉梅,等.現代漢語虛詞知識庫的研究 [J].中文信息學報,2007,21 (5):107-111.]
[5]LV Shuxiang.Modern Chinese eight hundred words [M].Beijing:Commercial Press,1980 (in Chinese).[呂叔湘.現代漢語八百詞 [M].北京:商務印書館,1980.]
[6]The Chinese social sciences academy language research laboratory dictionary editorial office. Modern Chinese Dictionary[M].5th ed.Beijing:Commercial Press,2007 (in Chinese).[中國社會科學院語言研究所詞典編輯室.現代漢語詞典[M].5版 北京:商務印書館,2007.]
[7]ZHANG Bin.Modern Chinese function word dictionary [M].Beijing:Commercial Press,2005 (in Chinese). [張斌.現代漢語虛詞詞典 [M].北京:商務印書館,2005.]
[8]HAN Yingjie,ZAN Hongying,ZHANG Kunli,et al.Auto-matic annotation of auxiliary words usage in rule-based Chinese language [J].Journal of Computer Applications,2011,31(12):3271-3274 (in Chinese).[韓英杰,昝紅英,張坤麗,等.基于規則的現代漢語常用助詞用法自動識別 [J].計算機應用,2011,31 (12):3271-3274.]
[9]YUAN Yingcheng,ZAN Hongying,ZHANG Kunli,et al.The automatic annotation algorithm design and system implementation rule-based function word usage [C]//Proceedings of the 11th CLSW,2010:163-169 (in Chinese).[袁應成,昝紅英,張坤麗,等.基于規則的虛詞用法自動標注算法設計與系統實現 [C]//第十一屆漢語詞匯語義學研討會論文集,2010:163-169.]
[10]LIU Li,HE Zhongshi,XING Xinlai,et al.Chinese time expression recognition based on semantic role [J].Application Research of Computers,2011,28 (7):2543-2545 (in Chinese).[劉莉,何中市,刑欣來,等.基于語義角色的中文時間表達式識別 [J].計算機應用研究,2011,28 (7):2543-2545.]
[11]ZHOU Yihui,ZAN Hongying,MU Lingling.Studies on usagesrecognition of Chinese modality based on CRFs [J].Computer Enfineering and Design,2011,32 (11):3929-3933(in Chinese).[周溢輝,昝紅英,穆玲玲.基于條件隨機場的語氣詞用法自動識別 [J].計算機工程與設計,2011,32(11):3929-3933.]