傅成宏
?
支配性VN1N2結(jié)構(gòu)中動(dòng)詞語義指向的機(jī)器定位研究
傅成宏1*
(阜陽師范學(xué)院 文學(xué)院,安徽 阜陽 236032)
對(duì)現(xiàn)代漢語VN1N2序列的結(jié)構(gòu)進(jìn)行了分類并統(tǒng)計(jì)出各小類在語料中所占的比例。使用規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,讓計(jì)算機(jī)自動(dòng)定位支配型VN1N2結(jié)構(gòu)中V的語義指向。具體方法是:先根據(jù)N1與N2的是否屬于相同語義類,把支配型VN1N2結(jié)構(gòu)分成兩類;再分別使用規(guī)則和統(tǒng)計(jì)模型對(duì)兩種類型的VN1N2結(jié)構(gòu)進(jìn)行不同的處理;最終設(shè)計(jì)出相應(yīng)的計(jì)算機(jī)軟件開發(fā)算法并畫出了程序設(shè)計(jì)的流程圖。
VN1N2結(jié)構(gòu),語義指向,機(jī)器定位
眾所周知,“語義指向”是漢語語法研究的一大特色,漢語語言學(xué)本體的研究在此方面已經(jīng)取得了豐碩的成果,這里不再贅述。中文信息處理領(lǐng)域?qū)Α罢Z義指向”的研究尚不多見,赫琳[1]對(duì)現(xiàn)代漢語副詞語義指向的計(jì)算機(jī)識(shí)別問題做出了深入的研究。陸儉明[2]認(rèn)為,從句法成分的性質(zhì)上說,語義指向有兩大類,其中一類為動(dòng)詞和名詞的語義指向關(guān)系。我們嘗試對(duì)現(xiàn)代漢語動(dòng)詞語義指向的自動(dòng)識(shí)別進(jìn)行探討,本文選擇動(dòng)詞結(jié)構(gòu)的一個(gè)小類“支配性VN1N2結(jié)構(gòu)”,對(duì)其中動(dòng)詞V語義指向的機(jī)器定位問題做出初步的分析。
我們對(duì)北京大學(xué)開發(fā)的1998年1月《人民日?qǐng)?bào)》(192萬字,50551句)帶標(biāo)語料庫[3]49-64進(jìn)行檢索,共得到VN1N2序列11529條。這11529條中,并不全是支配性VN1N2結(jié)構(gòu),具體分布情況如下圖1:

圖1 VN1N2詞性序列語法結(jié)構(gòu)分布圖
從上圖可見,我們所觀察到的VN1N2序列的語法結(jié)構(gòu)共有4大類:
A.動(dòng)賓結(jié)構(gòu),N1N2作V的賓語,其中有3種情況:
(1)N1與N2為定中關(guān)系,圖中標(biāo)示為(N1)N2;
(2)N1與N2為并列關(guān)系,圖中標(biāo)示為N1+N2;
(3)N1與N2為同位關(guān)系,圖中標(biāo)示為N1=N2;
B.中補(bǔ)結(jié)構(gòu),N2作動(dòng)詞短語VN1的補(bǔ)語,圖中標(biāo)示為(VN1)
C.定中結(jié)構(gòu),VN1作N2的定語,圖中標(biāo)示為(VN1)N2;
D.N1、N2與V無直接關(guān)系,其中有4種情況:
(1)N1、N2與后面的其他名詞性結(jié)構(gòu)構(gòu)成并列關(guān)系,圖中標(biāo)示為N1+N2+N;
(2)N1、N2與后面的其他名詞性結(jié)構(gòu)構(gòu)成定中關(guān)系,圖中標(biāo)示為(N1N2)N;
(3)N1、N2與后面的其他動(dòng)詞性結(jié)構(gòu)構(gòu)成主謂關(guān)系,圖中標(biāo)示為(N1N2)V;
(4)其它,較(1)(2)(3)更為復(fù)雜,關(guān)系多樣。
在B類和C類中,V的語義指向皆為N1,D類中N1、N2與V無直接關(guān)系,所以,我們更須要關(guān)注的是A類,即動(dòng)賓結(jié)構(gòu)中V的語義指向問題,這一類也是在整個(gè)VN1N2序列結(jié)構(gòu)中所占比例最大的。而當(dāng)N1與N2為并列關(guān)系時(shí),V同時(shí)指向N1與N2,當(dāng)N1與N2為同位關(guān)系時(shí),V同時(shí)指向N1和N2,不會(huì)造成歧義。當(dāng)N1與N2為定中關(guān)系時(shí),V可能指向N1,也可能指向N2,并有可能造成歧義。所以,本文的研究的“支配性VN1N2結(jié)構(gòu)”為上圖中的動(dòng)賓結(jié)構(gòu),并以“N1與N2為定中關(guān)系”為重點(diǎn)研究?jī)?nèi)容。
關(guān)于研究方法,我們采用規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。從語言學(xué)本體研究的成果語義類中提取相應(yīng)的定位規(guī)則,使用統(tǒng)計(jì)計(jì)算的兩個(gè)模型計(jì)算并比較動(dòng)詞V和名詞N1、N2在語義上結(jié)合的緊密程度,據(jù)此衡量語義指向可能性的大小。
2.1由語言知識(shí)構(gòu)建的定位規(guī)則
如前所述,當(dāng)N1與N2屬于相同語義類時(shí),我們須要使用一定的語言知識(shí)來構(gòu)建定位規(guī)則。本文須要用到的語言知識(shí)主要是語義學(xué)中的語義類知識(shí),語言學(xué)本體研究中的相關(guān)成果也比較多,我們選用比較新的《現(xiàn)代漢語分類詞典》[4]和董振東 “知網(wǎng)(How Net)”[5]中的語義分類方法。
我們的定位策略是比較語義范圍的大小,可以分為兩種情況分別處理:
第一種情況:VN1N2序列之前的分句中有與N1、N2相同語義類的名詞性結(jié)構(gòu)N,此時(shí)N1與N2中比N的語義范圍小的是V的語義指向所在。如:
例1 面包/n 吃/v 得/u 不/d 多/a ,/w 只/d 吃/v 了/u 一/m 塊/q 面包/n
例2 食物/n 沒/d 吃/v 什么/r ,/w 只/d 吃/v 了/u 一/m 塊/q 面包/w
這兩個(gè)例子中都出現(xiàn)了“只吃了一塊面包”,其中“一塊”和“面包”屬于相同語義類,但“吃”的語義指向不同。例1中,前文出現(xiàn)“面包”,與后面的“一塊”和“面包”屬于相同語義類,且語義范圍大于“一塊”,所以,“吃”的語義指向?yàn)椤耙粔K”,同樣分析可以得出例2中“吃”的語義指向?yàn)椤懊姘薄?/p>
第二種情況:VN1N2序列之前的分句中沒有與N1、N2相同語義類的名詞性結(jié)構(gòu)N,N1與N2中語義范圍小的是V的語義指向所在。如:
例3 攻讀/v 碩士/n 學(xué)位/n
例4 呼吁/v 全國/n 人民/n 團(tuán)結(jié)/v 起來/v
例3中,“碩士”和“學(xué)位”屬于相同語義類,前者的語義范圍小于后者,所以確定“攻讀”的語義指向?yàn)椤按T士”。例4中,“全國”和“人民”屬于相同語義類,前者語義范圍大于后者,所以確定“呼吁”的語義指向?yàn)椤叭嗣瘛薄?/p>
2.2 語義指向定位的統(tǒng)計(jì)學(xué)模型
支配性VN1N2結(jié)構(gòu)中N1和N2不屬于同一個(gè)語義類的情況在語料庫中出現(xiàn)得非常多,我們很難利用語言學(xué)知識(shí)制定規(guī)則來進(jìn)行V的語義指向的定位,只能采用統(tǒng)計(jì)的方法。如:
例5 建造/v 農(nóng)民/n 新村/n → *建造/v 農(nóng)民/n 建造/v 新村/n
例6 切/v 蘿卜/n 絲/n →切/v 蘿卜/n 切/v 絲/n
“建造”的語義指向?yàn)椤靶麓濉保扒小钡恼Z義指向可以為“蘿卜”和“絲”。對(duì)于這種N1與N2屬不同語義類的情況,我們的定位策略是:首先使用曲維光[6]提出的相對(duì)詞序比RRWR對(duì)V的兩個(gè)候選語義指向?qū)ο笞龀醪皆u(píng)估與篩選,再使用互信息模型做最終的確定。
(1)相對(duì)詞序比RRWR
首先建造全集詞匯表(WORDS)和子集詞匯表(words)。WORDS的建造方法為:在全部語料(下文簡(jiǎn)稱為E)中抽取所有的詞形,按其在E中出現(xiàn)的頻率降序排列,形成WORDS。words的建造方法為:從E中抽取所有VN1N2序列,構(gòu)成子集語料(下文簡(jiǎn)稱為e),從e中抽取所有的詞形,按其在e中出現(xiàn)頻率的降序排列,形成該動(dòng)詞的words。為右側(cè)出現(xiàn)N1N2的所有的動(dòng)詞建造不同的words。
其次是RRWR的計(jì)算。如某個(gè)名詞n,在WORDS中的序號(hào)為i,在某個(gè)動(dòng)詞v的words中的序號(hào)為j,則該n相對(duì)于動(dòng)詞v的相對(duì)詞序比為:

n1、n2在WORDS中的序號(hào)分別為i1、i2,在words中的序號(hào)分別為j1、j2。若i1≈i2,則反映出n1、n2在E中出現(xiàn)機(jī)率相近,這時(shí)須考慮它們?cè)趀中的出現(xiàn)情況,即j1、j2,若j1<j2,則反映出n1比n2更多出現(xiàn)在e中,根據(jù)公式①此時(shí)R(v,n1) >R(v,n2),因此可以判斷v指向 n1的可能性大于n2;相反,若j1≈j2,則反映出n1、n2在e中出現(xiàn)機(jī)率相近,這時(shí)須考慮它們?cè)贓中的出現(xiàn)情況,即i1、i2,若i1>i2,則反映出n1比n2更少出現(xiàn)在E中,根據(jù)公式①此時(shí)R(v,n1)>R(v,n2),因此可以判斷v指向 n1的可能性大于n2;如果R(v,n1)≈R(v,n2),則可以判斷v指向 n1、n2的可能性均等。則我們還須要設(shè)定一個(gè)閾值M1,只有當(dāng)R(v,n1)、R(v,n2)均大于該閾值M1時(shí),才考慮n1、n2是否被v指向并進(jìn)入下一步的計(jì)算。
(2)搭配互信息
Church[7]指出:可以用兩個(gè)詞的互信息值來度量它們之間關(guān)系緊密程度,即:

Smadja[8]、孫茂松等[9]、曲維光[6]等人將互信息用于衡量?jī)蓚€(gè)詞的搭配力度,并將搭配窗口設(shè)置為[-5,+5],因此,對(duì)公式②做出改進(jìn):
③
但實(shí)際上公式③對(duì)公式②的改進(jìn)僅僅在于設(shè)定了窗口寬度,二者的計(jì)算在本質(zhì)上是完全一樣的,沒有考慮到搭配詞的位置因素。我們須要考慮的是動(dòng)詞V在語義上是指向緊鄰其后(右側(cè))的第一個(gè)名詞n1還是第二個(gè)名詞n2,或是同時(shí)指向二者,即須要分別計(jì)算V和n1、n2的關(guān)系緊密程度。因此我們無須設(shè)置窗口寬度,但須設(shè)置搭配詞(被指向者)的位置,直接使用公式②即可,即:

設(shè)語料庫的規(guī)模為N詞次,則④式推導(dǎo)為:
⑤
其中,r(v)表示動(dòng)詞v在語料庫中出現(xiàn)的頻次;當(dāng)i=1時(shí),r(v, n1)表示語料庫中名詞n1在動(dòng)詞v右側(cè)第一個(gè)位置出現(xiàn)的頻次,當(dāng)i=2時(shí),r(v, n2)表示語料庫中名詞n2在動(dòng)詞v右側(cè)第二個(gè)位置出現(xiàn)的頻次。我們還須設(shè)定一個(gè)閾值M2,根據(jù)公式⑤的計(jì)算結(jié)果,I(v, ni)的兩個(gè)值均小于該閾值時(shí),計(jì)算機(jī)會(huì)認(rèn)為n1、n2均不被V指向;否則最終確定V的語義指向?yàn)镮(v, ni)中數(shù)值大者,但如果兩個(gè)數(shù)值非常接近,則認(rèn)為V同時(shí)指向n1、n2。
為降低計(jì)算的復(fù)雜程度,在得到R(v, n)和I(v, n)的計(jì)算結(jié)果之后,我們須要將二者結(jié)合起來形成一個(gè)調(diào)和結(jié)果Co,并設(shè)定一個(gè)調(diào)和閾值M,這樣,只要在Co1、Co2和M之間進(jìn)行比較就可以了。此外,在實(shí)驗(yàn)過程中,我們須要不斷調(diào)整M值和|Co1-Co2|值(即Co1與Co2的差值),以期得到較高的識(shí)別率與正確率。Co的計(jì)算方法為:
Co= R(v, n)*0.3+I(v, n)*0.7 ⑥
綜上,我們可以得到支配性VN1N2結(jié)構(gòu)中動(dòng)詞語義指向定位的主要流程,見圖2。

圖2 支配性VN1N2結(jié)構(gòu)中動(dòng)詞語義指向的機(jī)器定位主流程圖
本文嘗試從中文信息處理的角度對(duì)現(xiàn)代漢語動(dòng)詞語義指向的機(jī)器自動(dòng)定位問題進(jìn)行探討,并結(jié)合動(dòng)詞結(jié)構(gòu)的一個(gè)小類“支配性VN1N2結(jié)構(gòu)”做出了初步分析。對(duì)“支配性VN1N2結(jié)構(gòu)”做出簡(jiǎn)單地分類,針對(duì)不同類別提出了不同的語義指向定位策略。
下一步的研究工作:
(1)編譯出計(jì)算機(jī)程序,通過精確的數(shù)據(jù)來驗(yàn)證本方法的可行程度;
(2)在(1)的基礎(chǔ)上,不斷調(diào)整得到最佳|Co1-Co2|值及M值,得到最佳的Co計(jì)算方法,以便盡可能地提高識(shí)別率與正確率;
(3)本文所涉及到的N,在語料庫中實(shí)際上有多種表現(xiàn)形式,如名詞性數(shù)量短語、名詞性的代詞等,這些詞語如果連續(xù)出現(xiàn)在動(dòng)詞的后面,也應(yīng)該納入到VN1N2結(jié)構(gòu)中去;
(4)本文所用的語言學(xué)知識(shí),其提出的初衷并非直接為中文信息處理服務(wù)的,未必能很好地適用于本項(xiàng)研究任務(wù),因此我們須尋找甚至自己構(gòu)建更理想的能適應(yīng)本任務(wù)的語言學(xué)知識(shí)。
[1]赫琳.現(xiàn)代漢語副詞語義指向及其計(jì)算機(jī)識(shí)別研究[M].北京: 中國社會(huì)科學(xué)出版社,2009.
[2]陸儉明.漢語和漢語研究十五講[M].北京:北京大學(xué)出版社,2003:318.
[3]俞士汶,段慧明,等.北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范[J].中文信息學(xué)報(bào),2002,(5).
[4]蘇新春.現(xiàn)代漢語分類詞典[M].北京: 商務(wù)印書館,2013.
[5]董振東.知網(wǎng)[CP/OL].http://www.keenage.com.
[6]曲維光.基于框架的詞語搭配自動(dòng)抽取方法[J].計(jì)算機(jī)工程,2004,(12): 22-24, 195.
[7]Church K, Hanks P. Word Association Norms, Mutual Information, and Lexicography[c]. Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics, 1989:76-83.
[8]Smadja F. Retrieving Collocations from Text: Xtract [J]. Computational Linguistics, 1993, 19(1):143- 177.
[9]孫茂松, 黃昌寧, 方捷.漢語搭配定量分析初探[J].中國語文,1997, (1):29-38.
ComputerPositioningof Semantic Orientation of Verb in the Verb Dominating Structure of VN1N2
FU Cheng-hong
(School of Chinese Language and Literature, Fuyang Normal University, Fuyang 236032, Anhui)
We classified the structure of VN1N2 in the modern Chinese, and calculated the proportion of each small class in the corpus. Based on rules and statistics, the computer can find the location of V’s semantic orientation in the verb dominating structure of VN1N2 automatically. The specific method is: first, divide the verb dominating structure of VN1N2 into two categories according to whether the N1 and N2 belong to the same semantic category; and then analyze the two different categories by using the rules and statistical method; in the end, design corresponding algorithm of the computer software and draw its flow chart.
structure of VN1N2, semantic orientation, computer positioning
TP391
A
1004-4310(2015)04-0053-04
10.14096/j.cnki.cn34-1044/c.2015.04.013
2015-05-03
2011年度教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目“基于詞性標(biāo)注的現(xiàn)代漢語兼語式自動(dòng)識(shí)別研究”(11YJCZH035);阜陽師范學(xué)院人文社會(huì)科學(xué)研究重點(diǎn)項(xiàng)目“現(xiàn)代漢語兼語結(jié)構(gòu)的機(jī)器探測(cè)”(2010FSSK02ZD)。
傅成宏(1971-),男,安徽明光人,講師,研究方向: 計(jì)算語言學(xué)及現(xiàn)代漢語語法。