劉圓圓 王忠建
摘 要:通過對大量漢語句子進行考察和結構分析,抽出以關鍵詞為核心的改寫模板,對具有一定結構特點的語句進行改寫。通過相似度計算進行改寫模板與相應改寫句的匹配。通過合并修飾詞并用變量替換把體現句子結構的關鍵詞及結構輔助詞固化在模板中,既實現了句子級的結構精確匹配又提高了模板的覆蓋率。通過實驗對方法進行了考察,并給出了改寫的模板覆蓋率和改寫正確率,分別為66.34%和74.71%。
關鍵詞:語句改寫;改寫模板;模板匹配;漢語結構
中圖分類號:TP391文獻標識碼:B
文章編號:1004-373X(2009)03-157-03
Paraphrasing of Several Special Sentence Structure Based on Templates
LIU Yuanyuan,WANG Zhongjian
(School of Computer and Information Engineering,Harbin University of Commerce,Harbin,150028,China)
Abstract:By analyzing and studying the structure of large amount sentences in Chinese,extracting paraphrasing templates based on keywords,which can be used to paraphrase some sentences with special structure.Matching of paraphrasing template with sentences through calculating similarity of paraphrase sentence with paraphrasing template.With fixing keywords and structure auxiliary words which reflect the structure of sentences in the templates and combining the qualifier and replacing them using variable,it has achieved exactly structural matching in sentence level and has enhanced the coverage of the templates.To evaluate performance of the method,experiments have been done and the coverage rate of template and precision of paraphrasing are 66.34% and 74.71% respectively.
Keywords:paraphrasing;paraphrasing template;template matching;structure of Chinese
0 引 言
語句改寫是在不改變原語句表達意思的條件下的另一種表達方式,其技術可以應用到信息檢索、問答系統、自動文摘以及機器翻譯等系統中,并能夠有效地提高相應系統的性能。
有關句改寫方面的研究資料有很多,如漢語語句改寫[1],對語句改寫語料庫的構筑、改寫規則抽出及改寫句的生成等進行了綜述,并介紹了采用外國名著的多個中文譯本進行句子對齊,獲得句子的改寫實例從而構建改寫語料庫的研究。文獻[2]將語句改寫應用于漢語口語的機器翻譯中,采用基于句子分析和語言生成技術的方法對口語句子進行了改寫。關于英語和日語的語句改寫研究,如文獻[3]從語料庫中抽取用于改寫研究的改寫句子語料,注重于改寫語料庫資源的構筑研究,對改寫句的生成涉較少。文獻[4]則采用一種近似于無指導的學習方法將日語中的名詞短語改寫為動詞短語或是相關的從句,這種方法幾乎不需要手工干預,而且易于實現機器學習。文獻[5]實現了對英語的改寫,把被改寫句中一系列不間斷的單詞事先編碼后映射到模板中,將從模板語法中抽取出的改寫規則遞歸的運用到改寫句的生成中,這種方法要求改寫句子的長度一般在5~12個單詞內。
由于漢語缺乏嚴格的形態變化,既不像英語有詞序、時態、人稱、詞尾變化等可參考,又不像日語有格助詞和詞尾變化等幫助決定句子的語法結構和時態,語序和虛詞是漢語表達的重要手段。所以漢語語句改寫的研究要相對困難。本文在對語句的語法結構進行分析的基礎上使用基于模板的方法對幾種具有特殊結構的漢語語句的改寫進行了研究。通過模板的抽出,可以積累改寫語料為后續研究提供資源。
1 基于模板的語句改寫方法
該文采用基于模板的語句改寫方法,方法中的模板分為實例化模板和規則化模板。實例化模板是針對句子結構比較復雜的特殊句型設計的,鑒于這種特殊語句很難使用規則模板進行描述,而實例模板能夠更好地體現其句子特性,并使模板匹配更加準確;規則化模板是由標志句子結構的關鍵詞和其他的變項組成,語言知識的精細度高于規則并具有規則的抽象化特性。
這里涉及改寫內容主要是:句子結構的變換,利用單句的特殊句式改變句子的結構達到改寫的目的。
1.1 模板獲取分析
漢語語法結構的分析是模板建立的關鍵。漢語語言表達要求細致,語言中的同一個意義可以用不同的句法格式來表達,這就造成大量的同義句式存在[6]。在進行語句分析中對于不同的詞類區別對待,將動詞、助詞、介詞、和虛詞保留,通過用變量來替代其他的一些實詞構筑句子改寫模板。以例句1為例進行說明。
例句1:我丟了辦公室的兩把鑰匙。
在保持基本表達意思不變的情況下,在不同的場合根據不同的表達需要有不同的表達形式,即可用不同的句式來表示。表1中的四種句式可以用來表達例句1的意思。
表1中的四種句式互為改寫句式。除A句式外,其他三種句式還可以因表達的需要而在內部格式上有所變化,從而生成更多的改寫語句(見表2)。
可見例句1的改寫句達10余種,可對應抽出10種句式的改寫模板。
根據漢語句子的結構特點可以劃分出漢語句子的基本句型[7],通過對所有句型的分析歸納總結出能被改寫的幾類句型。對漢語中很難歸納到某種句型的特殊句式,通過分析最后歸納出存現句、倒裝句、名詞謂語句、雙重否定句、反問句、特指問句、選擇問句、“把”字句、“被”字句、“比”字句等在句子結構上可以變換的句式。這些句式的轉換主要是主題的轉移,非常規語序大都是修辭的需要引起的。這些變化都多少會影響句子的感情色彩,但句子所要傳遞的信息沒有改變。為了說明和處理方便,在此僅介紹存現句。
表1 例句1的不同表達方式
編號句子結構改寫結果
A名詞語[施事]+動詞+名詞語[受事];
“主—動—賓”句式,正常的表達方式我丟了兩把辦公室的鑰匙。
B名詞語[施事]+把+名詞語[受事]+動詞語;
一般的所說的“把”字句我把辦公室的兩把鑰匙丟了。
C名詞語[受事]+被+名詞語[施事]+動詞語;
一般所說的“被”字句辦公室的兩把鑰匙被我丟了。
D名詞語[受事]+名詞語[施事]+動詞語;
一般的所說的主謂謂語句辦公室的兩把鑰匙我丟了。
表2 內部格式變化的不同表達方式
編號句子結構改寫結果
B′名詞語[施事]+把+名詞語[受事]+給+動詞語我把辦公室的兩把鑰匙給丟了。
C′a.名詞語[受事]+被+名詞語[施事]+給+動詞語;
b.名詞語[受事]+被+名詞語[施事]+動詞語+數量詞a.辦公室的兩把鑰匙被我給丟了;
b.辦公室的鑰匙被我給丟了兩把。
D′a.名詞語[受事]+名詞語[施事]+給+動詞語;
b.名詞語[受事]+名詞語[施事]+給+動詞語+數量詞a.辦公室的兩把鑰匙我給丟了;
b.辦公室的鑰匙我給丟了兩把。
注:B′,C′,D′是由表1中B,C,D進一步變化后得到的句子。
1.2 存現句的模板獲取過程
存現句是表示什么地方存在、出現或消失什么人或事物的句子式。從結構上來說存現句由三部分組成:句首是表示處所或時間的詞或短語,中間是動詞或動詞短語,句末是名詞或名詞短語。存現句是一個歧義句式,既可以表示存在、表示靜態,又可以表示活動、表示動態。因此同一個意思可以用不同的句式表達。 下面通過例子給出了存現句的語句改寫模板的抽出過程。
例:墻上掛著一幅畫。
→(有)一幅畫在墻上掛著。
→(有)一幅畫掛在墻上。
對應如下變換關系的句法結構框架:
Np+V+著+N
→ (有)+N+在+Np+V+著
→ (有)+N+V+在+Np
在此,Np表示句首方處所結構;V表示動詞或動詞短語;N表示句末名詞性結構。
在原句式中,“掛”和“畫”是動作和受事關系,“墻上”表示存在的處所;在變換式中,“掛”和“畫”仍是動作和受事的關系,“墻上”仍表示“畫”的存在的處所。三者在共現詞之間的語義關系上保持不變。
通過對存現句的句子結構分析得出各種句法結構框架,進一步進行抽象化,就得到了改寫模板。分別以s,f,t表示處所、方位和時間的品詞標記,則每種結構都會有(s)處所詞,(f)方位詞,(t)時間詞。將其分離出來,作為該類模板的關鍵詞結構。對于有介詞的句式,將介詞保留或是變換成另一種形式。合并名詞短語,形容詞短語等非關鍵成分,就得到了如下的改寫模板:
(1) {*}+[s/f/t]+[v]+(著)+{*}+[n]
(2) {*}+[n]+[v]+(在)+{*}+[s/f/t]
(3) {*}+[n]+(在)+{*}+[s/f/t]+[v]+(著)
其他幾種句式比如倒裝句、名詞謂語句、雙重否定句、反問句、特指問句、選擇問句、“把”字句、“被”字句、“比”字句等的改寫模板的抽取過程與上述存現句的類似。
2 改寫的處理過程
模板匹配是基于模板方法的改寫系統的關鍵,基本思想是實現一個具有少數關鍵詞常項、任意多個變項的模板匹配算法,把原語句中的任意符號串結構自動替換成目標語句中的符號串結構。在具有關鍵項、約束項、任意變項的模板匹配算法的基礎上,可以利用按照一定的層次結構組織存貯的模板,實現從原語句到目標語句的自動改寫。在此關鍵項是指抽出的所有模板共通的關鍵詞,而約束項是指所有抽出模板中除關鍵項之外的關鍵詞。在進行語句改寫時對將要進行改寫的語句抽出其結構框架,計算它與改寫模板的相似度以決定與之相匹配的改寫模板,計算式如式(1),式(2)所示。
關鍵項相似度和約束項相似度計算:
KWS[%]=SKW(T,S)TKW(T)×100
RWS[%]=RW(T,S)TRW(T)×100
(1)
則待改寫句與模板的相似度計算:
TemSim[%]=0, KWS=RWS=0
α?KWS(T,S)+β?RWS(T,S)KWS(T,S)+RWS(T,S)×100,
KWS or RWS≠0
(2)
式中:SKW為待改寫句與模板對應的關鍵項個數;RW為待改寫句與模板對應的約束項個數;TKW為模板中所含關鍵項個數;TRW為模板中所含約束項個數;KWS為待改寫句與模板的關鍵項相似度;RWS為待改寫句與模板的約束項相似度;TemSim為待改寫句與模板的相似度;α,β是加權參數由預備試驗獲得。
通過式(1),式(2)的計算獲得待改寫句與模板的相似度值,滿足設定的相似度閾值的模板用于改寫。
3 語句改寫實驗及考察
3.1 實驗數據及結果
實驗使用了從中學課文中收集的約300個句子,模板庫中模板總數為196個。語句改寫的輸入內容是使用分詞系統得到的分詞和詞性標注過的句子。改寫結果的正誤判斷通過手工進行。判斷的基準分為改寫正確和改寫錯誤。改寫正確:改寫句沒有錯誤、表達意思不變或錯誤較少及表達意思基本不變;改寫錯誤:信息缺失、語序混亂及表達意思改變。
采用評價函數對抽出模板及其語句改寫的效果進行評價,公式如下:
CPR[%]=CPNPST×100
TCR[%]=PSTIST×100
(3)
式中:CPR為正確改寫率;TCR為模板覆蓋率;CPN為正確改寫數目;PST為改寫句子總數;IST為輸入句子總數。由式(3)對實驗結果評價得到在被改寫句中改寫正確率為74.71%,模板覆蓋率為66.34%。
3.2 實驗結果的考察
在被改寫的語句中隨機抽取200句,其中錯誤改寫句為49句。通過對改寫錯誤句子進行考察,獲得造成改寫誤差的不同原因。在改寫錯誤中由于分詞和詞性標注錯誤而導致改寫的錯誤約占19.23%,而由于待改寫句修飾成分過和多句子過長,則分詞后的詞匯信息單元過多,超出了模板所能描述的程度,出現的錯誤改寫率占38.46%。模板匹配錯誤而導致的改寫錯誤有:模板抽出的錯誤和相似度計算不夠精確而導致的錯誤的匹配分別占15.38%和26.93%。由此可見對于較長的句子需要對抽出模板的方法進一步探討,此外相似度計算也有進一步改進的必要。
4 結 語
通過考察句子的語法結構,抽出句子的結構框架從而進行了語句改寫模板的構造。對待改寫句則通過計算改寫句與相應模板的框架中包含的關鍵項和約束項的相似度進行模板的匹配。通過對小規模數據進行的實驗及考察給出了針對幾種特殊結構的句子的改寫效果。錯誤分析指出了改寫方法及處理細節上存在的問題,在今后的研究中計劃針對抽取模板的細化、相似度計算方法的改進、擴大對不同結構語句的模板的抽取范圍和進行較大規模數據的實驗考察等方面進行探討。
參考文獻
[1]李維剛,張宇,劉廷.復述技術研究綜述[J].中文信息學報,2006,20(4):25-32.
[2]宗成慶,張玉潔,山本和英.面向口語翻譯的漢語語句改寫方法[J].Journal of Chinese Language and Computing,2006,12(1):63-77.
[3]Li W,Liu T.Combining Sentence Length with Location to Align Monolingual Parallel Texts [A].In:AIRS.2004.
[4]Kentaro Torisawa.A Nearly Unsupervised Learning Method for Automatic Paraphrasing of Japanese Noun Phrases.Workshop on Automatic Paraphrasing,2001:63-72.
[5]Carl Michael,Ecaterina Rascu,Paul Schmidt.Using Template Grammars for Shake & Bake Baraphrasing.Proceedings of EAMT,Budapest,2005:66-73.
[6]陸儉明.現代漢語語法研究教程[M].北京:北京大學出版社,2005.
[7]賈嬌燕.實用漢語語法[M].合肥:安徽教育出版社,2003.
作者簡介 劉圓圓 女,1981年出生,山東濰坊人,碩士研究生。研究方向為自然語言處理。
王忠建 男,1960年出生,河南濮陽人,教授,博士。研究方向為自然語言處理。
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。