摘 要:針對(duì)利用自然語(yǔ)言理解技術(shù)進(jìn)行古漢語(yǔ)斷句及句讀標(biāo)注的主要挑戰(zhàn)是數(shù)據(jù)稀疏問題,設(shè)計(jì)了一種六字位標(biāo)記集,提出了一種基于層疊式CRF模型的古文斷句與句讀標(biāo)記方法。基于六字位標(biāo)集,低層模型用觀察序列確定句子邊界,高層模型同時(shí)使用觀察序列和低層的句子邊界信息進(jìn)行句讀標(biāo)記。實(shí)驗(yàn)在5M混合古文語(yǔ)料上分別進(jìn)行了封閉測(cè)試和開放測(cè)試,封閉測(cè)試斷句與句讀標(biāo)注的F值分別達(dá)到96.48%和91.35%,開放測(cè)試斷句與句讀標(biāo)注的F值分別達(dá)到71.42%和67.67%。
關(guān)鍵詞:古漢語(yǔ); 層疊條件隨機(jī)場(chǎng); 數(shù)據(jù)稀疏; 斷句; 句讀標(biāo)注
中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2009)09-3326-04
doi:10.3969/j.issn.1001-3695.2009.09.036
Method of sentence segmentation and punctuating for ancient Chineseliteratures based on cascaded CRF
ZHANG He WANG Xiao-dong YANG Jian-yu ZHOU Wei-dong3
(1. College of Computer Information Technology, Henan Normal University, Xinxiang Henan 453007, China; 2. Beijing d-Ear Technologies Co., Ltd., Beijing 100085, China; 3. Institute of Information Science, Beijing Jiaotong University, Beijing 100044, China)
Abstract:Data sparseness is a primary challenge in sentence segmentation and punctuating for ancient Chinese literatures using natural language processing technology. In order to overcome this difficulty, designed a 6-tag set and proposed a method based on cascaded conditional random fields. The main idea was as follows: basing on the 6-tag set, a low level model determined the boundaries of sentences according to observation sequence and a high level model punctuated sentences taking consideration of both observation sequence and low level’s results. Done close test and open test based on approximate 5M mixed corpus respectively. The F measure of sentence segmentation and punctuation were 96.48% and 91.35% respectively in close test, and those were 71.42% and 67.67% respectively in open test.
Key words:ancient Chinese literatures; cascaded CRF; data sparseness; sentence segmentation; punctuating
0 引言
古漢語(yǔ)是中華民族悠久歷史文化的積淀,利用自然語(yǔ)言理解技術(shù)對(duì)古文進(jìn)行挖掘?qū)Πl(fā)揚(yáng)我國(guó)古代燦爛的歷史文化具有重要意義。無(wú)標(biāo)點(diǎn)符號(hào)是古代漢語(yǔ)的重要特點(diǎn)之一,大量未修訂的古籍均是無(wú)標(biāo)點(diǎn)符號(hào)的文本。本文針對(duì)古文句子缺少標(biāo)點(diǎn)符號(hào)的問題,研究了條件隨機(jī)場(chǎng)(conditional random fields, CRF)模型在古文句子切分與標(biāo)點(diǎn)符號(hào)自動(dòng)標(biāo)注的應(yīng)用,設(shè)計(jì)了在一個(gè)六字位標(biāo)記集的基礎(chǔ)上,提出基于層疊式條件隨機(jī)場(chǎng)模型的古文斷句與句讀標(biāo)記算法,開發(fā)出了集訓(xùn)練、解碼、評(píng)測(cè)為一體的古文句子切分與標(biāo)點(diǎn)符號(hào)標(biāo)注工具包。實(shí)驗(yàn)顯示,本文提出的方法在封閉測(cè)試中斷句與句讀標(biāo)注的F值分別達(dá)到96.48%和91.35%,開放測(cè)試中斷句與句讀標(biāo)注的F值分別達(dá)到71.42%和67.67%,具有較好的效果。
1 問題的難點(diǎn)與相關(guān)研究
本文要解決的問題是設(shè)計(jì)算法對(duì)無(wú)標(biāo)點(diǎn)的古文文本進(jìn)行句子切分,確定句讀后進(jìn)行標(biāo)點(diǎn)符號(hào)的自動(dòng)標(biāo)注,包括逗號(hào)、句號(hào)、問號(hào)、分號(hào)、感嘆號(hào)、冒號(hào)、引號(hào)等。不等同于句子邊界的識(shí)別問題,句子邊界識(shí)別是識(shí)別作為句子邊界的句號(hào),其實(shí)質(zhì)是對(duì)自然語(yǔ)言文本中出現(xiàn)的句號(hào)根據(jù)前后文進(jìn)行消歧[1]。對(duì)于無(wú)標(biāo)點(diǎn)的古文,句子切分與標(biāo)點(diǎn)符號(hào)自動(dòng)標(biāo)注是一個(gè)新穎而困難的問題,其難點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:
a)古文具有嚴(yán)重的數(shù)據(jù)稀疏現(xiàn)象。相對(duì)于現(xiàn)代漢語(yǔ)的海量數(shù)據(jù),古文數(shù)據(jù)的來(lái)源主要依靠于典藏和考古發(fā)掘,這使得可獲取的古文總量較少。
b)古文具有詞、句簡(jiǎn)練,單字成詞甚至成句現(xiàn)象普遍的特點(diǎn),如“善曰:囅,敕忍切。,呼來(lái)切。”“子以四教:文、行、忠、信。”等。這也使得古文的語(yǔ)言數(shù)據(jù)量減少,同時(shí)預(yù)測(cè)古文句子切分位置及標(biāo)點(diǎn)符號(hào)所依賴的局部前后文信息變少,增加了句子切分和標(biāo)點(diǎn)符號(hào)標(biāo)注的難度。
c)古文分詞界限模糊,詞性標(biāo)注歧義較多,很難進(jìn)行詞的切分,無(wú)法利用詞一級(jí)的特征以及詞性特征進(jìn)行切分與標(biāo)點(diǎn)符號(hào)位置的預(yù)測(cè),只能利用有關(guān)單字或字串方面的信息來(lái)進(jìn)行決策。
d)古文文體迥異,年代跨度大。例如《老子》《水經(jīng)注》《左傳》《詩(shī)經(jīng)》等,每一種文體都有自己獨(dú)特的風(fēng)格,且具有的文本數(shù)量少,很難獲取訓(xùn)練語(yǔ)言模型所需要的足夠樣本,因此加劇了數(shù)據(jù)稀疏問題以及語(yǔ)言模型的復(fù)雜程度。
目前,人們?cè)谟⒄Z(yǔ)和現(xiàn)代漢語(yǔ)句子邊界識(shí)別方面進(jìn)行了大量的研究工作,提出了一系列基于規(guī)則和基于統(tǒng)計(jì)的識(shí)別算法,達(dá)到了99%左右的準(zhǔn)確率,但是針對(duì)古文的句子切分和標(biāo)點(diǎn)符號(hào)標(biāo)注的相關(guān)研究還不是太多。北京大學(xué)計(jì)算機(jī)語(yǔ)言學(xué)研究所的胡俊峰等人[12]針對(duì)古文詩(shī)詞開展研究,開發(fā)了唐宋詩(shī)計(jì)算機(jī)輔助研究系統(tǒng)。該系統(tǒng)以全唐詩(shī)(481萬(wàn)字)和宋代部分名家詩(shī)(160萬(wàn)字)組成的語(yǔ)料庫(kù)為基礎(chǔ),運(yùn)用計(jì)算語(yǔ)言學(xué)方法對(duì)唐宋詩(shī)進(jìn)行分析研究,提取了唐宋詩(shī)中的詞匯,計(jì)5萬(wàn)余條目。在對(duì)詩(shī)文進(jìn)行詞語(yǔ)切分的基礎(chǔ)上,建立了詞匯的共現(xiàn)關(guān)系、對(duì)仗關(guān)系以及詞匯的作者分布特征信息。系統(tǒng)除了提供面向詩(shī)文內(nèi)容的全文檢索功能外,還進(jìn)一步開發(fā)了基于詞匯的統(tǒng)計(jì)分析和詩(shī)句相似性檢索等功能,實(shí)現(xiàn)了對(duì)全唐詩(shī)的自動(dòng)注音。四川大學(xué)計(jì)算機(jī)學(xué)院的陳天瑩等人[3]提出了一種基于前后文n-gram模型的古文句子切分方法,通過收集上下文信息,對(duì)切分位置進(jìn)行比較準(zhǔn)確的預(yù)測(cè)。該方法能夠較好地處理小規(guī)模訓(xùn)練語(yǔ)料的情況,降低數(shù)據(jù)稀疏對(duì)切分準(zhǔn)確率的影響。采用《論語(yǔ)》對(duì)提出的算法進(jìn)行句子切分實(shí)驗(yàn),達(dá)到了81%的召回率和52%的準(zhǔn)確率。兩者運(yùn)用自然語(yǔ)言理解技術(shù)針對(duì)不同的目標(biāo),從不同的角度分別對(duì)古文進(jìn)行研究。雖然研究中都涉及到古文的句子切分,但是并沒有涉及句讀標(biāo)記的研究,而且還沒有開發(fā)出功能全面的古文斷句與句讀自動(dòng)標(biāo)注的工具包。本研究的目的是研究新的古漢語(yǔ)斷句與句讀標(biāo)記的算法,最終設(shè)計(jì)、開發(fā)一套功能全面的古文斷句與句讀標(biāo)記工具集。
2 CRF模型研究
2.1 CRF的圖結(jié)構(gòu)
CRF是無(wú)向圖模型的一種形式。定義G=(V,E)是一個(gè)無(wú)向圖,Y={Yv|v∈V},即V中的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)著一個(gè)隨機(jī)變量所表示的標(biāo)記序列的成分Yv。因而,整個(gè)圖和與圖相關(guān)的分布類別以X為條件,與G相關(guān)的聯(lián)合分布的類別的形式是P(y1,…,yn|X)。這里y和X分別是類別序列和觀測(cè)序列。如果每個(gè)隨機(jī)變量Yv滿足關(guān)于G的馬爾可夫?qū)傩裕o定X和Yv以外的所有隨機(jī)變量Y(u|u≠v,{u,v}∈V),則隨機(jī)變量Yv的概率式為:P(Yv|X,Yu,u≠v)=P(Yv|X,Yu,u~v)。其中:u~v表示u與 v在圖G中相鄰,那么(X,Y)就是一個(gè)條件隨機(jī)場(chǎng)[4]。最簡(jiǎn)單的CRF圖模型是線性鏈條件隨機(jī)場(chǎng)(Linear-chain CRF),本文采取的就是這種模型結(jié)構(gòu),如圖1所示。
2.2 CRF的勢(shì)函數(shù)表示
在給定觀測(cè)序列X的情況下,Lafferty等定義了標(biāo)記序列Y的概率是勢(shì)函數(shù)(potential function)乘積的一個(gè)歸一化形式,其中每個(gè)因子形式如下:
exp(∑jλjtj(Yi-1,Yi,X,i)+∑kμksk(Yi,X,i))
其中:tj(Yi-1,Yi,X,i)是關(guān)于整個(gè)觀測(cè)序列和位置i以及i-1標(biāo)記的特征函數(shù);sk(Yi,X,i)是關(guān)于位置i的標(biāo)記和觀測(cè)序列的狀態(tài)特征函數(shù);λj和μk是特征權(quán)重,可從訓(xùn)練語(yǔ)料中估計(jì)得到。
對(duì)于一個(gè)給定觀測(cè)序列X=X1,X2,…,Xi,…,Xn,其對(duì)應(yīng)的標(biāo)記序列Y=Y1,Y2,…,Yi,…,Yn的概率公式為[4]P(Y|X,λ)=(1/Z(X))exp(∑jλjFj(Y,X))。其中Z(X)是歸一化因子(normalization factor),Z(X)=∑Yexp(∑jλjFj(Y,X))。這樣就可以表示出P(Y|X)了。
2.3 CRF的參數(shù)估計(jì)
建立CRF模型的主要任務(wù)就是從樣本數(shù)據(jù)中估計(jì)得到特征權(quán)重λ。CRF參數(shù)估計(jì)可以使用最大似然估計(jì)(maximum likelihood estimation,MLE)和貝葉斯估計(jì)(Bayes Estimation)。本文主要介紹用MLE估計(jì)CRF的模型參數(shù)。
在訓(xùn)練集T={〈Xk,Yk〉}中,最大似然參數(shù)估計(jì)就是假設(shè)P(Y|X,λ)為λ的函數(shù),使P(Y|X,λ)的對(duì)數(shù)值最大的λ為估計(jì)值。其似然值和最大值分別如下:
LΛ=∑TlogP(Yk|Xk,λ)=
∑Tlog(1/Z(Xk))exp(∑jλjFj(Yk,Xk))=
∑T(∑jλjFj(Yk,Xk)-log(Z(Xk)))
Λ=argmaxλ∑TlogP(Yk|Xk,λ)
由于LΛ為凸函數(shù),導(dǎo)數(shù)為零點(diǎn)為最值點(diǎn),故對(duì)λ求導(dǎo):LΛ/λj=∑T(∑jFj(Yk,Xk)-EP(Y|Xk)[Fk(Y,Xk)]),簡(jiǎn)寫為LΛ/λj=Oj-Ej=0。其中:Oj為λj在訓(xùn)練集T中出現(xiàn)的頻率;Ej=∑TEP(Y|Xk)[Fk(Y,Xk)]是λj在模型分布中的特征期望。直接計(jì)算Ej需要很大的計(jì)算量,通常使用動(dòng)態(tài)規(guī)劃的方法求解。
3 基于層疊CRF的古文斷句與句讀標(biāo)記的原理
本文的目的是對(duì)無(wú)標(biāo)點(diǎn)的古文文本進(jìn)行句子切分,確定標(biāo)點(diǎn)符號(hào)的位置并進(jìn)行自動(dòng)標(biāo)注。該目標(biāo)主要包括兩個(gè)任務(wù):句子邊界確定和句讀標(biāo)記。古漢語(yǔ)可用的知識(shí)相對(duì)貧乏,盡可能地探尋新的特征參數(shù)用于模型訓(xùn)練是一種比較可行的提高最終效果的思路,由此需要引入多層次的條件隨機(jī)場(chǎng)模型。目前主要有層疊式模型和層次式模型兩種多層次條件隨機(jī)場(chǎng)模型。相比層次式模型,層疊式模型多個(gè)模型之間呈線性組合,不同層次模型間是一種松耦合的關(guān)系,各層模型可以獨(dú)立地建立,整個(gè)模型的復(fù)雜度與句子的長(zhǎng)度呈線性關(guān)系[5]。因此,本文引入層疊式的條件隨機(jī)場(chǎng)模型用于古漢語(yǔ)的斷句與句讀標(biāo)記,提出了基于層疊式條件隨機(jī)場(chǎng)模型的古漢語(yǔ)斷句與句讀標(biāo)記算法,如圖2所示。圖2中空心圈表示觀察序列,實(shí)心圈表示狀態(tài)。低層的條件隨機(jī)場(chǎng)模型僅以觀察序列為條件,用于句子邊界的確定,低層結(jié)果再傳遞到高層模型,這樣高層模型的輸入?yún)?shù)不僅包含觀察序列,而且包含了來(lái)自低層模型的結(jié)果信息,從而為高層條件隨機(jī)場(chǎng)模型對(duì)句讀的標(biāo)記提供了更多可用的知識(shí)。
按照這種思路,本文分別定義句子邊界確定和標(biāo)點(diǎn)符號(hào)標(biāo)注的標(biāo)記集,句子切分與標(biāo)點(diǎn)符號(hào)標(biāo)注分為兩個(gè)階段分別進(jìn)行。句子邊界確定階段使用觀察值作為特征參數(shù)訓(xùn)練CRF模型,句讀標(biāo)注階段把觀察值和句子邊界確定的結(jié)果共同作為特征參數(shù)訓(xùn)練模型。可以看出,基于層疊式條件隨機(jī)場(chǎng)模型方法的主要特點(diǎn)包括:a)用于句讀標(biāo)記的高層條件隨機(jī)場(chǎng)模型同時(shí)以觀察值和低層句子邊界信息作為輸入特征參數(shù),具有更多的決策知識(shí);b)兩個(gè)階段標(biāo)記集分別單獨(dú)定義能夠充分考慮不同任務(wù)的具體特點(diǎn)。
4 特征的選擇與特征參數(shù)構(gòu)造
4.1 六字位標(biāo)記集的設(shè)計(jì)
句子邊界確定本質(zhì)上是對(duì)字串中的每一個(gè)字做出一個(gè)在該處切分與否的二值決策過程。標(biāo)點(diǎn)符號(hào)自動(dòng)標(biāo)注實(shí)際上是為每一個(gè)切分位置確定一個(gè)標(biāo)點(diǎn)符號(hào)并標(biāo)注的過程。可以根據(jù)漢字在句子中出現(xiàn)的不同位置標(biāo)注不同的標(biāo)簽,如用B標(biāo)示句子的開始,I標(biāo)示非句子的開始。同樣可以根據(jù)漢字后面的標(biāo)點(diǎn)符號(hào)不同,標(biāo)注不同的標(biāo)簽,如J標(biāo)示該漢字后面是一個(gè)句號(hào),D標(biāo)示后面是一個(gè)逗號(hào)。這樣,句子的切分和標(biāo)點(diǎn)符號(hào)標(biāo)注的問題就被轉(zhuǎn)換成了一個(gè)純粹的序列數(shù)據(jù)標(biāo)記問題[6]。標(biāo)記集設(shè)計(jì)的合理與否對(duì)最終效果有比較大的影響,所以標(biāo)記集的設(shè)計(jì)應(yīng)盡可能地與語(yǔ)言特點(diǎn)相吻合。
在定義標(biāo)記集時(shí)充分考慮了古漢語(yǔ)的特點(diǎn):a)古漢語(yǔ)句子具有明顯的邊界特征,句子結(jié)束位置經(jīng)常會(huì)出現(xiàn)“者”、“也”等,因此標(biāo)記集要能夠描述句子末尾幾個(gè)字;b)古漢語(yǔ)單字成句的現(xiàn)象比較普遍,因此可以考慮用一個(gè)標(biāo)記表示單字句。最終本文設(shè)計(jì)了一種六字位的標(biāo)記集T1={B,M,E3,E2,E,S}用于古漢語(yǔ)句子邊界的描述。其中:B表示句子開始位置;M表示非句尾;E3, E2, E分別表示句子的末尾三個(gè)漢字;S表示單字句。表1給出了使用該標(biāo)記集標(biāo)注句子的示例。用于標(biāo)點(diǎn)符號(hào)的標(biāo)記集只需描述句子邊界后面緊臨的字即可,定義為T2={J,D,W,F(xiàn),G,M,Y}。其中:J表示該字后面是句號(hào);D表示后面是逗號(hào);W表示后面是問號(hào);F表示后面是分號(hào);G表示后面是感嘆號(hào);M表示后面是冒號(hào);Y表示后面是引號(hào)。
……
4.2 特征模板的構(gòu)造
條件隨機(jī)場(chǎng)或最大熵學(xué)習(xí)中,用于表達(dá)語(yǔ)言特性的特征函數(shù)起核心作用。如何針對(duì)特定的任務(wù)為模型選擇合適的特征集合,用簡(jiǎn)單的特征表示復(fù)雜的語(yǔ)言現(xiàn)象是條件隨機(jī)場(chǎng)模型中一個(gè)非常重要的因素。通常,特征會(huì)按照某種定義被適當(dāng)分組,稱之為特征模板[7]。古文句子切分和標(biāo)點(diǎn)符號(hào)標(biāo)注時(shí),特征模板的選擇與構(gòu)造是最基本且重要的問題,直接影響模型訓(xùn)練的準(zhǔn)確性。根據(jù)分析可知,古文單字成詞的情況比較普遍,上下文中沒有太多可用的信息。大量實(shí)驗(yàn)表明,古文句子切分及標(biāo)點(diǎn)符號(hào)標(biāo)注時(shí)考慮當(dāng)前特征、前一個(gè)特征及后一個(gè)特征的效果是最好的。表2給出了句子切分的特征模板。由于標(biāo)點(diǎn)符號(hào)標(biāo)注以句子切分結(jié)果作為特征參數(shù),除了表2中所示的特征模板外還使用了新的特征模板,如表3所示。
條件隨機(jī)場(chǎng)的訓(xùn)練目標(biāo)是在給定一個(gè)訓(xùn)練數(shù)據(jù)集D={〈0,1〉(1),…,〈0,1〉(i),…,〈0,1〉(n)}的條件下,最大化訓(xùn)練集的對(duì)數(shù)似然(log-likelihood):
LΛ=∑Nj=1log(PΛ(l(j)|O(j))-∑Kk=1(λ2k/(2σ2))
其中:式中的第二項(xiàng)是用于提供平滑處理的特征參數(shù)的高斯先驗(yàn)值,σ2表示先驗(yàn)方差。本文使用L-BFGS算法實(shí)現(xiàn)對(duì)目標(biāo)函數(shù)的優(yōu)化求解。L-BFGS[8]是一種充分利用以前梯度和修改值來(lái)近似曲率值的二階方法,可以避免準(zhǔn)確的Hessian矩陣的逆矩陣計(jì)算,因而使用L-BFGS算法進(jìn)行CRF訓(xùn)練只要求提供似然函數(shù)的一階層數(shù),假定第j個(gè)訓(xùn)練實(shí)例的標(biāo)注使其狀態(tài)序列不產(chǎn)生二義性,且S(j)表示那條路徑,則訓(xùn)練數(shù)據(jù)集的對(duì)數(shù)似然的一階層數(shù)為L/λk=[∑Nj=1Ck(s(j),σ(j))]-[∑Nj=1∑PΛ(s|s(j))Ck(s,o(j))]λk/σ2。其中:Ck(s,o)表示fk在串s中各個(gè)位置t的和,則式中前兩項(xiàng)相應(yīng)于特征fk的經(jīng)驗(yàn)期望值E~[fk]與關(guān)于模型的期望值EΛ[fk]的差,對(duì)它們的計(jì)算,可采用動(dòng)態(tài)規(guī)劃算法高效地實(shí)現(xiàn)。
5 實(shí)驗(yàn)結(jié)果與分析
雖然北大計(jì)算語(yǔ)言所開發(fā)出了古代詩(shī)詞語(yǔ)料庫(kù),但是,對(duì)于大量文體迥異的古代漢語(yǔ),目前還沒有比較權(quán)威的語(yǔ)料庫(kù)可用。因此,實(shí)驗(yàn)所用的數(shù)據(jù)是用網(wǎng)絡(luò)上隨機(jī)抓取的包括《老子》《水經(jīng)注》《戰(zhàn)國(guó)策》《左傳》《赤壁賦》《出師表》等多種文體大約5 M的古文語(yǔ)料,包括257 325個(gè)句子。
數(shù)據(jù)序列標(biāo)注任務(wù)可以看做是從所有測(cè)試數(shù)據(jù)中找出滿足某種要求的數(shù)據(jù)進(jìn)行標(biāo)注的過程。假設(shè)用全集U表示所有的測(cè)試數(shù)據(jù),集合A表示滿足要求卻沒有被系統(tǒng)標(biāo)出的數(shù)據(jù),集合B表示不滿足要求卻被系統(tǒng)標(biāo)出的數(shù)據(jù),集合C表示系統(tǒng)標(biāo)出的滿足要求的數(shù)據(jù),集合D表示不滿足要求且系統(tǒng)也沒有標(biāo)出的數(shù)據(jù),則A與C的并集A+C表示滿足要求的數(shù)據(jù),B與C的并集B+C表示系統(tǒng)標(biāo)出的數(shù)據(jù)。那么系統(tǒng)標(biāo)注的準(zhǔn)確率(P)、召回率(R)、F值可定義如下:
P=C/(B+C)
R=C/(A+C)
Fβ=(β2+1)×P×R/(β2×P+R)
上述三個(gè)指標(biāo)是通常使用的評(píng)測(cè)指標(biāo),F(xiàn)β表示準(zhǔn)確率和召回率的平衡,β通常取1,即F1值。本文后面實(shí)驗(yàn)將采用這三個(gè)指標(biāo)進(jìn)行結(jié)果的評(píng)測(cè)。
根據(jù)測(cè)試集和訓(xùn)練集的不同關(guān)系,可以將評(píng)測(cè)分為封閉測(cè)試和開放測(cè)試。為了能夠充分評(píng)價(jià)基于層疊條件隨機(jī)場(chǎng)的古文斷句與句讀標(biāo)記算法的效果,本文做了四組實(shí)驗(yàn)。其中前兩組實(shí)驗(yàn)是本文算法的封閉測(cè)試與開放測(cè)試,如表4所示;后兩組是傳統(tǒng)條件隨機(jī)場(chǎng)模型的封閉測(cè)試與開放測(cè)試,如表5所示。封閉測(cè)試時(shí),訓(xùn)練數(shù)據(jù)為全部古文語(yǔ)料,測(cè)試數(shù)據(jù)是其中隨機(jī)抽取20%組成的子集。開放測(cè)試時(shí),訓(xùn)練數(shù)據(jù)為隨機(jī)抽取80%組成的集合,剩下的20%作為測(cè)試數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,基于層疊條件隨機(jī)場(chǎng)模型的方法將低層模型的斷句信息作為特征引入句讀標(biāo)記過程,增加了句讀標(biāo)記階段可用的特征參數(shù);另一方面,基于層疊模型的方法針對(duì)不同階段的任務(wù)設(shè)計(jì)不同的標(biāo)記集,便于更好地描述語(yǔ)言特點(diǎn)。因此句子切分和標(biāo)點(diǎn)標(biāo)注的性能均有明顯提升,尤其是標(biāo)點(diǎn)符號(hào)標(biāo)注的召回率得到了較大的提高。
6 結(jié)束語(yǔ)
本文研究了CRF模型在古文句子切分與標(biāo)點(diǎn)符號(hào)自動(dòng)標(biāo)注的應(yīng)用,設(shè)計(jì)了能夠更好描述古文語(yǔ)言特點(diǎn)的六字位標(biāo)記集,提出了基于層疊條件隨機(jī)場(chǎng)模型的算法。實(shí)驗(yàn)結(jié)果證明,基于層疊條件隨機(jī)場(chǎng)模型的算法的性能較傳統(tǒng)方法有了明顯提升,是一種比較理想的古文斷句與句讀標(biāo)注方法。
古文可用的特征比較少,如何利用已有信息發(fā)掘新的特征,進(jìn)一步提高古文斷句和句讀標(biāo)注算法的性能將是下一步努力的方向。
參考文獻(xiàn):
[1]CHAROENPORNSAWAT P, SORNLERTLAMVANICH V. Automa-tic sentence break disambiguation for Thai[C]//Proc of ICCPOL’01. 2001:231-235.
[2]胡俊峰,俞士汶. 唐宋詩(shī)之計(jì)算機(jī)輔助深層研究[J]. 北京大學(xué)學(xué)報(bào):自然科學(xué)版,2001,37(5):727-733.
[3]陳天瑩,陳蓉,潘璐璐,等.基于前后文n-gram模型的古漢語(yǔ)句子切分[J].計(jì)算機(jī)工程,2007,33(2):192-193.
[4]LAFFERTY J, McCALLUM A, PEREIRA F. Conditional random field: probabilistic models for segmenting and labeling sequence data[C]//Proc of the 18th International Conference on Machine Lear-ning. San Francisco: Morgan Kaufmann Publishers, 2001: 282-289.
[5]劉群,張華平,俞鴻魁,等. 基于層疊隱馬模型的漢語(yǔ)詞法分析[J]. 計(jì)算機(jī)研究與發(fā)展, 2004,41(8):1421-1429.
[6]趙海,揭春雨.基于有效子串標(biāo)注的中文分詞[J]. 中文信息學(xué)報(bào),2007,21(5):8-13.
[7]ZHAO Hai, HUANG Chang-ning, LI Mu. An improved Chinese word segmentation system with conditional random field[C]//Proc of the 15th SIGHAN Workshop on Chinese Language Processing. Sydney: [s.n.], 2006:162-165.
[8]NOCEDAL J, WRIGHT S J. Numerical optimization[M]. New York: Springer, 1999:194-200.