許華婷,張玉潔,楊曉暉,單 華,徐金安,陳鈺楓
(北京交通大學(xué) 計算機與信息技術(shù)學(xué)院,北京 100044)
?
基于Active Learning的中文分詞領(lǐng)域自適應(yīng)
許華婷,張玉潔,楊曉暉,單 華,徐金安,陳鈺楓
(北京交通大學(xué) 計算機與信息技術(shù)學(xué)院,北京 100044)
在新聞領(lǐng)域標注語料上訓(xùn)練的中文分詞系統(tǒng)在跨領(lǐng)域時性能會有明顯下降。針對目標領(lǐng)域的大規(guī)模標注語料難以獲取的問題,該文提出Active learning算法與n-gram統(tǒng)計特征相結(jié)合的領(lǐng)域自適應(yīng)方法。該方法通過對目標領(lǐng)域文本與已有標注語料的差異進行統(tǒng)計分析,選擇含有最多未標記過的語言現(xiàn)象的小規(guī)模語料優(yōu)先進行人工標注,然后再結(jié)合大規(guī)模文本中的n-gram統(tǒng)計特征訓(xùn)練目標領(lǐng)域的分詞系統(tǒng)。該文采用了CRF訓(xùn)練模型,并在100萬句的科技文獻領(lǐng)域上,驗證了所提方法的有效性,評測數(shù)據(jù)為人工標注的300句科技文獻語料。實驗結(jié)果顯示,在科技文獻測試語料上,基于Active Learning訓(xùn)練的分詞系統(tǒng)在各項評測指標上均有提高。
中文分詞;領(lǐng)域自適應(yīng);主動學(xué)習(xí)
傳統(tǒng)的中文分詞方法是基于詞典的方法,主要有正向最大匹配算法、逆向最大匹配算法、N-最短路徑分詞算法等。隨著標注語料庫的建立和統(tǒng)計機器學(xué)習(xí)的發(fā)展,基于統(tǒng)計的中文分詞方法成為主流方法。常用的統(tǒng)計機器方法包括:基于隱馬爾可夫模型(Hidden Markov Model,HMM)的中文分詞方法[1]、基于最大熵模型(Maximum Entropy, ME)的中文分詞方法[2]和基于條件隨機場模型(Conditional Random Fields, CRF)的中文分詞方法[3]等。
當中文分詞任務(wù)的領(lǐng)域發(fā)生變化時,未登錄詞的比例會上升,導(dǎo)致中文分詞系統(tǒng)的精度大幅下降。為了解決分詞系統(tǒng)領(lǐng)域自適應(yīng)的問題,近些年來,研究者提出了很多方法,主要有數(shù)據(jù)加權(quán)算法和半監(jiān)督學(xué)習(xí)算法。張梅山等采用了領(lǐng)域詞典與統(tǒng)計方法相結(jié)合的方法,分詞系統(tǒng)針對不同領(lǐng)域的文本進行分詞時,通過加載相關(guān)領(lǐng)域的詞典輔助分詞系統(tǒng)進行分詞[4]。但是以上這些方法都受到了標注語料或特定詞典的限制,相關(guān)資源不易獲得。針對這一問題,有研究者提出可以通過從大規(guī)模生語料中抽取n-gram統(tǒng)計特征的方法改善由于領(lǐng)域變化導(dǎo)致的分詞性能下降問題[5]。但是這種僅利用計算機的統(tǒng)計方法未考慮到領(lǐng)域?qū)S性~也具有一定的中文構(gòu)詞規(guī)律,造成了在一些專有詞上分詞不準確,影響了分詞精度。為了進一步提高領(lǐng)域變化后中文分詞系統(tǒng)的分詞精度,有研究者提出在利用n-gram統(tǒng)計特征的基礎(chǔ)上,增加平行語料語言知識,一般來講是中英文平行語料,通過英文單詞的邊界輔助對應(yīng)的中文字符串劃定詞語界線[6]。但是,對于大多數(shù)中文語料來講,并不是都有對應(yīng)的英文譯文,所以這種方法不適合推廣。但是它為中文分詞提供了一個新的思路,也就是利用不同資源的疊加來提高分詞精度。在對比前人研究結(jié)果的基礎(chǔ)上,我們考慮利用大規(guī)模生語料中的統(tǒng)計特征與少量人工標注相結(jié)合的方法,以提高中文分詞領(lǐng)域自適應(yīng)能力。
本文的工作圍繞中文分詞領(lǐng)域自適應(yīng)的問題,針對大規(guī)模人工分詞標注語料難以獲取的現(xiàn)狀,提出基于Active learning的中文分詞領(lǐng)域自適應(yīng)方法。該方法通過對目標領(lǐng)域文本與已有標注語料之間差異性的統(tǒng)計分析,選擇出小規(guī)模的包含目標領(lǐng)域中特有語言現(xiàn)象的語句,進行人工標注;然后結(jié)合大規(guī)模生語料中的n-gram統(tǒng)計特征調(diào)整已有分詞模型的領(lǐng)域適應(yīng)性,從而達到通過標注少量語料,改善分詞精度的目的。
Active learning算法由耶魯大學(xué)Angluin教授提出[7]。它選擇部分未標記樣例進行標記,然后把它們放入之前已有的標記樣例集合,重新訓(xùn)練分類器,利用分類器再次選擇未標記樣例。通過有選擇地擴大有標記樣例集合和循環(huán)訓(xùn)練,使得分類器逐步獲得更強的泛化能力。與以往的算法相比,它具有模擬人的學(xué)習(xí)過程的特點,因此受到廣泛關(guān)注,近年來被大量地應(yīng)用于信息檢索和文本分類等自然語言處理領(lǐng)域,成為機器學(xué)習(xí)領(lǐng)域中最重要的方向之一。
為了更加直觀地展示Active learning算法的有效性和它對分類器訓(xùn)練精度的提高程度,下面用一個對二維空間中的點進行分類的問題為例來介紹Active learning[8]。假設(shè)有一個布滿紅綠兩種共400個點的平面,欲找到紅綠兩種點的分界線。已知紅綠兩種點在坐標x=0附近產(chǎn)生分界。下面分別利用被動學(xué)習(xí)和主動學(xué)習(xí)兩種方法,各自選擇和標記30個點,并利用標記的點找到分界線。常規(guī)的被動學(xué)習(xí)的方法,隨機選擇并標記點,通常它標記的點比較分散,只有很少的點分布在x=0附近,這樣很難找到正確的分界線。用這種方法分類的精度較低,據(jù)統(tǒng)計結(jié)果顯示正確率只有70%。而Activelearning方法是通過選擇運算,最終選擇紅綠兩種點混合分布比較緊密的位置,也就是位于x=0附近的點進行標記,這就為找到正確的分界線提供了有效的信息。利用這種方法訓(xùn)練得到的分類器的精度較高,據(jù)統(tǒng)計結(jié)果顯示正確率可達到90%。這個例子充分說明,Activelearning選擇的樣本點比盲目選擇的樣本點更有利于高精度分類器的訓(xùn)練,在同等的標注代價下能夠得到更多的區(qū)分信息,有利于提高分類模型的精確度。
假設(shè)我們有一個在分詞標注語料(原領(lǐng)域)上訓(xùn)練得到的中文分詞模型,現(xiàn)在需要對一個不同領(lǐng)域(目標領(lǐng)域)的文本進行分詞處理,為此需要將中文分詞模型從原領(lǐng)域調(diào)整到目標領(lǐng)域。
為了更好地處理領(lǐng)域內(nèi)專有名詞及特殊句式的分詞問題,本文提出基于Activelearning的中文分詞領(lǐng)域自適應(yīng)方法,借助Activelearning算法,選擇目標領(lǐng)域中最具有領(lǐng)域特點的小規(guī)模語句進行人工標注,再與該領(lǐng)域大規(guī)模生語料n-gram統(tǒng)計特征相融合,從而實現(xiàn)分詞精度更高的領(lǐng)域自適應(yīng)的中文分詞系統(tǒng)。系統(tǒng)的總體框圖如圖1所示,虛線框部分表示實現(xiàn)領(lǐng)域自適應(yīng)的核心部分。
相對于原領(lǐng)域的詞語分布,目標領(lǐng)域的詞語分布中出現(xiàn)的漢字以及構(gòu)詞模式會有很大差異。如果將含有差異多的句子篩選出來進行人工標注,將為分詞模型的重新訓(xùn)練優(yōu)先提供目標領(lǐng)域特有的訓(xùn)練語料,使得分詞模型可以快速獲取目標領(lǐng)域特有的分詞知識,從而有效提高在目標領(lǐng)域的分詞精度。因此,如何篩選出這樣含有差異多的句子成為關(guān)鍵。
為了從大規(guī)模目標領(lǐng)域的生語料中抽取在構(gòu)詞規(guī)律和詞匯分布上具有目標領(lǐng)域特征的語句進行人工標注,本文采用基于n-gram加權(quán)統(tǒng)計的方法來計算每個句子相對于原領(lǐng)域在n-gram上的分布差異性,具體計算如公式(1)所示。
(1)


圖 1 基于Active learning中文分詞領(lǐng)域自適應(yīng)的整體框架

利用上述方法對目標領(lǐng)域生語料的所有語句進行評分計算后,按評分對語句進行排序。根據(jù)在人工標注上的投入預(yù)算或者需要達到的精度要求,選擇小規(guī)模的高位語句,按照目標領(lǐng)域分詞標注標準進行人工標注。標注好的語料與原領(lǐng)域的標注語料構(gòu)成新的訓(xùn)練語料,然后采用CRF模型在新的語料進行訓(xùn)練,構(gòu)建適應(yīng)目標領(lǐng)域的分詞模型。
本節(jié)以科技領(lǐng)域為例,利用上面提出的方法,對如何構(gòu)建科技領(lǐng)域上的中文分詞自適應(yīng)系統(tǒng)做詳細介紹。
4.1 科技領(lǐng)域分詞系統(tǒng)的建立
已有的中文分詞模型是在賓州中文樹庫 (PennChineseTreebank,CTB)上訓(xùn)練獲得的,原領(lǐng)域為新聞領(lǐng)域。目標領(lǐng)域的語料是NTCIR-10中的1 000 000句中文科技文獻語句。我們從中隨機選出一部分語句作為測試數(shù)據(jù)。
為了獲取科技領(lǐng)域的分詞特征,一方面利用語言模型對科技領(lǐng)域生語料的所有語句進行評分排序,篩選出一小部分得分高的語句,依據(jù)科技領(lǐng)域分詞標注標準進行人工分詞。科技領(lǐng)域分詞標注標準的建立將在第4.2節(jié)做詳細介紹。標注結(jié)果將加入新聞領(lǐng)域的標注語料形成新的訓(xùn)練數(shù)據(jù);另一方面,從科技領(lǐng)域的大規(guī)模生語料中抽取n-gram統(tǒng)計特征生成特征文件。然后采用CRF模型在這兩方面生成的訓(xùn)練數(shù)據(jù)和特征文件上進行訓(xùn)練,得到適用于科技領(lǐng)域的中文分詞模型。基于Activelearning實現(xiàn)中文分詞在科技領(lǐng)域上適應(yīng)的總體框圖如圖2所示。

圖2 基于Active learning中文分詞方法在科技領(lǐng)域上的應(yīng)用框架圖
4.2 科技領(lǐng)域分詞標注標準的制定
“詞是什么(詞的抽象定義)”,“什么是詞(詞的具體界定)”,這兩個基本問題有點飄忽不定,至今都沒有一個公認的、具有權(quán)威性的定義。同時,對于中文“詞”的認定,普通人的標準和語言學(xué)家的標準在認定上也有比較大的差異。有關(guān)專家的調(diào)查結(jié)果表明,在母語是中文的被測試者之間,對中文文本中出現(xiàn)的詞語的認同率大約只有70%。研究人員曾做過一個實驗[9],一共邀請了258名文理科大學(xué)生對同一篇約300字的短文進行手工分詞。結(jié)果表明,在其中的45個中文雙音節(jié)和三音節(jié)結(jié)構(gòu)的詞語上,分詞的結(jié)果與專家給出的標準分詞結(jié)果相同的人甚少。1992年國家標準局頒布了作為國家標準的《信息處理用現(xiàn)代漢語分詞規(guī)范》[10]。在這個規(guī)范中,大部分都是通過舉例和定性描述來定義分詞規(guī)范的。例如,規(guī)范4.2規(guī)定:“二字或三字詞,以及結(jié)合緊密、使用穩(wěn)定的二字或三字詞組,一律為分詞單位。”但是,沒有明確定義如何判斷“緊密”以及如何判斷“穩(wěn)定”,這樣的形容在很多規(guī)定中都有出現(xiàn)。這樣規(guī)定的判斷準則極易受到主觀因素的影響,具體判斷起來非常困難,因此,建立一個易于操作能夠保證標注者之間較高一致性的分詞標注標準遠沒有想象中的容易。
目前具有廣泛影響的中文分詞標注標準中,有
CTB的中文分詞規(guī)范[11]和北京大學(xué)的中文分詞規(guī)范[12]。前者是針對新聞領(lǐng)域的分詞規(guī)范,后者是面對一般領(lǐng)域的分詞規(guī)范,它們對科技領(lǐng)域的專業(yè)詞匯并沒有十分明確詳細的標注標準。實際上,科技文本中的詞語和構(gòu)詞的漢字與新聞或一般領(lǐng)域有很大不同。面對這一特點,本文制定了面向科技領(lǐng)域的中文分詞標注標準,其中,一般詞匯的分詞標準與CTB中文分詞規(guī)范保持一致。針對專業(yè)詞語,我們分析了CTB中文分詞規(guī)范中各種類別的漢字構(gòu)成詞語的模式,制定相應(yīng)的標注標準。我們以化學(xué)、藥物的中文文本為例,對增添的分詞標注規(guī)則舉例說明,規(guī)則在表1中顯示。其中,“+”表示“任何非空漢字字符串”,“*”表示“任何漢字字符串,包括空串”,“|”表示“或者”,“”表示“詞語的邊界”。下面對化學(xué)類詞匯的標注規(guī)則進行解釋:
(1) 當遇到“+基*酸*酯”時,規(guī)定切分為“+基*酸*酯”;當遇到“+酸*酯”時,規(guī)定切分為“+酸*酯”;
(2) 當遇到“+菌霉”時,如果“+”中是形容詞的時候,規(guī)定切分成“+菌霉”,否則切分為“+菌霉”;
(3) 當遇到“+劑”時,如果“+”只是一個漢字,且“+劑”是出現(xiàn)在新聞領(lǐng)域的詞語,規(guī)定“+劑”當作一個詞語來切分;如果“+”是兩個或以上的漢字,那么規(guī)定切分為“+劑”。

表1 科技領(lǐng)域人工分詞標注標準舉例
4.3 科技領(lǐng)域n-gram統(tǒng)計特征
n-gram是指文本中連續(xù)出現(xiàn)的n個連續(xù)漢字組成的串。從形式上看,詞是穩(wěn)定的字串,即組成詞的字之間凝固度較高。當訓(xùn)練語料足夠豐富時,詞的出現(xiàn)次數(shù)一般高于不成詞的n元字串。從直觀的角度考慮,詞一般是高頻n元字串,但是高頻n元字串并非一定是詞。例如,“巧克力”在未標注的語料中出現(xiàn)了m次,那么“巧克”出現(xiàn)的次數(shù)一定不小于m,但“巧克”并不是一個詞。一個完整的詞單元應(yīng)能適應(yīng)多樣的上下文,如“吃巧克力”、“黑/白巧克力”、“巧克力糖”、“精致的巧克力鍵盤”等等,“巧克力”作為詞單元有豐富的上下文,而“巧克”在多數(shù)情況下與“力”搭配,它的下文環(huán)境單一。可以直觀地認為成詞(包括未登錄詞)的字串應(yīng)當同時具備出現(xiàn)次數(shù)多和上下文環(huán)境豐富的特點。
在不同領(lǐng)域的語料中,字與字連在一起構(gòu)成詞的情況是不一樣的。我們希望通過統(tǒng)計大規(guī)模生語料中n元字串的一些特征供統(tǒng)計模型學(xué)習(xí),以達到分詞系統(tǒng)領(lǐng)域自適應(yīng)的目的。基于詞單元在未標注語料中所體現(xiàn)的特性,所采用的統(tǒng)計特征包括: n-gram頻度特征和n-gram AV特征。
n-gram頻度特征
n-gram的頻度值即n元字串在語料中的出現(xiàn)次數(shù)。本文統(tǒng)計了目標領(lǐng)域生語料中所有2元、3元、4元和5元字串的頻度,其中頻度小于5的字串被過濾。由于n元字串的頻度值取值范圍從5到幾千甚至幾萬,為了避免數(shù)據(jù)稀疏影響CRF學(xué)習(xí)的效果,本文采用離散化的方法將n元字串的頻度歸為三類: 高頻(H)、中頻(M)、低頻(L): n元字串按照頻度值從高到低排序,前5%的n元字串歸為高頻,表示為H;排名低于5%但高于20%的n元字串歸為中頻,表示為M;最后80%的n元字串的頻度值歸為低頻,用L表示。
字串的特征只有轉(zhuǎn)化為字的特征才能供CRF模型學(xué)習(xí)。在給定句子中的當前漢字產(chǎn)生n-gram頻度特征時,依次考察句子中包含當前漢字的所有候選詞。該字在詞中的位置信息在前,頻度信息在后,用“-”把它們連接起來。最后,按照當前漢字所處候選詞中的位置從前到后的順序——即B, B1, B2, M, E的順序——把前面記錄的信息用“|”連接起來作為當前漢字最終的n-gram頻度特征。
n-gram AV特征
AV (Accessor Variety)是從生語料中提取詞語判斷一個字串是否是詞的統(tǒng)計標準。與n-gram頻度值不同的是,n-gram AV值對頻度值進行了篩選。AV的主要思想是: 若一個字串在多種語境下出現(xiàn),那么該字串成為詞的可能性就高。AV的定義如式(2)所示。
(2)
Lav(s)和Rav(s)分別表示字串s的不同前驅(qū)和后繼的數(shù)量。
與n-gram頻度特征的使用類似,首先統(tǒng)計目標領(lǐng)域生語料中的所有2元串、3元串、4元串和5元串的AV值,同樣過濾掉AV值小于5的n元字串;然后采用與n-gram頻度值相同的分類標準,將n元字串按照其AV值分成三類: H、M和L三個頻檔;最后將字串的特征轉(zhuǎn)化為字的特征供CRF訓(xùn)練和解碼。
為了評測上節(jié)介紹的在科技領(lǐng)域上適應(yīng)的中文分詞模型的性能,驗證本文所提方法的有效性,我們在NTCIR-10的英中科技專利數(shù)據(jù)上設(shè)計了一組實驗。通過對其中的大規(guī)模中文語料的分詞處理,從中文分詞精度方面進行評測,并分析人工標注數(shù)據(jù)規(guī)模對基于Active learning的中文分詞系統(tǒng)的影響。
5.1 實驗數(shù)據(jù)
NTCIR-10英中科技專利數(shù)據(jù)包括1 000 000句中文語句,我們把這個語料作為科技領(lǐng)域的大規(guī)模生語料。為了制作測試集(TS),我們隨機選出300句,利用第4.2節(jié)制定的科技領(lǐng)域分詞標注標準進行人工分詞標注,作為原領(lǐng)域的標注語料利用新聞領(lǐng)域上CTB5.0中的第1~270篇、400~931篇和1 001~1 151篇的標注數(shù)據(jù)。
從除去TS語料中,利用第4.1節(jié)描述的方法對所有語句計算與原領(lǐng)域的標注語料的差異性,并進行評分排序,選出高位的前300個句子(AS),并根據(jù)第4.2節(jié)制定的分詞標注標準進行人工標注。為了考察標注語料的規(guī)模對分詞系統(tǒng)的影響,我們按如下方式構(gòu)成四個標注語料集: 前50句記作AS1、前100句記作AS2、前200句記作AS3、前300句記作AS4。
另外,為了對比基于Active learning的語句篩選方法,我們在除去TS與AS的語料中,隨機抽取300句(RS),同樣地進行人工分詞標注,并以同樣方式構(gòu)建四個標注語料集,分別記為RS1、RS2、RS3、RS4。
5.2 實驗設(shè)置
首先為了驗證本文所提方法的有效性,我們利用基于Active learning方法制作小規(guī)模標注語料,并從科技領(lǐng)域的大規(guī)模生語料中抽取n-gram統(tǒng)計特征,將科技領(lǐng)域小規(guī)模標注語料與抽取的n-gram特征加入原有新聞領(lǐng)域的標注語料,訓(xùn)練出科技領(lǐng)域上的中文分詞模型;然后利用該模型在測試集上進行評測。該系統(tǒng)記為Our(Active learning +n-gram+原領(lǐng)域語料)。為了考察目標領(lǐng)域上標注語料的規(guī)模對分詞系統(tǒng)的影響,我們利用四個語料集AS1、AS2、AS3、AS4,分別進行模型訓(xùn)練和評測,評測結(jié)果顯示在表2中。
為了考察基于Active learning的中文分詞系統(tǒng)的優(yōu)越性,我們進行了與上述相同的實驗和評測,但加入的小規(guī)模標注語料是隨機選取的RS1、RS2、RS3、RS4。該系統(tǒng)記為Baseline(隨機+n-gram+原領(lǐng)域語料)。同樣,評測結(jié)果也顯示在表2中。
為了與其他領(lǐng)域自適應(yīng)方法進行對比,我們重現(xiàn)了Su的方法[6]并訓(xùn)練了中文分詞模型,其中同樣利用了生語料的n-gram特征和原有新聞領(lǐng)域的標注語料,另外利用了NTCIR英中專利平行語料中的英文部分和英中對齊處理抽取了新的特征。該系統(tǒng)記為Su(英文+n-gram+原領(lǐng)域語料)。相同測試集上的測試結(jié)果顯示在表2中。
為了對比沒有進行領(lǐng)域自適應(yīng)的分詞系統(tǒng),我們選取了利用原有新聞領(lǐng)域的標注語料訓(xùn)練的分詞模型,該系統(tǒng)記為無領(lǐng)域自適應(yīng)分詞模型(原有新聞領(lǐng)域),并進行了相同測試集上的實驗和評測,評測結(jié)果顯示在表2中。
最后,我們還利用了公開的斯坦福中文分詞系統(tǒng)在相同的測試集上進行了評測,該系統(tǒng)記為無領(lǐng)域自適應(yīng)分詞模型(斯坦福),評測結(jié)果顯示在表2中。
評測實驗采用準確率(P)、召回率(R)、綜合性能指標(F1值)對中文分詞系統(tǒng)進行測評。各個系統(tǒng)的評測結(jié)果如表2所示。
5.3 結(jié)果與分析

表2 不同分詞系統(tǒng)的評價結(jié)果
通過對比表2中的評測結(jié)果,我們分析如下:
(1) 通過對比表中雙線以上的有領(lǐng)域自適應(yīng)的三個分詞系統(tǒng)和雙線以下的無領(lǐng)域自適應(yīng)的兩個分詞系統(tǒng)的評測結(jié)果,我們可以看出,有領(lǐng)域自適應(yīng)的分詞系統(tǒng)的各項評測結(jié)果均高于無領(lǐng)域自適應(yīng)的分詞系統(tǒng),說明了領(lǐng)域自適應(yīng)對改進中文分詞系統(tǒng)性能的重要性。
(2) 在領(lǐng)域自適應(yīng)的三個分詞系統(tǒng)中,通過對比加入目標領(lǐng)域的300句標注語料的分詞系統(tǒng)和未加入標注語料的Su的分詞系統(tǒng)的評測結(jié)果,我們可以看出,前者的各項評測結(jié)果均高于后者。說明了目標領(lǐng)域人工標注語料對分詞模型領(lǐng)域自適應(yīng)有重要幫助,少量的300句語料就有明顯效果。
(3) 在加入人工標注的領(lǐng)域自適應(yīng)的兩個分詞系統(tǒng)中,通過對比利用Active learning方法篩選語料的分詞系統(tǒng)和隨機篩選語料的分詞系統(tǒng),我們可以看出,在加入數(shù)量相同的標注語料的前提下,前者的各項指標的評測結(jié)果均高于后者,甚至前者添加100句標注語料得到的分詞系統(tǒng)的評測結(jié)果高于后者添加300句標注語料得到的分詞系統(tǒng)。由此,我們可以看出,本文提出的基于Active learning的中文領(lǐng)域自適應(yīng)方法具有明顯效果。
(4) 在我們的系統(tǒng)(Our)中,通過對比在不同規(guī)模的標注語料上的分詞模型的評測結(jié)果,可以看出,隨著標注語料的增大,系統(tǒng)的分詞精度一直有所提升,300句的標注語料還未達到飽和狀態(tài),我們預(yù)測隨著經(jīng)過篩選的標注語料的加入,系統(tǒng)的性能還有提升空間。
本文工作圍繞中文分詞領(lǐng)域自適應(yīng)方法的探索,針對大規(guī)模人工分詞訓(xùn)練語料難以獲取的問題,提出了基于Active learning的中文分詞領(lǐng)域自適應(yīng)方法,并應(yīng)用于科技領(lǐng)域自適應(yīng)的任務(wù)中,制定了科技領(lǐng)域的人工標注標準,進行了小規(guī)模的人工標注。在NTCIR-10的專利數(shù)據(jù)上,充分驗證了該方法可以快速獲取領(lǐng)域特有的分詞知識,有效提高分詞系統(tǒng)的領(lǐng)域適應(yīng)性能。
綜上所述,本文針對中文分詞領(lǐng)域自適應(yīng)的任務(wù),做出了一些探索,并取得了初步的研究成果。然而,中文分詞還面臨很多問題,例如,在面對不同領(lǐng)域時,分詞粒度的確定問題。今后我們將選取其他代表性的領(lǐng)域,對中文分詞領(lǐng)域適應(yīng)方法進行更深入的探索。
[1] Rabiner L, Juang B. An introduction to hidden Markov models[J]. ASSP Magazine, 1986: 4-16.
[2] Adam L B, Della P V J, Della P S A. A maximum entropy approach to natural language processing[J]. Computational linguistics, 1996,22(1): 39-71.
[3] John L, Andrew M, et al. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the ICML, 2001: 45-54.
[4] 張梅山,鄧知龍,車萬翔,等.統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J].中文信息學(xué)報,2012,26(2): 8-12.
[5] Guo Z, Zhang Y, Su C, et al. Exploration of n-gram Features for the Domain Adaptation of Chinese Word Segmentation[J]. Nature Language Processing and Chinese Computing. Springer Berlin Heidelberg, 2012: 121-131.
[6] 蘇晨, 張玉潔, 郭振, 等. 適用于特定領(lǐng)域機器翻譯的漢語分詞方法[J]. 中文信息學(xué)報, 2013, 27(5): 184-190.
[7] Angluin D. Queries and concept learning[J]. Machine Learning, 1988, 2(4):319-342.
[8] Burr S. Active Learning Literature Survey[J]. University of Wisconsinmadison, 2009, 39(2): 127-131.
[9] 宗成慶.統(tǒng)計自然語言處理[M].北京: 清華大學(xué)出版社,2008.
[10] GB/T 13715-1992.信息處理用現(xiàn)代漢語分詞規(guī)范[S].北京:中國標準出版社,1992:
[11] Xia F. The Segmentation Guidelines for the Penn Chinese Treebank (3.0)[J]. 2000.
[12] 段慧明,松井久人於,徐國偉,等.大規(guī)模漢語標注語料庫的制作與使用[J]. 語言文字應(yīng)用,2000,(2):72-77.
Active Learning Based Domain Adaptation for Chinese Word Segmentation
XU Huating, ZHANG Yujie, YANG Xiaohui, SHAN Hua, XU Jin’an, CHEN Yufeng
(School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China)
Chinese word segmentation systems trained on annotated corpus of newspaper would drop in performance when faced with a new domain. Since there is no large scale annotated corpus on the target domain, this paper describes a domain adaptation of Chinese word segmentation by active learning. The idea is to select a small amount of data for annotation to bridge the gap from the target domain to the News. The word segmentation model is re-trained by inlduing the newly annotated data. We use the CRF model for the training and a raw corpus of one million sentences on patent description as the target domain. For test data, 300 sentences are randomly selected and manually annotated. The experimental results show that the performances of the Chinese word segmentation system based on our approach are improved on each evaluation metrics.
Chinese word segmentation; domain adaptation; active learning

許華婷(1991—),助理實驗師,主要研究領(lǐng)域為自然語言處理。E-mail:xuhuating91@163.com張玉潔(1961—),通信作者,教授,主要研究領(lǐng)域為自然語言處理。E-mail:yjzhang@bjtu.edu.cn楊曉暉(1962—),副教授,主要研究領(lǐng)域為計算機應(yīng)用。E-mail:xhyang@bjtu.edu.cn
1003-0077(2015)05-0055-08
2015-08-15 定稿日期: 2015-10-09
國家國際科技合作專項資助(2014DFA11350);國家自然科學(xué)基金(61370130)
TP391
A