蘇曉寶 劉臣 唐莉



摘 ?要: 標點符號的正確性對于用戶生成文本的詞性標注,命名實體識別,依存句法分析等有著重要的作用,正確的標點標注可以使用戶生成文本的語法結構準確完整。線性鏈條件隨機場模型可以容納任意的非獨立的特征信息,本文通過選取標點符號所在位置左右詞性對作為模型的觀測序列,使用條件隨機場進行標點符號的標注。實驗的測試語料采用京東在線產(chǎn)品評論,結果表明基于線性鏈條件隨機場的用戶生成文本標點標注效率較高。
關鍵詞: 線性鏈條件隨機場;用戶生成文本;詞性;特征模板;標點符號標注
中圖分類號: TP391.1 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.04.031
本文著錄格式:蘇曉寶,劉臣,唐莉. 基于線性鏈條件隨機場的用戶生成文本標點標注[J]. 軟件,2019,40(4):145149
【Abstract】: The correctness of punctuation marks plays an important role in the part-of-speech tagging of user-generated texts, named entity recognition, and dependency parsing,proper punctuation labelling can make the grammatical structure of user-generated text accurate and complete. The linear chain condition random field model can accommodate any non-independent feature information,in this paper, we use the left and right part-of-speech of the position of the punctuation as the observation sequence of the model, and the conditional random field is used to label the punctuation .The test corpus of the experiment uses Jingdong online product reviews, and the results show that the user-generated text punctuation labelling based on the linear chain conditional random field is more efficient.
【Key words】: Linear chain conditional random field; User generated text; Part-of-speech; Feature template; Punctuation labelling
0 ?引言
伴隨著電子商務的發(fā)展,越來越多的用戶通過計算機及個人移動設備在各個電商平臺上購買豐富多樣的商品和服務,與此同時廣大用戶也通過各個論壇、社交網(wǎng)站、購物平臺發(fā)布商品或者服務的相關使用評論。這些評論中包含著豐富的信息量,大多數(shù)是關于用戶對購買商品或服務的使用感想及建議,其它用戶在購買此類商品之前可以參考這些評論,商家們可以針對評論中用戶集中指出的某些問題征對性地采納,然后完善產(chǎn)品和服務質量,進一步為用戶提供更優(yōu)質的產(chǎn)品和服務升級,從而為企業(yè)和商家創(chuàng)造更大的利潤。用戶在購物平臺上發(fā)布的商品或服務評論也稱為用戶生成文本,用戶生成文本定義為用戶生成的文字材料內容[1],即用戶通過各種社交網(wǎng)絡平臺將原創(chuàng)的文字材料內容展示或者提供給其他的用戶。但是現(xiàn)階段存在的一個主要問題是用戶生成文本中的標點符號常存在著錯誤或者缺失,這使得后續(xù)情感分析與觀點挖掘遇到問題。標點符號可以側面地表達用戶的感受和想法,有時候幾個標點符號的連續(xù)使用[2]可以負載用戶內在想要表達的深切的情感信息。
用戶生成文本中的標點符號的標注識別對于接下來的自然語言處理工作是一個很重要的基礎環(huán)節(jié)。其中標點的正確率會影響到后續(xù)的中文分詞[3,4]、詞性標注[5,6]、命名實體識別[7]等一系列環(huán)節(jié)。
張開旭[8]等人利用互信息和t-測試差基于條件隨機場在《論語》和《史記》語料庫上進行斷句和標點處理,但是該方法需要大規(guī)模的原始標注語料供其訓練,而且對于原始語料庫的文體、句型、數(shù)量規(guī)模依賴性過強,不同古文在文體上、篇幅上、實詞、虛詞、句型使用上差異較大,此方法在其它古文上斷句和標點處理效果上波動較大,局限性比較大。姑麗加瑪麗·麥麥提艾力[9]等人基于條件隨機場(CRF)的分層自底向上方法預測維吾爾語的韻律詞和韻律短語邊界,并將維吾爾語形態(tài)特征作為韻律邊界預測模型的重要特征,以標點符號邊界為單位建立基于CRF的標點符號韻律邊界預測模型,并與雙層自底向上CRF模型相結合,提出一種韻律邊界預測方法。Wei Lu[10]等人提出了一種基于動態(tài)條件隨機場的方法將標點符號插入到轉錄的對話語音文本中,并聯(lián)合執(zhí)行句子邊界和句子類型預測,以及對語音話語的標點預測,但是在展現(xiàn)F1值中過度專注于優(yōu)化標點預測性能,沒有考慮到之后的自然語言處理任務。
鑒于先前關于標點標注所作的研究工作較少,本文在此提出了一種基于線性鏈條件隨機場[11]并結合利用詞性標注之后的用戶生成文本標點標注識別方法。與以往的判別模型不同,條件隨機場允許對觀測序列的任意依賴性,而其中的線性鏈條件隨機場(linear-CRF)能夠將豐富的非獨立的前后上下文特征模板運用到模型中,具有特征選擇靈活和擬合程度更好的優(yōu)點。
1 ?條件隨機場
在條件概率分布P(Y|X)中,X是表示需要標注的觀測序列,Y是狀態(tài)序列,也稱為 標記序列。在學習條件概率模型時,利用訓練數(shù)據(jù)集通過正則化的極大似然估計學習出模型,在預測標記序列時,任意給定一個觀測序列x,得到以條件概率模型分布 (y|x)最大的輸出序列 。此時如果Y構成由無向圖模型G=(N,E)表示的馬爾科夫隨機場[12],N代表結點集合,E代表邊的集合,即滿足式子(1)。
2 ?用戶生成文本的標點符號的標注
利用CRF進行用戶生成文本標點標注的過程就是給定條件概率模型P(Y|X)和觀測序列x,求條件概率最大的標記序列 ,即對觀測序列進行標注,通過維特比算法[13][14]找出其對應的標點符號標注序列 ,使得條件概率P(Y|X)最大。
上述這段評論是用哈工大LTP進行過分詞和詞性標注,且標點符號人工標注正確的一段用戶生成文本。此時,除了段尾最后一個標點符號以外,將剩余標點符號所在位置左右的詞性對作為觀測變量,就形成了觀測序列 ,上述這段評論對應的詞性對X=(nd-n, u-n, n-v, v-n, v-v, ni-v),詞性標注采用的是哈工大LTP詞性標注集,如表2所示。
該評論的標點符號標記序列Y=(1,1,1,2,1,1),1代表逗號,2代表句號,3代表頓號,4代表問號,5代表感嘆號,6代表冒號,7代表省略號,鑒于后面的測試語料中逗號、句號、頓號、問號、感嘆號、冒號、省略號占全部標點符號的99.7%以上,故在此只討論這七個標點符號的標注識別。
采用詞性對的“前后上下文”[16]相關信息作為該詞性對的特征,優(yōu)點是能夠同時使用當前詞性對的前m個詞性對和后n個詞性對作為該詞性對的前后上下文信息。這樣,當前詞性對的標點符號標注不僅與它前面的詞性對有關,還與它后面的詞性對有關,才能更加貼近于用戶生成文本標點標注的真實性,更加符合實際情況。
本文所述的詞性對的“前后上下文”可以看作 是以當前詞性對為基準線,包含著前面和后面若干詞性對的“觀測序列界面” ? 。但是從理論上說,一方面觀測序列界面的寬度n越大,用戶生成文本中此時可以被利用的上下文相關特征模板信息越多,但是如果觀測序列界面寬度設置得過大,不但會嚴重降低用戶生成文本標點標注效率外,還會出現(xiàn)標點標注地過擬合現(xiàn)象;另一方面,如果觀測序列界面寬度被設置地過小,此時就不能夠充分利用甚至丟失重要的前后上下文信息。在本文的訓練和測試中,為了盡可能充分利用前后上下文的特征模板信息,又不出現(xiàn)過擬合現(xiàn)象,使用當前詞性對的前后各二個詞性對作為“前后上下文”的范圍,這就限定了上下文范圍為“5詞性對觀測序列界面”,本文采用的特征模板如表3所示。
3 ?實驗結果與分析
3.1 ?實驗環(huán)境、數(shù)據(jù)集和評測指標
本文實驗服務器主要參數(shù)為CPU:2* Intel(R) Core(TM) i5-6200U CPU@2.30GHz,安裝內存:7.48 GB,操作系統(tǒng)為Windows 7 64 bit。使用CRF++0.58工具包進行用戶生成文本中標點符號標注模型的學習。
本文實驗中的訓練語料選取自《人民日報》標注的PFR語料庫,語料庫中1998年上半年的新聞報道已經(jīng)在互聯(lián)網(wǎng)上由《人民日報》新聞信息中心公開提供許可使用權,本文從中選取了1月份前5天共約30萬字的500條新聞報道。然后利用CRF++ 0.58從訓練數(shù)據(jù)集中學習條件概率模型P(Y|X)。
本文實驗采用的測試語料選取自京東Apple產(chǎn)品自營店IphoneX的用戶評論,根據(jù)用戶評論中好評,中評,差評比例,從中選取了約有6萬字的200條有效的好評,約1.2萬字的40條有效的中評,約1.5萬字的50條有效的差評,這些好評,中評,差評中標點符號均在10個或者10個以上,然后事先人工檢查標注用戶生成文本中的標點符號。將這些用戶生成文本用哈工大的LTP進行中文分詞、詞性標注,利用CRF對測試數(shù)據(jù)進行預測,再與人工事先正確標注的用戶生成文本標點符號進行比較分析。
在對用戶生成文本標點標注的性能評估中,采用了常用的評測指標準確率P,召回率R和 這三項性能評測指標:
3.2 ?實驗結果及其分析
CRF++0.58訓練數(shù)據(jù)時使用的規(guī)范化算法默認是CRF-L2,迭代次數(shù)為45次,訓練時間為1.57 s。
原始用戶生成文本標點標注平均準確率為57.9%。
利用Python對比事先人工正確標注的標點符號和CRF工具預測的標點符號標注,得到圖2所示的實驗結果。
實驗結果可以看出,基于線性鏈條件隨機場的用戶生成文本的標點標注平均準確率比原始用戶生成文本標點標注準確率高了13.5%,可以在一定程度上正確標注標點符號。
4 ?結束語
鑒于用戶生成文本中標點符號的正確標注是自然語言處理的最基礎的環(huán)節(jié)。本文提出了基于線性鏈條件隨機場并結合標點符號左右詞性對的用戶生成文本標點標注方法。實驗結果表明,使用線性鏈條件隨機場能夠取得較好的標點標注效果,不足的地方在于,在詞性標注過程中,有些出現(xiàn)次數(shù)較多詞語同時具有幾個詞性,比如“服務”一詞既有名詞又有動詞的含義,可能會導致詞性標注出現(xiàn)錯誤的現(xiàn)象,而且由于CRF是基于統(tǒng)計的模型,對于那些出現(xiàn)在標點符號左右次數(shù)較多的詞性對,統(tǒng)計的信息會更加全面,其正確預測標點標注的準確率也就越高。相反地,有些標點符號左右的詞性對出現(xiàn)次數(shù)較少,其統(tǒng)計信息不全難以正確預測標點標注。另外訓練語料是出自人民日報語料庫,語言嚴謹規(guī)范;而測試語料選自京東在線評論,評論內容中標點符號左右存在網(wǎng)絡流行詞語或語氣助詞,其訓練時統(tǒng)計信息缺少,導致此類情況下預測標點符號標注的效果較差。
針對以上的問題,在今后的研究工作中,將深入了解影響標點符號標注的其它特征,以期能夠找到一些更有價值的特征函數(shù)信息,能夠使用戶生成文本的標點標注效果得到進一步的提升。
參考文獻
[1] 趙宇翔, 范哲, 朱慶華. 用戶生成內容(UGC)概念解析及研究進展[J]. 中國圖書館學報, 2012, 38(5): 68-81.
[2] 鄧曉明. 同一個標點符號連續(xù)使用對情感信息的負載作用[J]. 當代修辭學, 2000, 02(02): 32-33.
[3] Huang C, Zhao H. Chinese Word Segmentation: A Decade Review[J]. Journal of Chinese Information Processing, 2007, 21(3): 8-19.
[4] Gao J, Li M, Huang C N, et al. Chinese Word Segmentation and Named Entity Recognition: A Pragmatic Approach[J]. Computational Linguistics, 2005, 31(4): 531-574.
[5] Zinsmeister H. Part of Speech Tagging[J]. Ling Uni, 2011, 5(4): 483-501.
[6] Vol., N?. Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of- Speech Tagging[J]. Computational Linguistics, 1995, 21(4): 543-565.
[7] Nadeau D, Sekine S. A survey of named entity recognition and classification[J]. Lingvisticae Investigationes, 2007, 30(1): 3-26.
[8] 張開旭, 夏云慶, 宇航. 基于條件隨機場的古漢語自動斷句與標點方法[J]. 清華大學學報(自然科學版), 2009, 49(10): 1733-1736.
[9] 姑麗加瑪麗·麥麥提艾力, 艾斯卡爾·肉孜, 古力米熱·依瑪木, 艾斯卡爾·艾木都拉. 結合分層條件隨機場與標點符號的維吾爾語韻律邊界預測[J]. 計算機工程, 2015, 41(11): 299-302+307.
[10] Lu W, Ng H T. Better punctuation prediction with dynamic conditional random fields[C]// Conference on Empirical Methods in Natural Language Processing. DBLP, 2010.
[11] Wang G, Feng X. Tool wear state recognition based on linear chain conditional random field model[J]. Engineering Applications of Artificial Intelligence, 2013, 26(4): 1421-1427.
[12] Chellappa R, Chatterjee S. Classification of textures using Gaussian Markov random fields[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 2003, 33(4): 959- 963.
[13] Jr G D F. The Viterbi algorithm[J]. Proceedings of the IEEE, 1973, 61(3): 268-278.
[14] Kavcic A, Moura J M F. The Viterbi algorithm and Markov noise memory[J]. IEEE Transactions on Information Theory, 2000, 46(1): 291-301.
[15] 李航. 統(tǒng)計學習方法[M]. 北京: 清華大學出版社, 2012: 192-198.
[16] 洪銘材, 張闊, 李涓子. 基于條件隨機場(CRFs)的中文詞性標注方法[J]. 計算機科學, 2006, 33(10): 148-151+155.