劉培玉,荀 靜,費紹棟,朱振方
(1. 山東英才學院 信息工程學院,山東 濟南 250104;2. 山東師范大學 信息科學與工程學院,山東 濟南 250014;3. 山東交通學院 信息科學與電氣工程學院,山東 濟南 250357)
基于隱馬爾可夫模型的主觀句識別
劉培玉1,2,荀 靜2,費紹棟2,朱振方3
(1. 山東英才學院 信息工程學院,山東 濟南 250104;2. 山東師范大學 信息科學與工程學院,山東 濟南 250014;3. 山東交通學院 信息科學與電氣工程學院,山東 濟南 250357)
文本情感傾向分析是意見挖掘和情感文摘中的一個重要環節,而在情感傾向分析中涉及到的是主觀性文本,這就需要進行主客觀文本分類。當前的主客觀文本分類方法主要是基于特征詞典的概率統計方法,并沒有考慮特征之間的語法與語義關系。針對該問題,該文提出一種基于隱馬爾可夫模型(HMM)的主觀句識別方法。該方法首先從訓練語料中抽取具有明顯分類效果的七類主客觀特征,然后每個句子應用HMM進行特征角色類別標注,并依據標注的結果計算句子的權重,最終識別主觀句。該方法在第六屆中文傾向性分析評測任務中能夠有效地識別主觀句。
隱馬爾可夫模型;特征標注;主觀句識別
隨著互聯網的發展,在論壇、微博和博客等各個在線交流平臺上都存在大量的與當前熱點話題或事物及其屬性相關的評論信息,在進行情感傾向分析之前對主客觀文本進行分類不僅可以提高情感分析的準確率還可以減少算法時間復雜度。文本情感傾向分析[1]是意見挖掘和情感文摘中的一個重要環節,而在情感傾向分析中涉及到的是主觀性文本,這就需要進行主客觀文本分類,從而提取給定文本中的帶有情感傾向的主觀信息,去除客觀信息。關于主客觀文本分類這一問題在文獻[2-4]中均有涉及。
主客觀句分類在國外起步較早,經過以往的研究與發展已經產生了很多優秀的分類算法。在文獻[5-6]中,作者分別研究了形容詞和名詞兩種不同詞性的詞對主客觀分類的影響。在文獻[7]中,Hatzivassiloglou & Wiebe進一步發現動態形容詞、具有語義傾向的形容詞和修飾程度不同的形容詞對主客觀分類具有很大的影響。在此基礎上,Riloff等[8]使用Bootstrapping算法從訓練集中學習獲取主觀性句子模式,進而識別主客觀語句。Kamal[9]采用有監督的機器學習方法和基于規則的方法挖掘主觀句中的特征-情感對,并取得很好的分類效果。
國內的學者對主觀句抽取算法的研究也取得很大進展。上海交通大學的姚天昉等[10]對中文主客觀文本進行了定義和區別,并且預選了主客觀文本的分類特征。哈爾濱工業大學的葉強等[11]提出一種根據連續雙詞詞類組合模式(2-POS)自動判斷句子主觀性程度的方法。福州大學的林惠恩等[12]分別采用主觀線索和主觀模式的方法來提取主觀句子,并在此基礎上結合兩個方法進行主客觀句抽取。實驗結果表明,這些方法都能有效地對主客觀句子進行分類。
可以看到,現在的主客觀文本分類方法主要是基于特征詞典的概率統計方法,并沒有考慮特征之間的語法與語義關系。因此,本文提出基于隱馬爾可夫模型的特征角色標注的中文主觀句識別方法,實驗結果表明,該方法可以有效地識別給定評論文本中的主觀句。
在本節首先給出了基于HMM 的主觀句識別算法的總體框架,從整體上對該算法進行描述,然后進行主客觀特征詞集的抽取,最后詳述該算法的具體實現過程。
2.1 總體框架
基于HMM的主觀句識別算法包括訓練階段和識別階段,主要包含以下幾步: 1)主觀特征提取;2)建立HMM;3)應用HMM進行角色標注;4)提取主觀句。系統總體流程圖如圖1所示。

圖1 系統整體流程圖
2.2 主客觀特征詞集抽取
主客觀特征主要是指既有區分力度又能代表主客觀句類型的特征。該模塊主要是對這些特征進行抽取,組成主客觀特征詞集。本文首先對已有的常用方法進行介紹,進而根據其優缺點提出結合信息增益與卡方統計的特征抽取方法。
2.2.1 目前常用的特征抽取方法
主觀句在詞、句和句型的使用上都與客觀句有較大的差別,因此在這里提取對主客觀句最有區分力度的特征集。特征選擇算法中常用的有文檔頻率(TF-IDF),信息增益(IG)、相對熵(KL距離)、卡方統計(CHI)和點互信息(PMI)[13]。這幾種方法針對不同的語料庫各有其優缺點,其中相對熵和點互信息主要被用在計算兩個隨機變量之間的關系上,例如,依賴關系、相似關系等。
文檔頻率使用特征詞在主觀句中出現的次數來表示這個特征詞與主觀句的相關度,該方法實現最簡單、算法復雜度最低,但有很多低頻詞帶有很強烈的主觀句類別信息,因此不能單單根據詞頻把它們去掉。信息增益刻畫了一個詞語在主觀句中出現與否對主客觀文本分類的影響,即一個詞語在句子中出現前后的信息熵之差。卡方統計是通過度量候選特征詞和句子之間的相關度,這種方法的理論基礎是假設特征詞和句子之間符合具有一階自由度的χ2分布[10]。
2.2.2 結合信息增益與卡方統計的特征抽取方法
研究結果表明,信息增益只能考察特征對整個主客觀分類系統的貢獻,而不能具體到其中一個類別上,通過它得到的特征是適合全局的特征,而卡方統計可以針對具體類別進行特征提取。由于本文是針對主客觀句的二分類問題并且需要獲得能明顯表示主觀句或客觀句的特征,因此根據信息增益和卡方統計各自的特點,本文將兩者聯合起來分層次共同作用于訓練集提取出既有區分力度又能代表主客觀句類型的特征。
對每個詞匯t判斷其是否為特征以及所屬類型具體步驟。
step1 計算使用詞匯t的進行預分類的信息增益IG(t);
step2 若IG(t)大于設定閾值,則判定其為預選特征,否則結束算法,進行下一個詞匯的判斷;
step3 計算詞匯t的χ2(t,sub);
step4 如果χ2(t,sub)大于設定閾值,則判斷其為主觀特征,否則,判斷其為客觀特征。算法結束,進行下一個詞匯的判斷。
經過特征選擇以后,可以得到對主客觀分類較好效果的特征詞集,但是分類的最終效果亦受特征維數的影響。實驗表明,當特征維數最終趨向于一個相對穩定的范圍時,分類效果趨于穩定。因此在本文中設具有最好分類效果的特征維數為K,并選擇候選特征集中的前K個特征組成特征集,即features={f1,f2,…fi,…,fK}。
2.3 基于HMM的主觀句識別算法
在本模塊借鑒HMM在詞性標注方面的應用將待分類的句子集合應用HMM標注特征角色,得到句子中包含的詞匯所對應的特征類別。該模塊分為特征類別劃分、HMM模型建立、特征角色標注和主觀句提取四個過程。
2.3.1 特征類別劃分
在此,根據文獻[6]中的特征類別及針對訓練語料的所作的分析,將提取的特征詞集分為兩個大類七個小類別,兩個大類為主觀性特征集和客觀性特征集,其中主觀性特征集又分為六個小類別,即指示性動詞、指示性副詞、形容詞、情感詞、第一人稱或第二人稱代詞、指示性標點符號。由于分類效果明顯的客觀性特征集較少,在這里不做具體分類統一將其作為一類,即客觀性詞。對其符號化為F={iv,iadv,adj,st,pro,pun.oj}。
2.3.2 隱馬爾可夫模型建立
HMM是在馬爾可夫模型基礎上發展起來的,近些年在自然語言處理等領域獲得了廣泛應用。它是關于時序的概率模型,描述由一個隱藏的馬爾科夫鏈隨機生成不可觀測的狀態隨機序列,再由各個狀態生成一個觀測而產生觀測隨機序列的過程。一個HMM是不確定的、隨機的有限狀態自動機,由不可觀測的狀態轉移過程(一個Markov鏈) 和可觀測的觀察生成過程組成[14]。本文進行特征角色標注時使用HMM的參數初始化如下所示。
(1)Y為定義的詞匯特征類別的數目,在2.3.1節定義了特征詞集所屬的七個特征類別。因而,Y的值為7,記為Y={q1,q2,…,q7}={iv,iadv,adj,st,pro,pun.oj}。qi為馬爾可夫鏈在時刻t時所處的狀態,其中,qi∈{q1,q2,…,q7}。
(2)X為即將要進行特征角色標注的詞匯的數目,在這里令X=features={f1,f2, …fi,…,fK}。每個句子只選擇這些詞匯序列來作為其觀測序列符號,vj為在時刻t所觀測到的觀測值,其中,vj∈{f1,f2,…fi,…,fK}。
(3)π為經過訓練集的概率統計之后每個特征類別所占的初始概率,π=(πi),其中,πi=P(i1=qi),i=1,2,…,7是經訓練語料中統計得出的時刻t=1處于狀態qi的概率。
(4)A是狀態轉移概率矩陣:A=[aij]7×7。其中,aij=P(it+1=qj|it=qi),i=1,2,…,7;j=1,2,…,7表示在時刻t處于狀態qi的條件下在時刻t+1轉移到狀態qj的概率。
(5)B為觀測概率矩陣,B=[bj(k)]7×K。其中,bj(k)=P(ot=vk|it=qj),k=1,2,…,7;j=1,2,…,K是在時刻t處于狀態qi的條件下生成觀測vk的概率。
2.3.3 基于HMM模型的特征角色標注
建立HMM以后,應用其對每個預處理后的句子進行特征角色標注,并使用維特比[12]算法得到一個最優標注序列Q。維特比算法是在給定一個觀測序列的基礎上,根據已有的HMM找到一個概率最大的狀態序列。
對一個已知句子s觀測序列V={v1,v2,…,vT},應用維特比算法計算相應的最優標注狀態序列Q={q1,q2,…,qT},T是句子s中的詞序個數。
(1) 初始化δ(i)=πibi(v1),i=1,2,…,7
ψ1(i)=0,i=1,2,…,7
(2) 遞推,對t=2,3,…,T
(3) 終止P*=max1≤i≤7δT(i)qT=arg max1≤i≤7[δT(i)]
(4) 最優特征狀態序列回溯,對t=T-1,T-2,…,1得到qt=ψt+1(qt+1),最終求得最優特征狀態序列Q={q1,q2,…,qT}。
2.3.4 主觀句提取
在本文中最后提取主觀句衡量其句子的權重大小,計算的方法是考慮句子中已標注特征角色的詞匯的類別權重和句法類型的權重兩方面的因素得到最終句子的權重,計算過程如下。
1) 特征詞類的權重

(1)
其中,L是特征詞類Fj中特征詞的個數,sub是特征詞fi在主觀句中出現的頻數,obj是特征詞fi在客觀句中出現的頻數,num=sub+obj表示特征詞fi在訓練語料中出現的總頻數。
2) 句法類型的權重
本文認為組成一個句子的特征詞匯越重要則該句子被判別為主觀句的可能性會相應的越高。此外,從訓練語料中可以得到句子的類型不同,成為主觀句的可能性也不同。句子從語氣上分,可分為陳述句、疑問句、祈使句、感嘆句。疑問句是用來向別人提出問題的句子。感嘆句是用來表示某種感情的句子,因而疑問句和感嘆句是主觀句的可能性要比陳述句要大得多。祈使句是用來要求別人做什么或不做什么的句子,往往表達的客觀事實,從而祈使句是客觀句的可能性要強與其他三類句子。
綜合特征詞和句法類型的句子s的權重計算方法如公式(2)所示。
(2)
其中,qi∈Qi=1,2,…,T是句子s經過HMM標注后的最優特征狀態序列,η是變量調節參數,其取值通過訓練語料獲得。
用type表示待分類句子的句法類型,其具體賦值如公式(3)所示。

(3)
3.1 實驗語料
本文的實驗語料為第六屆中文傾向性分析評測給出的任務一面向新聞的情感關鍵句抽取與判定中的10 000篇文本。該任務要求抽取出給定文本的情感關鍵句,因需要對文本中的句子進行傾向性分析,故首先要進行主觀句識別。本文選取給定的前6 000篇文本,總共包含141 024個句子作為訓練集,剩余4 000篇文本含有的106 350個句子作為測試集。
3.2 評價指標
實驗將由本文所提出的算法提取出的主觀句同Baseline方法進行比較,使用準確率、召回率和F值來反映主觀句識別能力表示為式(4)~(5)。
(4)
(5)
(6)
其中a為算法識別出的主觀句集合中準確的句子數,即在主觀句集合和扔標注集合中都出現的句子的個數,b為算法識別出的主觀句集合中的句子數,c為人工標注集合的句子數。
3.3 實驗及結果分析
在本文中抽取主客觀特征使用的是結合信息增益和卡方統計的方法,因此在實驗一中分別采用文檔頻率、信息增益、卡方統計和本文方法這四種方法進行特征提取,并通過準確率和召回率反映每種方法的優劣。此外,在具體的主觀句識別系統中需要有明確的K值,因此通過實驗二來確定K最終的取值。實驗三主要是對抽取出的特征類別在主觀句中分布情況的展示。應用HMM標注特征角色時對每個類別的識別效率不近相同,因此本文在實驗四中分別驗證了HMM對每個特征類別的識別率。本文提出的方法與Baseline方法的比較實驗在實驗五中給出。
實驗一 特征選擇方法
本文分別應用文檔頻率、信息增益、卡方統計和本文方法分別進行特征選擇的結果如圖2所示。

圖2 特征選擇方法對比
由圖2可以看出,本文使用的信息增益和卡方統計聯合分層次特征選擇方法對主客觀文本這個二分類問題具有更好的效果。
實驗二 確定特征維數 K
為了確定具有最好分類效果的特征維數,在這里對K取不同的值對最后主客觀句子分類的準確度進行驗證,分別測試了K為200,400,600,1 000,1 200,1 400,1 600,1 800,2 000,2 200,2 400,2 600,2 800,3 000時主客觀句子分類的準確度。

圖3 主客觀句分類的準確度隨特征維數K的變化趨勢
其中橫坐標代表特征維數,縱坐標代表主客觀句分類的準確度,圖中的折線表示主客觀句分類的準確度隨特征維數變化的趨勢。可以看出,當K=2 200時,主客觀句分類的準確度最高并且趨于平衡,因此,對于本文所采用的語料庫來說,特征維數K的取值為2 200。
實驗三 主觀特征集提取
應用本文特征提取方法總共獲得七類2 200個主客觀特征,其中每一類所包含的特征詞的個數如表2所示。

表1 人工標注的主客觀句分類結果

表2 主觀句中的特征分布情況

續表
實驗四 HMM對各個特征類別的識別效果
應用HMM識別句子中的七類特征結果如圖4所示。

圖4 各個特征類別的識別效率的變化趨勢
從圖4可以看出,HMM對特征類別的識別效率隨著訓練語料的增加維持在一個較穩定的水平,其中平均識別率為0.751。從而當語料庫覆蓋面足夠大時,HMM特征角色標注方法可以很好的對句子的詞匯序列進行標注。
實驗五 對比實驗
本文采用的Baseline方法為文獻[15]和文獻[16]中的方法。其中文獻[7]中的方法是連續雙詞詞類組合模式(2-POS)方法,文獻[16]中的方法是基于特征詞典匹配主觀線索詞的方法。接下來分別采用以上兩種方法和本文方法對本文的測試語料進行主觀句識別。由于最后抽取的結果受不同的η取值的影響,因此在這里首先對η取不同的參數值對系統的準確度進行驗證,分別測試了η為2,4,6,8,10,12,14,16,18,20時系統的性能。

圖5 系統的性能隨調節參數 η的變化趨勢

圖6 三種主觀句識別方法對比
其中,在圖5中橫坐標代表調節參數η的取值,縱坐標代表系統的性能,圖中的折線表示系統的性能隨調節參數η的變化趨勢。可以看出當η的取值為12時,系統抽取出的主觀句的準確度最好,因此本文中η=12。從圖6中可以得到,應用基于HMM模型標注的識別主觀句的方法查準率和F值均高于Baseline方法,查全率方面需要進一步的提高。由此可見,本文提出的基于HMM模型的主觀句識別方法是可行的。
本文主要包括主觀特征詞集提取、基于HMM模型的特征角色標注和主觀句提取三個基本的模塊。與傳統的基于特征詞典的概率統計方法相比,應用HMM模型標注特征角色可以考慮特征之間的語法與語義關系,從而提高特征識別的準確性,通過實驗證明,該方法能夠有效地識別給定文本中的主觀句。本文只在特征詞這一層面上進行分析,并沒有分析短語和句子級別的關系,今后將往這方面做進一步的努力。
[1] 徐琳宏, 林鴻飛, 楊志豪. 基于語義理解的文本傾向性識別機制[J]. 中文信息學報, 2007, 21(1): 96-100.
[2] 李綱, 程洋洋, 寇廣增. 句子情感分析及其關鍵問題[J]. 圖書情報工作, 2010, 54(11): 104-107.
[3] 徐軍, 丁宇新, 王曉龍. 使用機器學習方法進行新聞的情感自動分類[J]. 中文信息學報,2007,21(6): 95-100.
[4] 婁德成, 姚天叻. 漢語語句主題語義傾向分析方法的研究[J]. 中文信息學報,2007,21(5):73-79.
[5]BruceRF,WiebeJM.Recognizingsubjectivity:acasestudyinmanualtagging[J].NaturalLanguageEngineering, 1999, 5(2): 187-205.
[6]RiloffE,WiebeJ,WilsonT.Learningsubjectivenounsusingextractionpatternbootstrapping[C]//Proceedingsofthe7thConferenceonNaturalLanguageLearningatHLT-NAACL2003-Volume4.AssociationforComputationalLinguistics, 2003: 25-32.
[7]HatzivassiloglouV,WiebeJM.Effectsofadjectiveorientationandgradabilityonsentencesubjectivity[C]//Proceedingsofthe18thConferenceonComputationalLinguistics-Volume1.AssociationforComputationalLinguistics, 2000: 299-305.
[8]RiloffE,WiebeJ.Learningextractionpatternsforsubjectiveexpressions[C]//Proceedingsofthe2003ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.AssociationforComputationalLinguistics, 2003: 105-112.
[9]KamalA.SubjectivityClassificationusingMachineLearningTechniquesforMiningFeature-OpinionPairsfromWebOpinionSources[J].InternationalJournalofComputerScienceIssues(IJCSI), 2013, 10(5).
[10] 姚天昉, 彭思崴. 漢語主客觀文本分類方法的研究[C]//第三屆全國信息檢索與內容安全學術會議論文集. 2007.
[11] 葉強, 張紫瓊, 羅振雄. 面向互聯網評論情感分析的中文主觀性自動判別方法研究[J]. 信息系統學報,2007,1(1):79-91.
[12] 林慧恩, 林世平. 中文情感傾向分析中主觀句子抽取方法的研究[C]//全國第 20 屆計算機技術與應用學術會議(CACIS·2009) 暨全國第1屆安全關鍵技術與應用學術會議論文集 (上冊). 廣西 南寧. 2009.
[13]YangYiming,PedersenJO.Acomparativestudyonfeatureselectionintextcategorization[C]//Proceedingsof14thConferenceonMachineLearning.Nashville:MorganKaufmannPublishers, 1997: 414-420.
[14] 郭葉. 中文句子情感傾向分析[D]. 北京郵電大學, 2010.
[15] 楊健, 汪海航. 基于隱馬爾可夫模型的文本分類算法[J]. 計算機應用, 2010 (9): 2348-2350.
[16] 朱穎. 基于HMM的漢語詞性標注及其改進[D]. 太原理工大學, 2011.
Subjective Sentence Recognition Based on Hidden Markov Model
LIU Peiyu1, 2, XUN Jing2, FEI Shaodong2, ZHU Zhenfang3
(1. School of Information Engineering, Shandong Yingcai University, Jinan, Shandong 250104, China;2. School of Information Science and Engineering, Shandong Normal University, Jinan, Shandong 250014, China;3. School of Information Science and Electric Engineering, Shandong Jiaotong University, Jinan, Shandong 250357, China)
The current subjective and objective text classification methods are mainly based on statistical model over the feature lexicon, which didn’t take into account the syntax and semantic relationships between features. The paper proposes a Chinese subjective sentence recognition based on Hidden Markov Model. In this method, seven kinds of subjective and objective features for classification are extracted tagged among each sentence by HMM. The subjective sentences are decided by the importance of features and syntactic structure of sentences. The method is examined in the task of COAE2014 for its effeiciency.
Hidden Markov Model; feature tagging; subjective sentence recognition

劉培玉(1960-),教授,博士生導師,主要研究領域為計算機網絡信息安全、自然語言處理。E-mail:liupy@sdnu.edu.cn荀靜(1989-),碩士,主要研究領域為文本摘要、中文傾向性分析。E-mail:xunjing311416@163.com費紹棟(1984-),博士,主要研究領域為網絡輿情分析#中文傾向性分析。E-mail:124659865@qq.com
1003-0077(2016)04-0206-07
2014-09-10 定稿日期: 2015-03-20
國家自然科學基金(61373148);國家社會科學基金(12BXW040);山東省自然科學基金(ZR2012FM038, ZR2011FM030);山東省優秀中青年科學家獎勵基金(BS2013DX033)
TP391
A