999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于淺層篇章結構的評論文傾向性分析

2011-07-05 08:38:16江,侯敏,王
中文信息學報 2011年2期
關鍵詞:語義情感結構

楊 江,侯 敏,王 寧

(1. 中國傳媒大學 文學院,北京 100024; 2. 中國傳媒大學 有聲媒體語言分中心,北京 100024)

1 引言

隨著我國互聯網事業的迅速發展,網絡作為一種新型媒體不但成為各種社會思潮、利益訴求和意識形態較量的場所,而且也是民眾評議時政、談是論非、交流觀點的集散地。有關網絡輿情監測的研究由此引起研究人員的重視。網絡輿情監測中一個重要的內容是對各種言論進行傾向性分析,利用計算機自動地挖掘和處理文本中的觀點、情感、態度、傾向等主觀性信息,這類研究又稱作“情感分析”或“觀點挖掘”。近年來,由于在觀點搜索、輿情分析、產品推薦、自動問答系統等諸多領域有著重要的應用,傾向性分析越來越受到人們的關注。

傾向性分析以主觀性文本為處理對象。主觀性文本“主要描述了作者對事物、人物、事件等的個人(或群體、組織等)想法或看法”[1]。其中,評論文是一類典型且常見的主觀性文本,它針對具體的人、物、事件,就其有關方面做出主觀的批評議論。評論文,尤其是新聞評論,是社會輿論的集中反映。因此,評論文的傾向性分析對網絡輿情監測具有重要的價值和意義。

2 相關工作

目前傾向性分析通常在詞語、句子和篇章3個語言層級上展開,所采用的技術主要有基于語義的方法和基于機器學習的方法。基于語義的方法認為傾向性本質上是一種語義,一般可以從計算詞語的傾向性開始逐級獲得句子和篇章的傾向性。基于機器學習的方法則把傾向性分析看作一類特殊的分類問題,關鍵的環節在于構造合適的分類器以及選擇恰當的特征。

研究篇章傾向性的工作以Turney[2]、Pang等[3]、Yi等[4]為代表。Turney采用無指導的學習算法對評論文進行褒貶分類,首先通過計算給定詞或短語與“excellent”和“poor”的互信息差來度量其語義傾向,然后將文本中詞和短語的平均語義傾向作為給定評論文的整體傾向。Pang等分別使用樸素貝葉斯(Na?ve Bayes)、最大熵(Maximum Entropy)和支持向量機(SVM)三種分類模型對電影評論文本的傾向性分類進行了研究,選取的特征包括詞語的一元組、二元組、詞性、位置以及特征的頻數和特征出現與否等。Yi等首先使用語法分析器對句子進行語法分析,然后參照情感詞匯表和情感模式庫對句子進行傾向性分類,并將其運用到文本的傾向性分類中。

由于語言是具有層級體系的符號系統,因此篇章的整體傾向性分析要以句子和詞語的傾向性為基礎。Wiebe等[5]的研究表明,形容詞可以作為判別句子主客觀性的依據。Kim和 Hovy[6]、Wiebe和 Riloff[7]探討了主客觀句子的分類,Yu Hong等[8]提出了面向自動問答系統的觀點句抽取方法,再對抽取的觀點句進行情感分類,判斷其極性。Hu和Liu[9]通過WordNet的同義詞—反義詞關系,得到情感詞匯及其情感傾向,然后由句子中占優勢的情感詞匯的語義傾向決定該句子的極性。Wang等[10]選取形容詞和副詞作為特征,提出了基于啟發式規則與貝葉斯分類技術相融合的評論句子語義傾向分類方法。王根、趙軍[11]提出了一種基于多重冗余標記的CRFs句子情感分析方法,劉康、趙軍[12]進行了基于層疊CRFs模型的句子褒貶度分析的研究。

與以往的研究不同,本文提出一種基于淺層篇章結構的評論文傾向分析方法。文章余下部分組織如下:第3節對本文研究的問題進行了分析,描述了提出的方法;第4節介紹了評論文的主題識別和主題情感句的抽取;第5節闡述了基于主題情感句的評論文傾向性分析;第6節給出實驗結果及其分析;最后一節是結論。

3 問題分析和方法描述

3.1 篇章結構和淺層篇章結構

篇章的整體傾向性是其組成部分傾向性的總和,但各組成部分在特定篇章中的重要程度卻有不同。這是因為不同的文章體裁有不同的篇章結構,而篇章結構體現了組成部分的重要程度。

篇章結構是篇章內部的語言組織規律,又分為宏觀結構和微觀結構,主要包括開頭和結尾、過渡和照應、段落層次關系及謀篇布局的手段和方法。篇章結構在形式上標志了篇章內容的層次性,在意義上保證了篇章內容的完整性,在邏輯上體現了篇章內容的連貫性。可以說,篇章結構是篇章形式、意義和邏輯的統一體。從形式上看,篇章內部大于句子的意義單位中,自然段是人們可以自然察覺到的基本單位,節、章等則是建立在自然段基礎上的更大意義單位。從意義上看,篇章由若干個意義段組成,篇章的中心意義是各意義段的中心意義按一定邏輯關系的組合。

意義段是篇章內部表達相對完整意義的自然段的集合,小到一個自然段,大到一個章節。不同文體劃分意義段的依據不盡相同。就議論文而言,一篇典型的議論文依據其結構模式可以分為“引論”(或“總論”)、“分論”和“結論”等意義段。劃分意義段對理解文章的篇章結構、把握中心思想具有重要意義。

淺層篇章結構指的是較大篇章單位(如意義段)之間的語義關系,是篇章總體上的、高層次的語義結構。它是一種宏觀結構,體現的是篇章主題思想的構建方式,忽略較小篇章單位(如句子)之間的結構關系。進行淺層篇章結構分析的目的,在于直接、快速地獲取篇章的中心思想,進而準確地得到篇章的整體傾向性。

3.2 評論文的特點

評論文是議論文的一種,也稱作“評論”,根據所評論的對象,分為人物評論、時事評論、經濟評論、政治評論、軍事評論、文學評論(含書評)、藝術評論(含影評、劇評、樂評)、商品評論(如汽車評論)、服務評論(如機場服務評論)等。評論文具有以下特點:

(1) 主題明確。評論文與一般的議論文不同,它總是針對具體的人、物、事件的有關方面做出評議,議論的對象明確。

(2) 一篇評論文通常只有一個主題,評論者對主題有明確的傾向性。有的評論文會對主題的下位主題展開議論,但不影響其對該主題的基本立場。對下位主題的評論同樣具有上述兩個特點。

(3) 評論文的主題與其標題有著密切的關系。評論文為了讓讀者看到標題即了解主旨,通常會用精煉的語言道出文章的主題,有時甚至概括出主題和主旨。因此,一般來說,總可以在標題中找到文章的主題。

(4) 評論文的結構通常遵循一定的“范式”。概括起來,評論文的結構有3種基本類型:歸納型、演繹型和演繹歸納結合型,并分別對應3種主要的表達模式:“分—總”式、“總—分”式、“總—分—總”式。評論者對主題的情感表達一般會出現在“總論”和“結論”部分,而“分論”部分的情感不影響其基本的傾向。在有的評論文中,對下位主題的情感表達會出現在“分論”部分。

對560篇評論文*所有評論文收集自HUhttp://opinion.people.com.cn/U。的考察印證了評論文的上述4個特點。統計數據見表1。

表1 評論文各項特點統計結果

3.3 以主題情感句表示的評論文淺層篇章結構

由以上分析得知,評論文的傾向性通過若干意義段按照特定的表達模式反映出來,其整體傾向一般出現在“總說”部分。因此,一個自然而簡單的想法是,通過劃分意義段和判定表達模式的方法對評論文做篇章結構分析后,僅需對“總說”部分所在的意義段進行傾向性分析,即可獲得評論文的整體傾向。

然而,篇章結構自動分析本身是一件困難的工作,這個過程中損失的精度直接影響著篇章傾向性分析的準確率。為了避免完全的篇章結構分析,同時又能在一定程度上利用文章的篇章結構信息,我們引入主題情感句的概念,利用主題情感句能夠隱式地表達評論文的篇章結構這一特點,對評論文進行傾向性分析。

主題情感句是主觀性文本中包含主題概念及與之相關的情感傾向的句子,它既包含著文章的主題,又表達了針對該主題的主觀態度。就評論文而言,主題情感句是表達文章中心思想(這里指主題和情感)的最典型、最直接、最有力的手段。主題情感句對于主題情感的表達具有鮮明的特點。首先,主題情感句在主題上是“同質”的。也就是說,主題情感句針對相同的主題發表意見。這就使得每個主題情感句中的情感可以計算。以往的研究文獻[2-3]沒有考慮主題及與之相關的情感應該相互對應這一問題,導致有可能把不同主題情感或不相關情感混合在一起計算,影響了結論的可信度。其次,主題情感句與文章主題的語義相似度潛在地反映了主題情感句與不同意義段的相關度。主題情感句與文章主題的語義相似度越大,它出現在“總說”部分的可能性就越大;反之,出現在“分說”部分的可能性則越大。再次,主題情感句的分布情況,包括分布的密度和廣度,不但隱式地表示了評論文的篇章結構是“總—分”,“分—總”抑或是其他類型,而且還或多或少地體現了作者對所討論主題的情感強度,對深層次的情感分析有所幫助。

總之,對評論文傾向性分析而言,充分利用文章的篇章結構既符合人的思維方式,也能帶來極大的幫助。在當前完全的篇章結構分析難以獲得滿意效果的情況下,采用以情感主題句表示的淺層篇章結構分析方法,不失為一個好的策略。

3.4 方法描述

綜上所述,我們提出一種基于淺層篇章結構的評論文傾向性分析方法。基本的思路是,在確定評論文主題的基礎上,抽取出主題句;然后對主題句進行主客觀分類,抽取出主題情感句;計算主題情感句與評論文主題的語義相似度,選取相似度最高的若干個句子計算情感傾向,將其平均值作為評論文的整體傾向。下面分別進行論述。

4 評論文主題識別和主題情感句抽取

4.1 評論文主題識別

將評論文的主題概念表示為詞語串集合T={Wn1,Wn2, …,Wni},其中,Wni是一個或多個詞語組成的詞語串。評估Wni是否屬于T,依據的指標是其位置和頻次信息。Wni的位置信息表明了其分布度D(Wni):Wni在評論文中的分布越廣,它與主題相關的可能性越大。Wni的頻率信息表明了其重要度I(Wni):Wni在評論文中出現次數越多,其重要性越大,與主題相關的可能性也越大。由此,將Wni隸屬于T的程度稱為Wni的隸屬度,Wni的隸屬度C(Wni)定義為:

C(Wni)=α·D(Wni) +β·I(Wni)

(1)

其中,α和β是加權系數,用以調節D(Wni)和I(Wni)的權重。

為了快速有效地獲取評論文的主題,采用一種基于n元詞語匹配的方法進行識別。按照下述算法獲取T:

(1) 對評論文標題和正文進行分詞標注,分詞標注結果分別存入隊列Tq和Bq中。

(2) 當n≤m時(其中,1≤m≤Tq中詞語的個數,n初始值為1并自增),循環執行以下操作:連續地從Tq中取出一個n元詞語串Wni,并在Bq中進行查找;如果Bq中存在Wni,則將其插入索引表G={Wni, position, frequency}中。規定當n=1時,W1i必須為實詞。

(3) 根據公式(1)分別計算每個Wni的隸屬度,將隸屬度大于預設閾值Lc的Wni加入T中。

4.2 評論文主題情感句抽取

主題情感句是主觀性文本中包含主題概念及與之相關的情感傾向的句子,它既是主題句,又是情感句。主題情感句決定評論文的情感極性,是判別評論文整體傾向的關鍵。基于主題情感句的評論文傾向性分析方法將與主題無關的情感要素排除在外,使所分析的情感具有“主題同質性”,從而獲得可計算性。主題情感句的抽取分為兩個步驟。

(1) 從評論文中抽取主題句。在已確定主題概念T的前提下,抽取主題句即選取與T在語義上相似度較高的句子,其相似度大小主要取決于二者等同詞串*即形式完全相同的詞或詞串。的數量、等同詞串的長度*即詞串中所含詞語的數量。、非等同詞的語義相似度、候選主題句的位置等因素。根據索引表G中每個Wni的位置信息,可以確定一部分主題句。由于這些句子中含有一個或多個等同詞串Wni,按照Wni的數量及長度賦予一個相應較高的權值,表示這些句子與主題T的相似度較高。對于其他句子,根據劉群﹑李素建[13]提出的基于《知網》的詞匯語義相似度計算方法,依次計算其所含詞語與T中長度為1的Wni的語義相似度。考慮句子在文本和段落中的位置,將所有相似度大于預定閾值Ls的句子確定為主題句。為了獲得較高的召回率,Ls的值通常設置得較小。

(2) 從主題句中抽取主題情感句。從主題句中抽取情感句,其實質是進行主客觀分類。這里采用一種基于詞典匹配的方法,使用預先編制好的情感詞典來判別一個句子是否含有情感傾向。

通過以上步驟抽取評論文中的若干個主題情感句,每個句子均帶有一個表示其與主題語義距離的權值,將這些句子稱為候選主題情感句。

5 基于主題情感句的評論文傾向性分析

基于3.3節的認識,在評論文中,與主題相似度越高的主題情感句,越有可能成為作者表達基本傾向的關鍵句子。同時,為了避免過度依賴于少數候選主題情感句,又要求對更多的句子進行分析。因此,從候選主題情感句集中選取的用于最后分析和計算的句子數量,是一個值得考慮的問題。評論文主題情感句的數量是不定的,這受多種因素影響。根據我們對560篇評論文的考察發現,一般而言,一篇評論文所包含的主題情感句不多于7個,而平均的主題情感句數量約為4個。此外,篇幅較長的評論文,其所包含的主題情感句也通常較多。由此,定義一個可調節的參數γ(依據所分析的評論文篇幅與參考篇幅確定),則對于任一評論文,其所需分析的主題情感句數量N(tss)為:

從候選主題情感句集中提取N(tss)個權值最大的句子,將所有句子的傾向性(sentence orientation, SO)的平均值作為評論文的整體傾向O(r),即:

對于句子的傾向性分析,采用基于詞典的語義方法進行。對于每一個待分析的句子,首先使用依存句法分析器對句子成分做依存分析,然后依據一個預先編制好的情感詞典計算句子中情感表達式的情感傾向,并以此作為句子的傾向性。分析過程中主要考慮了以下句法和上下文因素:(1)情感表達式與主題的關系;(2)情感表達式與其修飾成分的關系,包括否定詞、強調成分等;(3)連接詞語;(4)話語標記;(5)標點符號。

6 實驗及結果

6.1 數據

實驗中使用的語料為漢語時事評論,原始語料采集自人民網觀點頻道(Uhttp://opinion.people.com.cn),均經過了清洗和基本整理,使必要的文本結構信息可用。從中隨機挑選出400篇文本,訓練和指導3名標注人員獨立地標注其情感主題句和整體傾向性。以下是部分標注結果。

表2 測試語料部分標注結果

對標注結果進行了一致性檢查,最終得到370篇(其中,正向情感文本86篇,負向情感文本284篇)標注結果完全一致的評論文,將其作為測試數據。

6.2 資源和工具

為了進行傾向性分析,實驗使用了以下資源和工具。

(1) 情感詞典。我們手工建設了一部正向情感詞典(CUCPosSentDic)和一部負向情感詞典(CUCNegSentDic),分別收集詞條9 701和11 681例。每個詞條均包含詞性、正向情感值和負向情感值。不同于其他情感詞典,我們由專家對詞語的情感傾向進行5級賦值。所收詞條部分來源于“知網”情感分析用詞語集(beta版)和NTUSD(“國立”臺灣大學情感詞典),也收錄了《學生褒貶義詞典》、《褒義詞詞典》、《貶義詞詞典》等詞典條目。

(2) 影響傾向性分析的上下文詞典。包含否定詞、連接詞、話語標記等詞典。

(3) 知網(2000版)。使用了免費的知網(2000版)用于詞語相似度計算。

(4) 語言技術平臺LTP。使用了其中的依存句法分析器用于句法分析。

(5) 中國傳媒大學分詞標注軟件(CUCSeg)。使用CUCseg進行詞語切分和標注。

6.3 實驗結果

主題情感句的抽取是本文工作中至關重要的環節,我們對此進行了實驗。采用傳統的準確率(precision)、召回率(recall)以及F1值(F-measure)等評價指標對性能進行衡量。實驗結果如表3所示。

表3 主題情感句實驗結果

可見,當隸屬度閾值Ls為0.55時,可以獲得較好的準確率和召回率。

對于評論文整體傾向性分析實驗,采用準確率這一指標衡量本文方法的性能。分別采用Turney[2]、Pang等[3]以及本文所述方法在同一測試數據集上進行實驗,實驗結果與Turney[2]、Pang等[3]在不同英文測試數據上所報告的結果比較如表4所示。

表4 評論文傾向性分析實驗結果

顯然,本文的方法在準確率上有較大提高。

我們對49個錯誤結果進行了分析,檢查了各個環節的中間分析結果。分析顯示,約有35%的錯誤來自主題識別階段,大約49%的錯誤是由于對主題情感句分析錯誤所導致,此外還有約4%的錯誤由情感詞典造成。因此,提高主題識別的準確率,加強對句子級傾向性的研究以及編制更好的情感詞典,將有助于提高基于主題情感句的評論文傾向性分析結果。

7 結論

漢語評論文的特點使得我們可以利用情感主題句表示它的淺層篇章結構。本文由此提出了一種基于淺層篇章結構的評論文傾向性分析方法。該方法采用一種基于n元詞語匹配的方法識別主題,通過對比與主題的語義相似度和進行主客觀分類抽取出候選主題情感句,計算其中相似度最高的若干個句子的傾向性,將其平均值作為評論文的整體傾向性。基于淺層篇章結構的評論文傾向性分析方法避免了進行完全篇章結構分析,排除了與主題無關的主觀性信息,實驗結果表明,該方法準確率較高,切實可行。本文后續的研究工作將在加強句子級傾向性分析、改進情感詞典等方面展開。

致謝

本文使用了哈爾濱工業大學信息檢索研究中心提供的“語言技術平臺LTP”以及“知網(2000版)”,情感詞典部分詞語來自“知網”情感分析用詞語集(beta版)和NTUSD,趙晗冰、李楠參與了情感詞典的編制和部分數據的標注,在此一并表示感謝。

[1] 姚天昉,程希文,徐飛玉,等.文本意見挖掘綜述[J].中文信息學報,2008,22(3): 71-80.

[2] P. D. Turney. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews [C]//Proceedings of ACL-02,40th Annual Meeting of the Association for Computational Linguistics. USA: 2002: 417-424.

[3] B. Pang, L. Lee, and S. Vaithyanathan. Thumbs up? Sentiment Classification using Machine Learning Techniques[C]//Proceedings of EMNLP-02, the Conference on Empirical Methods in Natural Language Processing. Philadelphia, USA: 2002: 79-86.

[4] J. Yi, T. Nasukawa, R. Bunescu, and W. Niblack. Sentiment Analyzer: Extracting Sentiments about a Given Topic using Natural Language Processing Techniques [C]//Proceedings of the 3rd IEEE International Conference on Data Mining (ICDM-2003). Melbourne, Florida: 2003: 427-434.

[5] J. Wiebe. Learning subjective adjectives from corpora[C]//Proceedings of the 17th National Conference on Artificial intelligence. Menlo Park. Calif. AAAI Press, 2000:735-740.

[6] S.-M. Kim and E. Hovy. Determining the Sentiment of Opinions[C]//Proceedings of COLING-04, the Conference on Computational Linguistics (COLING-2004). Geneva, Switzerland: 2004: 1367-1373.

[7] J. Wiebe, E. Riloff. Creating Subjective and Objective Sentence Classifiers from Unannotated Text[C]//Proceedings of CICLING, Mexico City, Mexico: 2005: 486-497.

[8] H. Yu and V. Hatzivassiloglou. Towards Answering Opinion Questions: Separating Facts from Opinions and Identifying the Polarity of Opinion Sentences[C]//Proceedings of EMNLP-03, 8th Conference on Empirical Methods in Natural Language Processing. Sapporo, Japan: 2003: 129-136.

[9] M. Hu, B. Liu. Mining and summarizing customer reviews[C]//Proceedings of the 10th ACM SIGKDD. Seattle, USA, 2004:168-177.

[10] C. Wang, J. Lu, G. Zhang. A semantic classification approach for online Product reviews[C]//Proceedings of the 2005 IEEE/WIC/ACM International Conference on web intelligence. Hongkong, China, 2005: 276- 279.

[11] 王根,趙軍. 基于多重冗余標記CRFs的句子情感分析研究[J].中文信息學報,2007,21(5): 51-55.

[12] 劉康,趙軍. 基于層疊CRFs模型的句子褒貶度分析研究[J].中文信息學報,2008,22(1): 123-128.

[13] 劉群,李素建. 基于《知網》的詞匯語義相似度計算[C]//第三屆漢語詞匯語義學研討會,臺北,2002:4-7.

猜你喜歡
語義情感結構
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
如何在情感中自我成長,保持獨立
語言與語義
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
情感
如何在情感中自我成長,保持獨立
論《日出》的結構
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
主站蜘蛛池模板: 亚洲AⅤ波多系列中文字幕 | 亚洲欧美另类日本| 另类专区亚洲| 色噜噜狠狠色综合网图区| 亚洲视频在线青青| 午夜电影在线观看国产1区| 日本免费a视频| 欧美精品啪啪一区二区三区| 久久久受www免费人成| 国产精品自拍合集| 亚洲一区无码在线| 国产美女在线观看| 一级毛片免费的| 亚洲成人福利网站| 欧美人与牲动交a欧美精品| 国产精品亚洲综合久久小说| 毛片免费在线视频| 日本免费高清一区| 在线观看亚洲精品福利片| 好吊妞欧美视频免费| 91精品人妻互换| 婷婷开心中文字幕| av一区二区人妻无码| 美女国产在线| 亚洲第一色网站| 中国成人在线视频| 午夜天堂视频| yjizz视频最新网站在线| 在线播放91| 亚洲成a人在线播放www| 中文无码毛片又爽又刺激| 日韩免费中文字幕| 91小视频在线| 日本国产精品一区久久久| 中文字幕2区| 午夜爽爽视频| 免费高清a毛片| 国产后式a一视频| 久无码久无码av无码| 欧美日韩国产高清一区二区三区| 久久精品视频一| 免费 国产 无码久久久| 久久人与动人物A级毛片| 日韩视频免费| 亚洲三级视频在线观看| 色欲综合久久中文字幕网| jijzzizz老师出水喷水喷出| 色婷婷在线影院| 一本色道久久88| 精品视频91| 国产精品三级专区| 日本草草视频在线观看| 国产麻豆va精品视频| 99re热精品视频国产免费| 日韩毛片免费| 成年人国产网站| 九色视频线上播放| 重口调教一区二区视频| 国产亚洲精品无码专| 这里只有精品国产| 美女视频黄频a免费高清不卡| 亚洲综合18p| 日韩中文字幕亚洲无线码| 国产一在线| 国产在线观看一区精品| 国产av无码日韩av无码网站| 国产欧美日韩免费| 欧美怡红院视频一区二区三区| 四虎国产精品永久一区| 国产成人AV综合久久| 亚洲最新在线| a级毛片免费在线观看| 波多野结衣在线se| 日本日韩欧美| 国产精品香蕉| 又爽又大又黄a级毛片在线视频 | 深爱婷婷激情网| h网址在线观看| 999国产精品永久免费视频精品久久| 五月激激激综合网色播免费| 欧美综合一区二区三区| 免费无码AV片在线观看国产|