周 文,歐陽純萍,陽小華,劉志明,張書卿,饒 婕
(1. 南華大學 計算機科學與技術學院, 湖南 衡陽 421001;2. 懷化市煙草專賣局,湖南 懷化 418000)
一種基于情感依存元組的簡單句情感判別方法
周 文1,2,歐陽純萍1,陽小華1,劉志明1,張書卿1,饒 婕1
(1. 南華大學 計算機科學與技術學院, 湖南 衡陽 421001;2. 懷化市煙草專賣局,湖南 懷化 418000)
基于依存句法“動詞配價”原理與組塊的概念,提出以情感依存元組(EDT)作為中文情感表達的基本單位。它以句中能承載情感的幾類實詞作為中心詞,修飾詞依附于中心詞,程度詞和否定詞依附于中心詞和修飾詞。該文對句子進行句法分析,在句法樹和依賴關系中按規則提取情感依存元組,建立簡單句情感依存元組判別模型計算情感傾向性。針對COAE2014評測公布的網絡新聞語料,將該方法分別與有監督分類算法(KNN、SVM)和半監督算法(K-means)進行實驗對比。結果表明,基于EDT的情感分類性能與有監督的機器學習算法相當,遠高于半監督的聚類算法。
情感依存元組;情感傾向性;依存語法;句法分析
互聯網的興盛催生了大數據時代的到來,數據已經滲透到各個行業和技術領域,成為不可或缺的生產要素。網絡數據中存在大量包含用戶觀點、心情、態度等主觀性信息的文本,對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理叫文本情感分析[1]。文本情感分析具有重要的研究價值和應用價值,例如,對產品評論分析,可以幫助商家對產品進行改進,也可指導用戶消費;對新聞評論分析,可以給企業、政府等機構提供重要的決策依據[2]。文獻[1]闡述了文本情感分類的兩種研究思路: 基于情感知識和基于特征分類的方法?;谔卣鹘y計的機器學習方法實現代價小,但最終獲得的概念層次結構的可理解性難以達到較高的水平[3];基于預定義知識工程的方法則需要過多人工參與,實現代價高。
傳統的文本挖掘方法由于不能有效運用語義信息而難以達到更高的準確度,越來越多的學者轉向從計算語言學角度進行文本分析。對以微博、網絡新聞為代表的社會媒體而言,簡單句是它們的主要構成成分,所以要分析這類社會媒體的情感傾向性,關鍵在于對簡單句進行情感分析。本文提出了一種結合淺層句法分析和語義分析,對簡單句情感表達結構進行抽取和分析的方法。通過對中文情感的表達結構進行分析、歸納,提出以情感依存元組(emotional dependency tuple,EDT)作為情感表達的單位,并基于情感依存元組建立情感判別模型,從而實現對句子級及篇章級簡單文本的情感判別。
目前基于句法分析的研究大多只是借助句法構造基于機器學習的高精度句法分析程序,并沒有實現從句法層面到語義層面的轉換。這種對句法依存關系的籠統分析容易引入主題不相關情感噪聲,為避免噪聲影響,本文致力于探尋一種能有效抽取句子情感表達成分,針對情感表達結構進行精確分析,以判別句子情感傾向性的方法。情感表達結構應具有下述特征:
(1) 情感表達結構是句子的一部分,嚴格遵循句法規則。
(2) 每個情感表達結構以一個中心詞為框架,其他成分修飾中心詞,中心詞為能夠承載或者抒發情感的實詞,如名詞、動詞、形容詞、代詞等。
(3) 情感表達結構的粒度不宜過大,粒度越大其本身的正確識別就越困難,只考慮對與情感有關的依賴關系進行分析,即情感修飾及程度和否定關系。
(4) 程度依賴決定修飾程度因子,否定依賴決定情感極性因子,兩者的順序雖對情感表達結構的情感強度有影響,但不影響情感結構的極性,在進行傾向性判別的任務時暫不細分。
(5) 修飾詞對中心詞的情感貢獻及情感表達結構對句子的情感貢獻可以采用線性組合模型計算得到。
分析發現情感表達結構與依存句法的“動詞配價”理論及組塊的概念存在諸多相似之處。與“動詞配價”理論的區別在于情感表達結構的中心詞為能夠表達或承載情感的實詞,即可以是產生情感的對象,也可以是情感描述的對象,不限定為動詞;不同于組塊理論的是情感表達結構不是按詞性劃分,其相當于情感功能組塊。下面對句法分析與組塊進行介紹。
2.1 句法分析
句法分析是根據給定的語法體系,以詞法分析結果為基礎,自動推導出句子的語法結構,并識別出句子所包含的語法單元和這些語法單元之間的關系。句法分析是自然語言處理的核心技術,是對語言進行深層理解的基石,同時也由于自然語言中大量歧義的存在和隨著句子長度增長候選搜索樹的空間過大使其成為一個難點[4-5]。目前廣泛應用的語法體系有短語結構語法和依存語法。短語結構語法描述能力強,對語言學界和自然語言處理領域都產生了重要的影響,但其不能很好地理解自然語言的歧義結構。依存語法(配價語法)認為句子中的述語動詞是支配其他成分的中心,而它本身卻不受其他任何成分的支配,所有受支配成分都以某種依存關系從屬于其支配者。
短語結構語法目前的研究集中在英文語料上,而依存語法則可直接表示詞語間的關系,并側重反映語義關系,對深層次的角色標注和信息抽取十分有利,被各國學者廣泛接納,使得對它的研究已經在多種語言中開展。在中文句法分析方面,清華大學和哈爾濱工業大學都基于依存語法分別建立各自的句法樹庫(SDN、CDT)。周明[6]最先從事漢語句法分析工作,采用分塊的思想抽取句子中固定關系的語塊進行依存分析。羅強[7]等用產生式模型進行依存分析,然后用SVM分類器訓練,并在哈工大依存樹上實驗取得不錯的效果。張莉[8]等采用句法結構提取候選特征,結合CRFs進行模型訓練抽取評價對象。本文沿用了依存語法體系,認為句子的情感表達結構符合情感表達結構特征的句法樹中的子樹,子樹內部各節點符合配價語法規則。
2.2 組塊
在文本情感分析時,有時我們并不需要實現完全句法分析,可只進行淺層句法分析以降低難度。淺層分析技術已廣泛應用于分詞、命名實體識別等任務中[9]。組塊分析作為淺層句法分析的代表致力于識別句子中的某些結構相對簡單、功能和意義相對重要的成分,只限于把句子解析成較小的單元[4]。淺層句法分析的結果并不是一棵完整的句法樹,各個組塊是完整句法樹的子樹,只要加上組塊之間的依附關系,就可以構成完整的句法樹,對語塊的識別是組塊分析的主要任務[10]。
Abney[11]最早提出了一個完整的組塊描述體系,他把組塊定義為句子中一組相鄰的屬于同一個s-投射的詞語的集合。其后,學者們對英文組塊的定義達成了共識[4]: 句子是由一些短語構成的,而每一個短語是由句法相關的詞構成的,這些短語彼此不重疊、無交集,不含嵌套關系。然而,中文組塊的定義尚未達成統一,最初的研究集中在對名詞短語、介詞短語及短語的自動界定上。文獻[12]和文獻[13]在Abney定義的基礎上各自做了擴展,但他們都強調組塊是一種語法結構,是符合一定語法功能的非遞歸短語,每個組塊都有一個中心詞,并圍繞該中心詞展開,以中心詞作為組塊的開始或結束。后者還指出組塊是嚴格按照句法定義的,不能破壞句子的句法結構,不體現句子的語義和功能;組塊的劃分只依據局部的表層信息,例如詞信息、詞性信息等,而不考慮遠距離約束及句子的整體句法結構。文獻[14]則認為組塊是由實詞(名詞、動詞、形容詞、數詞、量詞、副詞等)組成的詞語序列。除此之外,還有大量研究結合基于統計的方法在開放標準的語料庫進行了組塊識別、內部結構分析等一系列研究,并取得了不錯的成績。
本文綜合了上述幾種中文組塊的定義,認為組塊是圍繞中心詞展開的實詞序列,嚴格按照句法定義,不能破壞其內部的句法結構。同時將情感表達結構理解為具有情感表達功能的組塊。
2.3 情感依存元組
句子中詞語依存關系的樹形表示叫作“依存樹”(dependency tree),樹中節點之間的關系主要有支配關系和前于關系兩種。同一樹枝上的上層節點支配所有下層節點,不同分支上左邊的節點前于所有右邊分支的節點。如句子“鐵路工人學習英語語法”的依存樹如圖1所示。其中“學習”節點支配其他四個節點,“工人”節點和“語法”節點又分別支配“鐵路”和“英語”節點,“工人”和“鐵路”節點都前于“語法”和“英語”節點。

圖1 句子依存樹
綜上所述,情感表達結構是句子組塊在功能上的劃分,用以表達句子情感的基本單位,是句子句法樹的子樹,結構內部仍遵守句法規則。如圖1所示,“學習”、“工人”和“語法”可以作為中心詞構成三個情感表達結構,本文將這種情感表達結構定義為情感依存元組。
定義1情感依存元組(EDT, emotional dependency tuple): 以承載情感或產生情感的實詞作中心詞(CW),情感修飾詞(EW)依附于中心詞,程度詞(DW)和否定詞(NW)序列修飾核心詞和情感修飾詞,構成的中文情感表達的基本結構。
定義2情感依存元組匹配模型: EDT=[*NW/DW][*[*NW/DW]EW]CW[*[*NW/DW]EW],每個EDT有且僅有一個中心詞、若干個修飾詞,每個中心詞和修飾詞又包含若干個程度和否定依賴關系。
情感依存元組是句子情感表達的片段,雖不是完整的句子,但其依存樹中節點同樣遵守句子依存樹中節點的關系,中心詞節點支配著其他所有修飾詞和情感詞節點,一般否定和程度詞前于被修飾的詞,完整的情感依存元組的樹形表示如圖2所示。

圖2 完整的情感依存元組的樹形表示
基于情感依存元組的簡單句情感判別方法要先對句子進行句法分析,生成句法樹和依存關系,然后根據統計創建的規則,從中抽取出情感依存元組,再基于情感依存元組對簡單句建立情感判別模型進行情感傾向性分析。規則的創建與文本體裁無關,且基于簡單句建立情感判別模型,使得本方法具有通用性,并在無領域區分的數據集上進行了驗證。
3.1 EDT的抽取
句法分析產生的依賴關系和句法分析樹是一種結構化數據,在此基礎之上進行信息抽取能更準確地獲取知識,提高信息抽取系統的性能。本文采用Stanford句法分析器,句法分析前先采用中科院分詞器(NLPIR)進行分詞,為保證句法分析的準確性,對用戶詞典進行了擴充,未進行停用詞過濾。以句子“記者還發現很多心態較好的股民十分樂觀”為例,其分詞和詞性標注結果為: “記者/NN 還/AD 發現/VV 很多/CD 心態/NN 較好/JJ 的/DEG股民/NN 十分/AD 樂觀/VA”,對應的句法分析樹和依賴關系如圖3所示。

圖3 句法分析樹與依賴關系
準確和全面的情感依存元組抽取是建立情感分析模型的基礎和關鍵,其具體抽取流程具體如下。
(1) 構建中心詞集T: 情感依存元組的中心詞應該是能引出情感動詞,或者是承載情感的名詞或代詞,在一些主語省略的句子里,形容詞也可以作為中心詞;若中心詞來源于主題特征集,則可只提取與主題相關的情感依存元組,這對排除其他情感因素干擾很有幫助。本文直接從句子提取符合詞性要求的詞作為中心詞,即T={記者,發現,心態,股民}。
(2) 提純中心詞集: 對T中的每個詞判斷,若該詞是句法分析樹的葉子節點則從T中刪除該詞,因為葉子節點中的這些詞不能單獨存在,一定存在支配它們的詞,即它們已經屬于其他情感依存元組。遍歷完之后T={發現,股民}。
(3) 提取中心詞的修飾成分: 根據《現代漢語實詞搭配詞典》中的搭配框架和根據實驗數據統計的提取規則(見表1)進行修飾結構提取。在中心詞所在的兄弟節點及兄弟節點的所有子樹中根據規則進行匹配,抽取中心詞的修飾成分,如對中心詞“股民”可提取出(股民,心態)、(股民,較好)、(股民,樂觀)三對形如(中心詞,修飾詞)的修飾結構。
(4) 提取程度和否定依賴: 從句子的依賴關系中提取中心詞和修飾詞的否定依賴和程度依賴關系, 提取出依賴關系advmod(樂觀-10, 十分-9)和nummod(心態-5, 很多-4)。
按上述步驟即可完成對一個簡單句的情感依存元組的提取,其中中心詞為“股民”的元組根據匹配模型可表示為[[很多[心態]][樂觀]股民[十分[樂觀]]]。

表1 中心詞的修飾關系提取規則
3.2 基于EDT的情感判別模型
不考慮復雜句間的語義關系,句子的情感極性與強度由句子中包含的情感依存元組的個數和極性決定,我們建立情感分析模型對句子進行情感傾向性判別,具體算法設計如下。
(1) 對每個情感依存元組,設置中心詞的原始極性PriorPolarity(CW)=1,執行以下操作。
(2) 查詢情感詞典獲取并設置每個中心詞CW的情感極性 PriorPolarity(CW),正極性為1,負極性為-1,無極性時采用原始極性。
(3) 對每個中心詞獲取其修飾詞EW,若存在修飾詞則設置其原始極性PriorPolarity(EW)=0,并為每個修飾詞從情感詞典中獲取它的情感極性;若中心詞沒有支配任何修飾詞,則執行步驟(5)。
(4) 初始化修飾詞的每個程度和否定修飾為1,即ModifiedPolarity(EW)=1,然后從句子的依賴關系集中獲取程度依賴和否定依賴,每獲取一個程度依賴,則將ModifiedPolarity(EW)乘以程度系數(首先建立程度詞表),每獲取一個否定依賴則ModifiedPolarity(EW)=-ModifiedPolarity(EW),最終得到每個修飾詞的否定程度。
(5) 對每個中心詞按步驟(4)中的方法計算其否定程度ModifiedPolarity(CW)。
(6) 計算整個情感依存元組的情感極性Polarity(EDT),中心詞和修飾詞的極性都由原始極性和修飾極性兩部分疊加而成,所以元組的情感計算公式為
其中,n為中心詞的修飾詞個數,P表示Polarity,MP為ModifiedPolarity,PP為PriorPolarity。式中加1是使得當沒有修飾詞或修飾詞無情感時,由中心詞的極性決定。
(7) 句子的情感值為句子各情感依存元組的情感之和,句子總情感計算公式為
其中,n為句子Sen中情感依存元組的個數。
基于情感依存元組的情感分析模型綜合考慮了中心詞有、無修飾詞的情況,將否定和程度作為一個整體進行考慮,并可以疊加計算多層否定和程度關系,保證在極性和強度上與實際情感值一致。
4.1 實驗設置
實驗數據采用第六屆中文傾向性評測(COAE2014)“面向新聞的情感關鍵句抽取與判定”任務提供的評測數據,數據樣本采集自各大新聞網站、博客及論壇,未劃分領域,且長度、文體各異,共5 355條已人工標注傾向性的句子。先從數據集中排除了具有多義性的樣本,然后隨機抽取3 000條作為訓練數據,剩余的2 347作為測試數據。共設置了兩組實驗,分別采用有監督的KNN和SVM分類算法及半監督的K-Means聚類算法與本文方法在同一數據集上進行簡單句情感傾向性判別的對比實驗。由于特征表示對于機器學習算法性能的影響巨大,本文采用了已實驗成功的特征表示方法[17],即基于頻率和頻率比值的方法提取特征詞和特征詞性。最后采用F值(F-measure)、準確率(Precision)、召回率(Recall),以及微平均(Micro)準確率、召回率和F值作為實驗結果評價指標。計算公式如下:
Micro_Precision=
Micro_Recall=
Micro_F-measure=
其中,#gold是測試集中人工標注情感為Y的樣本數目;#system_correct是測試集中計算結果與人工標注結果匹配的數目;#system_proposed是測試集中計算結果為Y的樣本數目;i分別表示句子的正、負情感。
4.2 基于有監督分類算法的情感判別
分類算法又稱為有監督學習算法,分類器可以根據已標注類別的訓練集通過訓練對未知類別的樣本進行分類。在有監督的機器學習算法中我們挑選了KNN和SVM兩種公認效果比較好的分類算法來做對比實驗。
KNN(KNearestNeighbors,K最近鄰)算法是通過待分類樣本周圍最近的K個樣本中分布數目最多類別確定待分類樣本的類別,K值的選定對算法的準確性有重大影響,K值選取過大容易引入不相似樣本的干擾,K值選擇過小則影響算法精度。我們在訓練過程中不斷調整K值的大小,通過實驗確定K值為21。通過為每個句子構建特征向量,以測試樣本向量與每個訓練樣本向量間的余弦距離找出最近的K個訓練樣本,確定測試樣本的類別。
SVM(support vector machine,支持向量機)算法,是一種基于結構風險最小化原則的分類方法,可以根據有限的樣本信息在模型的復雜度和學習能力之間求得最佳折中,即獲取局部最優解。SVM可將多標簽分類問題分解成多個二分類問題,為提高分類效果,本文先構造一個有、無情感的二分類器,再為有情感的樣本構造一個正、負傾向的二分類器。SVM訓練程序是來自臺灣大學林智仁教授等開發的Libsvm,通過3 000條訓練數據訓練出一個穩定的分類器,然后對測試數據進行分類。
4.3 基于半監督聚類算法的情感判別
有監督算法需要人工標注大量的樣本作指導,而大規模標注不切實際。無監督聚類算法能在沒有任何先驗數據的條件下對樣本進行聚類分析,但性能還有待進一步提高。在實際問題中,我們能利用少量先驗知識對大量沒有標注的樣本數據進行無監督的聚類分析,這類算法通常被稱為半監督算法[16]。本文選取K-means聚類算法在半監督條件下進行對比實驗。
K-means是一種有效的基于樣本間相似度的間接聚類算法,算法通過迭代將N個對象劃分成K個簇,每次迭代利用各聚類中各項與“質心”相似度均值更新“質心”,使得同一簇中的對象相似度較高,不同簇中對象的相似度較低。初始質心的選擇對K-Means算法的聚類效果十分關鍵,隨機選取初始質心的聚類效果往往很差。本實驗中類別標簽已知為正向、負向和中性三類,K取值為3,并通過小樣本先驗知識確定3個初始質心來提高聚類效果。
K-means算法實現過程如下:
(1) 令K=3,從實驗數據D={d1,d2,…,dn}中取出各類樣本50條,先分別手工計算出各聚類質心{CP-1,CP0,CP1}。
(2) 對數據集D中的每個數據點di,計算di與CPk(k=-1,0,1)的余弦距離CosDistance(k),將數據點di劃歸為CosDistance(k)最大值對應的質心。
(3) 對每個質心,根據其所包含的數據點集合,重新計算得到一個新的質心。
(4) 計算新質心和原質心之間的距離,若新、舊質心的距離達到設定閾值,即質心變化不大,趨于穩定,則終止算法,否則迭代步驟(2)~(4)步,直到新舊質點達到閾值或迭代規定的次數。
(5) 輸出每個文檔所屬分類。
4.4 實驗及結果分析
基于情感依存元組的情感判別方法是基于情感知識和規則相結合的無監督方法,而SVM、KNN和K-means均屬于基于統計的機器學習方法,其中SVM和KNN算法是有監督的方法,K-means算法則是半監督聚類方法。文獻[2]和[18]對這幾類方法做了總結,基于機器學習的分類器要比手工分類效果好得多;基于有監督學習的方法精度較高,但依賴于人工標注語料庫;無監督的方法依賴于處理語料的領域范圍,正確率較低。為分析基于情感依存元組的無監督方法與機器學習方法的對比效果,分別在同一組實驗數據上進行了四組實驗,并在實驗數據上采用N-CV(cross validation)方法進行驗證,其中N值取2。從正向、負向和微平均查準率、查全率及F值幾個指標對四種方法進行分析,結果如表2所示。

表2 實驗結果
從實驗結果來看: 基于EDT的方法總體上與有監督的分類方法的效果處于同一水平,明顯高于半監督的K-means聚類方法。再單獨分析各個指標,EDT的準確率較高,召回率較SVM和KNN兩者略低。可見,基于中文句子語法提取情感表達的結構,分析句子情感的思路是可行的,對情感依存元組的定義及(中心詞、修飾詞)的提取規則是正確的,迭代地對每個情感依存元組的程度和否定關系進行了細化分析提高了準確率。為進一步提高準確率,還需進一步完善情感本體庫的構建。
針對本方法召回率不高的問題,分析其主要原因有情感依存元組抽取規則不夠完善,句法分析和模型分析的細節處理不夠精細。我們將在情感依存元組的提取規則進一步完善和句法分析的準確性方面做更加深入的研究,并可對情感依存元組的中心詞做了同義替換,提高情感分類的召回率。
本文從中文句子的語法結構出發,分析情感表達的基本結構、組織形式、成分間的關系,并將情感表達結構定義為情感依存元組(EDT)。通過建立提取情感依存元組的中心詞-修飾成分的規則集,實現了情感依存元組的有效抽取。并針對簡單句建立了完整的情感判別模型,對情感依存元組的否定和程度關系做迭代分析,實現了一種新的無監督簡單句情感分類方法。通過與經典的聚類算法和分類算法效果進行比較,本方法分類性能基本接近有監督分類算法,遠高于半監督的聚類算法,并且克服了兩類機器學習方法各自的局限。
本文總結了情感依存元組的提取規則,下一步,我們將對詞的語義分析進行研究,考慮研究中心詞的同義替換,以提高本方法的性能,并在不同的語料集,特別是以微博、微信為代表的新興社會媒體語料中進行交叉對比實驗,驗證本方法統計的顯著性與普適性。同時考慮將互聯網上弱監督的數據作為訓練數據,將情感依存元組以不同特征組合的形式加入分類器中,進一步提升算法的分類性能。
[1] 趙妍妍, 秦兵, 劉挺.文本情感分析[J].軟件學報, 2010, 21(8): 1834-1848.
[2] 周立柱, 賀宇凱, 王建勇. 情感分析研究綜述[J].計算機應用,2008,28(11): 2725-2728.
[3] 賈焰, 王永恒, 楊樹強.基于本體論的文本挖掘技術綜述[J].計算機應用,2006,26(9): 2013-2015.
[4] 李業剛, 黃河燕.漢語組塊分析研究綜述[J].中文信息學報,2013(3): 1-8.
[5] 吳偉成, 周俊生, 曲維光. 基于統計學習模型的句法分析方法綜述[J].中文信息學報,2013(3): 9-19.
[6] Zhou M. A block-based robust dependency parser for unrestricted Chinese text [C]//Proceedings of 2nd Chinese Language Processing Work shop, ACL. 2000: 224-30.
[7] 羅強, 奚建清. 一種結合SVM學習的產生式依存分析方法[J]. 中文信息學報,2007,21(4), 21-26。
[8] 張莉, 錢玲飛, 許鑫. 基于核心句及句法關系的評價對象抽取[J].中文信息學報,2011,25(3): 23-29.
[9] 劉挺, 馬金山. 漢語自動句法分析的理論與方法[J]. 中文信息學報,2009,11(2),100-112.
[10] 孫宏林, 俞士汶. 淺層句法分析方法概述[J].當代語言學,2000,2(2)74-83.
[11] Berwiek R, Abney S , Carol T, eds. Principle-based parsing[M]. Dordrecnt: Kluwer Academic Publishers, 1991: 257-278.
[12] 李素建, 劉群, 白碩. 統計和規則相結合的漢語組塊分析[J]. 計算機研究與發展,2002,39(4): 385-391.
[13] 孫廣路. 基于詞聚類特征的統計中文組塊分析模型[J].電子學報,2008,36(12): 2450-2454.
[14] 張昱琪, 周強. 漢語基本短語的自動識別[J].中文信息學報,2002,16(6): 1-8.
[15] 肖宇, 于劍. 基于近鄰傳播算法的半監督聚類[J]. 軟件學報,2008, 19(11): 2803-2813.
[16] 歐陽純萍, 陽小華, 雷龍艷. 多策略中文微博細粒度情緒分析研究[J]. 北京大學學報(自然科學版), 2014,50(1): 67-72.
[17] 謝麗星, 周明, 孫茂松. 基于層次結構的多策略中文微博情感分析和特征抽取[J].中文信息學報,2012,26(1): 73-83.
ASimple-sentenceSentimentClassificationMethodBasedonEmotionalDependencyTuples
ZHOU Wen1,2, OUYANG Chunping1, YANG Xiaohua1, LIU Zhiming1, ZHANG Shuqing1, RAO Jie1
(1. School of Computer Science and Technology, University of South China, Hengyang, Hunan 421001, China; 2. Huaihua Tobacco Monoply Bureau, Huaihua, Hunan 418000,China)
Based on the principle of “Verb Valency” and the dependency parsing, this paper proposes to treat the emotional dependency tuple (EDT) as the basic unit of Chinese emotional expression. An EDT consists of the core words (i.e. several selected categories of contents words expressing emotion in the sentence), the modifier attached to the core words, and the degree or negative words attached to either the core words or the modifiers. The EDTs are extracted from the parsed sentences, and the emotional dependency tuples based sentiment classification model is established. Experimented on the web news corpus released by COAE2014, the proposed method outperforms the semi-supervised algorithm(K-MEANS), producing comparable results to the supervised classification algorithms(KNN,SVM).
emotional dependency tuple; emotional tendencies; dependency syntax; parsing

周文(1988—), 碩士研究生,主要研究領域為數據挖掘、自然語言處理。

歐陽純萍(1979—),副教授,碩士生導師,主要研究領域為命名實體識別、自然語言處理。

陽小華(1963—),通信作者,教授,博士生導師,主要研究領域為信息檢索與知識科學。
1003-0077(2017)03-0177-07
2015-02-04定稿日期: 2016-01-05
國家自然科學基金(61402220);湖南省自然科學基金(13JJ4076);湖南省教育廳優秀青年項目(13B101);南華大學重點學科和創新團隊建設基金項目
TP391
: A