999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于概率潛在語義分析的詞匯情感傾向判別

2011-06-28 02:18:20宋曉雷王素格李紅霞李德玉
中文信息學報 2011年2期
關鍵詞:語義詞匯情感

宋曉雷,王素格,2,李紅霞,李德玉,2

(1. 山西大學 計算機與信息技術學院, 山西 太原 030006;2. 山西大學 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006;3. 山西大學 數學科學學院, 山西 太原 030006)

1 引言

在網絡信息爆炸的今天,利用計算機自動分析大規模文本的情感傾向技術,在市場營銷、客戶關系管理以及政府輿情分析等諸多領域有著廣闊的應用空間和發展前景。然而,詞匯作為語言學的一個基本語義單位,其情感傾向的判別對更大語言粒度的情感傾向性研究有著非常重要的作用[1]。因此,對詞匯的褒貶傾向判別是篇章情感傾向研究工作的基礎。

Turney[2]使用PMI-IR方法研究詞匯的情感傾向性,利用點互信息表示目標詞與基準詞之間的關聯強度,進而求出目標詞的情感傾向;文獻[3]利用WordNet計算詞匯傾向性,先選擇基準詞,然后判別待定詞與基準詞在WordNet中是否為同義詞, 得出詞匯的傾向性;徐琳宏等[4]采用HowNet作為基準詞,通過計算目標詞與基準詞的關聯度,確定目標詞匯的語義傾向;文獻[1]對基準詞的選取進行了研究(采用Fisher準則),并進一步考慮目標詞與其同義詞的關系,提出了基于同義詞的詞匯情感傾向判別方法,該方法不僅考慮了目標詞與基準詞的關聯強度,而且也考慮了目標詞的同義詞與基準詞的關聯強度,取得了不錯的效果。此外,復旦大學[5]、香港城市大學[6]、中國科學院自動化研究所[7]都進行了相關的研究。

在自然語言處理中,數據稀疏一直是困擾人們的一大問題。對語料規模較小或單純考察一個詞與褒貶義基準詞集的同現信息時更容易遇到數據稀疏問題,而數據稀疏問題制約著實驗性能的提高。文獻[3]的研究發現其性能隨著語料規模的減小而急劇變差,當測試集為2 697詞時,其在20億個詞的語料規模上準確率為83.98%,當語料規模減至 1 000 萬個詞時,其準確率迅速減為63.40%,由此,揭示了數據稀疏問題能嚴重影響實驗的性能。文獻[1]利用同義詞信息在一定程度上解決了數據稀疏問題。文獻[4]則采用了擴大基準詞范圍的策略來解決數據稀疏問題,然而上述研究[1,3-4]都需要用到外部資源(同義詞詞林、WordNet、HowNet),外部資源的有限性將會限制其推廣性。本文在較小規模的語料上(語料規模為1 006篇文檔,共有570 506個詞次),利用概率潛在語義分析,給出了用于詞匯情感傾向判別的兩種方法,一定程度上解決了數據稀疏問題。

2 概率潛在語義分析對稱參數表示模型

(1) 參數表示模型

概率潛在語義分析(PLSA)最初是Hoffmann[8]在潛在語義分析(LSA)的基礎上提出的一種新方法。該方法引入潛在語義空間概念,使用概率模型來衡量“文檔—潛在語義—詞”三者之間的關系,文檔和詞都可以通過計算語義空間上的夾角而得以量化,PLSA采用了迭代算法來實現,其模型為PLSA的對稱參數模型(如圖1所示)。和LSA(潛在語義分析)相比,PLSA有明確的物理意義,多義詞和同義詞的現象均可在潛在的語義空間中得到合理的表示。本文在文獻[9-10]的基礎上, 將PLSA的對稱參數模型進一步泛化,概括如下:

PLSA假設“A-B”對之間是條件獨立的,并且潛在語義在A或B上分布也是條件獨立的。在上面假設的前提下,根據圖1所示的模型,依據公式(1)計算出的概率產生每一個觀測對(a,b)。

其中,P(a|z),P(b|z)分別為潛在語義在A上和B上的分布概率。Z表示k維潛在語義空間,k為一個經驗常數。

圖1 PLSA對稱參數模型

(2) EM算法

概率潛在語義分析使用最大期望(Expectation Maximization, EM)算法對潛在語義模型進行擬合,在初始化數據基礎上,交替實施 E 步驟和 M 步驟迭代計算。

在E步驟中,計算出在每一對 的條件下產生潛在語義塊z的先驗概率;

在 M 步驟中,對模型重新估計;

直到如式(2)所示的似然函數L的變化小于某一個給定的閾值,即可認為達到了最優解。

其中m(a,b)表示a和b在限定的范圍內共現的次數(如果A,B分別為詞集和文檔集,則m(a,b)表示詞a在文檔b中出現的次數;若A,B同為詞集,則表示它們在文檔的某一限定長度內共現的次數)。

3 基于概率潛在語義分析的詞匯情感傾向判別

3.1 基于詞匯相似度的詞匯情感傾向判別

目標詞和基準詞之間相似度利用目標詞和基準詞之間的相似矩陣(p(t_wordi,j_wordi))n×m來度量。

詞匯情感傾向類別確定:利用投票法對每個目標詞t_word的情感傾向SO(t_word)進行判別。其思想為與目標詞t_word相似度最高的前k個基準詞中,具有相同傾向類別最多的基準詞所在類別為該t_word傾向性,其形式化如下:

其中j_word1,…,j_wordk為與目標詞t_word相似度最高的前k個基準詞。

3.2 基于語義聚類的詞匯情感傾向判別

(1) 目標詞t_word的同義詞集合:利用目標詞和目標詞之間的相似矩陣(m(t_wordi,t_wordj))n×n,自動找到與每個目標詞相似度最高的前k個目標詞集{t_word1,…t_wordk},將其看作目標詞t_word的相同語義聚類集合。

基于語義聚類的詞匯情感傾向強度:

其中,SO_PMI(t_word)是利用文獻[2]的方法計算每個目標詞與基準詞集的關聯強度。

詞匯情感傾向類別確定:每個目標詞t_word的情感傾向SO(t_word)由判別公式(6)來決定。

其中λ為經驗閾值。

(2) 對目標詞—基準詞索引矩陣(m(t_wordi,j_wordj))n×m的不同優化策略。

如果在限定的窗口內目標詞和所有基準詞均沒有同現關系,則目標詞—基準詞索引矩陣對這部分目標詞不能提供任何信息,使這部分目標詞的情感傾向無法判別。為此,本文采用兩種優化策略。

策略1:“簡單策略”,即僅僅擴大同現窗口;

策略2:“融合策略”,即僅對目標詞—基準詞索引矩陣無法提供信息的目標詞進行改進,擴大其窗口,同時對其增加懲罰因子,用于弱化由于擴大窗口所帶來的噪聲,其他詞語處理策略保持不變。其“融合策略”如下:

對目標詞—基準詞索引矩陣中的全零行,擴大其同現窗口,對求得的新非零矩陣中的元素m(t_wordi,j_wordj)′,再利用公式(7),求得最終m(t_word,j_word)的值。

其中floor(.)為取整算子,為懲罰因子,文中 的選取由試驗確定。

4 實驗結果及其分析

4.1 實驗數據與評價標準

實驗數據采用文獻[1]所提供的語料,語料規模為1 006篇文檔,570 506個詞次,正面文本576篇,反面文本430篇,測試數據共有2 958個目標詞,包括形容詞、副詞、名詞和動詞四種類別。

本文對基準詞的選取不再做深入研究,參照文獻[1]所選用的基準詞。評價對象的評價指標:采用精確率、召回率和F值;PR、PP、PF、NR、NP、NF、OF分別表示正面召回率、正面精確率、正面F值、反面召回率、反面精確率、反面F值、總體F值。

4.2 實驗結果與分析

為了驗證各種情況下詞匯情感傾向判別結果,進行了4個實驗。“PMI-IR”表示文獻[2]中的方法;“方法1”為第3.1節中介紹的基于詞匯相似度的詞匯情感傾向判別;“去零行”表示PMI-IR或方法1中去除無法用相似矩陣計算與基準詞相似比較的目標詞。“方法2”為第3.2節中介紹的基于語義聚類的詞匯情感傾向判別。

實驗1:為了驗證不同數目的潛在語義塊數目k對基于目標詞—基準詞表示模型的詞匯情感傾向判別實驗性能的影響,利用方法1進行實驗,其結果如表1所示。

表1 不同潛在語義塊的實驗結果

觀察表1可知:k的取值并非越大越好。若k太大,則潛在語義塊太多,使其粒度過小,失去了采用潛在語義分析的作用。因此,本文取60。

實驗2:為了驗證不同目標詞—基準詞相似矩陣的情況下,PMI-IR方法和方法1對目標詞極性判斷的影響,對其進行實驗,實驗結果見表2。

表2 兩種方法在不同相似矩陣情況下的詞匯情感傾向判別實驗結果

由表2可知,PMI-IR直接利用目標詞t_word與基準詞集的相關性來判別其情感傾向,效果不能令人滿意,主要原因在于很多目標詞與基準詞并不在限定的窗口內同現或者僅與極少數基準詞同現,使得與這些目標詞對應的PMI(t_word,j_word)值沒有意義。利用“方法1”詞匯情感傾向判別結果在一定程度上得到了提高,但對于目標詞與基準詞不同現的情形仍無能為力,當去除這部分目標詞后,“方法1”方法的性能將得到了極大的提升,說明了此方法用于那些與目標詞同現的詞匯的極性判別是有效性。方法1中目標詞和基準詞的相似性舉例如下(按與目標詞相似度的降序排列):哀鳴: 撞擊、郁悶、缺陷、故障、斷裂、失望、倒、降低、擔心。

實驗3:為了驗證采用不同優化策略時方法2的性能,對其進行實驗,其實驗結果如表3所示。

表3 不同優化策略得到詞匯情感傾向判別實驗結果

由表3可知,“方法2”試圖對目標詞進行語義聚類,然而目標詞極性分布的不均衡性(目標詞共計2 958個,其中正面2 018個,反面940個)導致了各目標詞的語義聚類詞集中正面詞居多,使其正面的召回率提高。在限定的窗口內,有695個目標詞(約占總目標詞的23.49%)和所有基準詞沒有任何同現關系,因此目標詞—基準詞索引矩陣對這部分目標詞不提供任何信息,使得這部分目標詞的極性無法有效判。“策略1”擴大了同現窗口,一定程度上解決了數據稀疏問題,但由于窗口的擴大使原來沒有同現關系的詞匯取得了同現關系,也會帶來了噪聲,因此,采用“策略2”對目標詞進行擴大窗口時,增加了懲罰因子,實驗結果表明,其性能達到了提升。

總體上,方法1和方法2相比,方法簡單,其索引矩陣的階數由2 958×2 928降為2 958×80,時間和空間復雜度低,總體性能不低于“方法2”的性能,但對于與所有基準詞沒有任何同現關系的那些目標詞卻不能進行情感傾向判別,因此,也有一定的局限性。

5 結束語

本文給出了基于PLSA的詞匯傾向判別方法,該方法在沒有任何外部資源的條件下,只需利用少量的基準詞,可以解決了語料規模較小時數據稀疏問題。當語料規模為1 000萬個詞時,文獻[3]對于2 697個測試詞匯情感傾向判別的準確率迅速減為 63.40%,而本文的方法在較小的語料規模上(語料規模不足60萬個詞)對2 958個測試詞匯情感傾向判別的準確率卻達到了68.93%。本文所提的方法在性能上還有一定地提升空間。例如,僅假定在一定的上下文范圍內,詞匯的情感傾向具有連續性,然而,由于轉折連接詞和否定副詞的使用,可對詞匯的情感傾向產生影響,下一步可以將這種情形考慮在內,并將中性詞也加入到的傾向判別的相關研究中。

[1] 王素格,李德玉,魏英杰,等.基于同義詞的詞匯情感傾向判別方法[J].中文信息學報,2009,23(5):68-74.

[2] PETER D. Turney: Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL) Philadelphia, PA, USA. 2002:417-424 .

[3] Kamps J., M. Marx, R. J. Mokken, and M. D.Rijke. Using WordNet to measure semantic orientation of adjectives [C]//Proceedings of 4th International Conference on Language Resources and Evaluation. Lisbon, 2004: 1115-1118.

[4] 徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識別機制[J]. 中文信息學報, 2007,21(1): 96-100.

[5] 朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計算[J]. 中文信息學報,2006,20(1): 14-20.

[6] YUEN Raymond W.M., CHAN Terence Y.W., LAI Tom B.Y. et al. Morpheme-based derivation of bipolar semantic orientation of Chinese words [C]//Proceedings of the 20th International Conference on Computational Linguistics. Geneva, Switzerland. 2004: 1008-1014.

[7] 王根,趙軍.中文褒貶義詞匯傾向性的分析[C]//Proceedings of SWCL2006,沈陽,2006: 81-85.

[8] Hofmann T. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd International Conference on Research and Development in Information Retrieval. Berkeley, California, 1999: 50-57.

[9] 金千里,趙軍,徐波.弱指導的統計隱含語義分析及其在跨語言信息檢索中的應用[C]//Proceedings of CNCCL2003,哈爾濱,2003:527-532.

[10] Hofmann T.. Unsupervised learning by probabilistic latent semantic analysis[J]. Machine Learning, 2001,42:177-196.

猜你喜歡
語義詞匯情感
本刊可直接用縮寫的常用詞匯
如何在情感中自我成長,保持獨立
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
本刊可直接用縮寫的常用詞匯
如何在情感中自我成長,保持獨立
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 激情午夜婷婷| 亚洲精品国产精品乱码不卞| 人禽伦免费交视频网页播放| 91尤物国产尤物福利在线| 影音先锋亚洲无码| 婷婷丁香色| 亚洲欧洲自拍拍偷午夜色| 欧美区日韩区| 日韩在线永久免费播放| 四虎成人精品在永久免费| 人妻中文字幕无码久久一区| 97国产成人无码精品久久久| 亚洲高清日韩heyzo| 国产日韩精品欧美一区喷| 国产亚洲欧美另类一区二区| 美女一级免费毛片| 99久久精品国产自免费| 欧美va亚洲va香蕉在线| 999精品视频在线| 日本91视频| 亚洲色图综合在线| 精品成人一区二区| 999国产精品永久免费视频精品久久 | 国产精品99久久久| 综合亚洲网| 欧美19综合中文字幕| 丁香六月综合网| 欧美亚洲综合免费精品高清在线观看| 国产18在线| 免费人成网站在线观看欧美| 日本午夜三级| 男人天堂亚洲天堂| 久久激情影院| 国产精品专区第1页| 国产成人一区二区| 黄网站欧美内射| 国产va在线观看免费| 亚洲视频欧美不卡| 久久黄色一级视频| 国产真实乱人视频| 国产精品白浆在线播放| 国产欧美精品专区一区二区| 国产日韩欧美中文| aⅴ免费在线观看| 欧美国产在线精品17p| 久久久久88色偷偷| 亚洲无线观看| 国产在线日本| 六月婷婷综合| 国产免费羞羞视频| 久久精品电影| 乱色熟女综合一区二区| 欧美精品三级在线| 67194亚洲无码| lhav亚洲精品| 中文字幕首页系列人妻| 国产理论最新国产精品视频| 亚洲国产看片基地久久1024| 国产福利2021最新在线观看| 亚洲三级电影在线播放| 国产精品免费露脸视频| 中文字幕人妻av一区二区| 亚洲一级毛片| 狠狠亚洲五月天| 欧洲成人在线观看| 久精品色妇丰满人妻| 亚洲区欧美区| 日韩在线第三页| 国产成人乱无码视频| 在线观看无码av免费不卡网站| 高清亚洲欧美在线看| 色综合成人| 国产精品成人第一区| 五月丁香在线视频| 中国成人在线视频| 亚洲成年人网| 精品福利视频导航| 久久青草精品一区二区三区| 国产美女在线免费观看| 国产成人精品男人的天堂| 国产噜噜噜| 成人午夜网址|