999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于連詞的維吾爾語情感詞庫擴展研究

2018-05-04 06:46:19劉若蘭瑪爾哈巴艾賽提
中文信息學報 2018年3期
關(guān)鍵詞:詞匯文本情感

劉若蘭,年 梅,瑪爾哈巴·艾賽提

(1. 新疆師范大學 計算機科學技術(shù)學院,新疆 烏魯木齊 830054;2. 新疆師范大學 文學院,新疆 烏魯木齊 830054)

0 引言

移動互聯(lián)網(wǎng)和社交軟件的快速發(fā)展,使網(wǎng)絡(luò)成為維吾爾族網(wǎng)民獲取信息、共享資源、相互交流、發(fā)表觀點的重要平臺。隨著基于維吾爾語的網(wǎng)站數(shù)量越來越多,帶有情感色彩的維吾爾語網(wǎng)絡(luò)文本逐漸增加,并以極快的速度廣泛傳播,如果不加控制,網(wǎng)絡(luò)中消極無益信息的散布將給人們帶來嚴重危害,錯誤輿論的擴散甚至會干擾社會、經(jīng)濟的正常發(fā)展。對網(wǎng)絡(luò)文本傾向性的快速準確分析,能夠?qū)崟r有效地監(jiān)控輿情動態(tài),便于政府部門及時倡導正能量,同時有利于及時過濾網(wǎng)絡(luò)有害信息,凈化網(wǎng)絡(luò)環(huán)境,避免人們受到此類信息的危害。網(wǎng)絡(luò)文本傾向性分析的基礎(chǔ)資源是情感詞典,情感詞典的完整性和準確性將直接影響文本情感分類的準確率。由于項目組在前期構(gòu)建維吾爾語基礎(chǔ)情感詞典[1]時選用的候選情感詞主要借助對中英文情感詞典進行翻譯和篩選形成,數(shù)量有限,尚未充分考慮網(wǎng)絡(luò)中大量的新詞和變形詞。情感詞的覆蓋面不足,導致文本傾向性判別的精確度還不能完全滿足信息過濾的需求。因此,本文在前期研究的基礎(chǔ)上,開展基于網(wǎng)絡(luò)語料的維吾爾語情感詞庫的自動擴展研究,為維吾爾語情感詞的自動更新及擴展提供技術(shù)支持。

1 相關(guān)工作

通過對中英文情感詞典構(gòu)建的文獻調(diào)研表明,現(xiàn)階段情感詞的獲取技術(shù)主要有以下兩種。

(1) 基于語義詞典或知識庫判別情感詞,構(gòu)建極性情感詞典。這種方法的主要思路是: 選擇極性確定且明顯的一組褒義詞和貶義詞作為種子詞集,利用HowNet、WordNet以及同義詞詞林等資源提供的語義關(guān)系,設(shè)計算法獲取候選詞與種子詞的語義相似度,以此為據(jù)判斷候選詞的情感傾向。例如,Kamps等[2]提出利用WordNet中詞匯間語義距離的概念,計算情感傾向待定詞與表示褒貶態(tài)度的基準詞(“good”和“bad”)的關(guān)聯(lián)度來識別詞匯的情感類別。朱嫣嵐等[3]則利用HowNet中有關(guān)語義相似度和語義相關(guān)場的定義,設(shè)計算法得到詞匯的語義傾向值,再根據(jù)語義傾向值判別詞匯的褒貶傾向。黃碩等[4]提出基于知網(wǎng)和同義詞詞林信息融合的方法,進行詞匯的語義傾向計算。金宇等[5]借助《現(xiàn)代漢語大詞典》中詞語的釋義推出其他詞的情感極性。

(2) 基于語料庫的情感極性判別方法。該方法通過學習大規(guī)模語料中詞語的搭配特征、共現(xiàn)和統(tǒng)計等特征得到一部情感詞典。例如,文獻[6]利用語句中“and”、“but”等連詞銜接極性形容詞的特性,從語料中識別通過連詞相聯(lián)系的形容詞對,使用圖的聚類算法將抽取的形容詞聚集成褒貶兩類,從而實現(xiàn)詞匯的極性判斷。王科等[7]利用語料中的連接關(guān)系,同時結(jié)合轉(zhuǎn)折詞和否定詞對文本傾向的影響,將語料中的詞匯劃分成兩個詞集,再進一步確定各詞集對應(yīng)的情感類別。Turney等[8]借助統(tǒng)計學中逐點互信息的概念衡量目標詞與種子情感詞的相關(guān)性,利用搜索引擎返回的hits數(shù),計算目標詞與所有褒、貶種子詞的SO—PMI值來判定目標詞的情感指向。陽愛明等[9]借助Turney的思想構(gòu)建中文情感詞典,對三部開源情感詞典合并去重形成基礎(chǔ)情感詞集,利用百度搜索引擎以及改進的PMI算法重新計算基礎(chǔ)情感詞集中全部詞匯的情感權(quán)值。維吾爾語方面,文獻[10]在維吾爾語情感詞匯語言特征的分析之上,設(shè)計CRFS的特征模板用于自動識別維吾爾語情感詞匯。

目前,維吾爾語文本的傾向性分析研究尚處于起步階段,缺乏完備齊全的維吾爾語語義資源。由于缺少可用的電子資源,基于語義詞典或知識庫的方法在現(xiàn)階段仍難以實現(xiàn)。因此,本文采用基于網(wǎng)絡(luò)文本語料庫的方法,以項目組先前構(gòu)建的維吾爾語情感詞典資源為基礎(chǔ),獲取包含情感詞的維吾爾語情感句,分析歸納情感句中連詞和程度副詞與情感詞的搭配特點,基于搭配關(guān)系利用網(wǎng)絡(luò)語料抽取維吾爾語候選情感詞,形成候選情感詞庫;最后將網(wǎng)絡(luò)作為超大規(guī)模語料庫,利用維吾爾語中并列連詞聯(lián)系極性相同或極性相反詞匯的規(guī)律,設(shè)計了利用維吾爾語反義詞詞典以及Google搜索返回的頁面結(jié)果數(shù)計算情感未知詞與褒貶情感詞集的相似度算法,依據(jù)計算結(jié)果判定情感類別后并入相應(yīng)的褒貶詞典,實現(xiàn)維吾爾語情感詞庫的不斷擴展,為基于詞典開展維吾爾語網(wǎng)絡(luò)文本的傾向性分析研究提供重要工具。

2 維吾爾語情感詞匯的特征

維吾爾語和其他語言相似,情感詞主要聚集在名詞、形容詞以及它們的搭配關(guān)系中。因此,本文首先對維吾爾語情感句進行分析,總結(jié)維吾爾語中情感詞的特點,然后基于連詞銜接情感詞、以及程度副詞修飾情感詞的規(guī)律從語料中抽取帶有情感極性的詞匯,再設(shè)計極性判別算法確定其情感類別。

2.1 連詞的銜接特征

維吾爾語中,連詞起銜接詞與詞、詞組與詞組、分句與分句、句群的作用。并且連詞連接的大多數(shù)句子成分是相關(guān)的,即它們表達的情感色彩可能是相同的,也可能是相反的。其中轉(zhuǎn)折連詞連接的句子成分通常具有相反的情感傾向,而并列連詞和遞進連詞在大多數(shù)情況下銜接情感極性相同的句子成分,但并列連詞和遞進連詞有時也會連接一組表達相反意義和相反情感的反義詞組。

2.2 程度副詞的修飾特征

維吾爾語情感句中,還存在其他的上下文搭配關(guān)系,但由于受到現(xiàn)階段維吾爾語資源和工具軟件的限制,本文僅選擇了上述兩個特點鮮明、最易于實現(xiàn)的特征進行候選情感詞的抽取,即連詞、程度副詞與情感詞的搭配規(guī)則。

表1 維吾爾語中修飾情感詞的常用程度副詞

3 維吾爾語網(wǎng)絡(luò)情感詞的自動擴展

本文在已構(gòu)建的褒貶情感詞庫的基礎(chǔ)上,使用搜集的網(wǎng)絡(luò)文本作為候選情感詞的抽取語料,再以互聯(lián)網(wǎng)豐富的數(shù)據(jù)資源作為詞匯傾向性的判別語料,將語言特征和統(tǒng)計學方法相結(jié)合設(shè)計算法,實現(xiàn)維吾爾語情感詞的自動擴展。

3.1 基礎(chǔ)情感詞集及其表示

本文利用項目組前期構(gòu)建的維吾爾語褒貶情感詞典,進行候選情感詞的篩選和極性判別。目前該情感詞集共包括褒義詞2 042個,貶義詞2 473個,對于其中的褒義詞集本文用Pwords表示,貶義詞集用Nwords表示,Bwords則代表基礎(chǔ)情感詞集。本研究在此詞集的基礎(chǔ)上,基于網(wǎng)絡(luò)語料進行維吾爾語情感詞的抽取和極性判別,擴展得到的新情感詞則追加到該情感詞典中,以不斷擴展情感詞庫的詞匯數(shù)量和覆蓋面,為文本情感分析性能的提高提供支持資源。

3.2 候選情感詞識別算法

為識別維吾爾語候選情感詞,本文首先根據(jù)維吾爾語情感詞匯與并列連詞和程度副詞的上下文關(guān)系,利用收集的網(wǎng)絡(luò)語料抽取維吾爾語候選情感詞,然后借助基礎(chǔ)情感詞集從維吾爾語候選情感詞集中刪除極性已知的部分候選情感詞。

3.2.1 語料獲取及預(yù)處理

實現(xiàn)維吾爾語候選情感詞的獲取需要基于大規(guī)模的語料數(shù)據(jù)。為此,本文首先使用網(wǎng)絡(luò)爬蟲工具Hertrix從天山網(wǎng)等維吾爾語網(wǎng)站搜集了3 000篇語料,其中包括新聞?wù)Z料2 580篇和論壇語料420篇。其次,使用網(wǎng)頁解析工具HTMLParser對收集的語料文本進行去噪處理,去除HTML標簽,剔除無關(guān)信息,保留所需的文本內(nèi)容,形成候選情感詞提取的初始語料集。最后根據(jù)維吾爾語句子的標識符,進行句子劃分,最終獲得由M個句子構(gòu)成的候選詞提取語料集S,S={s1,s2,s3,…,sM},本研究中M為41 176。

3.2.2 候選情感詞構(gòu)建算法

表2 候選情感詞抽取模板

3.3 候選情感詞的極性判斷算法

句子中并列連詞前后的詞通常具有一致的情感極性[11],如果候選情感詞經(jīng)常與褒義詞由并列連詞銜接在一起,則該候選情感詞是褒義詞的可能性較大;反之,若候選情感詞常跟貶義詞并列相連,則候選情感詞的貶義傾向強烈。但并列連詞也有連接極性相反成分的例外情況,但僅限于連接一組反義詞的情形,如果候選情感詞的反義詞大多數(shù)為褒義詞,則候選情感詞的貶義情感強烈,相反,若候選情感詞的反義詞大部分為貶義詞,則候選情感詞極可能是褒義情感詞。

基于以上分析,本文利用已確定情感極性的基礎(chǔ)情感詞以及維吾爾語反義詞詞典,分以下兩種情況計算候選情感詞的傾向性。在計算中,以Bwords表示基礎(chǔ)情感詞集,Owords表示維吾爾語反義詞詞典,待判別的候選情感詞為word,其在維吾爾語反義詞詞典中對應(yīng)n個反義詞Oword。

第一種情況: 當候選情感詞word的反義詞出現(xiàn)在基礎(chǔ)情感詞集中,則可使用基礎(chǔ)情感詞集Bwords統(tǒng)計其中正負情感詞匯的數(shù)量,再對統(tǒng)計結(jié)果取反即可獲得候選情感詞的極性值。

設(shè)候選情感詞word的反義詞Oword有m(m≠0)個出現(xiàn)在基礎(chǔ)情感詞集中,則候選情感詞的極性值SValue(word)的具體定義如式(1)所示,即累加這m個反義詞的極值再取反。式(1)中F(oword)表示候選情感詞的反義詞的極性值,并按照式(2)對其進行賦值。

第二種情況: 當候選情感詞word的反義詞沒有一個出現(xiàn)在基礎(chǔ)情感詞集中,則可以利用搜索引擎從互聯(lián)網(wǎng)的海量數(shù)據(jù)中獲取與候選情感詞相聯(lián)系的詞匯Cword,然后利用基礎(chǔ)情感詞集獲取詞匯cword的情感極值再進行累加,所得結(jié)果即為候選情感詞的情感極值。

設(shè)候選情感詞word共與p個詞匯Cword相聯(lián)系,則候選情感詞的極性值SValue(word)即為這p個詞匯的極值之和,其計算方法如式(3)所示,Cword的極性值在式中用F(Cword)表示,并根據(jù)式(4)進行計算。

(4)

根據(jù)以上方法賦予候選情感詞情感極值后,為確定候選情感詞word的情感傾向類別,本文設(shè)定閾值0,按式(5)計算候選情感詞word的情感類別。

(5)

表3 專家標注、極性判斷算法的候選情感詞極性判別結(jié)果對比

為避免極性判別不正確詞匯影響情感詞典的質(zhì)量,對本文算法的極性判別結(jié)果進行人工校正,最終得到褒義詞185個,貶義詞239個,將所得褒義詞和貶義詞分別并入相應(yīng)的褒貶情感詞典,最終構(gòu)建的維吾爾語網(wǎng)絡(luò)情感詞典包含詞匯4 939個,其中褒義詞2 227個,貶義詞2 712個。

4 實驗和測試

4.1 測試語料

為驗證本文提出的情感詞自動擴展算法的有效性,本文使用項目組前期構(gòu)建維吾爾語褒貶情感詞典時使用的測試語料進行實驗,該測試語料共2 500句,其中正向句1 214句,負向句1 148句,無傾向性句138句。

4.2 測試結(jié)果

本文基于網(wǎng)絡(luò)文本擴展維吾爾語情感詞典的目的旨在提高維吾爾語文本情感分類的準確率。故使用本研究擴展的網(wǎng)絡(luò)情感詞典對測試語料的2 500個句子進行情感分類,通過累計組成句子的詞匯傾向性來確定句子的情感傾向。句子的情感值最終由句中所有情感詞的情感值加和確定,本文定義褒義詞的情感值為1,貶義詞的情感值為-1,為避免否定詞改變句子極性對傾向性判斷結(jié)果準確率的影響,記錄句中否定詞的出現(xiàn)次數(shù),否定詞出現(xiàn)奇數(shù)次時,句子的情感傾向值乘以-1,否定詞出現(xiàn)偶數(shù)次時,句子的情感傾向值保持不變。最終句子的情感值大于0的判定為褒義,小于0的判定為貶義,等于0的則為中性。

本文通過準確率、召回率和F值三個指標評價測試結(jié)果。利用本文構(gòu)建的網(wǎng)絡(luò)情感詞典和未擴展的維吾爾語褒貶情感詞典進行維吾爾語句子極性判斷的結(jié)果如表4所示。

表4 基于兩種情感詞典的維吾爾語句子極性判斷結(jié)果對比

從表4可以看出,利用本文擴展的網(wǎng)絡(luò)情感詞典進行文本傾向性判別的準確率、召回率、F值均優(yōu)于使用維吾爾語褒貶情感詞典的實驗結(jié)果,其主要原因是本文提出基于網(wǎng)絡(luò)語料擴展維吾爾語情感詞的算法,擴展了一部分維吾爾語網(wǎng)絡(luò)情感詞和專用情感詞,從一定程度上豐富了維吾爾語情感詞匯,而實驗使用的測試語料又來自維吾爾語網(wǎng)站以及微博語料的維吾爾語翻譯,因此明顯提升了維吾爾語句子傾向性判別的分類性能,這充分證明了本文提出的基于連詞擴展維吾爾語情感詞算法的可行性和有效性。

5 結(jié)束語

情感詞典作為文本傾向性分析的基礎(chǔ)資源和重要工具,其詞庫的質(zhì)量和數(shù)量直接影響著文本句子傾向性判別的性能。目前,維吾爾語的文本情感分析研究尚處于起步階段,面臨無任何可用維吾爾語情感詞典資源的現(xiàn)狀,項目組經(jīng)過前期研究構(gòu)建了維吾爾語褒貶情感詞典,為了不斷完善該詞典,本文進行維吾爾語情感詞的自動擴展研究。在總結(jié)維吾爾語情感句中搭配關(guān)系的基礎(chǔ)上,首先依據(jù)句子中情感詞與連詞、程度副詞的共現(xiàn)規(guī)律,設(shè)計候選情感詞提取算法,利用搜集的網(wǎng)絡(luò)文本語料進行候選情感詞的抽取。然后繼續(xù)運用維吾爾語并列連詞銜接極性詞匯的特征,借助已構(gòu)建的褒貶情感詞集、維吾爾語反義詞詞典和互聯(lián)網(wǎng)的海量語料,提出利用搜索引擎獲取候選詞與褒貶義詞的關(guān)聯(lián)緊密度,并設(shè)計相應(yīng)的得分算法獲得候選情感詞的極性值,最后根據(jù)得分判別詞匯的褒貶類別。

經(jīng)上述擴展算法,最終得到褒義詞185個,貶義詞239個,并通過實驗證明了使用擴展后的情感詞典進行句子傾向性判別的準確率、召回率以及F值均有所提高,說明本文提出的情感詞擴展算法能夠有效抽取并判別情感詞,實現(xiàn)情感詞的自動擴展,不斷優(yōu)化情感詞典質(zhì)量,為進行維吾爾語不同粒度的情感傾向性分析提供高質(zhì)量的支撐資源。本文在情感詞擴展過程中僅利用了維吾爾語情感詞的連詞和程度副詞特征,后續(xù)將考慮運用維吾爾語感嘆詞以及派生詞匯等多種特征進行情感詞的擴展研究,進一步完善和提高情感詞典的質(zhì)量。

[1] 年梅,范祖奎,劉若蘭. 維吾爾語褒貶情感詞典構(gòu)建研究[J]. 計算機工程與應(yīng)用,2017(04): 152-155,162.

[2] Kamps J,Marx M,Mokken R J.Words with attitude[C]//Proeeedings of the 1st International Conference on Global Wordnetl.2002: 332-341.

[3] 朱嫣嵐,閔錦,周雅倩,等. 基于HowNet的詞匯語義傾向計算[J]. 中文信息學報,2006(01): 14-20.

[4] 黃碩,周延泉. 基于知網(wǎng)和同義詞詞林的詞匯語義傾向計算[J]. 軟件,2013(02): 73-74,94.

[5] 金宇,朱洪波,王亞強,等. 基于直推式學習的中文情感詞極性判別[J]. 計算機工程與應(yīng)用,2011,(34): 164-167.

[6] Hatzivassilglou V,Mc Keown K R.Predicting the semantic orientation of adjectives[C]//Proceedings of ACL-97,the 35th AnnualMeeting of the Association for Computational Linguistics,Ma-drid,ES,1997: 174-181.

[7] 王科,夏睿.一種基于連接關(guān)系的中文情感詞典構(gòu)建方法[C].第十四屆全國計算語言學學術(shù)會議,2015.

[8] Turney P D,Michael L L.Measuring praise and criticism: Inference of semantic orientation from association[J].ACM Transactions on Information System,2003,21(4): 315-346.

[9] 陽愛民,林江豪,周詠梅. 中文文本情感詞典構(gòu)建方法[J]. 計算機科學與探索,2013(11): 1033-1039.

[10] 禹龍,田生偉,馮冠軍. 維吾爾語情感詞匯自動識別[J]. 計算機工程,2011(07): 213-215.

[11] Hatzivassiloglou V, McKeown K R. Predicting the semantic orientation of adjectives[C]//Proceedings of the 35th annual meeting of the association for computational linguistics and eighth conference of the European chapter of the association for computational linguistics. Association for Computational Linguistics, 1997: 174-181.

猜你喜歡
詞匯文本情感
本刊可直接用縮寫的常用詞匯
如何在情感中自我成長,保持獨立
一些常用詞匯可直接用縮寫
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产日本欧美在线观看| 九九视频在线免费观看| 亚洲精品无码在线播放网站| 亚洲免费成人网| 免费Aⅴ片在线观看蜜芽Tⅴ| 精品小视频在线观看| 欧美亚洲一区二区三区在线| 999在线免费视频| 色精品视频| 青青青国产免费线在| 九色综合伊人久久富二代| 在线观看视频99| 亚洲中文字幕久久无码精品A| 日韩欧美一区在线观看| 日韩精品专区免费无码aⅴ| 欧美a在线视频| 99精品在线视频观看| 自拍欧美亚洲| 成人欧美在线观看| 久久网欧美| 日韩毛片在线视频| 国产精品主播| 高h视频在线| 激情无码字幕综合| 91精品伊人久久大香线蕉| 有专无码视频| 久久国产黑丝袜视频| 成人小视频在线观看免费| 亚洲中文久久精品无玛| 婷婷六月综合网| 欧美不卡视频一区发布| 欧美啪啪网| 国产在线91在线电影| 99久久亚洲精品影院| 在线免费亚洲无码视频| 一级毛片免费不卡在线 | 久热中文字幕在线| 国产91导航| 中文字幕2区| 色屁屁一区二区三区视频国产| 成年网址网站在线观看| 丝袜无码一区二区三区| 久久精品这里只有精99品| 国产爽歪歪免费视频在线观看| 国产精品女在线观看| 亚洲日韩Av中文字幕无码| 在线日韩日本国产亚洲| 免费a在线观看播放| 凹凸精品免费精品视频| 999精品视频在线| 免费观看国产小粉嫩喷水| 亚洲永久免费网站| 亚洲精品无码AⅤ片青青在线观看| 巨熟乳波霸若妻中文观看免费| 精品少妇人妻一区二区| 无码丝袜人妻| 2021国产在线视频| 久久青草热| 国产人碰人摸人爱免费视频| 女人天堂av免费| 久久综合丝袜日本网| 99久久国产综合精品2023| 久久精品电影| 99精品国产电影| 国产内射在线观看| 五月激情综合网| 第一区免费在线观看| 凹凸国产分类在线观看| 国产成人精品一区二区不卡 | 人人看人人鲁狠狠高清| 日韩精品一区二区三区中文无码| 亚洲国产看片基地久久1024 | 亚洲国产成人自拍| 久久一日本道色综合久久| 精品午夜国产福利观看| 亚洲国产高清精品线久久| 免费a在线观看播放| 69av在线| 无码视频国产精品一区二区| 91欧美亚洲国产五月天| 国产在线高清一级毛片| 爆乳熟妇一区二区三区|