熱西旦木·吐爾洪太,吾守爾·斯拉木,伊爾夏提·吐爾貢
(1.新疆大學 信息科學與工程學院 新疆多語種重點實驗室,新疆 烏魯木齊 830046;2.伊犁師范學院 電子與信息工程學院,新疆 伊寧 835000)
詞典與機器學習方法相結合的維吾爾語文本情感分析
熱西旦木·吐爾洪太1,2,吾守爾·斯拉木1,伊爾夏提·吐爾貢1
(1.新疆大學 信息科學與工程學院 新疆多語種重點實驗室,新疆 烏魯木齊 830046;2.伊犁師范學院 電子與信息工程學院,新疆 伊寧 835000)
隨著互聯網整體水平的提高,大量基于維吾爾文的網絡信息不斷建立,引起了對不同領域的信息進行情感傾向性分析的迫切需要。該文考慮到維吾爾文沒有足夠的情感訓練語料和完整的情感詞典,結合機器學習方法和詞典方法的優(yōu)點,構建一個分類器模型 LCUSCM(Lexicon-based and Corpus-based Uyghur Text Sentiment Classification Model),先用自己構建的維吾爾文情感詞典對語料進行高質量的情感分類,分類過程中對詞典進行遞歸擴充,再根據每條句子的情感得分,從詞典分類的結果中選擇一部分語料來訓練一個分類器并改進第一步的分類結果。此方法的正確率比單獨使用機器學習方法提高了9.13%, 比詞典方法提高了1.82%。
維吾爾文;情感詞典;情感分析;機器學習
隨著互聯網的飛速發(fā)展,廣大網絡用戶已經從過去單純的信息獲取者變?yōu)榫W絡內容的主要制造者。當前互聯網上的信息形式多種多樣,如新聞、博客文章、產品評論、論壇帖子等等。情感分析(sentiment analysis)能夠自動判斷說話者對某事件、產品、人物和政策等持有的態(tài)度。
隨著互聯網整體水平的提高,大量基于維吾爾語的網站和通信平臺也不斷建立,網站內容信息豐富,促進了新疆地區(qū)教育和經濟的發(fā)展,提升了新疆信息化水平。對維吾爾語文本進行情感傾向性分析可以為相關部門在電子商務、民意調查、企業(yè)管理、信息監(jiān)測等工作中提供參考,能夠幫助政府、國家安全部門及時發(fā)現網民的輿論傾向和動態(tài),使其在信息監(jiān)控,郵件過濾和偵查等工作中起到準確定位所需信息的作用。研究成果對于新疆地區(qū)的經濟建設和信息安全都有著重要的作用。
情感分析研究的兩種基本策略為基于語料的機器學習方法和基于情感詞典的方法。基于機器學習的方法在有充足和正確標注的訓練數據的時候能夠取得較高的精度,但是該方法對語料領域,主體和時間非常敏感,在一個領域里面訓練的分類器對其他領域的語料沒有很好的分類作用。而基于詞典的方法是無監(jiān)督的,用少量的種子詞匯也能取得較好的分類結果,并且該方法是領域無關的。在網絡高度發(fā)達的今天,評價對象的多樣性決定了很難有一個足夠規(guī)模的標注語料能夠滿足各種需求。因此能否通過結合少量標注的語料和動態(tài)擴展的情感詞典來完成分類任務,能否找出詞典規(guī)則和機器學習方法的融合點,發(fā)展一個既依靠領域知識又可以跨領域的分類器是一個新的研究趨向。
相關研究表明詞典和語料方法是互補的[1-2]。語料方法在正面分類上正確率較高,而詞典方法在負面分類上較高,通過實驗驗證該方法在維吾爾文語料的二元分類上也得到同樣結果。它們一個傾向于正面分類,而另一個傾向于負面分類,結合兩種方法可以起到互補作用,有效提高分類效果。
維吾爾文情感分類工作才剛剛起步,沒有像英文和中文一樣豐富的情感資源可供使用,考慮到網絡語料涉及領域廣泛,需要一個跨領域的分類器,本文試圖構建一個領域無關的,發(fā)揮詞典和語料方法互補作用的,不依賴太多標注訓練語料的分類模型。
以此為目的,本文構建了一個分類器模型LCUSCM,首先創(chuàng)建一個包含領域通用詞匯的情感詞典,根據構建的詞典進行正負兩元分類,遞歸方式擴展詞匯列表和分類句子數,再根據這次分類結果訓練一個分類器,進一步改進第一步所得到的分類結果。
我們的工作相似于文獻[2],他們把HowNet作為基礎情感詞典進行分類,分類時只考慮了否定詞的修飾,并從分類好的語料中選擇出現頻率兩次以上的詞匯作為候選詞來擴充基礎情感詞匯,但是這種方法可能會選擇很多沒用的情感詞匯。他們同時設計比例控制(Ratio Control)參數來控制正負語料的比例。本文工作的創(chuàng)新點在于:
1.本文受文獻[3-4]的啟發(fā),根據維吾爾文語言的自身特點,以逐步擴充的方式構建了一部維吾爾文情感詞典,再根據一些詞性搭配規(guī)則從基礎情感詞典分類的語料中選擇情感詞匯和情感短語作為候選對基礎詞典進行擴充;
2.用詞典和一些規(guī)則來計算每個句子的情感得分,并制定閾值,得分高于閾值的句子作為訓練語料,低于閾值的作為測試語料;
3.本文不需要手工標注的大規(guī)模訓練語料,可以用詞典規(guī)則分類結果作為機器學習模塊的訓練和測試語料;
4.本文設計的分類器不依賴于任何領域語料。
本文結構組織如下:第二部分介紹國內外相關工作;第三部分介紹本文構建的LCUSCM模型;第四部分是實驗結果及分析;第五部分進行總結并展望。
情感分析通用方法有:
(1) 使用情感詞典及與其關聯信息分析文本情感
(2) 使用機器學習方法分析文本情感
基于情感詞典的方法主要是通過構建和使用情感詞典來實現對文本進行情感分析。情感詞語的抽取主要分為基于語料庫和基于詞典兩種方法[5]。基于語料庫的評價詞語抽取和判別主要是利用大語料庫的統計特性,觀察一些語言規(guī)則來挖掘情感詞語。Hatzivassiloglou和McKeown[6]從大語料庫華爾街日報中發(fā)掘出大量的形容詞性的評價詞語。Wiebe 等人[7]沿襲了較為相似的工作,使用了一種相似度分布的詞聚類方法在大語料庫上完成了形容詞性的評價詞語的獲取。但是兩種方法都局限于形容詞詞性,為了避免詞性限制,Turney 和 Littman[8]提出了點互信息(point mutual information)的方法判別某個詞語是否是評價詞語。這種方法適用于各種詞性的評價詞語的識別,但是較為依賴種子褒/貶詞語集合。
基于詞典的評價詞語抽取及判別方法主要是使用詞典中的詞語之間的詞義聯系來挖掘評價詞語。這里的詞典一般是指使用 WordNet 或 HowNet 等。文獻[9]在已手工建立種子形容詞詞匯表的基礎上,利用WordNet中詞間的同義和近義關系判斷情感詞的情感傾向,從而決定觀點的情感極性。中文方面則主要是對知網HowNet的擴充,文獻[10]利用語義相似度計算方法計算詞語與基準情感詞集的語義相似度,以此推斷該詞語的情感傾向。文獻[11]基于多種詞典資源構建情感詞表,使用加權線性組合方法對句子情感進行分類。
基于機器學習的情感分類,其大致流程如下:首先人工標注文本傾向性作為訓練集,提取文本情感特征,通過機器學習的方法構造情感分類器,待分類的文本通過分類器進行傾向性分類。文獻[12]使用詞袋框架選定文本的N元語法和詞性等作為情感特征,使用有監(jiān)督的機器學習方法將電影評論分為正向和負向兩類。文獻[13]比較了不同的特征選擇和使用多種機器學習方法構建分類器。文獻[14]利用多種特征選擇方法和權重計算方法、五種停用詞表以及用SVM分類器對汽車語料進行情感分類。
另外,有些算法試圖通過結合情感詞典與標注語料來彌補二者單獨使用的不足。其中一些算法將詞典和標注文本結合在一起來訓練分類器[15-16],還有一些把情感分析過程分兩步:首先利用情感詞典對評論文本的傾向做初始判斷,然后利用此結果產生新的分類器,再對初始結果進行修訂[2,17]。本文受到此方法的啟發(fā),對來自各領域的網絡媒體語料進行情感分類研究。
LCUSCH從模型結合詞典方法和語料庫方法來提高分類總體效果。該模型分為兩部分:其中第一部分利用情感詞典來計算每條句子的情感得分,為情感得分制定一個閾值。根據閾值把語料分成classified group和uncertain group兩組。通過迭代方法從classified group中找出候選詞/短語,更新詞典內容,并對uncertain group中的句子再次計算情感得分,之后再更新兩組數據的內容,一直達到迭代結束為止。第二部分首先利用機器學習方法,將第一部分所得到的classified group作為訓練集,uncertain group作為測試集進行分類,之后基于改進的算法來修改之前的結果。模型體系結構如圖1所示。

圖1 LCUSCM模型結構圖
3.1 維吾爾文情感詞典的構建
情感詞是指在文本中具有情感傾向性的詞語,它可以是名詞、動詞、形容詞、副詞以及一些習慣性用語或短語等。
對于某些詞典資源非常稀缺的語種,有學者嘗試將詞典資源豐富的語種的情感詞典翻譯到資源較少的語種中[3-4],并取得很好的分類效果。本文也做相同的工作以逐步擴充的方式構建了一部由3 357 個褒義詞和6 658個貶義詞構成的維吾爾語情感詞典。以下對該詞典做簡單介紹。
3.1.1 基礎情感詞典(BaseDict)
本文首先從“實用維漢詞典”中抽取表達各種情感的詞匯,由兩位維吾爾語專業(yè)本科生單獨進行褒貶分類,對于標注結果不一致的詞匯通過協商確定了該詞匯的極性,由此構建了基礎情感詞典。
基礎情感詞典還包括情感短語、情感習語和經常跟情感詞匯搭配出現的否定詞、程度副詞、疑問詞或詞綴[18]、情感感嘆詞[18]、語氣詞等。

表1 基礎情感詞典詞匯表
3.1.2 擴充基礎情感詞典(ExpandDict)
進行情感分析需要一部跨領域的,覆蓋面廣的完整的情感詞典,由此需要快速擴充基礎情感詞典。課題組選用新疆大學多語種重點實驗室開發(fā)的”tilmach“漢維雙語詞典,對使用率比較高的”HowNet” 中文情感分析用詞語集”中四個詞語集,即正負面情感詞語、正負面評價詞語、以及臺灣大學收集整理的中文情感詞典“NTUSD”進行翻譯作為基礎情感詞典的擴充,翻譯得到的詞匯保留原來的情感傾向,部分失去情感傾向和改變情感傾向的詞語通過人工校對進行去重處理,獲得正面情感詞語(2 372個詞匯)加入褒義詞典,負面情感詞語(5 329個詞匯)加入貶義詞典。
3.2 基于情感詞典的分類模塊
根據構建的情感詞典和否定詞,程度副詞,句型等語言特征對語料進行正負二元分類。本模塊工作步驟如下:
3.2.1 預處理
維吾爾語是形態(tài)豐富的語言,詞干連接各種詞綴可產生新的單詞,這將產生大量未登陸詞,導致數據稀疏問題。維吾爾語情感詞匯有些是詞干本身,有些詞匯連接部分詞綴后才會表達情感,如果對句子不進行詞干提取,可能會引起維數災難,詞干提取后有可能丟失部分情感詞匯,因此本文把每個句子替換成以下句子格式并從中找出情感詞匯特征:
senti=w1,s1,pos1;w2,s2,pos2;……wn,sn,posn
其中wn是句子中原始詞,sn是詞干,posn是詞性。
本文構建的情感詞典詞匯,用Wsen表示,包括所有褒義詞匯和貶義詞匯,本文把所有褒義詞權值設計為1,貶義詞權值設計為-1。
對于一個情感句子來說否定詞的修飾會使情感詞語的情感極性發(fā)生改變。程度副詞的修飾使情感傾向強弱程度發(fā)生變化,比沒有修飾之前更加強烈或者減弱。如果句子含有轉折性連詞,可以忽略轉折連詞之前的句子內容。因此,為了準確表達句子的情感傾向,需做相應的權值調整。

因為程度副詞在強弱程度上有區(qū)別,本文用三個等級來劃分程度副詞,并為他們設計不同的權值。
本文收集的127個程度副詞及其權重的示例如表2所示。

表2 程度副詞示例表
3.2.2 句子情感評分
把每一個句子根據標點符號分成n個子句,根據子句里面出現的褒貶情感詞匯、否定詞、程度副詞和轉折性連詞等特征確定句子的情感傾向如式(1)所示。
(1)
公式中,Mwd表示程度副詞或否定詞的權值,Swk是子句中情感詞wk的權值。
根據公式得到的最終情感傾向值Vsi,將會得到三種狀態(tài)。
3.2.3 對分類結果篩選
如果一條句子的Vsi值大于零,這條句子屬于正面傾向,小于零屬于負面傾向,其實該值越大,可以說該句子的情感傾向性越強,分類結果越正確。因為本文模型使用第一模塊分類結果來訓練第二模塊分類器,為了得到更正確的訓練語料,本文設置不同的情感閾值,根據不同閾值下的分類精確率和分出來的句子數指定最后閾值。

表3 不同閾值對分組結果的影響
根據實驗結果,設4作為閾值,把語料分成兩個組:classified group和uncertain group。

if|Vsi|>=4 Si→classifiedgroupelse Si→uncertaingroup
Si是語料中第i條句子,Vsi是第i條句子的情感值。
3.2.4 情感詞典的遞歸擴充
我們創(chuàng)建的情感詞典詞匯都是跟領域無關的通用詞匯,為了適用某個領域還需要動態(tài)擴充。
句子中很大一部分詞匯并不參與情感的表達。有文獻把情感語料中所有出現頻率大于某個閾值的unigram、bigram、trigram模型作為候選情感列表來擴充他們的情感詞典,這樣不僅會因保留大量無情感色彩的詞匯而給后續(xù)的情感詞識別帶來干擾,而且延長系統的運行時間。因此從文本中識別可能表達情感的詞和短語作為候選情感詞非常必要。
本文實驗中,首先利用構建的通用詞典對文本進行分類,更多的情感詞將從分類以后的文本中得到并更新到詞典中去,擴充詞典。在這個迭代過程中,詞典和分類結果被一次又一次的更新。
迭代過程如下所示。
Step1 數據預處理:分句、分詞、詞性標注、詞干提取、停用詞去除
Step2 識別候選詞/短語
同一個詞與不同的上下文結合會表達不同的情感傾向,孤立的分析單詞有時不能確定句子的情感傾向。因而,在詞情感傾向分析的基礎上,聯合能夠對情感傾向產生影響的上下文形成短語,進而對短語的情感傾向作出判斷,將有助于整個句子的情感分析。
本文根據維吾爾語語言的特點,對詞性特征以及表達情感的上下文特征進行分析來提取候選情感詞/短語。通過相關文獻[20]對維吾爾語情感詞的分析以及本文統計分析得到以下常用的詞性搭配作為候選。

表4 候選詞/短語列表
Step3 情感分數計算
對于一個候選詞/短語,保留詞頻大于2的詞作為候選特征。再判斷它是否表達某種情感,具有情感傾向的詞匯才會被選作情感詞/短語。候選詞/短語的情感傾向用情感區(qū)分度來衡量,如式(2)所示。
(2)
Fp和Fn表示該候選詞/短語分別在正向和負向句子中出現的頻率。我們設定difference的閾值為1。當該值大于或者等于1的時候,我們把該候選詞/短語加到Wsen中,當Fp>Fn時,把它加到褒義詞列表,Fp Step4 迭代終止條件 如果更新后的情感詞來進行分類時分類結果沒有變化,終止情感詞典的迭代更新。 3.3 結合模塊 該模塊把第一模塊中得到的classified group作為訓練語料,把uncertain group作為測試語料進行分類,有效的結合基于詞典的分類器和基于語料庫的分類器。同前面提到過一樣,基于詞典的分類器在負面情感的分類上正確率較高,而基于語料的分類器在正面情感的分類上正確率較高,因此結合兩種方法可以起到互補作用。兩種分類器的分類結果如下改正: ifCSi==DSiorDSi=='neg' VSi=DSielse VSi=CSi Si是uncertain group中的第i條句子,CSi是Si用語料方法分類的結果,DSi是Si用詞典方法分類的結果。對于uncertain group中的一個句子,如果兩種分類器結果都一樣,保持原來的分類結果;如果基于詞典的分類器分為負面傾向,以詞典方法的分類結果為準,否則以語料方法的結果為準。 實驗中使用新疆大學多語種重點實驗室開發(fā)的維吾爾文詞干提取、詞性標注工具。 4.1 數據集*實驗數據均由新疆大學多語種重點實驗室提供。 為了驗證LCUSCM的有效性,實驗對來自不同領域的語料進行情感傾向性分類,語料包括: 1.647句電影文字語料,其中215個褒義句子、432個貶義句子。 2.2 814句微博語料,其中1 306個褒義句子,1 508 個貶義句子。 3.592句新聞語料,其中243個褒義句子、349個貶義句子。 4.2 評價標準 本文實驗中用交叉驗證的方法來評價分類的性能,使用精確率(accuracy)來評價分類的最終效果。 4.3 不同機器學習方法分類結果 為了驗證不同機器學習算法對維吾爾文情感分類的有效性,本文把微博語料作為實驗數據,測試GNB,MNB,BNB,KNN,SVM等算法在不同特征數量上的分類效果。 采用信息增益(IG)選擇特征,用tf權重計算方法,把unigram語言模型作為特征進行實驗,特征數量從500到3 000遞增,得到圖2的結果。 圖2 分類算法性能比較 從圖中可以看出,在五種機器學習算法中,Bernoulli Na?ve Base方法最平穩(wěn),精確度逐漸增加,而其他分類器呈現出不穩(wěn)定。可以得出結論,隨著特征數量的增加,BNB算法的性能最優(yōu)異,最穩(wěn)定,可以把它作為本文實驗的機器學習工具。 4.4 BNB在不同領域語料上的分類效果 我們訓練一個BNB分類器,把unigram作為特征,用十倍交叉驗證法來比較分類器在同一個領域內訓練和測試的結果以及不同領域內訓練和測試的結果。加粗表達的是訓練語料和測試語料來自同一個領域的情況。 表5 BNB在領域內外語料上的分類結果 表6 BNB在混合語料上訓練后得到的結果 表5和表6很好地描述了基于語料的機器學習方法對領域知識的依賴性,跨領域的分類結果還不如情感詞典的分類結果好。從實驗結果可以看出,基于語料的分類器在同一領域語料內訓練和測試所得到的分類結果明顯好于訓練和測試語料來自不同領域的語料。 例如,從表5可以看出,對電影語料,領域內訓練的結果比領域外訓練結果分別超出了17.44%和14.72%;微博語料分別超出了2.57%和10.68%;新聞語料分別超出了10.57%和22.79%。以上結果可以說明詞典方法的結果比訓練和測試在同一個領域內的機器學習方法差一點,但比不同領域的機器學習方法好一點。 4.5 本文模塊性能比較 表7 語料方法和詞典方法性能比較 為了驗證語料方法和詞典方法在正負語料分類過程中的互補作用,將微博語料作為實驗數據,利用這兩種方法分別對語料進行了分類,結果如表7所示。同上面描述的一樣,語料方法在正面語料上的分類精確率較高,比詞典方法高1.31%,而詞典方法在負面語料上的分類精確率高,比語料方法高15.94%。這點說明當一個分類器對某個句子進行錯誤分類時,另一個分類器可能會給出正確答案,兩種分類器起到很好的互補作用。 表8 結合方法在混合語料上的分類結果 通過結合方法對來自不同領域的語料進行分類實驗,結果如表8所示,從結果可以看出改進后的結合方法的分類精確率比沒有改進之前提高了6.77%。同時改進后的結合方法比單獨使用的語料方法提高了9.13%,詞典方法提高了1.82%。 本文根據維吾爾文自身特點,對相關領域的研究成果進行分析總結,借鑒已有成果,提出了一種自監(jiān)督的兩種分類方法相結合的分類模型,利用它們的互補作用來提高分類精確率。實驗中證明,該方法達到了期望中的效果。構建了一定規(guī)模的情感詞典,通過一些詞性搭配規(guī)則對詞典進行動態(tài)擴充,使用該情感詞典和一些語言規(guī)則對來自不同領域的語料進行情感傾向性分析,得到較好的分類效果。再使用詞典的分類結果訓練一個分類器,進一步改進分類結果。今后的研究工作中需要進一步擴大情感詞典的覆蓋面,運用更多語言規(guī)則來分析語料情感極性,以獲得更高的準確率。 [1] Alina Andreevskaia,Sabine Bergler.When Specialists and Generalists Work Together:Overcoming Domain Dependence in Sentiment Tagging[C]//Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics.HLT,2008:290-298. [2] Qiu L,Zhang W,Hu C,et al.SELC:A self-supervised model for sentiment classification[C]//Proceeding of the 18th ACM Conference on Information and Knowledge Management(CIKM).2009:929-936. [3] M Abdul-mageed,M T Diab,Toward building a large-scale Arabic sentiment lexicon[C]//Proceedings of the 6th International Global WordNet Conference.Matsue,Japan :2012:18-22. [4] Steinberger J,Ebrahim M,et al.Creating sentiment dictionaries via triangulation[J].Decision Support Systems,2012,53:689-694. [5] Rao D,Ravichandran D.Semi-Supervised Polarity Lexicon Induction[C]//Proceedings of the EACL2009.Morristown ACL,2009:675-682. [6] Hatzivassiloglou V,McKeown K R.Predicting the semantic orientation of adjectives[C]//Proceedings of the EACL’97.Morristown:ACL,1997:174-181. [7] Wiebe J.Learning subjective adjectives from corpora[C]//Proceedings of the AAAI.Menlo Park:AAAI Press,2000:735-740. [8] Turney P,Littman ML.Measuring praise and criticism:Inference of semantic orientation from association[J].ACM Transactions on Information Systems,2003,21(4):315-346. [9] Hu M,Liu B.Systems Mining and Summarizing Customer Reviews[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Washington,DC:ACM,2004:168-177. [10] 朱嫣嵐,閔錦,周雅倩.基于HowNet的詞匯語義傾向計算[J].中文信息學報,2006,20(1):14-20. [11] Zhao Qing,Sun Ji-zhou,Yu Ce,et al.A paralleled large-scale astronomical cross-matching function[C]//Proceedings of Lecture Notes in Computer Science,vol 5574.2009:604-614. [12] Pang B,Lee L,Vaithyanathan S.Thumbs up:sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10,Stroudsburg,Association for Computational Linguistics,2002:79-86. [13] Djorgovski S G,Brunner R J.Astronomical archives of the future:a virtual observatory[J].Future Generation Computer Systems,1999,16(1):63-72. [14] Gui Chen-zhou,Zhao Yong-heng.Worldwide R&D of virtual observatory[C]//Proceedings of the International Astronomical Union,2007,3 :563-564. [15] Li T,Zhang Y,Sindhwani V.A non-negative matrix tri-factorization approach to sentiment classification with lexical prior knowledge[C]//Proceedings of the Joint Conference of the Annual Meeting of the Association for Computational Linguistics and the International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing(ACL-IJCNLP).2009:244-252. [16] Melville P,Gryc W,Lawrence R D.Sentiment analysis of blogs by combining lexical knowledge with text classification[C]//Proceedings of the15th ACM SIGKDD Conference on Knowledge Discovery and Data Mining(KDD).2009:1275-1284. [17] He Y,Zhou D.Self-training from labeled features for sentiment analysis[J].Information Processing and Management,2011,47:606-616. [18] 力提甫·托乎提.現代維吾爾語參考語法[M].北京:中國社會科學出版社.2012 [19] 李軍,滕春華.現代維吾爾語否定范疇探析[J].語言與翻譯,2001(2):11-13. [20] 吉力力·卡曼爾.現代維吾爾語種情感動詞初探[J].時代報告, 2013:169-170. Uyghur Text Sentiment Analysis by Combining LexicalKnowledge with Machine Learning Methods Rexidanmu Tuerhongtai1,2,Wushour Silamu1,Yierxiati Tuergong1 (1.Multilingual Information Technology Laboratory of Xinjiang,College of Information Science and Engineering,Xinjiang University,Urumqi,XinJiang 830046,China;2.College of Electronic and Information Engineering,Yili Normal University,Yining,XinJiang 835000,China) With the development of the Internet,a large number of online Uyghur texts appeared,which demands sentiment analysis for different applications.Considering there are not neither enough training data nor a complete sentiment lexicon for Uyghur sentiment analysis,this paper combines the Lexicon-based method with Corpus-based method,proposing a so-called LCUSCM (Lexicon-based and Corpus-based Uyghur Text Sentiment Classification Model).It first classifies the text by using a manual-built Uyghur sentiment dictionary,with the lexicon is enriched incrementally in this process.Then,the reliable classified sentences are selected to train a classifier so as to refine the results of the first step.The accuracy of the hybrid method increased 9.13% than using machine learning method,and 1.82% than the lexicon based method. Uyghur; sentiment lexicon; sentiment analysis; machine learning 熱西旦木·吐爾洪太(1980—),講師,博士研究生,主要研究領域為文本情感分析。E-mail:raxida522@163.com吾守爾·斯拉木(1942—),教授,中國工程院院士,博士生導師,主要研究領域為自然語言處理。E-mail:wushour@xju.edu.cn伊爾夏提·吐爾貢(1990—),碩士研究生,主要研究領域為文本情感分析。E-mail:erxatturhun@163.com 1003-0077(2017)01-0177-07 2016-09-10 定稿日期:2016-10-15 國家“973”重點基礎研究計劃基金(2014CB340506);國家自然科學基金(61363063);新疆大學多語種重點實驗室開放課題(XJDX0905-2013-02) TP391 A
4 實驗分析





5 總結與展望
