999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

前綴字母為特征在維吾爾語文本情感分類中的研究

2016-11-15 20:19:33高陽冉興萍木合塔爾·艾爾肯
科教導(dǎo)刊 2016年26期
關(guān)鍵詞:詞綴機(jī)器學(xué)習(xí)

高陽++冉興萍++木合塔爾·艾爾肯

摘 要 在構(gòu)詞法上,主要通過詞根和詞干上加上各種詞綴而形成新的詞語,屬于黏著型語言。構(gòu)詞的詞綴豐富,有名詞詞綴、動(dòng)詞詞綴、形容詞詞綴、數(shù)詞詞綴等。詞綴具有很強(qiáng)的專有性,其專有性在詞綴上會(huì)有明顯的表現(xiàn),可用來做情感分類特征。本文提出了使用切詞前綴的方式,研究了詞綴在SVM-KNN分類器中的表現(xiàn)。

關(guān)鍵詞 情感分類 詞綴 SVM-KNN 機(jī)器學(xué)習(xí)

中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.16400/j.cnki.kjdkz.2016.09.063

A Study on the Characteristics of Prefix Letter in Uyghur

Language Text Sentiment Classification

GAO Yang[1], RAN Xingping[1], Muhtar Erkin[2]

([1] Department of Computer Engineering, Changji University, Changji, Xinjiang 831100;

[2] College of Software, Urumqi Vocational University, Urumqi, Xinjiang 830008)

Abstract In word formation, mainly through roots and stems with a variety of affixes and the formation of new words, which belongs to agglutinative language. Word formation affixes are rich, noun affixes, verb affixes, adjective affix and affix numerals. Affix has a strong specificity, its specificity in the affix will have a significant performance, can be used to do the characteristics of emotional classification. This paper proposes to use the prefix segmentation way, studied the affix to SVM-KNN classifier performance.

Key words sentiment classification; affix; SVM-KNN; machine learning

1 引言

1.1 文本情感分類研究的現(xiàn)狀

文本情感分類,也稱為意見挖掘,主要實(shí)現(xiàn)的是對(duì)帶有強(qiáng)烈情感傾向的文本進(jìn)行分類。在研究對(duì)象容量大小差別,出現(xiàn)了基于詞語、句子、篇章等級(jí)別的情感分類研究;在研究方法上,出現(xiàn)了基于資源的和基于統(tǒng)計(jì)的情感分類研究。近些年來,對(duì)文本情感分類領(lǐng)域的研究,主要的研究內(nèi)容集中在以下幾個(gè)方面:文本的情感極性分類、文本的主觀性分析、詞語的語義傾向性識(shí)別、觀點(diǎn)提取等。具體的研究工作分布在以下幾個(gè)領(lǐng)域:詞的極性分類、主客觀分類、基于機(jī)器學(xué)習(xí)的文本情感分類方法、基于情感詞標(biāo)注的文本情感分類。

1.2 基于機(jī)器學(xué)習(xí)的文本情感分類方法

下面將近年來國內(nèi)外這方面的研究做簡要的陳述。Pang等人最早使用基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法來研究文本情感分類問題,使用SVM、最大熵、樸素貝葉斯等分類器,同時(shí)以不同的特征選擇、特征降維方法對(duì)internet上的影評(píng)文本進(jìn)行情感分類研究。Pang等人還實(shí)現(xiàn)了另外一項(xiàng)工作,構(gòu)造了一個(gè)基于minimum-cut的分類器,從而把文本的極性分類問題轉(zhuǎn)化成求取句子連接圖的最小分割問題。Lin等人把分類問題的方法用于觀點(diǎn)識(shí)別問題,通過基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)的分類算法解析詞的用法獲取文本的觀點(diǎn)。Bruce、Wiebe等人使用Bayes對(duì)句子進(jìn)行主客觀分類。Whitelaw等人提取文本中帶有形容詞的詞組和詞組的修飾語作為特征,用向量空間文檔表示,然后以SVM分類器進(jìn)行分類,從而區(qū)分文檔的褒貶情感傾向。在句子級(jí)別的文本情感分類領(lǐng)域,Yi等人以模式匹配的算法進(jìn)行了深入的研究。Goldberg和Zhu提出了一種新的基于圖的半監(jiān)督算法來解決電影評(píng)論的等級(jí)推定問題,與以前的多分類模型相比,性能大幅提高。Mei等人提出了一個(gè)新的Topic-Sentiment Mixture(TSM)概率模型,該模型能同時(shí)獲得文本的情感信息和主題信息,在沒有任何先驗(yàn)領(lǐng)域知識(shí)的情況下,也可以發(fā)現(xiàn)一個(gè)Weblog數(shù)據(jù)集所蘊(yùn)含的潛在主題。Ni等人以信息增益(Information Gain)和卡方作為特征選擇的方法,用Na ve Bayes、SVM和Rocchio,s算法對(duì)原來的情感文本作為二分類問題研究。

2 基于句子級(jí)別的情感分類

句子級(jí)別的情感分類,是指鑒別情感句的情感傾向后對(duì)其進(jìn)行歸類,也可以說是一種特殊的情感文本分類。文本情感分類根據(jù)其所研究的載體的粒度可分為三類:篇章級(jí)情感分類、句子級(jí)情感分類和詞/短語級(jí)情感分類。

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,以及Web2.0的出現(xiàn),人們從早期被動(dòng)地接受大型的網(wǎng)站信息平臺(tái)的信息,轉(zhuǎn)變到可以自主參與到信息的發(fā)布、產(chǎn)生,并能自主地參與平臺(tái)進(jìn)行信息交流,各信息受眾間也可以互相進(jìn)行信息交互,網(wǎng)絡(luò)上有帶有個(gè)人主觀性的信息就越來越多。為了獲得民眾網(wǎng)絡(luò)上出現(xiàn)的對(duì)諸如人物、事件、產(chǎn)品的評(píng)價(jià)信息,情感分類就應(yīng)運(yùn)而生了。

句子級(jí)別的情感分類,屬于特殊的文本情感分類,其所做的研究是以句子為載體。在用戶交互性、參與性很強(qiáng)的Web2.0時(shí)代,網(wǎng)上有個(gè)人主觀色彩的信息多是以單語句形式出現(xiàn),如電子商務(wù)網(wǎng)站的產(chǎn)品評(píng)論、網(wǎng)絡(luò)論壇對(duì)重大事件的態(tài)度以及民眾對(duì)重要時(shí)事、政策觀點(diǎn),尤其是微博、微信的出現(xiàn),這一特點(diǎn)體現(xiàn)的更為充分。對(duì)句子級(jí)別的情感分類的研究對(duì)于商品經(jīng)濟(jì)的發(fā)展、政府重大方針政策的制定、輿情監(jiān)控等都具有重要的意義。

2.1 SVM分類器

其原理為:假設(shè)樣本線性可分,訓(xùn)練出一個(gè)二類超平面,超平面滿足二類之間距離最大的,稱之為最優(yōu)超平面。在SVM中最為核心的內(nèi)容是:如何把訓(xùn)練超平面的問題,和統(tǒng)計(jì)理論中的二次優(yōu)化問題結(jié)合起來。根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,從而取得最優(yōu)解。首先給定一個(gè)用于訓(xùn)練的樣本集 = {(,),(,),…,( ,)},其中, = {}, = 1,2,…,。為訓(xùn)練樣本的總的個(gè)數(shù),為模式空間的維數(shù),為區(qū)分樣本的類標(biāo)。支持向量機(jī)要解決的是如下的一個(gè)最優(yōu)化問題:

() = + (1)

(· + )≥

≥0, = 1,2,3,4,…,

解決這個(gè)問題,通常依據(jù)最優(yōu)化理論,轉(zhuǎn)為其對(duì)偶問題

() = (2)

0≤≤, = 1,2…,, = 0

用下面的判別函數(shù)分類

( + ) = (()+ ) (3)

其中 = (),()為處理非線性SVM時(shí),將向量映射到高維空間的核函數(shù)。

2.2 KNN簡介

NN分類器的基本原理:輸入一個(gè)待標(biāo)明類別的樣本向量,與測試集中的每一個(gè)樣本比較,在樣本中找出K個(gè)與之相似的,將這個(gè)樣本中出現(xiàn)最多的類別作為標(biāo)志依據(jù),同時(shí)對(duì)相似度設(shè)定閥值,用于判定的類別。

KNN算法如下:

= () (, , , ) (4)

其中,為待標(biāo)記類別的樣本向量,為K個(gè)最鄰近的樣本向量中的第個(gè)文本,表示其所屬的類別;(,){0,1},當(dāng)?shù)念悇e屬于類別時(shí)取1,反之取0;是類別為確定閥值;(, )為待標(biāo)記類別的樣本向量與訓(xùn)練樣本之間的相似度值。

(, ) = =

=

其中,表示特征權(quán)重,N為特征向量的維數(shù)。

3 SVM-KNN分類器

3.1 對(duì)SVM分類機(jī)理的分析

SVM和KNN分類器,綜合運(yùn)用方面,中科院的李蓉等研究員,在原理上給出了嚴(yán)密的數(shù)學(xué)證明和推導(dǎo),并提出了定理。

在定理 中,SVM分類器相當(dāng)于一個(gè)每類只選擇一個(gè)代表點(diǎn)的1-NN分類器。

3.2 SVM-KNN分類器簡介

SVM-KNN原理:首先使用SVM分類器判斷待確定類別樣本點(diǎn)和超平面之間的距離,然后對(duì)距離設(shè)定閾值,對(duì)于超過閾值的樣本點(diǎn),使用SVM分類。對(duì)于在閾值之內(nèi)的點(diǎn),使用KNN分類器確定類別。

4 實(shí)驗(yàn)結(jié)果及分析

本實(shí)驗(yàn)采用SVM分類器,采用以切詞的前綴為特征,即在前述維吾爾語情感分類流程中,在去停頓詞后,然后以空格為標(biāo)記,將整篇文本分為一個(gè)個(gè)單個(gè)的詞,在對(duì)詞進(jìn)行切前綴取代詞來做特征,取代傳統(tǒng)的以詞做特征進(jìn)行分類的方式。

本實(shí)驗(yàn)中多類分類器的構(gòu)造,是使用“一對(duì)一”方法構(gòu)造()/2個(gè)二分類器實(shí)現(xiàn)的,依卡方為特征選擇方法。

本實(shí)驗(yàn)中所應(yīng)用的二分類器所使用的核函數(shù)均為多項(xiàng)式核函數(shù),() =[(*) + 1],核函數(shù)參數(shù)(0.5)。錯(cuò)誤懲罰參數(shù)C的值為(4),分類閥值的值取(0.5)。

本實(shí)驗(yàn)使用的語料為三類情感語料:褒義、貶義、中性。從實(shí)驗(yàn)結(jié)果,以前綴作特征的方法比以詞做特征有著更好的性能。首先,能一定程度上提高分類的準(zhǔn)確率,尤其對(duì)于貶義類的情感句子的分類取得了較大的提高,最高可以提高14個(gè)百分點(diǎn)。使用詞綴作特征的另一個(gè)優(yōu)點(diǎn):能夠大幅度降維,這就一定程度地解決維數(shù)災(zāi)難的問題。在分類中,隨著維數(shù)的增加所需要的計(jì)算量通常是以指數(shù)級(jí)別增長的,實(shí)驗(yàn)證明詞綴的方法能夠?qū)稻S起到了良好的效果。當(dāng)取5個(gè)后綴字母的詞綴時(shí),特征維數(shù)變?yōu)?599,較之以詞做特征的15372個(gè)特征,下降了近50%之多。分別以詞、5個(gè)字母詞前綴、6個(gè)字母詞前綴、7個(gè)字母詞前綴作實(shí)驗(yàn)對(duì)比,總的特征維數(shù)分別為:15372,7599,9443,11370。從三類的實(shí)驗(yàn)結(jié)果可以看出,一般在特征維數(shù)選定在1500-2000時(shí),能獲得最優(yōu)的效果,準(zhǔn)確率達(dá)到最大值。

5 總結(jié)和展望

本文結(jié)合維吾爾語的特征,使用切前綴字母作特征,在SVM-KNN分類器中對(duì)非平衡文本數(shù)據(jù)進(jìn)行試驗(yàn),實(shí)驗(yàn)結(jié)果證明,在一定的維數(shù)范圍內(nèi),能夠提高分類的精度。

參考文獻(xiàn)

[1] Huang XJ, Zhao J. Sentiment analysis for Chinese text. Communications of CCF, 2008,4(2) (in Chinese with English abstract).

[2] 肖偉.基于語義的BLOG社區(qū)文本傾向性分析[D].2007.12.

[3] Bruce R, Wiebe J.Recognizing subjectivity:a case study in manual tagging.Natural Language Engineering,1999.5(2):1-16.

[4] Wiebe J,Riloff E.Creating subjective and objective sentence classifiers from unannotated texts.In Proc.of the 6th Int.Conf.on Computational Linguistics and Intelligent Text Processing,2005:486-497.

[5] Whitelaw C,Garg N,Argamon S.Using appraisal groups for sentiment analysis.In Proc.of the 14th ACM Int.Conf.on Information and Knowledge Management,2005:625-631.

[6] Yi J,Nasukawa T,Bunescu R,et a1.Sentiment analyzer:extracting sentiments about a given topic using natural language processing techniques.In Proc.of the 3rd IEEE Int.Conf.on Data Mining,2003:427-434.

猜你喜歡
詞綴機(jī)器學(xué)習(xí)
從網(wǎng)絡(luò)語“X精”看“精”的類詞綴化
詞尾與詞綴的區(qū)別研究
淺談現(xiàn)代漢語類詞綴
小說月刊(2017年16期)2017-12-01 05:14:50
釋西夏語詞綴wji2
西夏研究(2017年1期)2017-07-10 08:16:55
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
試析否定詞綴在漢維語中的不同表現(xiàn)
語言與翻譯(2014年3期)2014-07-12 10:31:56
主站蜘蛛池模板: 在线观看国产精品第一区免费| 午夜日韩久久影院| 欧美专区日韩专区| 欧美在线天堂| www欧美在线观看| 五月天久久综合| 免费无码又爽又黄又刺激网站| 国产成年无码AⅤ片在线| 青草91视频免费观看| 91福利在线看| 久久香蕉国产线看观看精品蕉| 91区国产福利在线观看午夜| 国产精品伦视频观看免费| 国产精品人成在线播放| 亚洲日本www| 亚洲精品无码人妻无码| 午夜福利网址| 欧美福利在线| 特级aaaaaaaaa毛片免费视频| 免费无码AV片在线观看国产| 婷婷激情亚洲| 久久香蕉国产线看观看亚洲片| 99中文字幕亚洲一区二区| 午夜精品影院| 在线国产毛片| 女人18毛片久久| 高清不卡毛片| 在线观看亚洲人成网站| 亚洲无码精品在线播放| 亚洲成aⅴ人片在线影院八| 91极品美女高潮叫床在线观看| 亚洲欧洲日韩久久狠狠爱| 99久久精品国产麻豆婷婷| 久久综合AV免费观看| 亚洲性视频网站| 婷婷六月色| 免费不卡在线观看av| 97精品国产高清久久久久蜜芽| 亚洲黄色成人| 美女免费黄网站| 国产麻豆福利av在线播放 | 国产女人在线观看| 国产麻豆精品久久一二三| 久久99精品久久久久纯品| 曰韩人妻一区二区三区| 亚洲欧美不卡视频| 亚洲国产在一区二区三区| 97久久免费视频| 亚洲另类色| 熟女成人国产精品视频| 日韩欧美国产另类| 久久亚洲中文字幕精品一区| 婷婷伊人久久| 成·人免费午夜无码视频在线观看| 久久精品国产国语对白| 久草视频精品| 四虎永久在线精品影院| 国产制服丝袜91在线| 欧美成人国产| 手机永久AV在线播放| 狠狠色丁婷婷综合久久| 白丝美女办公室高潮喷水视频 | 国产无码精品在线播放| 99re热精品视频国产免费| 午夜老司机永久免费看片| 91色爱欧美精品www| 日韩中文无码av超清| 激情综合五月网| 久久婷婷五月综合色一区二区| 99视频国产精品| 国产精品自拍露脸视频| 国产自产视频一区二区三区| 国产激情在线视频| 国产精品3p视频| 谁有在线观看日韩亚洲最新视频| 久久久久久尹人网香蕉 | 日本人妻一区二区三区不卡影院| 国产三级国产精品国产普男人| 欧美成人午夜在线全部免费| 国产va免费精品观看| 欧美成人午夜在线全部免费| 欧洲精品视频在线观看|