999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于word2vec和自訓(xùn)練的無監(jiān)督情感分類方法

2019-06-11 08:26:31陶婭芝
科技風(fēng) 2019年12期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

摘 要:針對(duì)現(xiàn)有情感分類算法中存在的問題,本文提出了一種基于word2vec和自訓(xùn)練的無監(jiān)督情感分類方法。該方法首先利用word2vec和詞性標(biāo)簽構(gòu)建領(lǐng)域情感詞典,并在此基礎(chǔ)上融合否定詞和程度副詞來計(jì)算評(píng)論的情感傾向值;其次,選取情感傾向強(qiáng)烈的評(píng)論作為已標(biāo)注訓(xùn)練集,剩余部分作為待分類數(shù)據(jù)集;最后,采用機(jī)器學(xué)習(xí)方法生成分類器進(jìn)行自訓(xùn)練學(xué)習(xí),直到迭代結(jié)束。采用手機(jī)評(píng)論作為實(shí)驗(yàn)數(shù)據(jù),結(jié)果證實(shí)了該方法的有效性。

關(guān)鍵詞:情感分析;自訓(xùn)練;word2vec;機(jī)器學(xué)習(xí)

在大數(shù)據(jù)時(shí)代,各大電商網(wǎng)站以及論壇涌現(xiàn)出大量帶情感的商品評(píng)論。近幾年,人們愈發(fā)地意識(shí)到對(duì)商品評(píng)論進(jìn)行深度地分析和挖掘能夠獲取較大的價(jià)值。對(duì)于消費(fèi)者而言,他們可以從中了解到特定商品的性能及其質(zhì)量能否滿足自我需要,從而決定是否進(jìn)行購買;對(duì)于商家而言,他們可以從商品評(píng)論中獲取用戶對(duì)該產(chǎn)品的關(guān)注點(diǎn)及其感情色彩,并用于改進(jìn)產(chǎn)品質(zhì)量和提升產(chǎn)品競爭力。然而產(chǎn)品評(píng)論具有及時(shí)性,數(shù)量大,非結(jié)構(gòu)化以及內(nèi)容復(fù)雜等特點(diǎn),利用人工閱讀的方式無法獲取完整及正確的信息。因此,迫切需要利用計(jì)算機(jī)技術(shù)來自動(dòng)地實(shí)現(xiàn)用戶評(píng)論情感分類。

1 研究現(xiàn)狀

目前,對(duì)于情感分類的研究主要集中在有監(jiān)督、無監(jiān)督和半監(jiān)督方法上。無監(jiān)督分類方法主要是利用已有的情感詞典或者固定句法模式來判斷評(píng)論的情感傾向。Turney等人[1]利用詞語的詞性標(biāo)簽來抽取出可能含有觀點(diǎn)的固定句法模式,并利用這些模式來解決情感傾向判斷問題。Ohaha等人[2]利用SentiWordNet情感詞典來識(shí)別用戶評(píng)論中的情感傾向。黃仁等人[3]利用google的開源工具word2vec來計(jì)算詞語之間的語義相似度從而構(gòu)建出情感詞典,并對(duì)測試語料進(jìn)行分類,實(shí)驗(yàn)結(jié)果證實(shí)了該算法的可行性。雖然無監(jiān)督的方法便于實(shí)現(xiàn)且具有較好的移植性,但是其準(zhǔn)確率卻有待提升。

有監(jiān)督分類方法主要是利用訓(xùn)練樣本來生成分類器,從而對(duì)待分類評(píng)論進(jìn)行分類。為了便于處理通常先采用向量空間模型將評(píng)論文本表示成向量,隨后采用分類算法訓(xùn)練出分類模型,并利用分類模型將評(píng)論分為褒貶義兩類。Pang等人[4]將影評(píng)作為實(shí)驗(yàn)語料,采用傳統(tǒng)的機(jī)器學(xué)習(xí)方法識(shí)別其情感色彩。通過選取不同的詞語作為特征項(xiàng),采用不同的分類算法來進(jìn)行多次實(shí)驗(yàn),證明了該方法的有效性。徐琳宏等人[5]將情感傾向較強(qiáng)烈的詞語作為特征項(xiàng),支持向量機(jī)作為分類器來對(duì)文本進(jìn)行識(shí)別。雖然有監(jiān)督的方法準(zhǔn)確性較高,但是存在大量樣本數(shù)據(jù)難以獲取,訓(xùn)練出的分類模型難以直接應(yīng)用于其他領(lǐng)域等問題。

因此,現(xiàn)目前越來越多的研究者轉(zhuǎn)向利用半監(jiān)督的方法來解決情感分析問題。半監(jiān)督方法是利用大量未標(biāo)記樣本和少量已標(biāo)記樣本數(shù)據(jù)來實(shí)現(xiàn)。Shoushan Li等人[6]針對(duì)非平衡情感分析問題提出了一種基于協(xié)同訓(xùn)練的半監(jiān)督算法。

本文提出一種基于word2vec和自訓(xùn)練的無監(jiān)督情感分類方法。該算法首先利用Word2vec和詞性標(biāo)簽來構(gòu)建出本領(lǐng)域的情感詞典;隨后利用領(lǐng)域詞典對(duì)計(jì)算出每條評(píng)論的情感傾向值,并以此為依據(jù)抽取出部分情感傾向程度強(qiáng)烈的評(píng)論作為已標(biāo)注訓(xùn)練集;最后選取支持向量機(jī)作為分類算法進(jìn)行自訓(xùn)練學(xué)習(xí)從而識(shí)別出評(píng)論的情感傾向。

2 算法框架

該算法框架主要分為兩個(gè)部分:一是基于Word2vec和詞性標(biāo)簽的情感傾向值計(jì)算;二是自訓(xùn)練學(xué)習(xí)。

2.1 情感傾向值計(jì)算

利用Word2vec和詞性抽取出具有情感色彩的詞語,并采用Xsimilarity工具包對(duì)其進(jìn)行褒貶義分類從而構(gòu)建出領(lǐng)域情感詞典,隨后結(jié)合評(píng)論中的否定詞和程度副詞來進(jìn)行評(píng)論的情感傾向值計(jì)算。具體步驟如下:

(1)利用Ansj分詞工具對(duì)評(píng)論語料進(jìn)行分詞和詞性標(biāo)注,抽取出詞性標(biāo)簽為/an和/a的詞語。并利用Xsimilarity工具包計(jì)算每個(gè)詞語的情感傾向值,將情感傾向值大于0的歸為褒義詞,情感傾向值小于0的歸為貶義詞。從而得到褒義詞集合和貶義詞集合。

(2)利用Google的開源工具word2vec對(duì)語料進(jìn)行訓(xùn)練,獲取詞向量集合。遍歷詞向量集合,判斷詞語word是否存在于步驟(1)得到的集合中,若存在,則不進(jìn)行處理;不存在,則計(jì)算詞語與詞向量集合中其他詞語的相似度,找出相似度大于閾值的詞語sim_word,并查看該詞語是否存在于步驟(1)得到的集合中,若存在,則將word標(biāo)記為與sim_word相同的傾向,并加入相應(yīng)的集合中,從而構(gòu)建出最終的領(lǐng)域情感詞典。

(3)構(gòu)建常用的否定詞詞表以及程度副詞詞表。對(duì)程度副詞詞表按照其強(qiáng)烈程度分為四個(gè)等級(jí),并賦予相應(yīng)的權(quán)重,從高到低權(quán)值依次為3.0、2.0、1.2、0.5。

(4)對(duì)評(píng)論中的每個(gè)詞語進(jìn)行分析和計(jì)算。若存在于領(lǐng)域詞典中的褒義詞集合,則該詞語的情感傾向值設(shè)為1;若存在于貶義詞集合,則為-1。若該詞語前2個(gè)詞語中存在有否定詞則將其情感傾向值取反,反之不變。若該詞語去前后兩個(gè)詞語中存在程度副詞,則將其情感傾向值乘以該程度副詞對(duì)應(yīng)的權(quán)值。

(5)將評(píng)論中每個(gè)詞語的情感傾向值相加求和則得到該條評(píng)論最終的情感傾向值。情感傾向值大于0則說明該條評(píng)論為褒義;反之小于0則說明該條評(píng)論為貶義。

2.2 自訓(xùn)練學(xué)習(xí)

選取部分情感傾向程度強(qiáng)烈的褒貶義評(píng)論作為訓(xùn)練數(shù)據(jù),采用機(jī)器學(xué)習(xí)方法生成分類器,進(jìn)行自訓(xùn)練學(xué)習(xí),直到得到剩余所有評(píng)論的褒貶義分類結(jié)果。具體步驟如下:

(1)評(píng)論的情感傾向值的絕對(duì)值代表了其情感強(qiáng)烈程度,絕對(duì)值越大說明情感越強(qiáng)烈。因此,按照情感傾向值的絕對(duì)值分別對(duì)褒貶義句子進(jìn)行降序排序,選取前N條褒義評(píng)論和前N條貶義評(píng)論結(jié)合在一起作為已標(biāo)注的訓(xùn)練數(shù)據(jù),剩余的評(píng)論作為待分類評(píng)論。本實(shí)驗(yàn)中N為600。

(2)將Unigram作為分類特征,TF-IDF(Term Frequency-Inverse Document Frequency)作為特征項(xiàng)權(quán)重,支持向量機(jī)為分類算法對(duì)上述步驟中得到的已標(biāo)注的訓(xùn)練集合進(jìn)行訓(xùn)練并生成分類器。隨后利用該分類器對(duì)待分類評(píng)論進(jìn)行處理,得到分類結(jié)果及其分類置信度。

(3)若已標(biāo)注的訓(xùn)練評(píng)論數(shù)為待分類的評(píng)論數(shù)的9倍以下,則按分類置信度分別對(duì)褒義和貶義結(jié)果進(jìn)行降序排序,分別選取前M條褒義評(píng)論和前M條貶義評(píng)論用于擴(kuò)展已標(biāo)注訓(xùn)練集,同時(shí)將其從待分類評(píng)論中剔除,隨后轉(zhuǎn)入上述步驟(2);反之則迭代停止,并直接將分類結(jié)果作為最終結(jié)果。本實(shí)驗(yàn)中將M設(shè)為待分類評(píng)論數(shù)量的5%。

3 實(shí)驗(yàn)結(jié)果與分析

本文采用從網(wǎng)絡(luò)下載的某手機(jī)評(píng)論作為實(shí)驗(yàn)數(shù)據(jù),選取評(píng)論挖掘領(lǐng)域常用的查準(zhǔn)率、查全率和整體準(zhǔn)確值作為算法評(píng)估指標(biāo)。對(duì)本文提出的基于word2vec和自訓(xùn)練的無監(jiān)督情感分類算法進(jìn)行實(shí)驗(yàn),其中褒義評(píng)論的查準(zhǔn)率為70.00%、查全率76.30%;貶義句子的查準(zhǔn)率72.69%、查全率65.88%;算法的整體準(zhǔn)確率71.20%。采用相同的語料,用王永等人[7]的方法進(jìn)行實(shí)驗(yàn),褒義評(píng)論的查準(zhǔn)率為72.03%、查全率55.74%;貶義句子的查準(zhǔn)率62.61%、查全率77.40%;算法的整體準(zhǔn)確率66.33%。通過對(duì)比可以發(fā)現(xiàn),本文算法整體上具有更好的性能。

4 結(jié)語

針對(duì)中文領(lǐng)域的用戶評(píng)論情感分析問題,本文提出了一種基于word2vec和自訓(xùn)練的無監(jiān)督情感分類方法。該方法首先利用word2vec工具和詞性標(biāo)簽的無監(jiān)督方法計(jì)算評(píng)論的情感傾向值,并抽取部分評(píng)論作為已標(biāo)注數(shù)據(jù)集,隨后在此基礎(chǔ)上訓(xùn)練出分類器并進(jìn)行自訓(xùn)練學(xué)習(xí)直到迭代結(jié)束。本文提出的算法能夠避免去獲取大量的已標(biāo)注訓(xùn)練集,且實(shí)驗(yàn)結(jié)果對(duì)比證明了該算法的有效性。該研究有助于豐富評(píng)論挖掘領(lǐng)域的研究成果,且為后續(xù)研究奠定一定的基礎(chǔ)。

參考文獻(xiàn):

[1]Turney P D.Thumbs up or thumbs down?:semantic orientation applied to unsupervised classification of reviews[C].Meeting on Association for Computational Linguistics.2002.

[2]Bruno Ohana,Brendan Tierney,Sentiment Classification of Reviews Using SentiWordNet[C].9th.IT & T Conference,2009.

[3]黃仁,張衛(wèi).基于word2vec的互聯(lián)網(wǎng)商品評(píng)論情感傾向研究[J].計(jì)算機(jī)科學(xué),2016,43(s1):387-389.

[4]Pang B,Lee L,Vaithyanathan S.Thumbs up? Sentiment classification using machine learning techniques[C].Proceedings of ACL-02 Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA,USA:Association for Computational Linguistics,2002:79-86.

[5]徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識(shí)別機(jī)制[J].中文信息學(xué)報(bào),2007,21(1):96-100.

[6]Li S,Wang Z,Zhou G,et al.Semi-Supervised Learning for Imbalanced Sentiment Classification[J].Journal of the Royal Statistical Society,2008,172(2):530-530.

[7]王永,陶婭芝,張勤.中文網(wǎng)絡(luò)評(píng)論中的產(chǎn)品特征情感傾向提取算法研究[J].重慶郵電大學(xué)學(xué)報(bào)自然科學(xué)版,2017(1).

作者簡介:陶婭芝(1991-),女,重慶人,碩士,研究方向:知識(shí)發(fā)現(xiàn)、評(píng)論挖掘。

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計(jì)算模型
基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
主站蜘蛛池模板: 国产高清无码麻豆精品| 好吊色妇女免费视频免费| 日韩精品毛片人妻AV不卡| 久久综合五月婷婷| av无码一区二区三区在线| 8090成人午夜精品| 91视频青青草| 青草精品视频| 久久国语对白| 色成人综合| 国产精品嫩草影院视频| 免费看一级毛片波多结衣| 中文字幕一区二区人妻电影| 在线不卡免费视频| 国产原创第一页在线观看| 黄色国产在线| 免费看的一级毛片| 国内精品自在自线视频香蕉| 日韩经典精品无码一区二区| 久久这里只有精品国产99| 国产亚洲精品91| 亚洲资源站av无码网址| 国产在线观看一区精品| 亚洲有无码中文网| 91久久性奴调教国产免费| 久久夜夜视频| 亚洲视频a| 成人一级黄色毛片| 国产人成在线视频| 国产乱码精品一区二区三区中文| 小说 亚洲 无码 精品| 精品视频一区二区观看| 欧美精品v日韩精品v国产精品| 亚洲国产亚洲综合在线尤物| 白丝美女办公室高潮喷水视频 | 九九热视频精品在线| 久久综合丝袜长腿丝袜| 性欧美精品xxxx| 国产青青操| 国产精品无码影视久久久久久久| AV天堂资源福利在线观看| 久久亚洲AⅤ无码精品午夜麻豆| 一级黄色片网| 国产97色在线| 91精品小视频| 精品少妇三级亚洲| 欧美精品二区| 天天爽免费视频| 欧美啪啪网| 国产精品无码作爱| 亚洲福利片无码最新在线播放| 午夜爽爽视频| 国产精品一区二区无码免费看片| 亚洲综合经典在线一区二区| 就去吻亚洲精品国产欧美| 国产Av无码精品色午夜| 97精品久久久大香线焦| 波多野结衣国产精品| 人妻少妇乱子伦精品无码专区毛片| 精品无码一区二区三区在线视频| 精品亚洲国产成人AV| 国产另类乱子伦精品免费女| 一本色道久久88| 亚洲日本中文字幕乱码中文| 91青青草视频| 成人国产一区二区三区| 色婷婷丁香| 亚洲精品无码不卡在线播放| 国内精品自在自线视频香蕉| 成人福利在线观看| 国产成人精品亚洲日本对白优播| 国产女人在线视频| 成人午夜亚洲影视在线观看| 青青操国产视频| 亚洲无码免费黄色网址| yjizz国产在线视频网| 日韩a级片视频| 欧洲极品无码一区二区三区| 天天爽免费视频| 免费一级毛片在线播放傲雪网| 嫩草在线视频| 国产小视频网站|