999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

采用數據挖掘方法對評論進行分類的研究

2018-12-31 00:00:00計競舟余瑞豐徐莎莎
當代家庭教育 2018年12期

摘 要:隨著互聯網的快速發展和普及,網絡已經成為人們生活不可或缺的一部分。目前,隨著網絡上的評論信息劇増,評論數據的有效利用問題己經越來越收到人們的關注。面對大量的評論數據,如何從中挖掘到有用的信息對網站用戶、服務商、生產商都有著重要的意義。本文的主要任務包括對評論數據進行的情感分類和進行基于價值分類。

關鍵詞:情感分類;機器學習;數據挖掘

在電子商務的發展下,更多的消費者開始在電子商務網站上進行消費。目前,對用戶關于產品、人事的意見跟蹤的技術需求越來越迫切,從中產生出一系列關于文本挖掘的具有挑戰性的問題。意見挖掘就是一種能夠解決這些問題,使得人們對文本挖掘的興趣逐漸提高。使用數據挖掘技術字在大量的意向評論文本中進行價值分類和意向分類處理,可幫助消費者更好做出選擇。

一、評論分類的研究方向介紹

(1)情感分類

從網絡評論中對產品進行意向挖掘是一個復雜的過程,其需要的不僅僅是挖掘技術。在經過文本預處理之后,就需要對過濾后的文本進行情感分析。對于情感類別的分類,通常是采用分類模型對整個文檔進行基于情感的分類工作。但是也有使用詞的極性來進行分類。查找例如“質量不錯”、“視覺美妙”、“排版不協調”等暗示作者語義傾向的詞語,并且把送些詞語人工進行標注為正面清晰或者負面傾向,然后添加到特定的詞匯集中。

(2)基于機器學習的分類

機器學習被定義為“不需要對計算機顯式編程就能賦予計算機學習能力研究領域”。機器學習是一系列算法構成,能夠從數據中學習并且做出預測。其算法的運作是通過從樣本輸入數據中建立一個模型,目的是做出數據驅動的預測和決策,而不是單純嚴格的依照靜態變成指令進行的。這是由機器學習的一般流程是通過從預先分類好的文檔中自動構建一個自動文本分類器。機器學習方法優于知識工程方法的原因是工程師的工作從構建分類轉變成一個分類器的自動建立器,也稱作“學習者”。這就意味著學習者不需要定制就能得到,需要做的工作只是從一系列人工分類好的文檔中歸納、自動構建分類器。如果分類器本來就己經存在或者類別更新了,甚至是分類器需要應用到一個完全不同的領域中,需要進行的王作也是一樣簡單。

二、評論的情感分類流程介紹

(1)選擇進行分類測試的主題。對于評論主題的選擇應該符合包含不同類型的評論網站和覆蓋多個領域。本文選擇的主題分成4類,分別是,產品評論、論壇評論、視頻評論和電影評論。主題的不同使得評論文本特征也有相應變化,實驗可得到該分類方法在不同類型文本中的性能表現。(2)根據主題運行爬蟲從各個網站中根據相應規則進行評論文本抓取。(3)對語料進行預處理,分詞、詞性識別,確定范例詞集。(4)計算測試數據集在各個評論文檔的語義傾向值進行情感分類。(5)對測試結果進行分析。在一種極端情況下,評論文本中不存在任何情感詞,導致并不能對其進行情感分類。因此本流程的缺點在于情感詞的依賴導致情感分類結果的偏差,對此的一種改進是在評論的構建過程中對不存在任何情感詞的評論進行過濾。雖然這種方法能提高分類的精確率,但同時也會導致召回率的下降。

三、基于機器學習的評論分類方法

由于人工標注的工作量巨大,這里采用對部分進行根據評論的元數據自動分類,即評論頁面中的是否有用的數據,而對于部分沒有被標記過得評論采用人工判斷的方法進行標記,并把標注后的評論語料被分成兩部分,分別是訓練集和測試集。這里分別對經過顯式垃圾過濾的語料及沒有過濾的語料進行了測試,從中看出,后者訓練出的分類器表現出更巧地性能,表明語料中的噪聲會導致模型穩定性降低。同時,還對不同特征模版構建的分類器進行實驗對比,其結果顯示描述指代的引入使分類結果得到明顯的提高,說明在評論的價值分類問題中起到重要作用。從得到最高值的分類實驗結果看出,對于描述指代特征明顯的評論文檔分類結果較好,例如評論中沒有描述信息、僅有其他主題的描述信息、和僅有評論對象等。但對某些虛假評論僅能在一定程度上進行區分,如一條評論中的值過大,表示該文檔存在過多其他主題的評論信息,這種情況下為任意值,分類器都正確把其歸類。但對于很多與指向性描述數量無關的虛假評論則無法通過該方法簡單的對其進行特征描述。

四、總結

隨著互聯網的蓬勃發展,越來越多評論信息出現在網絡上。從人們的日常上網活動中,無時無刻都會碰到評論信息或者發表評論信息。評論數據量增長迅速,己經充滿了網絡上的各個角落。用戶、服務商和出廠商對評論信息分析、歸納的輔助工具也有著迫切的需求。要對評論數據進行分析需要對評論數據的特征進行分析。評論數據一般都存在著明確地情感傾向,也就是評論是表達正面的稱贊的意思還是表達負面的否定的意思。人們可通過閱讀評論得出這種傾向,也就是通過人工標注的方法對評論進行情感分類。但對于海量評論數據使用這種方法將會浪費大量人力物力,因此如何利用如此大量的評論數據己經成為研究者們的熱門關注話題。對此,本文對評論數據挖掘的應用進行深入研究,提出評論數據情感分類和基于機器學習分類的方法。

參考文獻

[1]Dave k,Lawerence S,Pennock DM.Mining the peanut gallery:opinion exlxactionand seamatic classsication of product reviews[C]//Proceedings of the emotional Word Wide Web Conference.2003.2003:519-528

[2]Tumey P D.Thumbs up or thumbs down:semantic orientation applied to unsupervised classication of reviews[J]Proceedings of nual Meeting of the Association for Computational Linguistics,2010:417-424.

[3]Morinaga S,Yamanishi K,Tateishi K,etal.Mining product reputatiosone Web[C]//ACM,2002:341-349.

主站蜘蛛池模板: 国产成人综合欧美精品久久| 91久久国产综合精品| 久久99精品久久久久久不卡| 一级毛片a女人刺激视频免费| 国产人成在线视频| 手机永久AV在线播放| 国产精品自在在线午夜| 伊人成人在线视频| 91年精品国产福利线观看久久| 嫩草国产在线| 色悠久久综合| 波多野结衣国产精品| 国内精品91| 国产精品密蕾丝视频| 精品久久久久久成人AV| 国产女人在线观看| 在线精品亚洲国产| 亚洲九九视频| 美女视频黄又黄又免费高清| 色婷婷久久| 五月综合色婷婷| 亚洲人成人伊人成综合网无码| 国产激情在线视频| 99激情网| 强乱中文字幕在线播放不卡| 亚洲欧洲美色一区二区三区| 国产高清在线观看91精品| 欧美成人午夜影院| 亚洲最大福利网站| 国产一级无码不卡视频| 性网站在线观看| 久久精品午夜视频| 欧美亚洲另类在线观看| 91精品啪在线观看国产60岁 | 国产精彩视频在线观看| 97精品久久久大香线焦| 91毛片网| 国产青青操| 国产视频一区二区在线观看| 亚洲天堂精品视频| 毛片免费在线视频| 亚洲精品卡2卡3卡4卡5卡区| 久久这里只有精品66| 久久99精品久久久久纯品| 99热亚洲精品6码| 久久精品最新免费国产成人| 91po国产在线精品免费观看| 日本一区二区三区精品视频| 亚洲欧洲国产成人综合不卡| 日本在线欧美在线| 国产农村1级毛片| 国产美女久久久久不卡| 欧美一区二区自偷自拍视频| 欧美精品在线看| 欧美三级自拍| 欧美日韩综合网| 国产免费人成视频网| 激情爆乳一区二区| 国产激爽爽爽大片在线观看| 国产视频欧美| 一本一道波多野结衣一区二区| 在线毛片网站| 日本高清免费不卡视频| 国产一区二区三区在线观看视频| 天天躁狠狠躁| 激情五月婷婷综合网| 26uuu国产精品视频| 亚洲日本一本dvd高清| 亚洲乱亚洲乱妇24p| 国产麻豆另类AV| 欧美成人午夜视频免看| 青青草a国产免费观看| 国内嫩模私拍精品视频| 久久亚洲精少妇毛片午夜无码| 露脸一二三区国语对白| 色综合成人| 欧美日韩北条麻妃一区二区| 中国毛片网| 亚洲香蕉伊综合在人在线| 久久国产黑丝袜视频| 日韩天堂网| 亚洲精品制服丝袜二区|