999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于支持向量機的網絡評論情感分析方法

2019-09-17 08:27:22程正雙王亮
電子技術與軟件工程 2019年16期
關鍵詞:分類情感方法

文/程正雙 王亮

隨著互聯網及信息技術的快速發展,網絡成為人們現在獲取信息的主要途徑,并且由以前紙質版的單方面獲取信息變成可以對獲取的信息進行在線討論和評價。這種轉變雖然能夠看到及時的反饋但也形成了大量虛假信息,使不知來龍去脈的網民誤信謠言及導向,因此網絡輿情監控變得越發重要。通過對網絡上信息監控和分析,可以對網絡上的情感走向進行信息排查。但對于如此龐大的信息,僅依靠人為挖掘監控是遠遠不夠的,因此利用當前的信息技術如數據挖掘、大數據分析、機器學習和人工智能等對網絡上信息進行情感分析、給出定性的情感類別成為當前研究的熱點之一。

從相關文獻看,網絡信息情感向分析可歸類為主要的兩類方法:第一種是基于情感詞典的方法,第二種是基于機器學習的方法。第一種方法的基本思想是計算句子中表示情感的詞語與詞典中詞語的相似度,然后得到詞語的情感極性從而判斷判斷句子情感傾向,此方法的不足時對上下文及句子整體的語義理解不足。基于機器學習的方法一般將詞語詞向量表示,然后使用卷積神經網絡或者遞歸神經網絡等深度學習方法對其情感極性進行分類。由于神經網絡的參數較多,在實際應用中還需要參數優化和防止過擬合。

本文利用支持向量機能夠分類的特點,提出了一種基于支持向量機的網絡信息情感分析方法。首先給出了利用python對網頁信息進行獲取的方式,然后對支持向量機的基本原理進行了概述,接下來給出了基于支持向量機的情感分析方法的流程,最后通過實驗驗證了此方法的有效性。

1 信息獲取及表示

1.1 信息獲取

分析網站的結構,利用python對網頁信息進行爬蟲,獲取我們想要的評論作為數據。獲取的數據中因含有大量冗余和無意義的數據,如繁體字、間隔、符號等利用規則有效剔除臟數據,清洗數據不僅為訓練提供有效的數據而且減少無效參數提高準確率。對于清除后的數據利用分詞工具進行分詞操作,精確的分詞模式不僅可以根據詞性分詞而且可以提取關鍵字、自定義字典和去除停用詞等,為下一步模型訓練進行準備。流程如圖1所示。

1.2 信息表示

在自然語言處理中,詞向量就是將自然語言數值化。以one-hot詞向量為例,one-hot詞向量在所有狀態中計算出概率最高的狀態為1,其余為0。因此在one-hot詞向量中,只會有其中一個分量只是1,其余全為設置為0。one-hot詞向量易造成數據稀疏的缺點, Word2ver是機器學習中訓練分布式詞向量的一種方法。在特征提取時利用Word2vec可以將一個句子中的每個詞組映射到一個空間中,從而使每條語句都對應一個同等維度的詞向量矩陣,這個矩陣類似于圖像的矩陣形式。在本文中用word2ver訓練語料,得到詞向量后進行切詞和去停用詞處理,獲取詞向量集合。在遍歷詞向量集合會有一些使用率很低的詞匯,在訓練詞向量時詞頻低于5的詞匯都不會被訓練,從而移除沒有詞向量的詞匯。

2 基于支持向量機的的情感分析

支持向量機SVM是一種有監督的機器學習模型。SVM分類器既是分類模型,也可以看作線性回歸模型。支持向量從訓練數據中創建一個函數,訓練數據通常由雙輸入對象和期望輸出組成,從而學習出的函數可以用以預測新對象的輸出。SVM通常用于分類,其中函數輸出有限類中的一個。支持向量機還用于回歸和偏向學習,它們分別被稱為支持向量回歸(SVR)和排序支持向量機(SVM)。支持向量機(SVM)最初分為兩類,常用于兩種情況:線性可分和線性不可分。在實際應用中,所獲得的訓練樣本往往會受到噪聲和離群點樣本的污染。支持向量機得到的分類超平面由支持向量確定。噪聲的存在增加了標準SVM訓練的低效性,使得決策邊界不可能從最優超平面上得到。在機器學習中,有許多改進分類的技術。因此,為了改進分類問題,人們提出了許多方法,通過識別樣本的不確定性,如噪聲樣本和離群點樣本,來丟棄或刪除這些樣本。同時,針對支持向量機分類方法中存在的噪聲和離群樣本,給出了改進分類方法的一些解決方案。另一方面,對于SVM分類器的樣本約簡,提出了許多識別決策邊界的方法。在數據集存在噪聲的情況下,已有的分類方法不能有效地識別邊界樣本,從而降低了SVM分類器的計算量。

機器學習的框架是要從訓練集中提取特征,結合一定的算法(如:SVM)得到分類結果。其SVM中涉及的超平面是到一側最近點的距離等于到另一側最近點的距離,同樣超平面分為線性可區分和線性不可區分。訓練SVM對仿真參數空間中兩個不同點的自旋構型數據集的元素進行分類。如果訓練數據位于一個相變的不同側面,那么訓練后的SVM將自旋構型標記為中間到訓練集的能力可能用于研究相變,例如確定模型參數空間中的相變點。為了說明SVM的概念,考慮一個最簡單的例子:n維空間Rn中的點x,其中有一組這樣的點,它們可以被超平面分成兩組(通常用y=±1標記)。在垂直距離上與超平面最接近的點是支撐向量。

w ? x - b = 0.

支持向量機的訓練包括找到使|K|最小的w和b訓練集中所有點i服yi(w ? xi- b)≥1。利用該最小化問題的解,定義任意點x的決策函數為:d(x) = w ? x - b.然后d(x)的符號為這兩組中的任意一組指定一個點。

在我們實際應用中,完全線性的數據分離是幾乎不可能達到的。可以對所謂的對偶公式進行推廣,這也允許加入非線性特性。這里省略了細節,我們只引用將在后續分析中使用的決策函數的最終形式:

圖1:信息獲取流程

圖2:降維維數曲線

圖3:ROC曲線

將訓練中得到的支持向量標記出來。本文主要分為正面、負面和中性三類,利用SVM分類作為情感分類器的算法。對帶有標簽的訓練集和驗證集進行分類訓練。SVM主要針對樣本數據進行訓練學習、分類和分析預測,由于SVM要求被計算機識別的因而數據都被處理為實數,因此對于屬性值為類別的屬性要進行轉換。例如:{贊,差,一般},可以轉換成3個屬性,贊(1, 0, 0)、差(0, 1, 0)和一般(0, 0, 1)等。SVM有較為嚴格的統計學習理論,具有很好的推廣能力。這可以抓住關鍵樣本和刪除大量冗余樣本。

3 實驗及結果分析

在本次實驗中首先對評測進行數據處理,將從網頁中爬蟲下來是數據提取到文本中,然后將文本通過結巴工具進行分詞和詞性標注,最后將結果保存到另外一個文本中。在這里為了能夠簡化,采用中文分詞的精確模式,試圖將句子最精確地切開,比較適合文本分析。最后全部以行讀入數據,相當于每行就是一個獨立的句子。為了降低對內存的消耗,這里我們使用iter迭代,告訴Word2Vec輸入的數據是可迭代的對象,使用生成器會大大降低內存消耗,所以這里我們返回的是生成器而不是列表(近似將生成器等同于列表)。處理后將數據樣本分為訓練集、驗證集和測試集,訓練集用來訓練模型。驗證集用來驗證通過模型得到的情感是否正確,及時反饋給模型,并優化模型。測試集便用來測試模型。將詞向量所得到的高維數據再用word2vec中的方法將相近的詞進行匯聚,再對情感字典降維和擴充等操作,最終作為輸入數據用于SVM分類。

3.1 部分實現代碼

代碼如下:

3.2 實驗結果分析

實驗結果中,首先對數據預處理時對數據分布式向量化Word2vec。在高維向量空間中對稀疏數據集的探索也變得更加困難。是因為得出高維度詞向量,隨著維數的增加,數據的稀疏性會越來越高。主成分分析PCA (PCA),也稱為Karl-Hunin-Lough變換,是一種研究高維數據結構的技術。PCA可以將潛在相關的高維變量合成為線性變量所以要進行降維。本文采用PCA算法對結果進行降維,Word2vec模型設定了400的維度進行訓練,得到的詞向量為400維。運行代碼,根據結果圖發現,包含原始數據的絕大部分內容是在前100維,因此模型的輸入選擇前100維。維數曲線如圖2。

當數據都準備好后用機器學習SVM訓練,訓練之后模型用于預測句子是正面評論、負面評論或者是中性評論,對于模型是否有效及效果的好壞,可以通過驗證模型計算測試集的預測精度,并用ROC曲線來驗證分類器的有效性。運行代碼,得到Test Accuracy: 0.886,即本次實驗測試集的預測準確率為88.6%,ROC曲線如圖3所示。

4 結語

本文提出基于機器學習的情感分類方法,利用網絡爬蟲作為輿情分析數據獲取的通道,獲取數據后利用Word2vec工具和情感詞性標簽建立,并在此基礎上結合否定詞和副詞等來確定情感傾向值。在訓練時,選出其中部分表達積極情感的文本和其中小部分表達消極情感的文本,或者還包括一部分表達中性情感的文本,用SVM方法進行訓練,獲得一個情感分類器。在未來,我們不僅要努力提高數據在情感分類的有效性,而且還要研究不確定性的其他方面,并將該方法擴展到多類分類問題。

猜你喜歡
分類情感方法
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
分類討論求坐標
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 无码中文AⅤ在线观看| 亚洲国产成人无码AV在线影院L| 99re精彩视频| 精品国产91爱| 91精品日韩人妻无码久久| 国产麻豆另类AV| 国产成人综合日韩精品无码首页 | 色悠久久久| 久久免费成人| 国产精品香蕉在线| 第一页亚洲| 一级做a爰片久久免费| 国产精品成人第一区| 乱人伦中文视频在线观看免费| 999国内精品视频免费| 99视频在线免费| 久久香蕉欧美精品| 国产成人a毛片在线| 日韩精品毛片| 一级黄色片网| 国产鲁鲁视频在线观看| 青青青国产视频手机| 亚洲精品自产拍在线观看APP| 成人另类稀缺在线观看| 一区二区偷拍美女撒尿视频| 久久综合色视频| 福利在线一区| 国产91丝袜| 欧美亚洲欧美| 色天天综合久久久久综合片| 伊人色天堂| 国产呦精品一区二区三区下载| 婷婷亚洲视频| 99热这里只有成人精品国产| 国产一级无码不卡视频| 亚洲精品777| 欧美一级高清视频在线播放| 亚洲成年网站在线观看| 精品久久久久成人码免费动漫| 免费人成黄页在线观看国产| 亚洲日韩在线满18点击进入| 亚洲国产高清精品线久久| 欧美日韩精品在线播放| 五月婷婷丁香色| 久久久噜噜噜| 天天综合色网| 国产又爽又黄无遮挡免费观看| 亚欧美国产综合| 日本久久网站| 日本草草视频在线观看| 亚洲国产成人在线| 亚洲精品成人片在线观看| 亚洲欧洲日产无码AV| 国产在线观看高清不卡| 亚洲伊人天堂| 亚洲一区二区三区中文字幕5566| 精品国产免费观看| 亚洲最大看欧美片网站地址| 最新国语自产精品视频在| 久久动漫精品| 欧美日韩在线亚洲国产人| 国产无人区一区二区三区| 久久综合九色综合97婷婷| 自慰高潮喷白浆在线观看| 日韩a级片视频| 精品亚洲麻豆1区2区3区| 亚洲精品国产精品乱码不卞| 亚洲二区视频| 国产午夜无码专区喷水| 亚洲成a∧人片在线观看无码| hezyo加勒比一区二区三区| 国产精品一区二区无码免费看片| 成AV人片一区二区三区久久| 国产一二三区视频| 亚洲av综合网| 成人久久18免费网站| 欧美中文字幕一区二区三区| 99久久国产自偷自偷免费一区| 欧美在线一二区| 欧美黄色a| 午夜激情福利视频| 国产精品一老牛影视频|