999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于中文微博的產品評價分類算法

2016-04-12 00:00:00張燕
現代電子技術 2016年14期

摘 要: 在中文微博產品評價分類算法中,由于常規SVM分類器在對少量標記數據的樣本進行訓練時,泛化能力無法滿足要求,無法直接應用于微博文本的數據挖掘中,而傳統的半監督TSVM算法的改造是通過對未標記數據增加懲罰函數完成的,這樣會產生非凸函數優化問題。因此該文研究一種半監督高斯混合模型核的支持向量機分類算法。使用高斯混合模型對已標記和未標記數據進行訓練,求取概率分布。最后通過一個對于iPhone手機的評價實例進行分析,驗證了該文研究方法的優勢。

關鍵詞: 微博; 產品評價; 數據挖掘; 支持向量機; 半監督學習

中圖分類號: TN911?34; TP393 文獻標識碼: A 文章編號: 1004?373X(2016)14?0077?03

Product evaluation and classification algorithm based on Chinese micro blog

ZHANG Yan

(College of Educational Science, Xinjiang Normal University, Urumqi 830017, China)

Abstract: The evaluation and classification algorithm of Chinese microblog products is studied in this paper. Because the conventional support vector machine (SVM) classifier cannot satisfy the requirement of the generalization ability when the samples are trained with a small amount of labeled data, it cannot be directly applied to the data mining of the micro blog text. And the improvement of the traditional semi supervised TSVM algorithm is accomplished by increasing the penalty function to the unlabeled data, but this will produce a non convex function optimization problem. Therefore, a semi?supervised kernel SVM classification algorithm based on Gauss mixture model is studied in this paper. The Gauss mixture model is used to train labeled and unlabeled data to obtain the probability distribution. SVM classification algorithm can make use of the clustering information with unlabeled data as far as possible. Finally, the advantages of this research method are verified by analyzing an example of evaluation for iPhone mobile phone.

Keywords: microblog; product evaluation; data mining; support vector machine; semi?supervised learning

0 引 言

隨著計算機和互聯網的普及,人們越來越多的在網絡中分享、交流、獲取信息。互聯網社交平臺的出現豐富了人們分析、獲取信息的途徑。人們可以在互聯網社交平臺上真實地表達自己對于某種產品的觀點、評價和立場等,這些觀點評價等信息涵蓋了大量的情感信息;因此對于這些情感信息進行挖掘,能夠幫助企業商家分析人們對于產品的評價,了解產品動態,及時做出有效整改,幫助監管部門進行監督和民意調查等[1?3]。

微博是近幾年快速興起的互聯網社交平臺,其特點是信息傳播速度快,范圍廣,用戶量大等。人們越來越依賴微博,越來越愿意在微博中發布自己對于購買商品的評價,因此通過微博對于產品情感評價信息的數據挖掘,能夠獲取大量有意義的產品評價信息[4?6]。

1 基于中文微博的產品評價方法

在對產品評價和情感分析的數據挖掘領域中,使用比較廣泛的方法之一是機器學習方法。機器學習方法主要包括神經網絡、支持向量機等監督學習方法,對于已標記數據能夠達到極高的分類準確率,但是數據的標記過程是限制其應用的主要因素。非監督學習方法不需要大量的標記數據進行分類,但是技術不夠成熟,因此本文使用一種半監督型機器學習方法:半督導SGSVM算法,進行微博中對產品評價信息的挖掘和分類[7?9]。

對于微博中對產品評價信息的挖掘和分類流程如圖1所示。

首先,需要對微博、評論及轉發的文本進行分詞、標注詞性等預處理。然后以特征向量形式表示文本,將數據分為訓練樣本集和測試樣本集,使用訓練樣本對分類模型進行訓練。之后使用訓練后得到的分類器對測試樣本集進行測試。最后對分類結果進行評價[10?11]。

2 基于半監督高斯混合模型核的支持向量機分

類算法

SVM分類器是一種性能優良的分類模型,但是僅限于訓練樣本為已標記數據樣本,對于未標記或部分標記的訓練樣本集,SVM分類性能仍有待提高。使用高斯函數生產樣本中心分別在(1,1)和(-1,-1)的兩類測試樣本,對其中10個樣本進行標記,剩余190個樣本未進行標記,使用SVM分類器進行分類得到分類界面如圖2所示。

可以看出,由于標記數據樣本過少,使用這樣訓練樣本訓練后得到的SVM分類器的泛化能力很弱,因此無法使用這類督導機器學習算法直接應用于微博文本的數據挖掘中[12]。督導學習算法優化問題如下:

式中:[C]是懲罰函數;[fH]是H范數,能夠表示f在再生核希爾伯特空間H上的光滑程度;[Ω]是正則化函數,主要對待求函數進行假設空間約束;

為了同時對已標記和未標記數據進行訓練,將優化問題轉變為:

式中:[H]是同時涵蓋已標記和未標記數據的再生核希爾伯特空間。

傳統的半監督TSVM算法的改造是通過對未標記數據增加懲罰函數完成的。這樣會產生非凸函數優化問題,因此本文研究一種半監督高斯混合模型核的支持向量機分類算法。

定義可見變量[x,x′]的核[Kx,x′]:

式中:[v∈V]表示隱含變量,[V]表示隱含變量集合;[Kzz,z′]為核函數;[Pvx],[Pv′x′]為后驗概率。

高斯混合模型能夠較好在概率空間上對樣本矢量分布特征進行描述,因此使用高斯混合模型對已標記和未標記數據進行訓練,求取概率分布。空間結構概率模型表示為:

式中:[qxv,μv,Av]表示[μv]為第[v]個中心,[A-1v]為協方差矩陣的高斯分布,有:

可將聯合核重新表示為:

式中:[I·]表示標記函數。

可以得到半監督高斯混合模型核為:

定義式(8)表示半監督高斯混合模型的再生核希爾伯特空間距離為:

[Dx,x′=Kx,x+Kx′,x′-2Kx,x′] (8)

通過上述改進,可以使SVM分類算法盡可能使用未標示數據的聚類信息[13]。

定義核函數負荷Mercer核條件,那么會有一個再生希爾伯特核空間和[x→Φx]映射函數,滿足:

為了減小樣本中噪聲樣本的干擾,使用下面的懲罰因子對各個已標記樣本的懲罰因子進行計算:

式中:[C]是懲罰因子值;[Ex]是后驗概率熵。

本文研究的半督導SGSVM算法的流程[14]:

Step1:對高斯混合模型中成分數進行確定,建立高斯混合模型,選取模型初始參數。

Step2:對于輸入樣本,求出其后驗概率[pvx]及核函數。

Step3:將Step1中得到初始模型的核函數以及由標記數據得到的懲罰因子共同輸入SVM模型中訓練,最終得出SVM模型的決策函數。

Step4:對于新輸入的樣本,首先求出核函數值,之后使用決策函數進行分類。

3 實例分析

本文使用200條對于iPhone 6手機的相關感情評價的微博、轉發以及評論的文本構建評價單元7 235條,通過特征項提取,人工標記為強積極、積極、弱積極、弱消極、消極以及強消極6類。隨機抽取其中140條微博,共計5 162個評價單元用于對分類模型的訓練,剩余60條微博,共計2 073條評價單元用于對分類模型的測試。本文使用常規SVM算法和半督導TSVM算法與本文研究的半督導SGSVM算法進行比較研究。

3.1 實驗1:比較不同標記數量對分類的影響

首先通過第一個實驗來比較對不同數量數據標記的情況下,不同算法的分類正確率。分別將訓練數據中20%,40%,60%,80%,100%的數據作為已標記數據,使用三種算法進行訓練,得到三種算法在不同標記數據個數下的分類正確率如圖3所示。

從圖3可以看出,三種算法在具有較少的標記數據量時分類正確率均較低,隨著標記數據量的增多,分類正確率逐漸升高,并且SVM算法的分類正確率要低于另外兩種半監督SVM算法,當達到100%的標記數據量時,三種算法的分類正確率達到一致。說明半監督SVM算法在有較少標記數量情況下,具有相對較好的分類性能。

3.2 實驗2:使用測試數據對不同算法進行測試

隨后通過第二個實驗驗證三種不同測試數據的分類效果。使用測試數據對以訓練的常規SVM算法和半督導TSVM算法與本文研究的半督導SGSVM算法模型進行分類實例分析,其中用于訓練的數據中已有60%為已標記數據。使用綜合評價指標F1作為評價標準,表示為:

式中:[Pj]表示查準率;[Rj]表示查全率。

使用三種算法得到的F1比較見表1。可以看出SVM算法的分類效果最弱,而兩種半監督SVM算法對于不同分類各具優勢,但總的來說,本文研究的半督導SGSVM算法的分類效果最好。

4 結 論

本文研究一種半監督高斯混合模型核的支持向量機分類算法對微博中產品評價信息進行挖掘和分類。使用常規SVM算法和半監督TSVM算法與本文研究的半督導SGSVM算法進行比較研究。研究結果表明:本文研究的半監督方法算法能夠較好地進行信息分類,有效降低對標記數據樣本的要求,提高了算法效率。

參考文獻

[1] 張學超.基于中文微博的產品評價分類及推薦算法研究[D].大連:大連理工大學,2014.

[2] 萬丹琳.基于中文微博的用戶傾向挖掘與分析[D].北京:北京郵電大學,2015.

[3] 田耕.基于關系和內容的推薦算法研究[D].北京:北京交通大學,2015.

[4] 楊東輝.基于情感相似度的社會化推薦系統研究[D].哈爾濱:哈爾濱工業大學,2014.

[5] 紀雪梅.特定事件情境下中文微博用戶情感挖掘與傳播研究[D].天津:南開大學,2014.

[6] 杜愛玲.基于混合推薦算法的微博網絡廣告推薦研究[D].青島:中國海洋大學,2014.

[7] 劉楠.面向微博短文本的情感分析研究[D].武漢:武漢大學,2013.

[8] 溫源.互聯網文本信息挖掘與個性化推薦的研究[D].北京:北京交通大學,2014.

[9] 劉紅玉.網絡輿情情感分析系統的設計與實現[D].成都:電子科技大學,2013.

[10] 康浩.微博文本情感分類方法與應用研究[D].長沙:國防科學技術大學,2012.

[11] 彭蔚喆.面向中文微博文本的情感識別與分類技術研究[D].武漢:華中師范大學,2014.

[12] 陶新民,曹盼東,宋少宇,等.基于半監督高斯混合模型核的支持向量機分類算法[J].信息與控制,2013,42(1):18?26.

[13] 曹盼東.基于圖模型的半監督SVM分類算法研究與應用[D].哈爾濱:哈爾濱工程大學,2012.

[14] 周文剛,趙宇,朱海.基于混合高斯模型和空間模糊度的支持向量機算法研究[J].計算機應用研究,2015(5):1319?1321.

主站蜘蛛池模板: 久久久噜噜噜| 亚洲专区一区二区在线观看| 中日无码在线观看| 尤物特级无码毛片免费| 亚洲视频无码| 亚洲国产午夜精华无码福利| 中文字幕丝袜一区二区| 91人妻在线视频| 亚洲午夜片| 久久青草免费91线频观看不卡| jizz国产在线| 亚洲国产精品一区二区高清无码久久| 国产男女免费完整版视频| 国产在线精彩视频论坛| 欧美成人国产| 国产成人高精品免费视频| 视频一本大道香蕉久在线播放| 精品福利国产| 亚洲天堂精品视频| 2020精品极品国产色在线观看| 国产在线视频二区| a天堂视频在线| 成人午夜福利视频| 特级欧美视频aaaaaa| 国产精品久久久久鬼色| 国产99热| 成人av手机在线观看| 激情影院内射美女| 青青青视频蜜桃一区二区| 99ri国产在线| 国产精品成人一区二区不卡| 啊嗯不日本网站| 亚洲高清无码久久久| h视频在线播放| 亚洲天堂成人在线观看| 国产成人欧美| 亚洲第一精品福利| 色综合天天娱乐综合网| 国产精品视频猛进猛出| 日韩一区二区在线电影| 亚洲综合专区| 在线观看无码a∨| 成人国产精品网站在线看| 97免费在线观看视频| 日韩毛片免费观看| 热re99久久精品国99热| 久久久久久久久18禁秘 | 精品视频91| 亚洲国产成人久久精品软件 | 国产午夜精品一区二区三| 国产91精品调教在线播放| 亚洲综合色在线| 日韩在线播放欧美字幕| 欧美成人看片一区二区三区 | 亚洲视频a| 精品自窥自偷在线看| 亚洲第一成年人网站| 欧美精品综合视频一区二区| 国产微拍一区| 亚洲熟妇AV日韩熟妇在线| 91精品国产一区| 亚瑟天堂久久一区二区影院| 欧美另类精品一区二区三区| 久久精品嫩草研究院| 日韩在线欧美在线| 亚洲视频三级| 国产乱人伦AV在线A| 日韩欧美中文亚洲高清在线| 精品1区2区3区| 乱人伦视频中文字幕在线| 亚洲综合九九| 亚洲香蕉在线| 国内精品免费| 91精品伊人久久大香线蕉| 日本欧美成人免费| www.亚洲色图.com| 91热爆在线| 激情综合网址| 波多野结衣无码中文字幕在线观看一区二区| 亚洲综合欧美在线一区在线播放| 国产91av在线| 狼友视频国产精品首页|