



摘 要: 在中文微博產品評價分類算法中,由于常規SVM分類器在對少量標記數據的樣本進行訓練時,泛化能力無法滿足要求,無法直接應用于微博文本的數據挖掘中,而傳統的半監督TSVM算法的改造是通過對未標記數據增加懲罰函數完成的,這樣會產生非凸函數優化問題。因此該文研究一種半監督高斯混合模型核的支持向量機分類算法。使用高斯混合模型對已標記和未標記數據進行訓練,求取概率分布。最后通過一個對于iPhone手機的評價實例進行分析,驗證了該文研究方法的優勢。
關鍵詞: 微博; 產品評價; 數據挖掘; 支持向量機; 半監督學習
中圖分類號: TN911?34; TP393 文獻標識碼: A 文章編號: 1004?373X(2016)14?0077?03
Product evaluation and classification algorithm based on Chinese micro blog
ZHANG Yan
(College of Educational Science, Xinjiang Normal University, Urumqi 830017, China)
Abstract: The evaluation and classification algorithm of Chinese microblog products is studied in this paper. Because the conventional support vector machine (SVM) classifier cannot satisfy the requirement of the generalization ability when the samples are trained with a small amount of labeled data, it cannot be directly applied to the data mining of the micro blog text. And the improvement of the traditional semi supervised TSVM algorithm is accomplished by increasing the penalty function to the unlabeled data, but this will produce a non convex function optimization problem. Therefore, a semi?supervised kernel SVM classification algorithm based on Gauss mixture model is studied in this paper. The Gauss mixture model is used to train labeled and unlabeled data to obtain the probability distribution. SVM classification algorithm can make use of the clustering information with unlabeled data as far as possible. Finally, the advantages of this research method are verified by analyzing an example of evaluation for iPhone mobile phone.
Keywords: microblog; product evaluation; data mining; support vector machine; semi?supervised learning
0 引 言
隨著計算機和互聯網的普及,人們越來越多的在網絡中分享、交流、獲取信息。互聯網社交平臺的出現豐富了人們分析、獲取信息的途徑。人們可以在互聯網社交平臺上真實地表達自己對于某種產品的觀點、評價和立場等,這些觀點評價等信息涵蓋了大量的情感信息;因此對于這些情感信息進行挖掘,能夠幫助企業商家分析人們對于產品的評價,了解產品動態,及時做出有效整改,幫助監管部門進行監督和民意調查等[1?3]。
微博是近幾年快速興起的互聯網社交平臺,其特點是信息傳播速度快,范圍廣,用戶量大等。人們越來越依賴微博,越來越愿意在微博中發布自己對于購買商品的評價,因此通過微博對于產品情感評價信息的數據挖掘,能夠獲取大量有意義的產品評價信息[4?6]。
1 基于中文微博的產品評價方法
在對產品評價和情感分析的數據挖掘領域中,使用比較廣泛的方法之一是機器學習方法。機器學習方法主要包括神經網絡、支持向量機等監督學習方法,對于已標記數據能夠達到極高的分類準確率,但是數據的標記過程是限制其應用的主要因素。非監督學習方法不需要大量的標記數據進行分類,但是技術不夠成熟,因此本文使用一種半監督型機器學習方法:半督導SGSVM算法,進行微博中對產品評價信息的挖掘和分類[7?9]。
對于微博中對產品評價信息的挖掘和分類流程如圖1所示。
首先,需要對微博、評論及轉發的文本進行分詞、標注詞性等預處理。然后以特征向量形式表示文本,將數據分為訓練樣本集和測試樣本集,使用訓練樣本對分類模型進行訓練。之后使用訓練后得到的分類器對測試樣本集進行測試。最后對分類結果進行評價[10?11]。
2 基于半監督高斯混合模型核的支持向量機分
類算法
SVM分類器是一種性能優良的分類模型,但是僅限于訓練樣本為已標記數據樣本,對于未標記或部分標記的訓練樣本集,SVM分類性能仍有待提高。使用高斯函數生產樣本中心分別在(1,1)和(-1,-1)的兩類測試樣本,對其中10個樣本進行標記,剩余190個樣本未進行標記,使用SVM分類器進行分類得到分類界面如圖2所示。
可以看出,由于標記數據樣本過少,使用這樣訓練樣本訓練后得到的SVM分類器的泛化能力很弱,因此無法使用這類督導機器學習算法直接應用于微博文本的數據挖掘中[12]。督導學習算法優化問題如下:
式中:[C]是懲罰函數;[fH]是H范數,能夠表示f在再生核希爾伯特空間H上的光滑程度;[Ω]是正則化函數,主要對待求函數進行假設空間約束;
為了同時對已標記和未標記數據進行訓練,將優化問題轉變為:
式中:[H]是同時涵蓋已標記和未標記數據的再生核希爾伯特空間。
傳統的半監督TSVM算法的改造是通過對未標記數據增加懲罰函數完成的。這樣會產生非凸函數優化問題,因此本文研究一種半監督高斯混合模型核的支持向量機分類算法。
定義可見變量[x,x′]的核[Kx,x′]:
式中:[v∈V]表示隱含變量,[V]表示隱含變量集合;[Kzz,z′]為核函數;[Pvx],[Pv′x′]為后驗概率。
高斯混合模型能夠較好在概率空間上對樣本矢量分布特征進行描述,因此使用高斯混合模型對已標記和未標記數據進行訓練,求取概率分布。空間結構概率模型表示為:
式中:[qxv,μv,Av]表示[μv]為第[v]個中心,[A-1v]為協方差矩陣的高斯分布,有:
可將聯合核重新表示為:
式中:[I·]表示標記函數。
可以得到半監督高斯混合模型核為:
定義式(8)表示半監督高斯混合模型的再生核希爾伯特空間距離為:
[Dx,x′=Kx,x+Kx′,x′-2Kx,x′] (8)
通過上述改進,可以使SVM分類算法盡可能使用未標示數據的聚類信息[13]。
定義核函數負荷Mercer核條件,那么會有一個再生希爾伯特核空間和[x→Φx]映射函數,滿足:
為了減小樣本中噪聲樣本的干擾,使用下面的懲罰因子對各個已標記樣本的懲罰因子進行計算:
式中:[C]是懲罰因子值;[Ex]是后驗概率熵。
本文研究的半督導SGSVM算法的流程[14]:
Step1:對高斯混合模型中成分數進行確定,建立高斯混合模型,選取模型初始參數。
Step2:對于輸入樣本,求出其后驗概率[pvx]及核函數。
Step3:將Step1中得到初始模型的核函數以及由標記數據得到的懲罰因子共同輸入SVM模型中訓練,最終得出SVM模型的決策函數。
Step4:對于新輸入的樣本,首先求出核函數值,之后使用決策函數進行分類。
3 實例分析
本文使用200條對于iPhone 6手機的相關感情評價的微博、轉發以及評論的文本構建評價單元7 235條,通過特征項提取,人工標記為強積極、積極、弱積極、弱消極、消極以及強消極6類。隨機抽取其中140條微博,共計5 162個評價單元用于對分類模型的訓練,剩余60條微博,共計2 073條評價單元用于對分類模型的測試。本文使用常規SVM算法和半督導TSVM算法與本文研究的半督導SGSVM算法進行比較研究。
3.1 實驗1:比較不同標記數量對分類的影響
首先通過第一個實驗來比較對不同數量數據標記的情況下,不同算法的分類正確率。分別將訓練數據中20%,40%,60%,80%,100%的數據作為已標記數據,使用三種算法進行訓練,得到三種算法在不同標記數據個數下的分類正確率如圖3所示。
從圖3可以看出,三種算法在具有較少的標記數據量時分類正確率均較低,隨著標記數據量的增多,分類正確率逐漸升高,并且SVM算法的分類正確率要低于另外兩種半監督SVM算法,當達到100%的標記數據量時,三種算法的分類正確率達到一致。說明半監督SVM算法在有較少標記數量情況下,具有相對較好的分類性能。
3.2 實驗2:使用測試數據對不同算法進行測試
隨后通過第二個實驗驗證三種不同測試數據的分類效果。使用測試數據對以訓練的常規SVM算法和半督導TSVM算法與本文研究的半督導SGSVM算法模型進行分類實例分析,其中用于訓練的數據中已有60%為已標記數據。使用綜合評價指標F1作為評價標準,表示為:
式中:[Pj]表示查準率;[Rj]表示查全率。
使用三種算法得到的F1比較見表1。可以看出SVM算法的分類效果最弱,而兩種半監督SVM算法對于不同分類各具優勢,但總的來說,本文研究的半督導SGSVM算法的分類效果最好。
4 結 論
本文研究一種半監督高斯混合模型核的支持向量機分類算法對微博中產品評價信息進行挖掘和分類。使用常規SVM算法和半監督TSVM算法與本文研究的半督導SGSVM算法進行比較研究。研究結果表明:本文研究的半監督方法算法能夠較好地進行信息分類,有效降低對標記數據樣本的要求,提高了算法效率。
參考文獻
[1] 張學超.基于中文微博的產品評價分類及推薦算法研究[D].大連:大連理工大學,2014.
[2] 萬丹琳.基于中文微博的用戶傾向挖掘與分析[D].北京:北京郵電大學,2015.
[3] 田耕.基于關系和內容的推薦算法研究[D].北京:北京交通大學,2015.
[4] 楊東輝.基于情感相似度的社會化推薦系統研究[D].哈爾濱:哈爾濱工業大學,2014.
[5] 紀雪梅.特定事件情境下中文微博用戶情感挖掘與傳播研究[D].天津:南開大學,2014.
[6] 杜愛玲.基于混合推薦算法的微博網絡廣告推薦研究[D].青島:中國海洋大學,2014.
[7] 劉楠.面向微博短文本的情感分析研究[D].武漢:武漢大學,2013.
[8] 溫源.互聯網文本信息挖掘與個性化推薦的研究[D].北京:北京交通大學,2014.
[9] 劉紅玉.網絡輿情情感分析系統的設計與實現[D].成都:電子科技大學,2013.
[10] 康浩.微博文本情感分類方法與應用研究[D].長沙:國防科學技術大學,2012.
[11] 彭蔚喆.面向中文微博文本的情感識別與分類技術研究[D].武漢:華中師范大學,2014.
[12] 陶新民,曹盼東,宋少宇,等.基于半監督高斯混合模型核的支持向量機分類算法[J].信息與控制,2013,42(1):18?26.
[13] 曹盼東.基于圖模型的半監督SVM分類算法研究與應用[D].哈爾濱:哈爾濱工程大學,2012.
[14] 周文剛,趙宇,朱海.基于混合高斯模型和空間模糊度的支持向量機算法研究[J].計算機應用研究,2015(5):1319?1321.