文/崔懿心
隨著社交網絡的蓬勃發展,人們對社交網絡的需求已經不僅僅是為了獲取資訊,還很大程度上地利用社交網絡來表達自我,宣泄情感。就在去年,臉書陷入了私下和廣告商交易用戶社交數據的丑聞當中,以便廣告商通過分析社交數據得出用戶的不同偏好,并將廣告針對性下放。這說明了社交數據具有巨大的可研究性,如果該特征能夠被正當利用,那么我們將可以提取出很多有用的信息。本文將會解決以下三個問題:
(1)利用文本挖掘技術對社交數據進行預處理,并選出最優特征提取模型;
(2)采用積極的機器學習算法、傳統鄰近分類算法和集成學習算法訓練時事類微博二分類模型,對比選出最優模型;
(3)闡述本研究所得的結論,包括最終模型的描述和多種算法間的對比;并討論時事偏好評估模型在實際生活上的應用
中文分詞算法可以分為三種類型:基于字符串匹配的分詞方法,基于統計的分詞方法以及基于理解的分詞方法。基于統計的分詞方法,通常會統計相應詞串的組合出現的頻率,進而評估組合間詞串的緊密程度,如果達到一定標準則認為組成了一個詞匯。該方法常用的統計模型包括隱馬爾科夫模型,最大熵模型以及N-gram模型等等。本文采用的是基于統計的分詞方法中的N-gram模型。
本文數據挖掘的研究過程將使用9種機器學習算法,包括樸素貝葉斯算法,邏輯回歸算法,支持向量機SVM算法,決策樹算法,AdaBoost(自適應增強)算法,隨機森林RF算法等等。
利用網絡爬蟲獲取微博名為頭條新聞和新浪娛樂的微博各5000條,對數據進行去異常值和人工標注:定義“頭條新聞”所發微博為時事偏好強微博,標注tag=1;“新浪娛樂”發表的微博則為科研偏好弱數據,標注tag=0。最終獲取到的數據包括content和tag兩個變量,其中content為文本數據,tag為布爾型變量。同時,對content變量進行中文分詞后,利用TF-IDF技術進行文本特征提取并對特征進行過濾。

表1:各特征提取算法實驗結果

表2:分類算法對比
本文采用N-grams算法進行中文分詞,通過調參得到三種分詞模型:unigram(單詞)模型、unigram+bigram(單雙詞)模型、bigram(雙詞)模型,經過機器學習算法訓練后進行分詞模型的對比,結果如表1所示。
由表1可得,在各個積極機器學習算法訓練中,單雙詞模型在準確率和AUC值的指標對比中都要更勝一籌。因此選取單雙詞模型作為最優分詞模型,加入TF-IDF特征提取技術組成最優文本特征提取模型,最終提取出15562個文本特征向量。
本文共采取九種機器學習算法進行時事類微博分類器的訓練,共分成三類分類算法進行對比。基礎評價指標對比如表2所示。
Rocchio和KNN屬于傳統的鄰近分類算法,其評價指標普遍比機器學習算法要差。Rocchio算法和KNN鄰近算法的準確率均低于其他四個機器學習算法,甚至低于4種機器學習算法的平均準確率95.34%。說明積極機器學習算法優于傳統鄰近分類算法。積極的機器學習算法之間,線性SVC的準確率,F1分數,AUC值達到了96%以上的。而決策樹模型在積極的機器學習算法中屬于分類效果最差的模型。
集成學習算法的模型分類效果顯示,AdaBoost的各個模型指標都不理想,甚至低于傳統鄰近算法。而將隨機森林算法與強單分類器——線性支持分類機模型對比發現,線性支持分類機算法在各方面都要更勝一籌。
對線性支持分類機進行調參,包括懲罰項、懲罰項參數和成本函數類型。最終通過模型評價指標的對比得到,最優分類器為懲罰項為l2范數,成本函數類型為square hinge,懲罰項系數為1的線性SVC模型。因此,在分類結果基礎上,得到以“時事類微博/總微博數”為時事偏好評估指標的用戶時事偏好評估模型。
本文重點研究如何從社交數據提取出用戶的時事偏好屬性,并將該屬性指標用于學生評價體系當中。總結全文得到以下研究成果:以單雙詞模型為分詞模型,結合TF-IDF技術作為最優文本特征提取模型;對比9種機器學習算法,得出最優分類算法為線性支持分類機;最優時事類微博分類器為懲罰項為l2范數,成本函數為square hinge,懲罰項系數為1 的線性SVC模型。