施瑞朗
(杭州電子科技大學 計算機學院, 浙江 杭州 310018)
文本分類是在預定義的分類體系下,根據文本的特征(內容或屬性),將給定文本與一個或多個類別相關聯的過程。文本分類是文本挖掘、機器學習、自然語言處理等諸多領域的子問題之一,在垃圾郵件識別[1],語義分析[2-4]等諸多應用中都有出現。如何將短文本數據進行分類以及提取出每個類中的具有代表性的詞語對社交平臺的數據挖掘和熱點分析[4-5]具有重要意義。
目前,由于社交網站的數據更新周期快,數據收集困難,所以很少有針對社交網站數據的文本分類算法研究。機器學習是近年來興起的新興領域,由于其相關算法有深厚的理論基礎,已經被廣泛應用于各個領域[6-7]。本文采用支持向量機、樸素貝葉斯、K近鄰和決策樹共4種常用于文本分類的機器學習算法對收集到的社交平臺數據集進行模型訓練,然后通過精確率、召回率等機器學習常用的評估指標對模型進行評估,最后采用TF-IDF算法[8]統計出每個類別中的代表性詞語。
支持向量機(Support Vector Machine,SVM)算法[9-10]對于兩個種類的分類問題,尋找一個超平面作為兩類訓練樣本點的分割,以保證最小的分類錯誤率。在線性可分的情況下,存在一個或多個超平面使得訓練樣本完全分開,SVM的目標是找到其中的最優超平面,最優超平面是使得每一類數據與超平面距離最近的向量與超平面之間的距離最大的這樣的平面;對于線性不可分的情況,通過使用核函數(一種非線性映射算法)將低維輸入空間線性不可分的樣本轉化為高維特征空間使其線性可分。……