劉春磊 梁瑞斯 邸元浩

摘 要:自然語言處理是人工智能領域中的一個熱門方向,而文本分類作為自然語言處理中的關鍵技術受到專家學者的廣泛關注。隨著機器學習技術的發展,決策樹算法已經在文本分類中取得了較好的分類效果。本文針對短文本分類問題,利用TFIDF提取文本特征后,結合梯度提升決策樹算法進行文本分類,并與樸素貝葉斯、邏輯回歸和支持向量機的分類效果進行對比分析,驗證了梯度提升決策樹用于短文本分類的可行性。
關鍵詞:自然語言處理;文本分類;機器學習;決策樹
短文本分類是信息檢索和文本數據挖掘的基礎,也是當前自然語言處理領域中一個重要的研究方向,在情感分析、垃圾郵件過濾、新聞分類等領域有著廣泛的應用價值。
機器學習方法的應用將文本分類任務拆分為特征工程和分類器,完成數據到信息和信息到知識的過程。[1]文本特征選擇方法較多,其中TFIDF可以有效評估特定字詞對于一個文本集或一個語料庫中的重要程度。[2]文本分類常用的分類器有樸素貝葉斯、邏輯回歸、支持向量機、決策樹等算法。[3]樸素貝葉斯和邏輯回歸在屬性個數比較多或者屬性之間相關性較大時,分類效果較差。當需要分類的樣本較多時支持向量機將耗費大量的機器內存和運算時間。決策樹算法中的GBDT(Gradient Boosting Decision Tree),是一種迭代的回歸決策樹算法,該算法由多棵決策樹組成,將所有樹的結論融合求解,是泛化能力較強的算法。
基于此,本文提出一種基于TFIDF和GBDT的短文本分類算法,用以解決現有短文本分類算法準確率較低、分類時間長、計算量較大等問題。
1 文本特征提取
文本數據屬于非結構化數據,一般要轉換成結構化的數據,將文本數據特征進行向量化。[4]詞袋模型是一種常用的用于文本向量化的模型,通過權重表示詞在一段文本中的重要程度,并進一步利用TFIDF提取文本的特征。TFIDF的主要內容是:如果某個詞在一段文本中出現的頻率高,并且在其他文本中出現的次數較少,則認為該詞具有較強的類別區分能力,即TF和IDF的乘積,適合作為文本分類的特征。
綜合上表中的F1值和訓練時間可以看出,梯度提升決策樹模型有較高的F1值。同時,相比與其他模型,在訓練時間有著更優的表現。
4 結論
本文在現有短文本分類方法的基礎上,使用梯度提升決策樹模型作為分類器,進行了文本分類的實驗。通過基于TFIDF的特征提取,十折交叉驗證后取平均值,F1值達0.81,驗證了梯度提升決策樹分類器在短文本分類上的適用性。
參考文獻:
[1]盧健,馬成賢,楊騰飛,周嫣然.Text-CRNN+Attention架構下的多類別文本信息分類[J/OL].計算機應用研究.
[2]牛永潔,田成龍.融合多因素的TFIDF關鍵詞提取算法研究[J/OL].計算機技術與發展,2019(07).
[3]丁月,汪學明.一種基于改進特征加權的樸素貝葉斯分類算法[J/OL].計算機應用研究.
[4]孟濤,王誠.基于擴展短文本詞特征向量的分類研究[J/OL].計算機技術與發展,2019(04).