張麗杰, 張甜甜, 周威威
(長春工業大學 計算機科學與工程學院, 吉林 長春 130012)
大數據、云計算等現代信息技術的發展,極大地推動了傳統紙質文檔快速向電子化、數字化文檔進行轉變的進程。其中表現最為明顯的便是新聞行業。網絡新聞發展迅速,每天不斷地產生數以萬計的新聞文本,令人目不暇接。對新聞文本進行科學分類,既能方便不同的閱讀群體根據需求快速選取自身感興趣的新聞,也能有效地滿足不同閱讀群體對海量新聞素材進行檢索的需求[1]。
新聞文本分類是當前信息爆炸時代的熱點問題之一,也是自然語言處理的經典任務場景之一。新聞文本分類的核心思想是對訓練數據進行特征提取,對測試數據進行最優特征提取,而后對兩者特征進行匹配得到最終結果。一般包括5個步驟:數據預處理、文本表示、特征選擇、訓練分類器、類別預測[2-3]。
文中結合Word Embedding模型[4]提出一種基于抽取式文本摘要的新聞文本分類方法。其中,文本通過空間向量模型的表示方法,即將每一個權重影響因素都當作一個表示維度。每個維度的權值分別通過TFIDF[5]、LDA[6]、位置權重指派[7]和MMR[8]獲取。特征選擇、訓練分類器和類別預測階段通過詞嵌入模型構建成包含整個新聞文本信息特征的矩陣,通過pytorch框架搭建神經網絡,提取特征矩陣中有效信息對新聞文本進行主題分類[9-10]。
文中提出一種用于新聞文本分類的方法。首先訓練數據采用抽取式文本摘要處理后的新聞內容,按特定格式組成訓練集和測試集;然后基于Word Embedding模型將訓練數據編碼成向量形式,對模型進行訓練;最后使用訓練好的網絡模型將測試數據編碼成向量形式,進行新聞的類別預測。
基于抽取式文本摘要新聞文本分類方法流程如圖 1 所示。

圖1 基于抽取式文本摘要新聞文本分類方法流程
通過抽取式文本摘要對預處理后的文本做進一步處理,得到數據集和訓練集。利用訓練集借助BERT的參數做前向運算,前向結果與損失函數的運算結果進行反向傳遞,從而實現對BERT的參數做出修改的效果。最終訓練結束,得到適合該任務的BERT。緊接著,利用測試集做前向運算,得到分類結果,以此來測試修改后BERT的準確性,若效果較好,該模型可投入使用。
對于新聞文本,從中抽取關鍵句子作為文本摘要,效果較好。文中使用抽取式文本摘要實現方式及選擇理由。
1.1.1 實現方式
抽取式文本摘要找出那些包含信息最多的句子,將其作為整篇文章含義的體現。信息量從兩個方面來衡量,一是“關鍵詞”,二是“位置關系”。一個句子中包含的關鍵詞越多,說明這個句子越重要;一個句子是首句或結尾句或破折句,就說明這個句子越重要。
實現步驟如下:
Step1:清洗文本;
Step2:分詞以及詞性標注并計算詞頻;
Step3:計算每個詞的權重;
Step4:按照MMR算法重新計算權重,計算句子相似度,去除相似句子;
Step5:排序最終權重,取前若干句作為最終的文本摘要。
1) 利用TFIDF算法計算句子權重。
對TFIDF進行歸一化處理,計算公式為
式中:TF(ti)----特征項ti在文檔d中出現的次數;
N----總文檔數;
ni----出現特征項ti的文檔數。
2)利用LDA主題模型計算句子權重。
i)在LDA模型中,具體定義如下:文檔集D={d1,d2,…,dm}中,m代表文檔集的文檔數目,單一文檔為d={w1,w2,…,wn},n代表特征詞個數,則文檔dm中的第n個特征詞為wm,n,潛在主題集合z={z1,z2,…,zK}。則LDA模型生成文檔時首先計算主題中的特征詞分布概率向量φk~Dir(β)和主題分布概率向量θm~Dir(α),接著求解每個特征詞wm,n,生成的概率為
P(zm,n=k|θm),

ii)計算出每個詞的概率后,求sen_weight,公式為
sen_weight=topic_weight×topic_theta+
tfidf_weight,
其中,topictheta設置為0.2,tfidf_weight為1)中所得句子權重。
3)位置權重指派。
位置權重指派表見表1。

表1 位置權重指派表
4)利用MMR算法重新計算權重。
對MMR原始公式簡化,將其應用于文本摘要中,
max[λ×weight(i)-(1-λ)×
max[similarity(i,j)]],
式中:weight(i)----文章第i句的權重,即D(Sj);
similarity(i,j)----當前句子i與已經成為候選摘要的句子j的余弦相似度;
λ----需要調節的參數,用來控制文章摘要的多樣性。
1.1.2 選取理由
選取理由主要有兩個方面:一是如何衡量好“關鍵詞”的權重;二是如何衡量好“位置關系”的權重。
LDA主題模型可以找出主題詞,從而使得對于關鍵詞的選擇更加貼近主題。但是,其過程采用的是詞袋模型的方法,未能考慮詞與詞、詞與句子、句子與句子之間的順序關系。但是文檔的結構關系,即文檔中每個句子所處的位置是非常重要的。對于TF-IDF算法而言,結合文檔的全局信息進行判斷和計算節點權重,而不僅僅是依賴其中幾個節點有限的信息。但是,IDF 的簡單結構并不能有效地反映單詞的重要程度和特征詞的分布情況,使其無法很好地完成對權重調整的功能,所以這樣獲得的關鍵詞不一定能夠具有代表性。兩者均存在一定的局限性。
將TF-IDF算法和LDA主題模型結合,在計算關鍵詞權重時,可以充分考慮詞與詞、詞與句子、句子與句子之間的全局關系,恰好可以彌補不足,但是還存在位置關系的缺陷。一篇文章中不同句子所處位置不同,往往有不同的重要性,對于首句、結尾句以及破折句,一般來說具有重要作用。所以在TF-IDF算法和LDA主題模型的基礎上,使用LEAD3算法對不同位置句子的權重做出定義。
為使抽取式文本摘要內容更加全面,MMR算法同時將相關性和多樣性進行衡量,使用MMR算法重新計算權重。排序后取出若干句作為最終的抽取式文本摘要。
Word Embedding模型所做的就是輸入一個句子,基于任務然后返回一個基于訓練任務的詞向量(Word Embedding)。現在較為常用的Word Embedding模型,如BERT,從結構角度來說,BERT由Transformer的編碼器構成。通過強大的編碼能力可以將語言映射在一個向量空間中,將字詞表示為向量。
以BERT為例,結合Word Embedding模型,基于抽取式文本摘要和關鍵短語提取的新聞文本分類方法做新聞文本分類任務,任務執行圖如圖2所示。

圖2 基于抽取式文本摘要和關鍵短語提取的新聞文本分類方法執行圖
圖中包含CLS和SEP兩個單詞,CLS告訴模型所做任務為分類任務,其最后一層的第一個Embedding作為分類任務的展示層。SEP告訴模型左右兩邊的輸入是不一樣的。
在輸入新聞文本和新聞類別時,使用SEP的特殊單詞,將新聞文本和新聞類別一起作為輸入。然后在訓練好的BERT模型中獲取良好的Embedding,將Embedding的結果接入BertForSequenceClassification分類器,最終得到該類別所對應新聞文本的類別特征。
使用2個數據集對提出的基于抽取式文本摘要的新聞文本分類方法進行性能測試,包括 THUCNews 數據集、自主構建的數據集。
THUCNews 數據集是由清華大學公開的大規模新聞文本數據集,文中選用其中7個類別的樣本,分別為財經、房產、教育、科技、體育、游戲、娛樂。
自主構建的數據集是由個人通過網絡爬蟲等技術手段,取自人民網、新華網、網易新聞、央視網等新聞網站,并且只作為學習測試使用。新聞種類共計9種,分別為財經、房產、教育、科技、軍事、汽車、體育、游戲、娛樂。
數據集的詳細情況見表2。

表2 數據集的詳細情況
Step1:對數據集的文本進行清洗,主要包括去除文本中的異常字符、冗余字符、HTML元素、括號信息、URL、Email、電話號碼。
Step2:對Step1結果進行處理,分2種情況:
1)字長小于200字,信息量不足,但是特征分布較為集中,不必對其進行抽取式文本摘要操作。
2)字長大于200字,信息量充足,特征分布較分散,做抽取式文本摘要操作,進一步集中特征,將字長降低到200字,并保證信息量充足。
以情況2)為例,處理流程見表3。

表3 文本字長流程表
Step3:將Step2中處理的數據按照“類別,抽取式文本摘要”的格式存儲。存儲示例見表4。

表4 處理后的數據存儲格式表
基于pytorch框架編寫神經網絡模型,采用AdamW作為模型優化器,使用mini-batch進行批量訓練,模型主要超參數見表5。

表5 實驗超參數設置
采用準確率(precision)、召回率(recall)、f1分數(f1-score)三個評價指標來衡量分類模型的性能。分別將其應用于FastText模型、BERT模型、RoBERTa-wwm-ext模型[9]。
各模型在THUCNews數據集的指標結果見表6。

表6 THUCNews數據集的實驗結果 %
從表中可以看出,使用文中提出的方法進行分類,模型的三個評價指標都處于較高水平。其中BERT模型的準確率最高為86.10%;RoBERTa-wwm-ext模型的準確率低于BERT模型0.30%,但RoBERTa-wwm-ext模型的召回率和f1分數均為最高,分別為86.40%、86.10%;FastText模型準確率、召回率、f1分數均為最低,但均達到了81.00%以上。可見,文中提出的分類方法對于文本分類問題的效果是相當可觀的。
自主構建的數據集上實驗的指標結果見表7。

表7 自主構建數據集的實驗結果 %
從表中可以看出,自主構建的數據集應用文中提出的方法進行分類,模型的三個評價指標達到了更高的水平。其中RoBERTa-wwm-ext模型準確率高達96.69%,召回率高達96.37%,最終f1分數高達96.50%;即便是排名最低的FastText,準確率也為89.48%,召回率89.04%,f1分數89.02%。
由于三個模型在不同數據集上的效果不同,因此,為了驗證各模型的適應程度,對其在不同數據集上的準確率進行比較,具體結果見表8。

表8 不同數據集的準確率 %
從表8可以看出,文中提出的方法在自主構建的數據集上表現更優,說明基于抽取式文本摘要的新聞文本分類方法更適合長文本數據集。主要有兩個原因:一是短文本含有的類別信息較少;二是短文本含有的類別信息和多個類別都相關。
基于該方法錯誤分類的文本見表9。

表9 基于該方法錯誤分類的文本
綜上所述,文中基于抽取式文本摘要和關鍵短語提取的新聞文本分類方法在文本分類任務上可以達到較高的水平,特別是長文本分類任務。
在結合Word Embedding模型的基礎上,基于抽取式文本摘要和關鍵短語提取,實現了一種新聞文本分類方法。通過對TF-IDF、LDA、位置權重指派和MMR計算每個句子的權重,從而對新聞文本進行準確的抽取式文本摘要。實驗結果表明,基于抽取式文本摘要的新聞文本分類方法在多個Word Embedding模型上使用,均得到了很好的效果。其中,在長文本數據集上測試時,RoBERTa-wwm-ext模型準確率高達96.69%,召回率高達96.37%,最終f1分數高達96.50%。表明該方法具有較好的新聞文本分類能力。
文中不足之處:
1)文本預處理中使用的是公開停用詞表,而沒有構建自主的停用詞。新聞領域很多的專有名詞是不被包含的,因此會不可避免地出現部分特征信息被過濾掉。
2)樣本數量較少,且各類新聞數量分布不均勻,導致模型的性能有限。
3)因為短文本的特征信息多變以及不充分的原因,文中在短文本數據集上的效果較差,更加適用于長文本分類。