李牧南,王 良,賴華鵬
(1.華南理工大學工商管理學院,廣東廣州 510641;2.廣東省創新方法與決策管理系統重點實驗室,廣東廣州 510641)
深度學習的理論和計算框架被提出以來,隨著高性能計算硬件技術發展,越來越多普通實驗室、中小型科研機構和團隊開始參與深度學習理論和應用的研究,相關學術和應用成果也開始涌現,過去5 年出現了近乎指數級增長。與此同時,中國也逐漸成為深度學習相關理論、模型和算法應用研究最為活躍的地區之一。從圖1 可以看出,2019—2021深度學習領域有關文獻數量已經超過了過去10 年文獻總數的74.6%,而僅僅2021 年所發表論文數量占比就達到了31.3%。從圖2 可以看出,中國研究者在深度學習領域非常活躍,發表論文總數甚至超過了美國和英國的總和,表明中國在深度學習相關領域的科研投入相對較大,參與的研究機構和人員較多。

圖1 深度學習領域文獻數量的年度分布趨勢

圖2 2012—2021 年深度學習相關文獻數量的國家分布
中國互聯網絡信息中心(CNNIC)發布的第48次《中國互聯網絡發展狀況統計報告》顯示,2021年中國網民規模達10.11 億人,較2020 年12 月增長2 175 萬人,互聯網普及率達71.6%,形成了全球最為龐大和生機勃勃的數字社會[1]。中國早已成為全球最大規模的數字化服務應用地區,這也意味著各類中文文本數據呈現高速增長態勢。如何針對這些不斷增長的中文數據進行有效處理,及時發現蘊藏的各類知識,已經成為各類商務領域分析的重點,也成為新時代新形勢下商務模式和治理模式創新的重要手段。
作為深度學習理論和計算框架/體系核心模型之一的卷積神經網絡(convolutional neural networks,CNN)自從被Lawrence 等[2]提出以來,在圖像識別、機器視覺、信號過濾和自然語言處理等多個不同領域得到廣泛應用,如魏明珠等[3]、Zhang 等[4]、Rawat 等[5]和劉穎等[6]學者的研究。而且如Zhang等[4]、劉穎等[6]和Voulodimos 等[7]的研究均表明,深度學習與傳統機器學習算法的一個顯著區別在于非監督的特征提取,可以通過大樣本的訓練和學習完成特征提取工作,無須大量人工干預,在某種意義上真正實現了機器(計算機)的自我訓練(selftraining)和自學習(self-learning)。因此,深度學習盡管依然是機器學習的一個分支,但其總體的計算思想可以認為是一個傳統機器學習領域的階段性標志,具有顯著的里程碑意義。
Chen 等[8]、楊銳等[9]、Colin-Ruiz 等[10]、楊光等[11]眾多研究均表明,盡管CNN 在圖像識別和機器視覺等領域展現了較強的競爭優勢,但是應用到自然語言處理領域,包括語義建模、情感分析和文本分類等,卻是近5 年才逐步發展的一個研究分支。2014 年,紐約大學的 Kim[12]學者在arXiv 預印本網站發表了一篇應用CNN 進行語句分類(sentence classification)的論文,引起廣泛關注;該方法此后被臉書公司在2019 年集成到PyTorch 工具包中,形成目前較為知名的文本卷積神經網絡(TextCNN)。近兩年來,國內外不少科研機構和團隊也開始基于TextCNN 模型從事自然語言處理相關研究。隨著這些長文本(long text)的數據量越來越大,如何對這些中文長文本進一步處理和挖掘,已經成為信息和檔案管理以及基于大數據的公共治理體系建設的關鍵問題和挑戰之一。
數據增強(data augmentation)是一種針對小樣本學習問題而提出的訓練樣本強化方法,目前在圖像識別、語音修復和計算機視覺等多媒體領域得到了一定程度應用,如He 等[13]、蔣蕓等[14]、Salamon 等[15]的研究,但應用在自然語言處理和文本分類,尤其是中文自然語言處理方面依然存在較大的探索和拓展空間。因此,本研究從文本增強的角度出發,考慮進一步提升傳統卷積神經網絡模型在中文長文本分類中的實際效果。
卷積神經網絡提出之后,之所以很快就被應用到圖像識別和分類領域,主要是卷積神經網絡的多通道(channels)思想,能夠將圖像最基礎的紅色、綠色和藍色(以下簡稱“RGB”)3 種顏色組合作為一種典型的三通道卷積神經網絡,而基于RGB 的顏色標準也是目前工業界最廣泛應用的顏色系統標準。對于任意一幅數字化圖片而言,都是由一定像素(pixel)構成,而這些像素點實際上可以解構為RGB 三維空間的一個點,所謂像素也往往被稱為“像素點”(pixel point)。卷積神經網絡的思想認為,既然任何一幅圖片其實都是點的集合(point set),那么理論上通過組合這些像素點就能提取圖片特征,從而可以對圖片進行分類和識別。
基于卷積神經網絡處理圖片數據的思路,文本也可以理解為由不同詞語(字)組成,如果能夠把這些詞(字)映射到一個向量空間,就可以像處理圖片識別的原理一樣實現文本語義相似度的匹配和分類,這也是卷積神經網絡逐漸進入自然語言處理領域的重要理論基礎。但是,詞向量空間依賴于基礎語料庫,而中文作為一種相對復雜的表意語言體系,通過機器來進行自然語言處理就比其他表音語言體系要困難得多[16],由此造成了針對中文長文本的分類、聚類、語義模式匹配和文本挖掘迄今依然面臨較大挑戰[17]。因此,近年來部分研究開始借鑒圖像處理領域的數據增強方法改進文本分類效果,但目前國內外研究基本集中在以電影評論、商品評論和推特等短文本的處理領域,如Chen 等[18]、Hao 等[19]、Symeonidis 等[20]的研究,針對長文本尤其是中文長文本的自動分類研究還不多見。借鑒黃水清等[21]、Wei 等[22]、谷瑩等[23]、明建華等[24]對當前有關數據增強、短文本分類和深度學習相關的理論和應用研究基礎,本研究提出一種綜合新時代人民日報分詞語料庫(NEPD)、簡單數據增強(easy data augmentation,EDA)、詞語向量化(word2vec)和TextCNN 的中文長文本分類框架(以下簡稱“NEWT”)。具體計算流程如圖3 所示。

圖3 NEWT 的計算執行流程
在圖3 中,文本增強的EDA 方法包括同義詞替換、隨機交換、隨機插入和隨機刪除,而中文自然語義處理的語料庫為目前較為主流的NEPD。通過文本增強之后,原始的單個中文長文本可以被擴展為2×4 個樣本,并且未丟失原始樣本的核心語義信息,但是對于后續的卷積神經網絡而言,訓練樣本得到了適當擴充。在深度神經網絡訓練結束后,隨機選擇的驗證集會對訓練效果進行驗證,如果達到滿足既定要求,則可以進入測試環節,并產生最終的長文本分類效果輸出,其中包括準確率、召回率和加權后的F1值。應用NEWT 進行中文長文本分類流程如圖4 所示,其中n表示樣本數量,CL 表示卷積層神經元,PL 表示池化層神經元,k表示卷積層和池化層的神經元個數,FC 表示全連接層神經元,K表示全連接層神經元數,Z表示輸出層神經元,m表示輸出層的維度。

圖4 應用NEWT 進行中文長文本分類流程
圖4 中,輸入層所有樣本是經過word2vec 轉化后的詞向量,而卷積層的卷積核寬度(列)需要與word2vec 輸出的詞向量維度保持一致,這里將卷積核的行數設定為3 行;輸出層為softmax 多分類非線性映射,借鑒董洪偉[25]的方法,具體表達形式如下:
考慮到softmax 函數的特性,全連接層可以根據分類的數量輸出同樣數量的線性回歸函數(單分類)作為softmax 模型的輸入,此時softmax 函數的表達形式如下:
由此,softmax 函數可以將全連接層的輸出轉換為概率值。則輸出可以理解為屬于某個具體目標(類)的概率,表達形式如下:
為了衡量softmax 多分類函數的實際分類效果,就是使得對于任意一個樣本,其屬于目標(類)的概率最大,在所有樣本分類準確的情況下即可實現。由于乘法會使得數值迅速趨于0,因此通常將概率的負對數平均值作為衡量的損失函數(loss function),也就是交叉熵損失函數,表達形式如下:
顯然,若所有樣本都趨于其真實類別,則損失函數趨于最小值,即概率的乘積和最大。中文長文本分類效果的評價通常采取準確率(P)和召回率(R)及加權平均F1值來衡量,表達形式如下:
式(5)中,F1是精確率與召回率的調和平均值,作為綜合評價指標,取值范圍為[0,1],越靠近1則表示文本分類的效果越好。
從北大法寶網檢索和下載了1949 年至2021 年中國地方政府發布的科技政策文本,共采集了3 萬多條文本數據,剔除“授獎”“通報”和“表彰”等通知公告文本后,獲得有效科技政策文本4 441 份(以下簡稱“樣本”)。進行實證分析的硬件和軟件環境情況如表1 所示。

表1 本文實證分析的軟硬件主要配置
從樣本文本長度看,最短的為612 字(含字符和空格),最長的超過7 萬字,且文本長度呈現右偏長尾分布。其中:1 000 字至6 000 字的政策文本占比約63.8%,10 000 字以下的政策文本比重為85.6%,而15 000 字以下的文本占比則達到93.3%;32 000 字~73 000字的文本有39 篇,72 000字~73 000 字的文本有1 篇。筆者對每篇超過2 萬字的文本都進行了較為仔細的校驗,檢查其中是否含有人員和機構名單、統計或年鑒數據、額外填充字符等附加字符。
根據張寶建等[26]的做法,基于政策體系性質將樣本文本分為強制型、鼓勵型和引導型3 類,分別共有1 540 篇、753 篇和2 148 篇。在應用EDA方法進行文本數據增強之后,原有樣本文本被擴充為17 912 個樣本數據。考慮到樣本文本總體的長度分布以及深度神經網絡的計算規模較大,在采取全文輸入的情況下最長的文本字數超過7 萬字,而word2vec 輸出的是300 維詞向量,因此,即使這份7萬多字的樣本文本采取中文分詞后只剩下2 萬字左右,但是20 000×300 的輸入矩陣已經超過了普通深度學習機器的數據裝載容量,即使通過加裝更多的GPU,也會面臨更高的“梯度爆炸”風險,且計算耗時過長。
基于以上考慮,取詞長度分別設定為500 個詞、750 個詞和1 000 個詞,盡管未能實現所有樣本的全文加載,但是也比已有的短文本分類(如電影評論、消費評價等)的計算量大得多。交叉熵損失函數在不同取詞長度下的變化趨勢如圖5 所示,可以看出,無論是否集成文本數據增強方法,TextCNN 模型的交叉熵損失函數在20個時期(epoch)之后都趨近于0,意味著深度神經網絡的樣本訓練趨于穩定和收斂。但是,是否實現了集成數據增強對于中文長文本的分類效果影響顯著需要進一步進行實驗。

圖5 不同取詞長度下的NEWT 和TextCNN 的損失函數變化趨勢
從圖6可以看出,經過整合NEPD和文本增強后,NEWT針對中文科技政策文本的分類效果顯著提升,F1值比使用傳統TextCNN 方法提升超過10%。通過對每個不同取詞長度都運行20 次實驗(訓練集—驗證集—測試集),然后計算F1值的平均值;每個實驗的樣本訓練次數為40 個epoch,且驗證數據集(validation set)和測試數據集(test set)的樣本規模均為200 個。結果如表2 所示,可見取詞長短對樣本文本分類效果不甚顯著,500 個詞長度下大致只實現了大約10%樣本文本的全文輸入(中文分詞之后會去除空格和標點符號等),而1 000 個詞的長度大致可以實現大約50%的樣本數據全文本輸入。從理論上看,取詞長度并不是越長越好。取詞長度過長,一方面導致計算耗時呈現幾何級增長,甚至出現樣本矩陣過大無法加載的困難;另一方面,對于一些本來就不太長的政策文本而言,則需要填充太多的冗余字符,也可能會影響最終的分類效果。

圖6 基于NEWT 和TextCNN 的中文長文本分類效果對比

表2 取詞長度對中文長文本分類效果對比
為進一步驗證NEWT 計算框架,選擇當前較為流行的幾個用于文本分類的深度學習模型進行對比,包括余傳明[27]、馬曉雯等[28]、Kim 等[29]、馮國民等[30]提出的循環神經網絡(RCNN)、雙向長短期記憶網絡(Bi-LSTM)和膠囊網絡(CapsNet)。對比分析結果如表3 所示,與上述各深度學習相關文本分類模型相比,本研究提出的NEWT 框架在3種取詞長度下對中國地方政府科技政策文本的分類效果均較優,且F1值的平均提升比例超過13%,較為顯著。

表3 NEWT 與其他相關模型的文本分類效果對比
從目前國內外基于深度學習算法的文本分類研究看,絕大部分都是針對短文內容,例如在線評論、知識問答、推特和微博等,而針對長文本,尤其是中文長文本分類的研究就更少。盡管卷積神經網絡在深度學習理論和應用研究中占據相當比例,但卷積深度神經網絡在文本分類、自然語義處理、專利分析和不平衡情感分析等相關研究領域依然存在應用研究的拓展空間,如Li 等[31]、張志武等[32]的研究,針對長文本的分類、聚類、語義識別和內容挖掘已經成為當前深度學習研究領域的前沿和熱點主題之一。針對中文長文本分類,本研究提出了集成計算框 架NEWT(NEPD+EDA+Word2Vec+TextCNN),借鑒和拓展了傳統的數據增強方法,并應用到中文科技政策文本挖掘領域,與傳統深度學習相關文本分類模型相比,F1 值平均提升比例超過10%,分類效果更好;此外,NEWT 在相對較短取詞長度下實現與全文輸入的近似效果,可以部分改善傳統深度學習模型的計算效率,節省大量運算時間,有助于提高計算效率、節省運算時間,補充和完善長文本分類領域的研究盲點,并為中文長文本自動分類走向應用提供參考。
本研究也存在一些局限性:首先,對于文本增強的探討還有待于進一步深入,如何更好適應中文文本語言表述和語義特征,還需要在未來研究中繼續探索;其次,盡管NEWT 的長文本分類效果也基本達到了目前中文文本分類的平均效果,但依然存在一定的優化和改進空間,如楊春霞等[33]、楊銳等[9]的研究指出,傳統文本分類模型在不同應用場合也有一些改進版本,與這些改進版本,以及與劉宇飛等[34]提出的遷移學習和楊波等[35]、王雪等[36]提出的BERT 及其相關改進模型等之間的比較還有待于進一步檢驗;第三,針對取詞長短對實際分類效果影響不顯著的問題還需要在后續研究中進一步從理論層面予以探討;最后,NEWT 算法的普適性和泛化能力還有待于進一步檢驗,在其他類型的政策文本(例如:能源、環境和金融政策等)是否也能取得類似或更好的效果,還需要在后續研究中進一步論證。