長江大學計算機與科學學院 曾仔健 趙 鳴
在大數據背景下,文本分析的重要性變得越來越高,而文本分類作為自然語言處理中的關鍵環節,同樣得到了眾多專家學者的重視。在文本分類過程中,神經網絡技術的所帶來的效果極為突出,因此也成為了專家學者的重點研究方向。本文通過對神經網絡進行分析,并結合實際針對以神經網絡為核心的文本分類方法提出個人觀點,希望為關注基于神經網絡文本分類的人群提供幫助。
在科學技術的不斷發展過程中,大數據為各行各業提供了更多發展契機。文本分析作為提高大數據理解能力的關鍵手段,其重要性毋庸置疑。在開展文本分類工作時,結合人工神經網絡能夠快速掌握文本特征,從而提高文本分類質量。因此,有必要對基于神經網絡的文本分類方法進行研究。
在大數據的作用下,網絡中數據信息將會逐漸變得越來越多,而且數量龐大的網民群體也會每天形成大量數據信息?;ヂ摼W中的數據信息包括文本、聲音、圖像等多種數據類型,而在各種數據信息中,文本數據其數量占比最為龐大,所以必須找出合理利用文本數據的方式,以此來讓文本數據發揮出其自身應有的價值。人工神經網絡可以在使用期間從信息處理角度出發,并完成簡單模型的構建,而且還能夠通過不同的連接方式來形成各不相同的網絡。神經網絡自上世紀四十年代出現后,便得到了學界的普遍關注,經過幾十年的演變后,在很多行業領域中得到了廣泛的應用。在面對海量文本數據的分析工作時,人工神經網絡能夠發揮出非常重要的作用。其中文本分類屬于對文本數據內容的合理劃分,能夠提高文本數據的分析、使用效果。
文本分類屬于自然語言處理過程中需要面對的一個經典問題,屬于文本分析期間的常見問題。在面對文本分類問題時,需要考慮文檔應該歸納為預先定義的哪些類別中。通常情況下,文本分類屬于文本數據處理期間的一項關鍵技術,可以幫助用戶完成數據文本的組織,并完成文本信息的合理挖掘,從而讓用戶能夠更加清晰地完成數據信息的有效定位。以在線社交網絡文本分類的需求為例,其主要類型如下:第一,基于內容主題分類。通常文本內容將會涉及到政治、體育、競技等層面,此時便可以結合對于內容的需求來做出文本劃分,然后用戶再根據需求選擇不同分類的文本內容進行深化處理。在處理文本的過程中,同一篇文本有可能會涉及到多個領域之中的內容,所以需要結合用戶需求類實現標簽的分類。第二,基于情感分類。在面對社會中的各類熱點時事新聞時,媒體與網民便可以在社交平臺中表達出自己的看法與觀點,根據個人觀點以及看待事物態度的不同進行文本分類,可以將文本劃分為積極、消極、中立等不同的類型,這部分文本的劃分類別相對較少,若有特殊需求則可以開展更為細致的劃分。
在開展文本分類之前,需要針對文本中的數據內容開展數據預處理,其處理過程可以分為以下幾點:第一,分詞處理。在文本處理過程中,需要將具有連續性的文字流劃分成為獨立詞匯,這種處理方式在面對英文時相對較為簡單,而在面對文字時則會變得更加復雜。分次處理的質量將會影響到文本分類的最終效果。第二,刪除停止詞。通過將部分輔助用詞刪除,可以優化分類效率,通常可以結合對應表來刪除停止詞。第三,詞性標注。利用詞性標注能夠直觀表現出詞語性質。第四,還原詞根。文本預處理工作能夠完成中文的詞根還原,而英文因為單詞形態將會發生改變,所以需要對詞根進行還原。文本分類工作就是結合數據特征將不同的文本劃分到正確的類別中,所以其主要問題就是怎樣保證文本的快速劃分。隨著科學技術的不斷發展,人工神經網絡技術已經成為了優化文本分類的主要方向。在文本分類過程中,評價其結果的指標可以分為準確率、召回率兩種,其中準確率代表著文本分類的精度,能夠在檢索期間保證文本分類的查準率。而召回率則指的是相關文本屬于與文本庫中文本的比率,能夠體現出文本查全率。
神經網絡運行時可以有效連接輸入、輸出神經元,輸入神經元可以代表文本類別,神經元連接也具備對應的權值。在訓練過程中,可以通過正向傳播、反向修正等算法實現對于權值的調整修正,此時便可以讓文本結合調整后的權值進行學習,從而獲取神經網絡模型。通過將類別位置的文本經過網絡模型后,便可以獲取不一樣的輸出值,經過比較之后便能夠明確文本類別。除此之外,通過神經網絡還能夠結合網絡結構還獲取對應的文本特征,避免出現繁雜的人工特征工程。
卷積神經網絡是通過采用多層卷積運算以及對每層輸出利用非線性激活函數進行轉換。在運行期間,神經網絡可以將所有輸入神經元與下層輸出神經元相連,所以這種方式屬于全連接層。而且卷積神經網絡還可以通過輸入層卷積結果來完成對于輸出的計算,這種計算方式則屬于局部連接,所有的局部輸入都會與輸出神經元相連,并在不同層級中利用不容的濾波器。在通過卷積神經網絡進行分類時,應該有效選擇尺寸固定的滑動窗口,然后通過濾波器來選擇特征,最后采用池化操作針對特征完成有效分類。在整個分類過程中,必須注意滑動窗口的大小選擇,若滑動窗口過小,就會導致無法完成大規模語句讀取,而滑動窗口過大則會使數據信息變得稀疏。為了能夠解決窗口尺寸所造成的影響,可以采用尺寸動態調整濾波器來完成文本信息的處理,經過處理后的子句長度將會發生改變,此時便可以獲取多粒度短語特征。除此之外,詞向量將會對表示句子以及分類效果帶來影響,所以可以結合不同的詞向量方法來將其歸納成為不同的表示,從而獲取比單獨詞向量更加豐富的數據信息,提高文本分類質量。
通常在一段文本內容中,每個單詞都會與其他單詞相連,單詞便不會完全獨立存在與文本內容中。文本中的語義以及單詞順序之間也存在一定關系。在利用卷積神經網絡進行分類時,就很難考慮到文本中的次序問題,所以有可能導致語義理解能力降低。時間遞歸神經網絡屬于針對序列數據進行建模處理的神經網絡,序列在輸出時,其不僅會與當前輸入具有直接關系,還會與之前的輸出相關聯。帶有記憶功能的RNN能夠在運行期間解決文本分類時出現的問題,而LSTM更是一種使用范圍足夠廣泛的神經網絡。LSTM在運行期間能夠針對序列信息進行保存,其中后面信息的重要性更高,然后文本中的重要信息卻并不會全部出現在文本的后半部分。采用雙向LSTM時,可以通過兩個方向來處理文本,此時便可以更為有效地處理單詞上下文中的數據信息。除此之外,經過對LSTM進行研究之后,還出現了門控循環單元等方式,因此這種文本處理方式得到了較為廣泛的應用。
CNN在使用過程中可以通過最大池化層來完成重要單詞的判斷,但是在使用期間需要面對滑動窗口尺寸問題,而且CNN自身還缺少學習以及與順序有關的知識,而采用RNN則能夠按照順序來完成建模,但是卻難以通過并行的方式來獲取單詞特征,因此兩種神經網絡的特點各不相同。有學者專門提出了RCNN模型,該模型在使用期間可以在學習語句表示期間采用RNN中的雙向循環獲取文本中的內容信息,然后通過CNN中的池化層來完成特征作用判定,從而強化了文本處理能力。另外還可以使用C-LSTM模型,通過在無標簽文本數據預訓練獲取的詞向量中構建CNN,來學習N-Gram中的高級表示,然后可以結合高層次語句表示來學習知識,此時便可以通過卷積特征窗口來組成有序的形式,通過將濾波器特征結合到儀器進行依次排列,便可以成為LSTM的輸入。
通過結構遞歸形成的網絡在自然語言處理中可以用作對語句進行解析。每個單詞的語義可以作為特征,但是卻很難順利表示出長語句的含義。所以語義向量空間的組合性非常重要。通過構建RNTN模型,可以完成對任意長度短語的輸入,然后把短語表示成為詞向量與解析數,此時便可以利用張量組合函數來完成高層節點向量的計算。而DRNN模型則能夠完成多個遞歸層的堆積,并在每一層中加入處理機構,此時便可以在信息傳遞過程中,將處于結構中的節點隱藏狀態傳遞至下一層級。這種方式能夠在分類句子時發揮出相對較好的效果,但是分類時同樣需要考慮文章的樹結構,而且因為時間復雜性高,所以并不適合在長語句中使用。
預訓練中的詞向量能夠有效改善文本分類效果,但是仍然具有局限性,預訓練只包含了模型一層中的先驗知識,而剩余部分則需要重新進行訓練。ELMO模型便可以在實際使用中得到相對較為良好的效果。有學者提出了以雙向Transformer的模型BERT,這種方式則進一步優化了自然語言處理方式。所以預訓練模型能夠在自然語言處理中發揮出非常好的效果。
結論:總而言之,以神經網絡為核心的文本分類方式非常重要,能夠在龐大的數據信息中結合文本內容、特征來完成文本分類,在保證文本分類質量的同時提高文本分類效率,從而讓數據信息發揮出應有的作用。相信隨著更多人了解到文本分類的重要性,基于神經網絡的文本分類方法將會更加完善。