徐博文 蘇晴
摘要:近幾年來,隨著科學技術的高速發展,人工智能這個詞語出現在大家視線中的頻率越來越高,其中最有代表性的技術便是深度學習。深度學習源于人工神經網絡的研究,其目的是通過相關算法及函數,讓機器可以“理解”人類的思想及意圖,完成人類的要求,甚至具有人類的行為及思想。關于機器如何理解人類的思想,最關鍵的則是如何理解人類的語言,即如何將信息進行處理,如何將人類的語言轉換成機器可以明白的語言。然而,中文作為聯合國中的六種工作語言之一,對其進行處理已成為人工智能領域不可缺少的一部分。由于人工智能可以模擬人類智能解決問題,并可以大大減少不必要的人力,從而高效高質量的完成大量簡單又枯燥的工作,為人們的常生活提供便利。
關鍵詞:深度學習;神經網絡;中文分詞
引言
自1950年Alan Turing提出圖靈測試,為檢測機器是否智能,就有越來越多的人進行嘗試,隨著人工智能技術的發展,人類與機器之間的溝通已經不再是一件困難的事情。
深度學習是指使機器能模擬人類的學習行為,自動地通過學習獲取知識和技能,不斷改善性能,實現自我完善。深度學習已經在圖像識別以及語言處理方面有了非常廣泛的應用,比傳統意義上的機器學習更進一步的地方,是其可以通過建立深層神經網絡,模擬人類大腦對圖像及語言處理方式,將圖像或文本轉換成相應的數據,嘗試自動完成最有效數據的提取。簡而言之,是是機器具備學習的能力。
中文信息處理即是將中文文本處理成機器可以理解的數據,再通過相應模型或算法,進而可以完成機器翻譯,自動文摘,文本分類等工作,為人類減少了一些重復性高、枯燥乏味性質的工作。利用深度學習技術,通過相應方法將文本轉換成其建立的深層神經網絡可以理解且可學習的數據,可以更準確高效地完成信息處理,為自然語言處理開啟了新篇章。
1 中文分詞
傳統意義上的中文信息處理是將中文文本分解成子文本進行分析,即我們說的中文分詞。
首先對已知文本進行預處理,先將輸入的文本進行分詞處理,即將詞語與詞語之間以空格分割,繼而進行每一個詞語的詞性標注,并且在文本中去除對工作沒有太大意義的詞語,保證了不浪費存儲空間,提高了搜索的效率。
中文分詞是中文信息處理的必備條件,對處理的結果起著決定性的作用。中文沒有像英文一樣的空格作為分隔符,因此,常見的機械分詞方法有:正向最大匹配算法,逆向最大匹配算法,鄰近匹配算法,最短路徑匹配算法,基于統計的最短路徑分詞算法。前三者都是將文本簡化為一個字符串,繼而對字符串進行搜索,找到目標詞。最短路徑匹配算法是根據詞典構造詞語切分有向無環圖,找出最短路徑,這條路徑上包含的詞就是切分結果?;诮y計的最短路徑分詞算法則是將數學的統計方法與有向無環圖相結合,提高了切分的精度。
詞性標注是是標注分好的詞語詞性的過程,此過程可以刪掉一些對文本意義不大的詞語,為接下來的過程做了充足的準備。分詞系統通過建立語料庫,在詞性標注集中規定好各類詞的詞性,以及通過判斷其在句子中的成分給予詞語一定的詞性。
停用詞:在信息檢索中,為節省存儲空間和提高搜索效率,在處理自然語言數據之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words。這些停用詞都是人工輸入、非自動化生成的,生成后的停用詞會形成一個停用詞表。但是,并沒有一個明確的停用詞表能夠適用于所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜索的。但這種中文信息處理的方法不僅需要人力構建完備的語料庫,而且對于大量的中文文本有一定的局限性,比如由于在不同語境中會出現的語義歧義;一些專有名詞無法識別;文本的情感分析等等。
2 深度學習
站在生物學的角度上看,人腦本身就是一個深層次結構。然而這種層次結構十分明顯地減少了感官直接帶來的數據處理量,并且提取了有效的信息。這啟發了神經網絡的研究人員,只有這種層次結構才可以長久高效地處理中文信息。神經網絡是一種并行且分布式處理的技術,它可以更好地效仿人類的學習過程,了解用戶的意圖,完成用戶的需求。隨著當今社會的高速發展,只有機器自己具備學習的能力,才可以應對日新月異的變化。
2.1 機器翻譯
利用可以自動在語料庫里學習翻譯知識的深層神經網絡,基于“編碼器-解碼器”框架,兩端均利用遞歸神經網絡,在編碼器一端將句子向量化,即自動提取出可以表征該句子的詞向量,然后在解碼器一端生成對應語言的目標詞。由于深層神經網絡的層次結構特點,誤差可在梯度更新中不斷積累,進而產生了梯度爆炸。同理,若網絡中的權重更新得越來越慢,直到不再更新,就會產生梯度消失。針對這兩個問題,通過使用長短期記憶單元,設置可以調節控制內部信息流的門控開關,可以有效避免長期的依賴而產生的梯度問題。
當然,機器翻譯在句子長度,語境分析,情感分析等方面還有很多需要探討的地方,但目前看來,深度學習已經使機器翻譯更加合理化,更貼近人類的語言模式。
2.2 自動文摘
在媒體發展迅速的今天,每時每刻都有大量的信息產生,其中文本信息占絕大多數,自動文摘技術可以從中快速準確提取出文章的核心內容,提高了用戶獲取信息的效率。
目前在深度學習領域,最常用的中文自動文摘方法是基于卷積神經網絡,利用CNN模型,將自動文摘轉化為一個匹配問題,將文本及文本中的句子進行多層次的卷積操作和最大池化后,提取并銜接二者的特征向量,以最頂層的神經網絡層次輸入,通過對匹配程度的高低進行排序,取匹配度最高的句子作為該文本的摘要。
基于深度學習,可以使文摘獲取的更加高效,精準度更高,方便了用戶對感興趣的信息的獲取。
2.3 文本分類
在大規模的文本中提取有價值的信息,是目前文本挖掘研究的主要意義。文本分類是依據文本的內容,將同一類別的文本歸類的過程。
經研究得出,對于簡單的單標簽文本分類,利用基于詞向量表示提高文本的區分度;對于專業性強的多標簽文本分類,先利用CNN獲取文本的局部特征,繼而補充文本的全局特征,將兩個特征結合起來,可以更好地提取高層文本;對于領域不明確的多標簽文本分類,利用基于序列預測標簽的文本分類模型,通過排序的方式來預測文本的標簽可以更好地將文本分類。
文本分類信息檢索與挖掘的基礎工作,對后續的文本信息處理工作起到關鍵作用,是必不可少的步驟,可見文本分類的重要性。
3 結束語
深度學習作為當前科技研究的熱門方向,已經可以有效地運用到中文信息處理當中,雖然還有很多需要改進的地方,比如怎樣將模型結合可以達到最佳的效果,怎樣減少機器高度運算帶來的誤差等問題。通過對機器進行訓練學習,將性能優化,使機器更加智能化,可以更有效地完成人類給出的任務。
參考文獻:
[1]劉遷,賈惠波.中文信息處理中自動分詞技術的研究與展望[J].計算機工程與應用,2006(03):175-177+182.
[2]楊南.基于神經網絡學習的統計機器翻譯研究[D].中國科學技術大學,2014.
[3]喻麗.基于卷積神經網絡的中文自動文摘方法[D].哈爾濱工業大學,2017.
[4]周超.基于深度學習混合模型的文本分類研究[D].蘭州大學,2016.
作者簡介:徐博文(1996-),男,吉林省延吉市,通信工程(中外)專業本科生;
蘇晴(1990-),通訊作者,女,吉林省延吉市人,計算機應用技術專業,工學碩士,助教;