鮑舒恬
(北京語言大學信息科學學院,北京,100083)
目前,基于深度學習技術而面向自然語言的處理任務為該領域提供了許多新的研究思路與方向。自然語言處理技術作為一種交叉學科出現,研究中既包含有最主要的計算機科學,同時也涉及到人工智能學、語言學以及心理學、邏輯學等重要領域。在研究方面,人工智能為了能夠對自然語言進行處理,必須具備實體識別、機器翻譯、詞性標注等能力,因此需要選用專門的深度學習方法。
前饋神經網絡(Feed Forward Neural Network,FNN)又被稱為多層感知機模型,這種神經網絡模型主要應用于多任務環境之中。但是隨著處理環境的復雜化,模型內部結構的復雜程度也逐漸提高,很可能導致神經網絡訓練困難。而在圖形處理技術的突破下,前饋神經網絡被再次提起,且開始廣泛應用于自然語言處理。在計算機技術領域,前饋神經網絡當中的反向傳播算法(Back Propaganda)能夠在深度學習過程中對不同層級之間存在的錯誤驅動進行優化,最終完成對網絡參數的調整。
卷積神經網絡(Convolutional Neural Network,CNN)作為一種FNN已成為了主流模型之一,相較于其他模型它可以使用卷積核來擴展描述空間,增加模型深度,并且訓練過程中所需要調整的參數也較少,進行自然語言處理時,通常將文本中的句子向量化為矩陣,卷積后得到句向量特征。
在技術的發展中前饋神經網絡受到技術制約形成瓶頸,導致其只能單獨處理一個輸入。為了提高神經網絡的處理系列數據的能力,技術人員希望通過遞歸神經網絡(Recurent Neural Network,RNN)來對時間遞歸結構進行表達,從而使數據學習能夠擁有明確的時間序列關系,同時使訓練模型擁有記憶性,將前后的輸入關聯起來。在RNN當中,為了能夠完成深度學習的建模,需要通過包含三個隱含層的神經網絡進行模型組建。在時序信息方面,不同的時刻都可以依照隱含層當中所含有的激活值(Activation)進行遞歸,從而形成具有輸入層到隱含層連接權的權值參數矩陣,并能夠計算得出偏置向量(Bias Vector)以及激活函數(activation function)[1]。根據RNN的特征,可以實現損失函數的時域反向傳播,最終再借助低度下降發完成學習網絡參數的確定。這種神經網絡方法在元模型學習、機器翻譯以及語義標注方面,均有著良好的效果。
不過普通的 RNN在實際應用中經常因為無法處理遠距離依賴而導致訓練效果不佳,而長短時記憶網絡(Long Short Term Memory Network, LSTM)則解決了這一缺陷。但是這種改進使得LSTM的模型變得十分復雜,于是GRU(Gated Recurrent Unit)隨之被提出,這是一種RNN的變體,它簡化了LSTM模型且能達到較好的自然語言處理效果,因此被廣泛應用。
在人工智能神經網絡的自然語言處理技術研究中,通過神經網絡的方式對文本稀疏性較小的大規模語料進行分析,從而獲取復雜的上下文關系時一種具有分布式特征的詞編碼技術,這種技術被稱為神經網絡中的“詞向量”,用來進行分詞工作,這在自然語言處理中是極為重要的準備工作之一。在技術研究領域,目前廣為人所知的詞向量主要有glove詞向量、word2vec詞向量、HLBL詞向量以及SENNA詞向量等。在相關的研究中,研究人員發現,不同的詞向量規則具有不同的特點。例如word2vec詞向量中,詞向量之間具有語義上的聯系,表現為詞向量之間的加減關系,這種關系的存在使其具有高科用量。相較于前者,于2014年所提出的glove詞向量通過矩陣的方式實現更為優異的性能,除了能夠使測評指標更具優勢之外,還能夠解決諸多自然語言的測評任務。
在現階段的深度學習模型建構中,通常采用Nivre分析方法作為主要的確定性分析方法,這種分析方法能夠通過對自然語言進行特征提取的方式進行分類,而其所提取的數據則能夠表示當前文本上下文的依存關系,進而完成句法分析。依據Nivre分析方法,本文在進行模型建設時采用了三元組的方式對分析過程格局進行表示。三元組主要包含有堆棧、節點序列以及依存弧集合三個部分,分別以字母S、I、A進行表示。在分析動作中,通過模型的特征向量進行三元組特征的提取能夠實現句法分析,最終實現分析決策。在三元組信息當中,需要包含以下幾個方面的信息內容。
首先,三元組應當包含有詞信息。無論是堆棧還是節點序列緩存,其內部都包含有大量的詞信息,這些詞信息可能已被處理,也可能尚未進行處理。同時詞帶有的特征十分明顯,因此在對模型潛入之前,這類詞往往需要通過稀疏的方式進行表達,但在完成了潛入之后,詞所擁有的特征則以稠密的方式進行表述,即Dense Representation;其次,在詞內部還具有一定量的詞性信息,這種詞性信息在模型中與前者的保持一一對應,從而實現每一個詞都擁有一個相對固定的對應詞性;最后,在三元組當中還應具有依存弧信息,這種信息的主要功能在于對已經完成處理的詞信息進行依存關系的表現。
通過這些信息,可以使三元組得到重新組合,并擁有二階特征(Second Order),使得不同的詞的特征在進行模型組合時更加具有效率。與傳統的句法分析方式不同,在應用了三元組的神經網絡模型中,詞的不同類型能夠實現彼此之間的相互組合,并且這種組合方式能夠作用于不同的層級之中。
在應用于自然語言處理的神經網絡模型當中,人工智能可以實現非線性函數狀態下的語言特征組合,而為了能夠使神經網絡三元組的特征表現出來,在模型當中需要依托多層級的方式進行提取特征的分類訓練。本文在進行研究時發現,神經網絡模型可以分為輸入層、嵌入層以及隱含層和softmax層等四個層級[2]。
其中,輸入層是整個神經網絡模型的第一個層級,其主要的功能在與對已經完成構建的分析格局三元組進行處理,從而使神經網絡能夠獲取其內部的元特征(Atomic Feature)內容;嵌入層則是輸入層之后的處理層級,這一個層級當中,要由與三元組中各個特征相對應的子嵌入層組成,各個子嵌入層彼此獨立,且負責對詞信息、詞性和依存弧特征進行獲取,最終完成三元組特征中離散稀疏到稠密的轉換;隱含層則需要對嵌入層當中完成轉換的稠密特征進行處理,使其能夠進行非線性的變換;而softmax層則在隱含層之后,對自然語言的非線性轉換結果進行分類和預測,從而保證神經網絡能夠完成對于自然語言處理的訓練。
在理論研究中,研究人員發現,通過對既有的受限玻爾茲曼機(Restricted Boltzmann Machine)進行堆疊,可以形成全新的訓練模型。這種模型被稱為深度信念網絡模型(Deep Belief Nets),該模型在應用中能夠依托網絡訓練權重,對輸入層的數據進行還原訓練。在開展訓練時,深度信念網絡模型依據可見層RBM進行原始數據的輸入,使原始的語言數據能夠在層級內部進行處理。隨后,深度信念網絡模型會對其內部的層級數量進行檢驗,確認層級數量是否能夠滿足執行步驟,如果無法滿足執行步驟,則需要重新進行原始數據獲取,直到滿足為止。在毛南族層級數量滿足執行步驟需求后,深度信念網絡則對內部層級進行微調,從而使深度學習算法模型能夠實現有效收斂,最終獲得局部最優解[3]。在研究領域,有研究專家指出了深度學習方法在深度信念網絡之中的層數設置方式。層數設置可以通過自編碼器來完成,從而實現網絡的泛化和拓展。自編碼器能夠取代網絡模型中的每一層的RBM,從而實現簡單的堆疊,這種堆疊能偶成為堆疊式的自編碼網格(Stacked Auto Encoders)。這種網格編碼方式是神經網絡中對于自然語言的稀疏特性的一種獨特的隱藏方式。借助神經元的抑制狀態可以實現稀疏自編碼網格。在實踐應用中發現,這種網格化能夠具有對自然語言特征的學習能力,最終實現廣泛的多模態檢索。
綜上所述,人工智能的深度學習是一項蓬勃發展的新技術,不過在目前階段,對于自然語言的處理尚有許多亟待突破的技術瓶頸,等待技術發展予以攻克。在神經網絡的研究中,仿生學對于深度學習的模擬仍然處于起步階段,其諸多結果都是具有試驗性的,需要依托未來的技術發展予以提升。
[1]吳稟雅, 魏苗.從深度學習回顧自然語言處理詞嵌入方法[J].電腦知識與技術, 2016, 12(36): 184-185.
[2]趙棟材, 周雁.基于深度學習的電子文本自然語言處理系統[J].電子技術與軟件工程, 2018, (03): 180.
[3]陳利民, 王金芳.學生深度學習源于教學環節的優化[J].教育, 2017,(52): 16-18.
[4]奚雪峰, 周國棟.面向自然語言處理的深度學習研究[J].自動化學報,2016, 4210: 1445-1465.
[5]樂明, 孫博洋.自然語言形式分析的作用和前景——兼評《自然語言計算機形式分析的理論與方法》[J].外語電化教學, 2017, 06: 89-96.