999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向自然語言處理的深度學習研究

2016-11-10 05:21:00奚雪峰周國棟
自動化學報 2016年10期
關鍵詞:深度特征模型

奚雪峰 周國棟

面向自然語言處理的深度學習研究

奚雪峰1,2,3周國棟1

近年來,深度學習在圖像和語音處理領域已經取得顯著進展,但是在同屬人類認知范疇的自然語言處理任務中,研究還未取得重大突破.本文首先從深度學習的應用動機、首要任務及基本框架等角度介紹了深度學習的基本概念;其次,圍繞數據表示和學習模型兩方面,重點分析討論了當前面向自然語言處理的深度學習研究進展及其應用策略;并進一步介紹了已有的深度學習平臺和工具;最后,對深度學習在自然語言處理領域的發展趨勢和有待深入研究的難點進行了展望.

自然語言處理,深度學習,表示學習,特征學習,神經網絡

引用格式奚雪峰,周國棟.面向自然語言處理的深度學習研究.自動化學報,2016,42(10):1445-1465

深度學習(Deep learning)通過建立深層神經網絡,模擬人腦的機制進行解釋并分析學習圖像、語音及文本等數據,是目前機器學習研究中的一個熱點領域.傳統機器學習工作的有效性,很大程度上依賴于人工設計的數據表示和輸入特征的有效性;機器學習方法在這個過程中的作用僅僅是優化學習權重以便最終輸出最優的學習結果.與傳統機器學習方法不同的是,深度學習試圖自動完成數據表示和特征提取工作;并且深度學習更強調,通過學習過程提取出不同水平、不同維度的有效表示,以便提高不同抽象層次上對數據的解釋能力.從認知科學角度來看,這個思路與人類學習機理非常吻合.

在面對大量感知數據的處理過程中,人腦對其中的重要信息有著特殊的敏感性.例如即使是四歲孩童,放學時間站在校門口觀望大量的接送家長,總是比較容易快速準確地發現家人熟悉的身影,欣喜地撲進家人的懷抱.因此,在人工智能研究領域中,對于如何模仿人腦開展高效的復雜數據處理,引發了研究者的極大興趣.其中,從仿生學角度開展的人腦生理結構研究,以及從人腦應用角度開展的功能研究,是兩個典型的研究方向.前者體現研究對象的結構特征,后者體現研究對象的功能特征.兩類研究又是互相滲透,相互支撐.例如,在對哺乳類動物開展的解剖研究中發現,大腦皮質存在著層次化的系列區域;在此基礎上,神經科學研究人員又通過測試視覺信號輸入人腦視網膜后經大腦前額皮質層到達運動神經的時間,推斷發現大腦皮質層的主要功能在于將視覺信號通過復雜的多層網絡模型后加以提取觀測信息,而并未直接對視覺信號進行特征處理.這就說明,人腦在識別物體過程中,并未直接通過視網膜投影的外部世界進行感知,而是需要依靠經過某種聚集和分解處理后的信息才能識別得到物體.這一過程中,視皮層的功能主要是開展對視覺信號的特征提取和計算,而非簡單重現視網膜圖像.這種具有明確層次結構的人類視覺感知系統在大大降低了視覺感知處理數據量的同時,還能夠保留被感知物體關鍵的結構信息.大腦這種分層次結構啟發了研究人員開展多層次神經網絡的研究.最早出現的多層網絡訓練算法是采用初始值隨機選定及梯度下降優化策略的BP(Back-propagation)神經網絡.但是這種多層結構的主要缺陷在于輸入與輸出間存在的非線性映射導致能量函數或網絡誤差函數空間含有多個局部極小點,同時采用的又是使能量或誤差單一減小的搜索方向,容易導致局部收斂最小而非全局最優.相關實驗及理論[1-2]發現,局部收斂最優的情況會隨著網絡層數的增加而變得越來越嚴重,似乎表明BP算法在向多層深度結構方向發展上并無優勢可言,這在一定程度上影響了深度學習的發展.

淺層學習結構的共同特點是僅含一種將單個原始輸入信號映射到特定問題空間的簡單特征結構,基本上可以認為這類模型帶有一層或沒有隱層節點.常見的此類結構有條件隨機場(Conditional random field,CRF)、隱馬爾科夫模型(Hidden Markov model,HMM)、支持向量機(Support vector machine,SVM)、多層感知器(Multilayer perceptron,MLP)及最大熵模型(Maximum entropy,ME)等.這些模型大多應用在傳統信號處理技術及機器學習研究中,存在著對復雜函數表示能力有限、對復雜問題泛化處理能力不足的局限性[3].

這種情況直到2006年才出現轉機.Hinton等利用深度可信網絡(Deep belief network,DBN)結構[4],對組成DBN的每一層受限玻爾茲曼機(Restricted Boltzmann machine,RBM)結構進行無監督學習訓練,并將其用于MNIST1MNIST是一個包含手寫數字圖片的數據集http://yann.lecun.com/exdb/mnist/手寫數字識別任務中,取得了錯誤率僅為1.2%的最好成績[5].不久之后,Bengio等也提出了一種基于自動編碼器(Auto-encoders)的相關算法,同樣取得了較好結果[6-7].這些算法盡管形式不同,但他們都遵循相同的原理:即在每一層局部使用無監督的訓練算法,以引導完成特征中間表示層的訓練目標.此后,其他一些非RBM或非Auto-encoders結構的深度學習算法也陸續提出[8-9].自2006年以來,這些深度學習方法不僅在分類任務上取得顯著結果[6,10-15],而且在時序預測[16-17]、高維降秩[18-19]、紋理建模[20-21]、運動建模[22-23]、對象分割[24-25]、信息抽取[26-27]及自然語言處理領域[28-30]都有不俗表現.此外,盡管上述深度模型中,普遍采用Auto-encoders、RBM和DBN結構,能夠以無監督的方式從未標注數據中學習到良好的結果,但在面對特定任務領域時,有監督反饋算法用來初始化深度結構的方式也有成功應用.

盡管當前深度學習還未有完備的理論體系支撐,但并不妨礙在圖像識別和語音識別等應用領域率先結出累累碩果.2012年,一種稱為“深度神經網絡(Deep neural network,DNN)”的機器學習模型在圖像識別領域的ImageNet評測上被采用,把識別錯誤率從26%降到15%,是圖像識別領域近年來的最好結果.而在此之前的2011年,同樣類似的DNN技術在語音識別領域也取得驚人效果,降低語音識別錯誤率達20%~30%,從而大大推進了應用技術產品的開發.比如基于DNN技術的微軟全自動同聲傳譯系統,在2012年11月中國天津的一次公開活動中流暢地實現了自動語音識別、英文到中文的機器翻譯以及合成中文語音輸出的整個過程,效果震驚全場.

盡管深度學習已經在上述圖像和語音處理領域取得顯著進展,但是在同屬人類認知范疇的自然語言處理任務中,應用還未有重大突破.本文重點分析了當前面向自然語言處理的深度學習研究進展,并探討了深度學習在自然語言處理領域的可能發展空間,以圖拋磚引玉.下文第1節描述深度學習的基本概念;第2節圍繞數據表示和學習模型兩方面,重點分析討論了當前深度學習在自然語言處理領域的研究現狀、應用策略及其平臺工具;第3節對有待深入研究的難點和發展趨勢進行展望,最后是結束語.

1 深度學習概述

1.1深度結構

與傳統淺層學習的不同之處在于,首先,深度學習要求模型結構必須具有足夠的深度(Depth),通常要求具有3層以上的隱層節點,有的甚至可能達到10多層.這種多層非線性映射結構,有助于完成復雜函數逼近.其次,深度學習特別強調特征學習的重要性.通過非監督預訓練算法,將輸入原始樣本在原空間的特征,逐層變化,映射到一個新的特征空間,進而有可能使用新特征更加容易實現分類或預測.此外,生成性預訓練方法也避免了因為網絡函數表達能力過強而可能出現的過擬合(Overfitting)問題.

深度學習中深度的概念,實際上來源于流圖(Flow graph)的屬性表示.如圖1(a)所示,流圖可用于表示一個輸入輸出過程中所涉及的計算.圖中節點表示基本計算方法.原始輸入經過節點計算后生成的結果,作為下一個節點的輸入,逐步計算傳遞.

定義1(流圖深度).從一個輸入到一個輸出的最長路徑長度,即為流圖的深度.

圖1(a)所示流圖表示計算函數:f(x)=x×sin(x×a+a/b),該結構具有深度4.圖1(b)所示多層人工神經網絡(Artificial neural network,ANN)表示計算函數該結構具有深度3.對于輸出層而言,傳統BP神經網絡的深度一般定義為隱層數加1,如圖1(c)的結構具有深度2.深度神經網絡則可能有更高深度(大于或等于3)的結構.

圖1 深度的概念示例圖Fig.1 Concept example of depth

我們可以將深度結構看作一種因子分解.大部分隨機選擇的函數,通常都很難采用網絡結構有效表示;但是相對而言,深度結構表示的有效性要高于淺層結構.研究人員猜測,這些可被深度結構但不能被淺層結構高效表示的函數中,可能存在某種結構使得其能夠被深層結構很好地泛化表示.

1.2應用動機

采用特征來表示待處理問題中的對象,是所有應用任務的首要工作.比如在處理文本分類時,經常用詞集合特征來表示文檔,之后采用不同的分類算法來實現分類.類似的,在圖像處理任務中,最為普遍的就是把圖像用像素集合特征加以表示.選取不同的特征對任務的最終結果影響較大.因此,在解決實際問題時,如何選取合適的特征非常重要.

對于很多訓練任務來說,特征具有天然的層次結構.在語音、圖像、文本處理任務中,處理對象的層次結構如表1所示.

表1 語音、圖像、文本領域的特征層次結構[32]Table 1 Feature hierarchy of speech,image and text[32]

以圖像識別為例.最初的原始輸入是圖像的像素,之后眾多相鄰像素可以組成線條,多個線條組成紋理,并進一步形成圖案;局部圖案又構成了整個物體.不難發現,原始輸入和淺層特征之間的聯系較容易找到.那么,在此基礎上,能否通過中間層特征,逐步獲取原始輸入與高層特征的聯系呢?Olshausen等的實驗通過有效的特征提取,將像素抽象成更高級的特征,證實了這一設想的可能性[31].類似的結果也適用于語音特征.

傳統機器學習方法過分依賴人工選取特征或表示,不具備從數據中自動抽取和組織信息的能力.盡管人工選擇能夠利用人類智慧和先驗知識彌補這一缺陷,但要達到能夠深入理解問題的程度,并挖掘合適的特征規則,研究人員所需花費的時間代價也頗為昂貴.這從某種程度上限制了機器學習向更聰明的人工智能方向邁進的步伐.因此,擺脫人工特征選擇的局限性,試圖從大量可觀測到的淺層感官數據中識別或解釋關鍵特征,便成為深度學習的主要思想,這也是深度學習稱為無監督特征學習的原因.某種意義上,凡是能夠實現自動學習特征的方法,都可以歸為深度學習.

為什么深度學習方法可以實現自動學習特征呢?Hinton等[3-4]從不同角度探討了可能的原因.

首先,如果表示的深度不夠,就可能無法有效表示特征對象.通常情況下,一個給定目標精度的函數采用深度為2的網絡結構就可以了,如使用邏輯門.但伴隨而來的問題是需要大量計算節點.Hastad從理論上證實了存在這樣一類函數族[33],即使用深度為d的結構和O(n)個節點可以有效表示的函數族,當深度降低為d-1時,節點數呈現O(2n)指數級增長,這意味著增加表示深度的方式可以更加節約計算成本.

其次,深度學習的分層概念符合人類認知學習過程.從認知科學角度來看,人類的認知學習過程是分層進行的,分層結構是認知學習的基本要求.例如工程師在解決復雜問題的過程中,必定會將任務加以分解,形成多個較小的子任務來處理,子任務和總任務也處于不同的認知抽象層面.

最后,神經生物學的研究表明,人腦中也存在某種分層結構,這進一步從仿生學角度為深度學習的有效性提供了佐證.神經生物學家Serre等對人類大腦的研究表明[34]:大腦皮質存在著層次化的系列區域;每個區域都包含一個不同抽象層次的輸入及到另一個區域的信號流向.

1.3首要任務

深度學習的首要任務是盡可能采用一種簡單的算法來實現所求解問題的分層特征表示.經過特征的逐層變換,使得原始樣本特征可以映射變換到另一個新特征空間,進而可以更加容易地利用特征完成分類或預測任務.因此,特別強調特征學習(Feature learning)或表示學習(Representation learning)的重要性,這一點與傳統機器學習方法是一致的,所不同的是,深度學習實現特征自動提取,而傳統機器學習更依賴于人工分析特征.

深度學習通過學習數據的某種變換形式,當構建分類器或預測器時,更容易抽取有效信息.以概率模型為例,能夠抓取到所觀察輸入數據潛在解釋因素后驗分布的那個表示,往往是一種好的表示形式.在以深度學習方法為主的特征學習研究中,還有許多問題有待進一步探索解決.比如說,一個特征表示優于另一個表示的主要因素是什么?給定一個表示對象,我們如何學習好的特征表示?···諸如此類基本問題,都有待研究解決.

1.4基本框架

上節已經提到,深度學習的首要任務其實是特征學習.如圖2所示,深度學習模型本質上是一種基于原始特征(或者說是未經過人類思維分析的數據)輸入,通過多層非線性處理,來學習復雜特征表示的方法.如果結合特定的領域任務,則深度學習可以通過自動學習的特征表示來構建新型分類器或生成工具,以實現面向領域的分類或其他任務.

圖2 深度學習基本模型Fig.2 Basic model of deep learning

具體而言,圖3表示了深度學習的基本框架[35],算法流程如下所示.

圖3 深度學習基本框架Fig.3 Basic framework of deep learning

步驟1.隨機初始化構建一個學習網絡;設置訓練網絡層數n;

步驟2.初始化無標注數據作為網絡訓練輸入集;初始化訓練網絡層i=1;

步驟3.基于輸入集,采用無監督學習算法預訓練當前層的學習網絡;

步驟4.每層的網絡訓練結果作為下一層的輸入,再次構建輸入集;

步驟5.如果i小于網絡層數n,則網絡訓練層i=i+1,算法跳轉到步驟3;否則,跳轉到步驟6;

步驟6.采用有監督學習方法來調整所有層的網絡參數,使誤差達到要求;

步驟7.完成分類器(如神經網絡分類器)構建;或者完成深度生成模型(如深度玻爾茲曼機)構建.

上述基本框架中的步驟2~4是深度學習的關鍵,也稱為“逐層預訓練(Layer-wise pretraining)”[5].如圖4所示.

圖4 逐層預訓練模型Fig.4 Layer-wise pre-training model

逐層訓練中的關鍵部分是自動編碼器(Autoencoder)的構建.在深度學習模型中,自動編碼器可以是一種盡可能重現輸入信號的神經網絡.

1.4.1無監督構建自動編碼器

當原始輸入確定后,首先訓練模型的第一層,如圖4中最左側的黑色框圖Encoder_A,表示編碼器,是整個模型的“認知機構”,其將原始輸入編碼后形成第一層初級特征.為了驗證編碼后的特征確實是原始輸入的一種等價抽象表示,沒有丟失太多信息,我們引入一個對應的解碼器,如圖4中最左側的灰色框圖Decoder_A,它是這個模型的“生成機構”.為了使“認知”和“生成”達成一致,我們需要將編碼后的特征經過解碼器再生成,目的是要與初始的原始輸入做比較驗證.驗證得到的結果誤差定義為代價函數,用于訓練神經網絡編碼器和解碼器.當訓練達到收斂目標后,確定了具體各類參數的神經網絡編碼器就是我們需要的第一層模型(而解碼器可以不需要),即可以得到原始數據的第一層抽象表示.固定第一層神經網絡編碼器的參數,并將第一層抽象輸出作為輸入,再次重復操作,陸續可以訓練出第二層模型、第三層模型;以此類推,直至訓練得到滿足要求的最高層模型.

1.4.2有監督訓練分類器

通過上述訓練后得到的自動編碼器,原始輸入信號得到了不同的表達特征,這些特征可以最大程度上代表原始輸入信號.但是,這個自動編碼器還不能用來實現分類功能.為了實現分類,我們需要在自動編碼器最高層的編碼層添加分類器(Classifier),結合標簽(Label)樣本,基于標準神經網絡的有監督訓練方法調整參數.

參數調整方法分為兩類:一是僅僅調整最高層的分類器的參數;二是通過標簽樣本,調整所有自動編碼器的參數,也即實現對多層模型參數的精細調整.

深度學習所構建的深層模型具有較多局部最優解.逐層初始化方法的目的就是最終將深層模型調整到較為接近全局最優解的位置,從而獲得最佳效果.表2從不同角度比較了深層模型和淺層模型的特點.淺層模型的一個主要局限性就是需要依賴人工經驗來抽取作為模型輸入的樣本特征,模型本身僅作為分類或預測工具.因此在淺層模型實現的系統中,起決定性作用的往往不是模型的優劣,而是所選取的特征的優劣.這也促使研究人員將研究精力重點投入到特征的開發和篩選中,不僅對任務問題領域需要深刻的理解,還需要花費大量時間反復實驗摸索.事實上,逐層初始化深層模型也可以看作是特征學習的過程,通過隱藏層對原始輸入的一步一步抽象表示,來學習原始輸入的數據結構,找到更有效的特征,最終提高分類問題的準確性.在獲得有效特征之后,模型整體訓練也可以水到渠成.

表2 淺層和深層模型比對分析[32]Table 2 Comparison and analysis of shallow model and deep model[32]

2 面向自然語言處理的深度學習研究及應用

深度學習在圖像和語音領域取得了突出成果,但是在自然語言處理上還未取得重大突破.與語音和圖像不同,語言是一種經過人類大腦產生并加工處理的符號系統,似乎模仿人腦結構的人工神經網絡應該在自然語言處理領域擁有更多優勢,但實際情況并非如此.同時,近幾十年來,在基于統計的模型成為自然語言處理主流方法之后,屬于統計方法典型代表的人工神經網絡在自然語言處理領域依然沒有得到足夠重視.當然,這一切在2006年Hinton等提出深度學習[5]以后,情況發生了變化,當前結合深度學習模型開展自然語言處理相關應用已經取得了一定成果,并成為研究熱點之一.

語言模型是最早采用神經網絡開展研究的自然語言處理問題.2003年,Bengio等提出詞向量(Word embedding或Word representation)方法,可以將詞映射轉換到一個獨立的向量空間;進一步結合非線性神經網絡提出了n-gram模型[36];受此啟發,Collobert等基于詞向量方法及多層一維卷積神經網絡(Convolutional neural network,CNN),實現了一個同時處理詞性標注、語塊切分、命名實體識別、語義角色標注四個典型自然語言處理任務的SENNA(Semantic/syntactic extraction using a neural network architecture)系統[28],取得了與當時業界最好性能相當接近的效果.尤其難能可貴的是,相比傳統算法,僅用3500多行C語言代碼實現的SENNA系統,運行速度更快,所需內存空間更小.

對Bengio等提出的神經網絡語言模型的進一步研究,Mikolov等發現,通過添加隱藏層的多次遞歸,可以提高語言模型性能[37];將其應用于語音識別任務的結果令人吃驚,在提高后續詞預測的準確率及總體降低詞的識別錯誤率方面都超越了當時最好的基準系統.類似的模型也被Schwenk等用在統計機器翻譯任務上[38],其性能采用BLEU(Bilingual evaluation understudy)評分機制評判,提高了將近2個百分點.遞歸自動編碼器(Recursive auto-encoders)模型[39]在句段檢測(Sentence paraphrase detection)任務中大大提高了F1值.此外,基于深度模型的特征學習還在詞義消歧[40]、情感分析[41-42]等自然語言處理任務中均超越了當時最優系統,取得不俗表現.

2.1深度學習在自然語言處理領域應用的可行性分析

由上述應用可見,自然語言處理領域中的深度學習技術已經表現出較強的生命力,成為當前研究熱點之一.綜合分析來看,能夠在自然語言處理領域中應用深度學習技術并取得良好效果,我們認為主要有以下幾點原因.

半個多世紀以來,齊齊哈爾地區的工業為共和國的經濟、國防和工業現代化建設做出了不可磨滅的貢獻。這里的工廠曾經為我國第一門大炮、第一顆人造衛星、第一臺核反應推、第一艘核潛艇……在工業戰線上涌現的全國勞動模范馬恒昌先后13次受到毛主席接見。但是,由于種種原因,在以往報道中沒有充分挖掘這些典型的人物與事件。而在相距150公里之外的大慶市就把鐵人王進喜的形象搬進社區、學校、廣場、公交車……在整個大慶市的每個角落都能受到“鐵人”精神的鼓舞。

2.1.1特征表示學習的需要

自然語言處理任務中首先要解決的問題是處理對象的表示形式.為了表示對象,通常必須抽取一些特征,如文本的處理中,常常用詞集合來表示一個文檔.傳統依賴手工的方式抽取特征,費時費力;不僅獲取過程比較隨意,且完備性較差;同時,根據處理任務或領域的不同,特征提取工作要重復進行,無法實現表示共享.能否使得機器也能像人類一樣,實現自動獲取特征表示并進行推理學習?深度學習就試圖來解決這個問題.深度學習中的特征提取,即指可以自動從數據中學習獲取特征.

2.1.2無監督特征和權重學習的需要

目前大多數效果較好的自然語言處理任務和機器學習方法都依賴于標注數據.在這種情況下,基于標注語料庫及有監督學習方式成為了主流手段.但是,就實際應用而言,自然語言中大量存在的是未標注數據.從這些未標注數據中挖掘信息,就必須要考慮(自動)無監督方法.深度神經網絡采用無監督方式完成預訓練過程,恰恰提供了合適的訓練模型.

2.1.3學習多層分類表示的需求

仿生學的研究表明,完成人類學習的大腦結構表現為一種多層(深層)不同的皮質層;不同皮質層對應于不同的學習表示結構:從抽象到具體,逐層遞減.表示的抽象程度越高,越能更多地交叉支持具體的處理任務.因此,我們需要利用好的學習模型,更多地抽取出有用的中間表示形式(Intermediate representations).深度學習能夠較好地抽取處理任務的多層分類表示.

此外,人類自然語言具有遞歸特性(Recursion).比如,自然語言中的句子,事實上可以由詞、短語遞歸組合而成.深度學習提供了較為方便的遞歸操作,可以支持這種自然語言遞歸組合特性的功能,如遞歸神經網絡(Recursive neural network,RNN).

2.1.4當前可用的技術及硬件平臺支撐

深度學習結構一般由多層神經網絡結點組成,其預訓練過程通常需要高性能計算的支持.隨著技術的發展,能夠提供高性能計算的硬件平臺目前逐漸成熟,如多核計算(Multi-core computing)、圖形處理單元(Graphics processing unit,GPU)等.同時,為深度網絡結構中的組成單元提供算法支持的技術也有較好發展,如RBM、Auto-encoders等;并且各類結合自然語言處理的語言模型/算法[28,37,43-44]等也逐漸得到優化,性能得到提升.這些硬件及軟件技術的發展,都為當前采用深度學習結構的自然語言處理提供了良好支撐環境.

面向領域任務的深度學習研究及應用,需要解決兩個普適問題:1)應用領域的原始特征表示;2)選擇合適的深度學習算法.前者實際是數據的表示問題,后者代表了深度學習結構問題,即深度學習模型.例如在圖像處理領域,一般會選取圖像像素矩陣作為原始特征表示[4,6-7];而在語音處理任務中,則會選取最基本的語音單位[43],如音素(Phonemes).

面向自然語言處理的深度學習研究,同樣需要考慮上述兩個普適問題.對于問題1),典型的有基于詞向量空間[30,45-46]、詞袋模型(Bag-of-words,BoW)、向量空間模型(Vector space model,VSM)等的表示方式;對于問題2),目前普遍認可的是,需要根據自然語言的特點,來選擇合適的深度學習模型.人類自然語言具有遞歸特性.比如,自然語言中的句子,事實上是由詞、短語遞歸組合而成.因此,遞歸特性是自然語言的重要特征.考慮自然語言遞歸特性的深度學習模型有循環神經網絡(Recurrent neural network,RNN)、遞歸神經網絡、卷積神經網絡及其系列改進模型[37,47-50].

考慮上述兩個問題之后,在自然語言處理中應用深度學習的方式主要有兩類:1)在深度學習模型中,直接使用原始特征,構建一類端到端(End-toend)系統,完成處理任務;2)在現有模型中,將訓練后的原始特征作為輔助特征擴充使用.第1)種方式典型的工作如SENNA系統[30],基于詞向量方法及多層一維卷積神經網絡完成了詞性標注、語塊切分、命名實體識別等系列任務;類似的工作還有如Socher基于遞歸神經網絡實現情感分析、句法分析等多項任務[51].第2)種方式典型的工作如Turian等將詞向量作為額外的特征加入到現有最優系統中[52],進一步提高了命名實體識別和短語識別的效果.

2.2.1數據表示

2.2.1.1One-hot representation

面向自然語言處理的深度學習,首先要解決的是自然語言的表示問題.在基于規則和統計的自然語言處理工作中,最常見的是One-hot representation表示方法:每個詞表示為一個很長的向量;其中只有一個維度的值為1,代表了當前的詞;其他絕大多數元素都為0;向量的維度是詞表的大小.如詞“話筒”的向量可表示為[0001000000000000···],而詞“麥克”的向量則可表示為[0000000010000000···].

One-hot representation如果采用稀疏方式存儲,形式上非常簡潔.結合傳統機器學習算法,如最大熵、支持向量機、條件隨機場等,該方法可以勝任大多數自然語言處理的主流任務;但其純粹的向量表示形式,僅是孤立地表示單個詞,無法表達詞與詞之間的相關性.如上述詞“話筒”和“麥克”的表示向量,單純從這兩個向量中,無法看出兩個詞是否存在關系,即使是麥克和話筒這樣的同義詞也不例外.Firth提出一種利用相近鄰詞表示當前詞的思想[53]:通過計算不同范圍的上下文相近鄰詞,從而得到當前表示詞的多種不同表達值.比如當前中心詞前后的詞都可以用來計算得到當前中心詞的表達值.基于這種思想所產生的詞表達方式,被稱為Distributional similarity.這也被譽為現代統計自然語言處理中最為成功的思想之一.

2.2.1.2詞向量

詞向量表示方式延續并擴展了上述類似思想.為了讓相關或者相似的詞,在距離上更接近(向量的距離可以用傳統的歐氏距離來衡量),Hinton提出了一種用 Distributed representation表示詞的方式[54],通常被稱為詞向量.詞向量是一種低維實數向量,如[0.792,-0.177,-0.107,0.109,-0.542,···].用這種方式表示的向量,“麥克”和“話筒”的距離會遠遠小于“麥克”和“天氣”.詞向量的方式是目前自然語言處理中應用深度學習的首選表示方式.這種表示方法的好處在于:首先,如果采用傳統One-hot representation的稀疏表示法,在解決某些任務的時候,比如構建語言模型,可能會造成維數災難[36],而使用低維的詞向量就可以避免類似問題;其次,從實踐上看,高維的特征如果要應用深度學習方法,復雜度過高,很難接受;再有,相似詞的詞向量距離相近,這就讓基于詞向量設計的一些模型能夠自帶平滑功能.

詞向量模型為文本中的每個單詞構造一組特征,較好地解決了自然語言中“詞”一級的表示問題;事實上,也可以針對不同粒度進行推廣,如字向量、句子向量和文檔向量[46],從而實現字、短語、文本等表示.而在文本級別,另外一種常見的表示方法是詞袋模型.

2.2.1.3詞袋模型

詞袋模型是最早出現在自然語言處理領域中用來表示文檔的方法.詞袋模型忽略文本的語法和語序,用一組無序的單詞來表達一個文檔或一段文字,文檔中每個單詞都是獨立出現,不依賴于其他單詞是否出現.文檔或文字段僅僅看作是若干個詞匯的集合.

例 1a).Tom likes to play basketball.Mike likes too.

例1b).Mike also likes to play tennis.

根據上述兩句話中出現的單詞,我們能構建出一個字典(“Tom”:1,“likes”:2,“to”:3,“play”:4,“basketball”:5,“Mike”:6,“too”:7,“also”:8,“tennis”:9).

該字典中包含9個單詞,每個單詞有唯一索引,注意它們的順序和出現在句子中的順序沒有關聯.根據這個字典,我們能將上述兩句話重新表示為下述兩個向量:

[1,2,1,1,1,1,1,0,0]

[0,1,1,1,0,1,0,1,1]

這兩個向量共包含9個元素,其中第i個元素表示字典中第i個單詞在句子中出現的次數.因此詞袋模型可認為是一種統計直方圖.在文本檢索和處理應用中,可以通過該模型很方便地計算詞頻.詞袋模型典型的應用是文檔分類.定義文檔集合D,共有M 個文檔;將文檔里面的所有單詞提取出來后,構成一個包含N個單詞的詞典.基于詞袋模型,每個文檔都可以被表示成為一個N維向量,利用計算機就可以來完成海量文檔的分類任務.

2.2.1.4向量空間模型

向量空間模型(Vector space model,VSM)由Salton[55]于20世紀70年代提出,并成功地應用于著名的SMART(System for the mechanical analysis and retrieval of text)文本檢索系統.向量空間模型概念簡單,把對文本內容的處理簡化為向量空間中的向量運算,并且它以空間上的相似度來表示語義的相似度,直觀易懂.當文檔被表示為文檔空間的向量時,就可以通過計算向量之間的余弦距離來度量文檔間的相似性.

除了在信息檢索領域的成功應用外,向量空間模型也在自然語言處理的其他語義任務中有著令人印象深刻的結果.如Rapp采用基于向量的詞義表示方式來完成TOEFL考試的同義詞多項選擇問題[56],取得了92.5%的準確率,相比之下,當時的該項考試中考生的平均正確率也僅為64.5%.類似的,Turney使用語義關系的向量表示[57],來完成SAT大學入學考試的推理多項選擇問題,取得了56%的準確率,和人類考試平均正確率57%基本相當.受向量空間模型思想啟發,在如何表示短語、句子、篇章等高一級的語言單元這一問題上,我們認為,可能的解決思路是:以詞向量為最小單位;把同屬一個短語、句子或篇章的詞向量映射到同一向量空間中.類似的工作在短語、篇章及文檔的相似性判斷中已經表現出較好的效果,如Manning等使用向量空間模型作為搜索引擎[58],來衡量一個查詢與文檔之間的相似度.

2.2.2學習模型

詞向量的獲得一般都是依賴語言模型的訓練.常見的方式是在訓練語言模型的過程中,同時訓練得到詞向量.

定義2.定義語言單元集合E={短語,子句,篇章},語言基礎最小單元集合WordUnit={詞|字}.其中,英文中的語言基礎最小單元是詞,而漢語的語言基礎單位可以是字[26,59].

定義3.語言模型可以形式化描述為:給定一個字符串S={w1w2···wt},判斷它屬于自然語言的概率為P(S).其中,S∈E,wi∈WordUnit,(i=1,2,···,t).簡單的推論如下:

推論1.P(w1,w2,···,wt)=P(w1)×P(w2| w1)×P(w3|w1,w2)×···×P(wt|w1,w2,···,wt-1).

在實際應用模型中,一般都求近似解,如n元語法(n-gram)模型就是如此.

2.2.2.1神經網絡與n元語法模型

神經網絡與語言模型的結合工作,最早源自Xu等[60]提出一種使用神經網絡構建二元語言模型的思想;而Bengio等[36]利用三層神經網絡來構建n元語法模型的工作,就把神經網絡與語言模型訓練的結合推上了一個新的臺階.

如圖5所示最下方的wt-n+1,···,wt-2,wt-1表示前n-1個詞.根據前n-1個詞預測下一個詞wt是模型的終極目標.其中,模型使用了一個詞向量庫,如定義4所示.

圖5 三層神經網絡構建的n-gram模型[36]Fig.5 n-gram model constructed by three layer of neural networks[36]

定義4.詞向量庫定義為矩陣C=|V|×m,其中|V|表示語料中的總詞數;m表示詞向量的維度;c(w)表示從矩陣C中取出一行向量值,用來代表詞w所對應的詞向量.

網絡的輸入層將Cwt-n+1,···,Cwt-2,Cwt-1串連拼接起來,構成一個m(n-1)維的向量,表示為網絡的第二層(隱藏層)基于計算方式直接得到結果(其中H為隱藏層網絡權重矩陣,d為網絡輸入層到隱藏層的偏置項),并使用tanh函數作為激活函數;網絡的第三層(輸出層)共包含|V|個節點,使用softmax激活函數將輸出值y歸一化,如式(1)所示.

其中yi表示下一個詞為i的未歸一化概率.定義y的計算如式(2):

式中,b為隱藏層到輸出層的偏置項;詞特征輸入層到輸出層的權重矩陣W=|V|×(n-1)m;隱藏層到輸出層的權重矩陣U=|V|×h,其中h是隱藏層節點數量;隱藏層權重矩陣H=h×(n-1)m;矩陣U和網絡隱藏層的矩陣乘法是模型的主要計算量.為了提升模型的計算速度,后期研究者的相關工作[29-30,47],都有對這一計算環節的簡化.式(2)中的矩陣W 包含了從輸入層到輸出層的線性變換.如果不需要線性變換的話,可將W 置為0.線性變換雖然不能提升模型效果,但是可以減少一半的迭代次數[36].

最后,采用隨機梯度下降法實現模型優化工作,在得到語言模型的同時,也得到了詞向量.值得注意的是,與一般神經網絡輸入層僅帶一個輸入值而無需優化不同,為了使得到的模型自帶平滑功能,該模型的輸入層參數是需要調整優化的.相比于傳統含有復雜平滑設計的n元語法模型而言,該模型算法性能提升了約10%~20%[36].

文獻 [36]最主要的思想,隨后在下面三個重要工作中體現出來:Log-bilinear語言模型、Hierarchical log-bilinear語言模型、循環神經網絡語言模型.

2.2.2.2Log-bilinear語言模型

受文獻[36]的影響,Mnih等提出了一種Logbilinear語言模型[61],用于實現語言模型及詞向量的訓練.這可以認為是自然語言處理中較早開始深度學習應用的嘗試.他們從最基本的受限玻爾茲曼機(Restricted Boltzmann machines,RBM)開始,不斷調整修改模型的能量函數,最終獲得了Logbilinear模型.采用神經網絡的形式可以表示為:

式(3)和(4)可以合并表示為:

2.2.2.3Hierarchical log-bilinear語言模型

在Log-bilinear語言模型基礎上,Mnih等提出了一種帶有層級思想的HLB(Hierarchical logbilinear)語言模型替換了文獻[36]提出的三層神經網絡架構中計算成本最大的矩陣乘法,在保證效果的基礎上,提升了速度[29].

這種層級的思想最初由Morin等提出[62],他們采用WordNet中的IS-A關系,將其轉化為二叉樹后再作分類預測.實驗結果表明盡管提高了速度,但卻降低了性能,似乎有點得不償失.Mnih等借鑒了層級的思想,但在實驗中使用一種自舉學習(Bootstrapping)的方法來自動構建平衡二叉樹,并將其用于替換網絡最后一層[29].在預測向量分類時,采用了二叉樹中的非葉節點;模型最后構建得到的葉子節點就用來確定具體的詞.計算復雜度也從原來的O(|V|)降低到O(log2(|V|)).

2.2.2.4循環神經網絡語言模型

文獻[36]提出的模型中,涉及大量訓練參數. Mikolov等提出了一種循環神經網絡語言模型(Recurrent neural network language model,RNNLM)用于降低訓練參數的數量[47];其采用BPTT(Backpropagation through time)優化算法,取得了比n元語法模型中的最優方法更好的效果;隨后的研究中,Mikolov等一直在RNNLM上作各種改進,包括速度及正確率[37,48-50].

循環神經網絡與前面方法中使用的前饋網絡訓練的原理基本一致,但是在結構上存在較大差別.循環神經網絡結構大致如圖6所示.

圖6 循環神經網絡結構圖Fig.6 Structure diagram of recurrent neural network

圖6(a)是網絡的抽象表示結構,由于循環神經網絡多用在時序序列上,因此輸入層、隱藏層和輸出層都帶有時序參數t.隱藏層計算公式表示為:

圖6(b)表示循環神經網絡的流轉過程.每當一個新詞輸入,循環神經網絡聯合輸入新詞的詞向量與上一個隱藏層狀態,計算下一個隱藏層狀態;重復計算得到所有隱藏層狀態;各隱藏層最終通過傳統的前饋網絡得到輸出結果.

不同于取n個詞來近似預測下一個詞的窗口模式,循環神經網絡可以真正充分地利用所有上文信息來預測下一個詞.這種方式實際上優劣并存,如果一旦在實際使用中優化不足,就可能丟失長距離信息,導致預測詞的性能甚至可能還比不上取n個詞的窗口模式.為了降低最后隱藏層到輸出層的復雜計算量,Mikolov等[47]采用了一種分組的方法:基于詞頻特點,將|V|個詞分成組,先通過次判斷,判斷下一個詞所屬組別;再通過若干次判斷,找出其屬于組內的元素;最后均攤復雜度約為略差于Mnih和Hinton所提模型[29]的復雜度O(log(|V|)).但是這種方法最大的優點是結構比較簡單,可以減少誤差傳遞.

2.2.2.5基于詞向量的改進模型

Collobert和Weston在2008年首次提出了一種特殊的詞向量計算方法[30],文中系統地總結了他們基于詞向量完成的多項自然語言處理任務,如詞性標注、命名實體識別、短語識別、語義角色標注等工作.不同于求近似解的n元語法模型,他們的詞向量訓練方法直接求解的近似解.給出定義5.

定義5.定義f(wt-n+1,···,wt-1,wt)表示窗口連續n個詞的分值.f只有相對高低之分,并不表示概率的特性.f分值越高,表明這句話越是正常;f分值低,表明這句話不合理.極端情況,如果隨機把幾個詞堆積在一起,f值將表示為負分.

基于此,Collobert和Weston使用Pair-wise方法來訓練詞向量[30].其中,需要最小化目標函數如下.

式中,X為訓練集中的所有連續的n元短語,D是整個字典,x表示正樣本,x(w)表示負樣本,而函數f(x)是正樣本的分值轉換,f(x(w))是負樣本的分值轉換.式(7)中的第一個求和枚舉計算將訓練語料中的n元短語都作為正樣本挑選出來了;所有的負樣本則通過第二個對字典的枚舉構建得到.x(w)表示用w替換正常短語x的中間詞,這樣處理后,最終得到短語大多數情況下肯定不是正確的短語,可以作為負樣本使用.由式(7)可見,正樣本最終的打分要比負樣本至少高出1分.

f函數的結構基本上和文獻[36]中的網絡結構一致.它們的共同之處在于:1)窗口中的n個詞所對應的詞向量被串連形成一個長向量;2)隱藏層都經過一層網絡計算后得到.不同點在于:Collobert和Weston模型[30]的輸出層只有一個節點表示得分,而文獻[36]模型則擁有|V|個節點;此外,采用HardTanh代替tanh激活函數以降低計算復雜度.

Collobert和Weston模型中窗口n值設定為11,字典大小值|V|設定為130000,利用維基百科英文語料和路透社語料訓練7周后得到了C&W詞向量.相比其他詞向量,C&W 詞向量主要特點有:

1)C&W 詞向量僅包含小寫單詞.也就是說,不同于其他詞向量對大小寫詞分開處理,該詞表不區分大小寫,它把單詞都按照小寫詞加以處理.

2)C&W 詞向量是通過半監督學習得到的.因為C&W詞向量是在通過詞性標注、命名實體識別等多任務優化的半監督學習后得到的,區別于其他方法中的無監督學習.

Turian等在將Collobert和Weston所實現的C&W 向量與Mnih和Hinton實現的向量[29]做了對比實驗[52],并在其標注好的語料上運行了HLB(Hierarchical log-bilinear)模型,得到了另一份詞向量.Mikolov等的系列論文[45-46]介紹了將詞表征為實數值向量的詞向量工具包word2vec(本文第2.5.2節討論了該工具包),其主要用到CBOW模型(Continuous bag-of-words model)和Skip-gram模型(Skip-gram model),分別采用Hierarchical softmax和Negative sampling框架進行設計.CBOW模型和Skip-gram模型都包含三層架構,即輸入層、投影層和輸出層,所不同的是,前者在已知當前詞wt的上下文wt-2,wt-1,wt+1,wt+2的前提下預測當前詞wt,如圖7(a)所示;而后者是在已知當前詞wt的前提下,預測其上下文wt-2,wt-1,wt+1,wt+2,如圖7(b)所示.

經過word2vec工具包訓練得到的詞向量具備很好的類比(Word analogy)特性,在一定程度上可以表示詞語的語義和語法性質.面向知識圖譜的表示學習算法TransE[63]正是受此類比特性啟發而提出的.知識圖譜包含大量實體、實體的語義類別和實體間的關系,可以用三元組(主體、關系、客體)來表示.TransE算法將三元組中的關系看作主體到客體的翻譯,使得三元組滿足線性轉換.利用特征表示向量描述實體和關系,可以更加容易地計算實體之間的語義關系.

圖7 詞向量word2vec的模型結構圖Fig.7 Model structure diagram of word2vec

2.2.3模型討論

上述其他所有模型,除了循環神經網絡語言模型以外,本質上模型的輸入層到隱藏層(第一層)都是等價的.即使形式比較特別的HLB語言模型,如果把模型中的H看成Hi的拼接,則也可以得到類似其他方法那樣的等式:

所以上述諸多模型,本質上非常相似,差別主要在于隱藏層到輸出層的語義定義.Bengio采用最樸素的線性變換[36],從隱藏層直接映射到每個詞;Collobert和Weston將語言模型做了簡化[30],利用線性變換把隱藏層轉換為f分值;Mnih和Hinton復用了詞向量[29],進一步強化了語義,并用層級結構加速;Mikolov等則用了分組來實現加速[47].

此外,Collobert和Weston的實驗結果表明[30]:相比于隨機初始化,將詞向量作為初始值,在不同任務上的效果都有顯著提升;同時發現訓練語料越大,實際效果越好.在將詞向量用作輔助特征時,Turian等[52]的實驗表明C&W 向量在命名實體識別和短語識別中的效果比Mnih和Hinton[29]實現的向量稍好些;而兩者聯合使用,效果更佳.

近期Mikolov等的研究發現了一個有意思的現象[45]:兩個詞向量之間的關系,可以用兩個向量的差來體現.例如已經知道a與b的關系,類似等價于 c與d的關系,現在給定 a、b、c,判斷是否近似于詞向量例如實驗中發現有詞向量≈進一步發現居然就是最接近的詞向量.向量之間存在的這種線性平移關系,極有可能成為詞向量未來發展的關鍵.Mikolov等的實驗結果也同樣表明,語料越大,詞向量效果就越好,這一點同Collobert和Weston[30]的實驗結果是一致的.

2.3面向自然語言處理的深度學習應用策略

Bengio提出了采用梯度下降法(Stochastic gradient descent,SGD)訓練深度結構的系列建議[64],其中大致可將訓練過程分為:無監督預訓練、模型參數初始化及后期優化、模型調試等.參考這一過程,我們定義如下在自然語言處理領域深度學習的應用策略,應用架構如圖8所示.

圖8 面向自然語言處理的深度學習應用架構圖Fig.8 Deep learning application architecture for NLP

步驟1.構建基本模型框架.針對處理任務,選擇合適的神經網絡結構,構建深度學習基本模型框架.

步驟2.模型檢查.采用梯度下降法檢查模型實現是否存在錯誤.這對于整個過程至關重要.

步驟3.模型初始化.主要涉及神經網絡隱藏層偏置量b和網絡結點權重矩陣W 的參數初始化.

步驟4.模型優化.主要涉及模型參數調整優化.

步驟5.模型調整.檢查模型是否能夠滿足過擬合要求,如果沒有,調整模型參數使其能夠滿足過擬合要求;如果達到過擬合要求,那就采用正則化(Regularization)方法調整模型.

2.3.1構建基本模型框架

構建面向自然語言處理的深度學習模型,首先要考慮基本表示結構,可選的表示結構有Single words、Fixed windows、Recursive sentence或Bag of words;其次要考慮非線性化過程,可選的非線性化函數有logistic(“sigmoid”)、tanh、hard tanh、soft sign、rectifier等,如圖9所示.sigmoid函數及其反函數都具有單調遞增特點,可實現變量在[0,1]區間的映射,故經常作為神經網絡閾值函數使用;但是,sigmoid函數初始化權重集后,能夠激活近半數的神經元,這與模仿大腦神經元稀疏性工作的原理似乎相悖,同時也不利于深度網絡訓練.與此相比,rectifier函數具有單側抑制性,可以相對有效降低深度網絡訓練復雜度.此外,統計表明,對于深度網絡而言,tanh函數性能最佳,使用頻率也是最高;hard tanh函數類似,計算代價相對低廉.上述幾種常用的非線性函數如圖9所示,其公式如下:

圖9 幾種常用的非線性化函數可視化表示Fig.9 Visual representation of several commonly used nonlinear functions

1)logistic(“sigmoid”)函數:

2)tanh函數:

3)hard tanh函數:

4)soft sign函數:

5)rectifier函數:

2.3.2模型檢查

梯度下降法是常用的模型檢查方法.通過模型檢查,能夠驗證所實現的模型是否存在明顯缺陷.首先,在檢查模型之前,需要選擇合適的梯度表示;其次,循環計算調整參數;最后,比較輸出值和實際結果之間的偏差,以確保其一致.

2.3.3模型初始化

模型的初始化,首先設置隱藏層的偏置量為0,并設置輸出層的偏置量為假定權重值w都為0的情況下的最優值;其次,設置權重其中fanin為前一層網絡的結點數,fanout為后一層網絡的結點數;最后,完成預訓練過程.

2.3.4模型優化

模型優化主要涉及參數的訓練.設θ為參數{W,b},W 為網絡權重矩陣,b為網絡單元的偏置(Bias). 常規優化算法有隨機梯度下降(SGD)、LBFGS(Limited-memory Broyden-Fletcher-Goldfarb-Shanno)、共軛梯度下降 CG(Conjugate gradients).

SGD形式化定義如下:

式中,L為損失函數,Zt為當前樣本,θ為參數向量,εt為學習速率.SGD算法中對于學習速率的選擇,簡單的辦法是選定一個固定值,作為全局變量使用;并且學習速率隨著時間動態逐步遞減,以確保模型收斂.典型的遞減方式如取倒數形式O(1/t),形式化可表示為:

在優化過程中,不同的優化算法都有不同的優缺點,需要區分不同應用場合,加以選擇使用.比如在參數維度較低(小于1萬維)的情況下,LBFGS的效果最好;而針對高維問題,CG算法又要比其他兩種算法更優.此外,如果是在小規模數據集上,則LBFGS或CG算法較優;如果是在大數據集合中,SGD算法對模型參數的調整性能最佳[65].大數據集合經常伴隨大規模訓練集,為降低訓練集的計算復雜度,在每次迭代時僅利用部分訓練集樣本加以訓練.這里的部分訓練樣本其實是訓練集的一個子集,一般稱為mini-batch.在實際優化過程中,目前常用的是帶mini-batch的SGD優化算法.

在深度學習網絡中,梯度表示為雅可比行列矩陣的形式,每一單元的結果都依賴于前一步計算.這可能會使梯度結果變化速度過快,從而導致梯度下降局部變化的假設不再成立.

2.3.5模型調整

經過上述步驟得到的模型,如果出現過擬合,則需要在本階段作正則化調整.第一步最簡單的方式是:降低模型規模.可以通過降低各種參數值達到這一目的,如可以減少神經網絡結點單元數、網絡層數及其他可用參數等.其次,可以使用標準L1或L2的Regularity限制調整權重值,或者采用稀疏化方式促使模型復雜度降低,提升計算速度和模型的泛化能力.

2.4面向自然語言處理的深度學習典型應用

相比于圖像和語音領域所取得的成果,深度學習在自然語言處理上盡管還未取得重大突破,但也在以下相關諸多領域,如詞性標注、句法分析、詞義學習、情感分析有著初步應用,并取得較好效果.

2.4.1分詞和詞性標注

分詞是指按照一定的規范,將連續的字序列重新組合成詞序列的過程.詞性標注(Part-of-speech tagging,POS)則是指確定句子中每個詞的詞性,如形容詞、動詞、名詞等,又稱詞類標注或者簡稱標注.

在英文分詞和詞性標注方面,結合深度學習開展相關研究最有影響力的是Collobert等的研究工作[28],他們基于詞向量方法及多層一維卷積神經網絡,實現了一個同時處理詞性標注、語塊切分、命名實體識別、語義角色標注四個典型自然語言處理任務的SENNA系統,取得了與當時業界最好性能相當接近的效果.

在中文分詞和詞性標注方面,Zheng等分析了利用深度學習來進行上述兩項工作的可行性[59],主要集中在特征發現、數據表示和模型算法三方面工作.在特征發現方面,他們嘗試采用深層神經網絡來發現與任務相關的特征,從而避免依賴于具體任務的特征工程(Task-specific feature engineering);在數據表示方面,他們利用大規模非標注數據(Unlabeled data)來改善中文字的內在表示(Internal representation),然后使用改善后的表示來提高有監督的分詞和詞性標注模型的性能;在模型算法方面,他們提出Perceptron-style算法替代Maximum-likelihood方法,在性能上接近當前最好的算法,但計算開銷更小.特別有意思的是,受英文的詞向量[28,36]的概念啟發,他們提出以中文的字(Character)為基本單位的字向量概念,由此提供了深度學習利用中文大規模非標注數據開展預訓練的可能性.

2.4.2句法分析

句法分析(Syntactic analysis)的主要任務是自動識別句子中包含的句法單位以及這些句法單位相互之間的關系,即句子的結構.通常的做法是:給定一個句子作為輸入,利用語言的語法特征作為主要知識源構建一棵短語結構樹.

Henderson提出一種 Left-corner句法分析器[66],首次將神經網絡成功應用于大規模句法分析中;隨后,Henderson又基于同步網絡訓練句法分析器[67];Titov等使用SVM改進了一種生成型句法分析器用于不同領域的句法分析任務[68];他們還在特征學習基礎上尋求進一步改進系統的方法[69]. Collobert基于深度循環圖轉移網絡提出了一種應用于自然語言句法分析的快速判別算法[70].該方法使用較少的文本特征,所取得的性能指標與當時最好的判別式分析器和基準分析器相當,而在計算速度上具有較大優勢.

與此同時,Costa等也嘗試采用遞歸神經網絡模型[71],用于解決增量式句法分析器中侯選附加短語的排序問題.他們的工作首次揭示了利用遞歸神經網絡模型獲取足夠的信息,從而修正句法分析結果的可能性;但是他們只在大約2000個句子的子集上做了測試,相對來說測試集合顯得有點少. Menchetti等[72]在使用Collins分析器[73]生成侯選句法樹的基礎上,利用遞歸神經網絡模型實現再排序.和他們的工作類似,Socher等提出了一種CVG(Compositional vector grammar)模型用于句法結構預測[74],該模型將PCFG(Probabilistic context free grammars)與遞歸神經網絡模型相結合,充分利用了短語的語法和語義信息.與斯坦福分析器相比,他們的系統不僅性能上提高了約3.8%(取得了90.4%的F1值),而且在訓練速度上提高約20%. Legrand等基于簡單神經網絡模型,提出了一種自底向上的句法分析方法[75].其主要優勢在于結構簡單,計算開銷少,分析速度快,且性能接近當前最好系統.

2.4.3詞義學習

基于無監督學習機制的詞義表示在自然語言處理中有著非常廣泛的用途,例如可以作為某些學習算法的輸入或者是特殊詞的特征表示.但是,目前大多數詞義表示模型都依賴本地上下文關系,且只能一詞一義.這存在很大局限性,因為通常可能一個詞有著多個含義;并且對于學習詞義而言,全局上下文關系能夠提供更多有用的信息.Huang等[76]在Collobert和Weston[30]的基礎上,提出了一種新的深度神經網絡模型用于詞義學習.該模型通過綜合本地和全局文本上下文信息,學習能夠更好表達詞義的隱藏詞;通過學習每個詞的多義詞表示,來更好地解釋同名歧義;進一步,在基于多個詞向量表示詞的多義性基礎上,通過對模型的改進,使得詞向量包含更豐富的語義信息.實驗表明,相比于其他向量,Huang等的方法與人工標注語義相似度最為接近.

Socher等提到了對語言的深度理解概念[40].他們認為,單個詞的向量空間模型在詞匯信息的學習中得到了充分成功的應用,但是由于不能有效獲取長短語的組合詞義,則在語言的進一步深度理解上產生了障礙.他們提出了一種深度遞歸神經網絡模型,該模型可通過學習短語和句子的組合向量來表示語義.句子可以是任意句法類型和長度的句子.該模型給句法樹上的每個結點都分配一個向量和矩陣;向量獲取元素的本體語義;矩陣捕獲鄰近單詞和短語的變化信息.該模型在三種不同的實驗中取得了顯著性能,分別是副詞-形容詞組合對的情感分布預測、影評標記的情感分類、情感關系分類,如因果或名詞之間的主題信息等.

2.4.4情感分析

情感分析(Sentiment analysis)又稱為傾向性分析、意見抽取(Opinion extraction)、意見挖掘(Opinion mining)、情感挖掘(Sentiment mining)、主觀分析(Subjectivity analysis)等,它是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,如從評論文本中分析用戶對“手機”的價格、大小、重量、易用性等屬性的情感傾向.

Zhou等提出一種稱為主動深度網絡(Active deep network,ADN)的半監督學習算法用于解決情感分類問題[77].首先,在標注數據和無標注數據集上,他們采用無監督學習算法來訓練RBM,進而搭建ADN,并通過基于梯度下降算法的有監督學習方法進行結構微調;之后,結合主動學習(Active learning)方法,利用標注好的評論數據來訓練半監督學習框架,將其與ADN結構融合,實現了一個面向半監督分類任務的統一模型.實驗表明,該模型在5種情感分類數據集上都有較為突出的性能.ADN中RBM性能的提升,部分得益于無標注訓練數據的規模提高,這就為大量豐富的無標注評論數據開辟了利用空間.

Glorot等提出了一種采用無監督學習方式從網絡評論數據中學習如何提取有意義信息表示的深度學習方法[78],并將其用于情感分類器的構建中,在Amazon產品的4類評論基準數據上的測試性能顯著.Socher等基于RAE(Recursive auto-encoders)提出一種深度學習模型[79],應用于句子級的情感標注預測.該模型采用詞向量空間構建輸入訓練數據,利用RAE實現半監督學習.實驗表明,該模型準確性優于同類基準系統.針對詞向量空間在長短語表達上缺乏表現力這一缺點,Socher等引入情感樹庫(Sentiment treebank),以增強情感訓練和評價資源[51];在此基礎上,訓練完成的RNTN(Recursive neural tensor network)模型,性能表現突出:簡單句的正負情感分類準確率從80%提高到85.4%;短語情感預測從71%提高到80.7%.針對詞袋模型的缺陷,Le等提出了一種基于段落的向量模型(Paragraph vector)[41],該模型實現了一種從句子、段落和文檔中自動學習固定長度特征表示的無監督算法,在情感分析和文本分類任務中都有優異表現,尤其是簡單句的正負情感分類準確率相比RNTN模型[51]提高了2.4%.Kim在Collobert等構建的CNN模型基礎上[28],借助Google公司的詞向量開源工具word2vec完成了1000億個單詞的新聞語料訓練,并將其用于包括情感樹庫等試驗語料上的簡單句情感分類任務,取得了88.1%的當時最好性能[42].這似乎再次驗證了BigData思想:只要包含足夠的訓練數據,深度學習模型總能夠盡可能逼近真實結果.

2.4.5機器翻譯

機器翻譯(Machine translation)是利用計算機把一種自然源語言轉變為另一種自然目標語言的過程,也稱為自動翻譯.目前,基于深度學習的統計機器翻譯方法研究熱點可以分為:傳統機器翻譯模型上的神經網絡改進、采用全新構建的端到端神經機器翻譯(Neural machine translation,NMT)方法兩種類型.

大多數統計機器翻譯系統建模采用基于對數線性框架(Log-linear framework),盡管已經取得較為成功的應用,但依然面臨如下局限性:1)所選特征需要與模型本身成線性匹配;2)特征無法進一步解釋說明以便反映潛在語義.針對上述局限,Liu等提出了一種附加神經網絡模型(Additive neural network)[80],用于擴展傳統對數線性翻譯模型;此外,采用詞向量將每個詞編碼轉化為特征向量,作為神經網絡的輸入值,該模型在中英和日英兩類翻譯任務中均獲得了較好性能.詞對齊(Word alignment)方法是機器翻譯常用的基礎技術.Yang等基于深度神經網絡(DNN)提出了一種新穎的詞對齊方法[81].該方法將多層神經網絡引入隱馬爾科夫模型,從而利用神經網絡來計算上下文依賴的詞義轉換得分;并采用大量語料來預先訓練詞向量.在大規模中英詞對齊任務的實驗表明,該方法取得較好的詞對齊結果,優于經典的隱馬爾科夫模型和IBM Model 4.

與上述傳統機器模型中的神經網絡針對翻譯系統局部改進所不同的是,近來出現的神經機器翻譯構建了一種新穎的端到端翻譯方法[82-85]:其初始輸入為整個句子,并聯合翻譯輸出的候選句子構成句子對;通過構建神經網絡,并結合雙語平行語料庫來尋找條件概率最大時的候選句子對,最終輸出目標翻譯句.神經機器翻譯試圖構建并訓練一個可以讀取源句子,直接翻譯為目標句子的單一、大型的神經網絡.從統計角度來看,機器翻譯可以等價為在給定輸入源句子X的情況下,尋找條件概率最大時的翻譯目標句子Y的值,即求argmaxYp(Y|X).

事實上,目前提出的大多數神經機器翻譯方法都屬于一類編碼解碼器(Encoder-decoders)模型[83-84],其主要框架包含兩部分:首先編碼器將輸入的長度不固定的源句子編碼轉換為固定長度的向量,之后解碼器將向量解碼輸出為翻譯的目標句.這里的解碼器,就可以采用一類深度神經網絡模型,例如循環神經網絡.在使用循環神經網絡作為編解碼的框架中,編碼器讀入輸入句子,經過編碼輸出為向量c c

c.表示如下:

其中,ht∈Rn表示時刻t時的隱藏狀態,c cc是由多個隱藏狀態序列生成的向量,f和q是非線性函數.例如Sutskever等使用多層LSTM(Long shortterm memory)表示f函數[83].在給定上下文向量c和前續已經預測得到的詞序列{y1,···,yt′-1}的前提下,循環神經網絡訓練的編碼器用來預測下一個詞yt′.表示如下:

其中,y={y1,···,yTy},基于循環神經網絡,每個條件概率可以建模如下:

其中,g是非線性多層函數,可以由循環神經網絡建模表示,st是循環神經網絡的隱藏層.類似的結構也可以采用循環神經網絡和卷積神經網絡混合表示[82].

編碼解碼器模型一個潛在的問題是所采用的神經網絡需要能夠把輸入源句子的所有信息都壓縮進入固定長度的向量中,這在處理長句子時可能比較困難,尤其是那些遠比訓練語料庫中的長得多的句子.Cho等實驗表明隨著輸入句子長度的增加,編碼解碼器模型性能快速降低[85].為了克服這個缺陷,Bahdanau等引入了一個擴展的編碼解碼器模型[86].該模型在翻譯過程中,也是每次根據上下文相關信息,以及已經找到的目標單詞,通過引入注意力機制來自動學習目標詞在源語言上的對齊目標單詞.和基本編碼解碼器模型不同的是,該模型并不是試圖把整個輸入句子編碼轉換放進單個固定長度的向量中,而是編碼轉換放進一個向量序列中;當解碼時,就可以在向量序列中選擇一個合適的向量子集用于解碼,這種方式使得神經網絡翻譯模型不必過度糾結于輸入句子的長度.實驗同時也表明這種改進的編碼解碼器模型在處理長句問題時性能表現更好.Dong等基于多任務學習機制聯合學習,通過在一對多的序列到序列的機器翻譯模型中共享源語言的表示,構建了一種源語言到多個目標語言的翻譯模型[87].

2.5面向自然語言處理的深度學習平臺工具

面向自然語言處理的深度學習平臺或工具較多,根據開發語言的不同,可以分為基于Python、C++、C或Java等不同程序設計語言實現的算法庫或框架;根據實現的神經網絡模型的不同,可以分為面向RBM/DBN(Deep belief network)等組件、卷積神經網絡(CNN)、循環神經網絡、遞歸神經網絡實現的框架平臺;根據功能目標不同,又可以分為提供深度學習基本功能實現的函數庫/工具包、在函數庫基礎上面向領域任務構建的不同應用框架等.下面從不同角度介紹幾類典型的深度學習開源工具.

2.5.1函數庫/工具包

最早出現的,較為完整實現深度學習框架的庫函數包是由加拿大Montreal大學LISA(Laboratoire d′Informatique desAdaptatifs)實驗室Bergstra等開發的Theano,是一個基于Python語言的庫,實現了深度學習相關模型及算法,如RBM/DBN等,可有效支持涉及多維矩陣相關的定義、優化及評估等數學運算.

Theano具有以下特點:1)有效集成NumPy. NumPy是一個用Python實現的科學計算包,一般和稀疏矩陣運算包Scipy配合使用.Theano使用numpy.ndarray集成編譯函數,全面兼容Numpy庫函數.2)可方便應用于GPU平臺.在一類數據密集型的計算任務中,與普通僅使用32位浮點數的CPU相比,計算速度可提高100多倍.3)有效的符號區分能力.Theano可有效支持帶有1個或多個輸入的擴展函數.4)速度及可靠性表現優異.即便x取值很小,也能計算得到log(1+x)的正確結果. 5)支持動態C代碼生成.6)具有眾多測試和自檢單元.可方便地檢測和診斷多種類型的錯誤.

在Theano基礎上,后續研究者陸續開發了眾多深度學習框架,如Pylearn2、Blocks、Keras等.采用Python語言實現的Keras是一個追求簡易、高度模塊化的神經網絡庫,開發的主要目的在于將研究創意能夠快速轉換為深度學習實驗的原型框架,避免因為實驗困難而錯過了創意的驗證.Keras的擴展性能非常好,可以快速實現基于卷積神經網絡、循環神經網絡或者兩者混合實現的經典模型,同時能夠運行于CPU和GPU平臺.Keras和前兩個工具包都是在Theano庫基礎上構建的,稍有不同的地方在于Keras還支持另一個函數庫TensorFlow.

TensorFlow是一個開源軟件庫,最早由Google公司機器智能研究部門的谷歌大腦團隊(Google Brain Team)開發完成,目的是為了搭建機器學習及深度神經網絡研究平臺.該軟件庫采用數據流圖模式實現數值計算,數據流圖中的結點表示數學運算,圖中的邊表示多維數據陣列.采用該軟件庫開發的平臺,架構靈活,代碼一次開發,無需修改,即可在單機、服務器或移動設備上流暢運行,支持多CPU/GPU計算.

類似TensorFlow可以在各種設備上運行的輕量級函數庫還有MShadow,這也是奉行簡單實用、靈活方便主義的模板庫,基于C++/CUDA實現,支持CPU/GPU/多GPU以及分布式系統.在該函數庫上擴展開發了CXXNet和MxNet分布式深度學習框架,也是一類高質量的軟件工具包.

2.5.2數據表征工具

第一個在自然語言任務中取得較好性能的深度學習應用軟件是SENNA,由Collobert[28]團隊開發,具有架構簡單、獨立性強(不依賴其他自然語言處理工具)、運行速度快等特點,在POS Tagging、Chunking、Named entity recognition、Semantic role labeling等四個典型自然語言處理問題上取得的性能都與當時最好系統相當. SENNA采用大約3500行的標準C語言(ANSI C)代碼實現,可以運行在配備150MB內存且支持浮點運算的計算機平臺上.目前最新的版本是SENNA V3.0,更新于2011年8月.SENNA特別強調它們在Wikipedia上花費2個月時間所訓練的詞向量,將詞表征為多維向量,可以用于不同的自然語言處理任務.

與此相類似的,Google公司在2013年開源軟件word2vec也是將詞表征為實數值向量的有效工具.word2vec使用第2.2.1節中所提到Distributed representation詞向量表示方式,通過一個三層的神經網絡模型訓練,可以將文本內容處理轉化為K維向量空間中的運算;進一步,文本語義上的相似度,就可以用向量空間中的距離(如歐氏距離、cosine相似度)來表示.word2vec在神經網絡模型訓練中,根據詞出現的頻率采用Huffman編碼設計隱藏層節點數目,詞頻越高的詞語,所激活的隱藏層節點數目越少,這就大大降低了計算復雜度.實驗表明,優化的單機版本的word2vec,在一天內可以訓練上億個詞.這種訓練的高效性,也是word2vec在自然語言處理中大受歡迎的一個重要原因.

2.5.3經典神經網絡模型

能夠將文本內容轉換表示為向量形式,開啟了面向自然語言處理的深度學習應用熱潮.理論上,基于向量表示,所有的深度學習模型都用來處理不同的自然語言處理任務;但在實踐中,使用頻率最高、效果最為突出的還是卷積神經網絡、循環神經網絡和遞歸神經網絡等.

2.5.4深度神經網絡組件

最早由Ruslan Salakhutdinov基于Matlab開發的一類小型函數庫(Matrbm、Estimating partition functions of RBM′s、Learning deep Boltzmann machines)[35],主要用于訓練構成深度學習網絡的組件,如RBM,規模不大.隨后出現的Deeplearning4j是一個規模較大,完整實現深度學習框架的平臺工具,支持GPU,可以運行在Hadoop計算平臺上,這就為大規模數據處理提供了便利性.Deeplearning4j采用Java/Scala語言實現了RBM、深度可信網絡(DBN)、LSTM、遞歸自動解碼器(Recursive autoencoder)等一類典型的深度神經網絡組件,為構建可靠的、分布式處理的深度神經網絡框架提供了良好的基礎.

2.5.5卷積神經網絡工具

卷積神經網絡是一類典型經典的面向自然語言處理的深度學習模型.上節提到的SENNA即是一種基于卷積神經網絡原理的工具軟件.此外,其他比較著名的卷積神經網絡模型實現工具有Cudaconvnet、ConvNet以及第2.5.1節提到的Keras等. Cuda-convnet2是當前Cuda-convnet的最新版本,采用C++/CUDA實現,訓練過程基于BP算法;ConvNet是一個采用Matlab實現的卷積神經網絡工具包.

2.5.6循環神經網絡等工具

循環神經網絡以及遞歸神經網絡模型也是近年來在自然語言處理領域被認為是最有潛力的深度學習模型,上文提及的很多函數庫及工具包都提供了相應實現,如采用Python語言實現、基于Theano的Keras,采用Java語言支持分布式大規模計算平臺的Deeplearning4j等.其他還有一些比較令人注目的開源工具如Tomas Mikolov開發的基于循環神經網絡語言模型的工具包2Mikolov開發的循環神經網絡模型http://www.fit.vutbr.cz/imikolov/rnnlm/(支持中文及UTF-8格式的語料)[47]、Richard Socher開發的基于遞歸神經網絡的工具包3Socher的遞歸神經網絡模型http://www.socher.org[39]等,當前在自然語言處理的各種任務中逐漸嶄露頭角.

3 存在的問題與未來的研究方向

3.1數據表示問題及展望

“自然語言”在深度學習中用于初始輸入的“數據源”是字或詞,和圖像、語音分別采用像素點及音素作為初始“數據源”相比較,前者已經包含了人類的語義解釋,是經過人類主觀思考處理后形成的,而后者是原始的,還沒有經過人類加工處理.這一點是自然語言處理和其他兩種應用最大的不同.由此,我們聯想到,這是否也是深度學習在圖像、語音方面能夠取得巨大成功,而在自然語言方面還沒有成功的關鍵原因呢?因為包含原始信號的情況下,不容易丟失未知信息,從而能夠通過深度學習的不同分層特征表示,更為全面地表征原始輸入,進一步為分類、聚類等具體應用提供充分的特征支撐.

目前來看,面向自然語言處理的深度學習中的數據表征主要還是Word embedding概念,只是可能在不同語言中,具體Word的表示單位有所不同,如英文中可以是單詞或詞綴,中文中則換成了詞組或字,本質上還是通過某種映射規則,將Word轉換為向量表示.

在如何將深度學習與現有自然語言處理具體任務結合方面,目前還沒有比較明顯有突破的方法或規律可以遵循.現有工作中,比較直接簡單的做法是,以詞或短語作為原始輸入,構建向量類型的表達方式,經過深度學習分層學習后得到的特征可以添加進現有基于特征的半監督學習系統中進行處理[49].此外,還有將深度學習模型與當前經典問題結合后產生的應用模型,如結合樹形或鏈式結構的遞歸神經網絡或循環神經網絡模型等[39-40,51,88].因此,考慮如何將深度學習與自然語言處理任務結合的具體落地應用也是值得研究的重點.

3.2學習模型問題及展望

面向自然語言處理的深度學習研究工作,目前尚處于起步階段,盡管已有的深度學習算法模型如循環神經網絡、遞歸神經網絡和卷積神經網絡等已經有較為顯著的應用,但還沒有重大突破.圍繞適合自然語言處理領域的深度學習模型構建等研究應該有著非常廣闊的空間.

在當前已有的深度學習模型研究中,難點是在模型構建過程中參數的優化調整方面.主要如深度網絡層數、正則化問題及網絡學習速率等.可能的解決方案比如有:采用多核機提升網絡訓練速度;針對不同應用場合,選擇合適的優化算法等.

深度學習模型的訓練過程中,最為突出的問題是訓練速度.普遍來看,深度學習模型的訓練速度遠比線性模型來得慢.此外,模型性能的優劣,一般與訓練數據集的規模有關.數據集越大,訓練結果越好[89].這一點,非常符合目前主流的大數據應用趨勢.但是,這也可能給學習模型的優化帶來發展阻礙.在極力追求產生大數據訓練集的情況下,是否會削弱對更優學習模型的研究熱情呢?

3.3其他問題及思考

3.3.1自動學習和人工結合

圍繞數據表示及特征提取問題,已有大量文獻分析了自然語言處理中的數據源特征和無監督自動學習方法.深度學習一直強調學習特征采用自動的方法,然而,如果能夠在訓練過程中融合已有面向特定應用領域的顯然的知識(如人工選取的明顯特征規律),對于深度模型而言,依然具有吸引力.這就好比人類學習,完全拋棄祖先的知識而白手起家開展工作,是不可想象的.但是,要做到這點非常困難.首先,針對問題領域,需要選擇合適的模型架構,比如針對自然語言的語義框架選擇合適的深度結構;其次,人類知識的融合,最佳的進入點應該是在模型的第一層,類似線性模型一樣,總的目標是希望能夠使模型具有自我學習的能力.

此外,在自然語言處理領域,已經有了大量的人工標注知識.深度學習可以通過有監督學習得到相關的語義知識.這種知識和人類總結的知識應該存在某種對應關系,尤其是在一些淺層語義方面.因為人工標注,本質上已經給深度學習提供了學習的目標.只是深度學習可以不眠不休地學習,這種逐步靠攏學習目標的過程,可能遠比人類總結過程來得更快.這一點,從最近Google公司圍棋人工智能軟件AlphaGo短時間內連勝兩位人類圍棋高手的事實,似乎能夠得到驗證[90].

3.3.2自然語言的不確定性

由于一詞多義的存在,使得即使采用詞向量技術作為深度學習的原始輸入信號,也還是不能如圖像或語音一樣將所有原始信息確定地輸入到深度學習模型中.在深度學習模型分層表示原始輸入信號的不同特征時,這種不確定性所帶來的誤差有可能在不同層間被傳遞并局部放大.

解決這種一詞多義所帶來的不確定性的方法,似乎還是要結合上下文語言情境.因此,突破自然語言字、詞、短語、小句等局部表示的局限性,面向包含上下文全局信息的篇章、文本來開展深層語義理解,如篇章分析、篇章理解等,應該是重點發展的方向之一.

4 結束語

相比于圖像處理,自然語言的分層抽象其實并不明顯.自然語言處理在深度學習中所采用的特征表示,目前主要是Word embedding機制.盡管從語言表達的形式角度,也可以構建字母、單詞、詞組、短語、句子等層次結構,但從語義表達角度來看,似乎沒有如圖像處理那樣具有明顯的抽象分層,例如單詞和詞組、詞組和短語之間,語義表達上面并沒有非常明顯的不同.抽象層次不明顯,實質上就可能限制了特征表示的多樣性,從而無法最好地發揮深度學習多層特征表示的長處.除了詞向量之外,是否還有更好的特征表示方式?采用何種模型來構建明顯分層機制?等等此類問題,也是面向自然語言處理的深度學習在未來發展中需要重點研究的內容.當然,盡管目前來看,面向自然語言的深度學習還存在著各種各樣的問題,但是總體而言,現有深度學習的特征自動表示及分層抽象思想,為自然語言處理提供了一種將特征表示和應用實現獨立分開的可行方法,這將使得在領域任務和語言之間的泛化遷移變得較為容易.

致謝

本文作者衷心感謝蘇州大學李正華博士、鄒博偉博士及王中卿博士對本文寫作的熱情幫助.

References

1 Erhan D,Bengio Y,Couville A,Manzagol P A,Vincent P,Samy B.Why does unsupervised pre-training help deep learning?Journal of Machine Learning Research,2010,11: 625-660

2 Sun Zhi-Jun,Xue Lei,Xu Yang-Ming,Wang Zheng. Overview of deep learning.Application Research of Computers,2012,29(8):2806-2810(孫志軍,薛磊,許陽明,王正.深度學習研究綜述.計算機應用研究,2012,29(8):2806-2810)

3 Bengio Y.Learning deep architectures for AI.Foundations and Trends?in Machine Learning,2009,2(1):1-127

4 Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets.Neural Computation,2006,18(7): 1527-1554

5 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786): 504-507

6 Bengio Y,Lamblin P,Popovici D,Larochelle H.Greedy layer-wise training of deep networks.In:Proceedings of the 2007 Advances in Neural Information Processing Systems 19(NIPS′06).Vancouver,Canada:MIT Press,2007.153-160

7 Ranzato M A,Poultney C,Chopra S,LeCun Y.Efficient learning of sparse representations with an energy-based model.In:Proceedings of the 2007 Advances in Neural Information Processing Systems 19(NIPS′06).Vancouver,Canada:MIT Press,2007.1137-1144

8 Weston J,Ratle F,Collobert R.Deep learning via semisupervised embedding.In:Proceedings of the 25th International Conference on Machine Learning(ICML′08).New York,USA:ACM Press,2008.1168-1175

9 Srivastava N,Mansimov E,Salakhutdinov R.Unsupervised learning of video representations using LSTMs.In:Proceedings of the 32nd International Conference on Machine Learning(ICML′15).Lille,France:Omni Press,2015.843-852

10 Jia K,Sun L,Gao S H,Song Z,Shi B E.Laplacian autoencoders:an explicit learning of nonlinear data manifold. Neurocomputing,2015,160:250-260

11 Chan T H,Jia K,Gao S H,Lu J W,Zeng Z N,Ma Y. PCANet:a simple deep learning baseline for image classification?IEEE Transactions on Image Processing,2015,24(12):5017-5032

12 Alain G,Bengio Y.What regularized auto-encoders learn from the data-generating distribution?The Journal of Machine Learning Research,2014,15(1):3563-3593

13 SrivastavaN,HintonG,KrizhevskyA,SutskeverI,Salakhutdinov R.Dropout:a simple way to prevent neural networks from overfitting.The Journal of Machine Learning Research,2014,15(1):1929-1958

14 Dosovitskiy A,Springenberg J T,Riedmiller M,Brox T. Discriminative unsupervised feature learning with convolutional neural networks.In:Proceedings of the 2014 Advances in Neural Information Processing Systems 27(NIPS′14).,Quebec,Canada:MIT Press,2014. 766-774

15 Sun Y,Wang X G,Tang X O.Deep learning face representation from predicting 10000 classes.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,Ohio,USA:IEEE,2014. 1891-1898

16 Qiao Jun-Fei,Pan Guang-Yuan,Han Hong-Gui.Design and application of continuous deep belief network.Acta Automatica Sinica,2015,41(12):2138-2146(喬俊飛,潘廣源,韓紅桂.一種連續型深度信念網的設計與應用.自動化學報,2015,41(12):2138-2146)

18 Han X F,Leung T,Jia Y Q,Sukthankar R,Berg A C.MatchNet:unifying feature and metric learning for patch-based matching.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR′15).Boston,Massachusetts,USA:IEEE Press,2015.3279-3286

19 Szegedy C,Liu W,Jia Y Q,Sermanet P,Reed S,Anguelov D,Erhan D,Vanhoucke V,Rabinovich A.Going deeper with convolutions.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR′15). Boston,Massachusetts,USA:IEEE,2015.1-9

20 Denton E L,Chintala S,Szlam A,Fergus R.Deep generative image models using a Laplacian pyramid of adversarial networks.In:Proceedings of the 2015 Advances in Neural Information Processing Systems 28(NIPS′15).Montreal,Canada:MIT Press,2015.1486-1494

21 Dong C,Loy C C,He K M,Tang X O.Learning a deep convolutional network for image super-resolution.In:Proceedings of the 13th European Conference on Computer Vision(ECCV′14).Zurich,Switzerland:Springer International Publishing,2014.184-199

22 Nie S Q,Wang Z H,Ji Q.A generative restricted Boltzmann machine based method for high-dimensional motion data modeling.Computer Vision and Image Understanding,2015,136:14-22

23 Jain A,Tompson J,LeCun Y,Bregler C.Modeep:a deep learning framework using motion features for human pose estimation.In:Proceedings of the 12th Asian Conference on Computer Vision(ACCV′2014).Singapore:Springer International Publishing,2015.302-315

24 Geng Jie,Fan Jian-Chao,Chu Jia-Lan,Wang Hong-Yu.Research on marine floating raft aquaculture SAR image target recognition based on deep collaborative sparse coding network.Acta Automatica Sinica,2016,42(4):593-604(耿杰,范劍超,初佳蘭,王洪玉.基于深度協同稀疏編碼網絡的海洋浮筏SAR圖像目標識別.自動化學報,2016,42(4):593-604)

25 Erhan D,Szegedy C,Toshev A,Anguelov D.Scalable object detection using deep neural networks.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR′14).Columbus,Ohio,USA:IEEE,2014.2155-2162

26 Qi Y J,Das S G,Collobert R,Weston J.Deep learning for character-based information extraction.In:Proceedings of the 36th European Conference on IR Research on Advances in Information Retrieval.Amsterdam,The Netherland:Springer International Publishing,2014.668-674

27 Nie L Q,Wang M,Zhang L M,Yan S C,Zhang B,Chua T S.Disease inference from health-related questions via sparse deep learning.IEEE Transactions on Knowledge and Data Engineering,2015,27(8):2107-2119

28 Collobert R,Weston J,Bottou L,Karlen M,Kavukcuoglu K,Kuksa P.Natural language processing(almost)from scratch.The Journal of Machine Learning Research,2011,12:2493-2537

29 Mnih A,Hinton G E.A scalable hierarchical distributed language model.In:Proceedings of the 2009 Advances in Neural Information Processing Systems 21(NIPS′08).Vancouver,Canada:MIT Press,2009.1081-1088

30 Collobert R,Weston J.A unified architecture for natural language processing:deep neural networks with multitask learning.In:Proceedings of the 25th International Conference on Machine Learning(ICML′08).Helsinki,Finland: ACM Press,2008.160-167

31 Olshausen B A,Field D J.Emergence of simple-cell receptive field properties by learning a sparse code for natural images.Nature,1996,381(6583):607-609

32 Overview of deep learning and parallel implementation[Online],available:http://djt.qq.com/article/view/1245,June 20,2016

33 Hastad J.Computational Limitations for Small Depth Circuits.Cambridge,MA,USA:Massachusetts Institute of Technology,1987

34 Serre C,Mellot-Draznieks C,S,Audebrand N,Filinchuk Y,G.Role of solvent-host interactions that lead to very large swelling of hybrid frameworks.Science,2007,315(5820):1828-1831

35 Salakhutdinov R R,Hinton G.Deep Boltzmann machines. In:Proceedings of the 12th International Conference on Artificial Intelligence and Statistics(AISTATS′09).Florida,USA:Omni Press,2009.448-455

36 Bengio Y,Ducharme R,Vincent P,Jauvin C.A neural probabilistic language model.The Journal of Machine Learning Research,2003,3:1137-1155

37 Mikolov T,Deoras A,Kombrink S,Burget L,J H. Empirical evaluation and combination of advanced language modeling techniques.In:Proceedings of the 2011 Conference of the International Speech Communication Association(INTERSPEECH′2011).Florence,Italy:ISCA Press,2011.605-608

38 Schwenk H,Rousseau A,Attik M.Large,pruned or continuous space language models on a GPU for statistical machine translation.In:Proceedings of the NAACL-HLT 2012 Workshop:Will We ever Really Replace the N-gram Model?on the Future of Language Modeling for HLT.,Canada:ACL Press,2012.11-19

39 Socher R,Huang E H,Pennington J,Ng A Y,Manning C D. Dynamic pooling and unfolding recursive autoencoders for paraphrase detection.In:Proceedings of the 2011 Advances in Neural Information Processing Systems 24(NIPS′11). Granada,Spain:MIT Press,2011.801-809

40 Socher R,Huval B,Manning C D,Ng A Y.Semantic compositionality through recursive matrix-vector spaces.In:Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Jeju Island,Korea:ACL Press,2012. 1201-1211

41 Le Q,Mikolov T.Distributed representations of sentences and documents.In:Proceedings of the 31st International Conference on Machine Learning(ICML′14).Beijing,China:ACM Press,2014.1188-1196

42 Kim Y.Convolutional neural networks for sentence classification.In:Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP′2014). Doha,Qatar:ACL Press,2014.1746-1751

43 Dahl G E,Yu D,Deng L,Acero A.Context-dependent pretrained deep neural networks for large vocabulary speech recognition.IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):30-42

44 Mohamed A R,Dahl G E,Hinton G.Acoustic modeling using deep belief networks.IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):14-22

45 Mikolov T,Yih W T,Zweig G.Linguistic regularities in continuous space word representations.In:Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics(NAACL-HLT′2013). Atlanta,Georgia:ACL Press,2013.746-751

46 Mikolov T,Sutskever I,Chen K,Corrado G S,Dean J.Distributed representations of words and phrases and their compositionality.In:Proceedings of the 2013 Advances in Neural Information Processing Systems 26(NIPS′13).Nevada,USA:MIT Press,2013.3111-3119

48 Mikolov T,Kombrink S,Burget L,J H,Khudanpur S.Extensions of recurrent neural network language model.In:Proceedings of the 2011 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Prague,Czech Republic:IEEE,2011. 5528-5531

49 Mikolov T,Deoras A,Povey D,Burget L,J H. Strategies for training large scale neural network language models.In:Proceedings of the 2011 IEEE Workshop on Automatic Speech Recognition and Understanding(ASRU). Waikoloa,Hawaii,USA:IEEE Press,2011.196-201

50 Mikolov T,Zweig G.Context dependent recurrent neural network language model.In:Proceedings of the 2012 IEEE Conference on Spoken Language Technology(SLT).Miami,Florida,USA:IEEE,2012.234-239

51 Socher R,Perelygin A,Wu J Y,Chuang J,Manning C D,Ng A Y,Potts C.Recursive deep models for semantic compositionality over a sentiment treebank.In:Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing(EMNLP′2013).Seattle,USA:ACL Press,2013.1631-1642

52 Turian J,Ratinov L,Bengio Y.Word representations:a simple and general method for semi-supervised learning.In: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics(ACL′2010).Uppsala,Sweden:ACL Press,2010.384-394

53 Firth J R.A synopsis of linguistic theory 1930-55.Studies in Linguistic Analysis.Oxford:Philological Society,1957. 1-32

54 Hinton G E.Learning distributed representations of concepts.In:Proceedings of the 8th Annual Conference of the Cognitive Science Society.Amherst,Massachusetts:Cognitive Science Society Press,1986.1-12

55 Salton G.Automatic processing of foreign language documents.Journal of the American Society for Information Science,1970,21(3):187-194

56 Rapp R.Word sense discovery based on sense descriptor dissimilarity.In:Proceedings of the 9th Conference on Machine Translation Summit.New Orleans,USA:IAMT Press,2003.315-322

57 Turney P D.Expressing implicit semantic relations without supervision.In:Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics(COLING and ACL 2006).Sydney,Australia:ACL Press,2006.313-320

59 Zheng X Q,Chen H Y,Xu T Y.Deep learning for Chinese word segmentation and POS tagging.In:Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing(EMNLP′2013).Seattle,Washington,USA:ACL Press,2013.647-657

60 Xu W,Rudnicky A I.Can artificial neural networks learn language models?In:Proceedings of 2000 International Conference on Spoken Language Processing(ICSLP′2000).Beijing,China:Speech Communication Press,2000.202-205

61 Mnih A,Hinton G.Three new graphical models for statistical language modelling.In:Proceedings of the 24th International Conference on Machine Learning(ICML′07).Corvallis,Oregon:ACM Press,2007.641-648

62 Morin F,Bengio Y.Hierarchical probabilistic neural network language model.In:Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics(AISTATS′2005).Barbados:Omni Press,2005.246-252

64 Bengio Y.Deep learning of representations for unsupervised and transfer learning.In:Proceedings of the ICML2011 Unsupervised and Transfer Learning Workshop.Bellevue,Washington,USA:ACM Press,2012.17-37

65 Le Q V,Ngiam J,Coates A,Lahiri A,Prochnow B,Ng A Y. On optimization methods for deep learning.In:Proceedings of the 28th International Conference on Machine Learning(ICML′11).Bellevue,Washington,USA:ACM Press,2011. 67-105

66 Henderson J.Neural network probability estimation for broad coverage parsing.In:Proceedings of the 10th Conference on European Chapter of the Association for Computational Linguistics(EACL′03).Budapest,Hungary:ACL Press,2003.131-138

67 Henderson J.Discriminative training of a neural network statistical parser.In:Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics(ACL′2004).Barcelona,Spain:ACL Press,2004.95-102

68 Titov I,Henderson J.Porting statistical parsers with datadefined kernels.In:Proceedings of the 10th Conference on Computational Natural Language Learning(CoNLL-2006). New York,USA:ACL Press,2006.6-13

69 Titov I,Henderson J.Constituent parsing with incremental sigmoid belief networks.In:Proceedings of the 45th Annual Meeting on Association for Computational Linguistics(ACL′2007).Prague,Czech Republic:ACL Press,2007. 632-639

70 Collobert R.Deep learning for efficient discriminative parsing.In:Proceedings of the 14th International Conference on Artificial Intelligence and Statistics(AISTATS′2011).Fort Lauderdale,Florida,USA:Omni Press,2011.224-232

71 Costa F,Frasconi P,Lombardo V,Soda G.Towards incremental parsing of natural language using recursive neural networks.Applied Intelligence,2003,19(1-2):9-25

72 Menchetti S,Costa F,Frasconi P,Pontil M.Wide coverage natural language processing using kernel methods and neural networks for structured data.Pattern Recognition Letters,2005,26(12):1896-1906

73 Collins M.Head-driven statistical models for natural language parsing.Computational linguistics,2003,29(4): 589-637

74 Socher R,Bauer J,Manning C D,Ng A Y.Parsing with compositional vector grammars.In:Proceedings of the 51st Annual Meeting on Association for Computational Linguistics(ACL′2013).Sofia,Bulgaria:ACL Press,2013.455-465

75 Legrand J,Collobert R.Recurrent greedy parsing with neural networks.In:Proceedings of the 2014 European Conference on Machine Learning and Knowledge Discovery in Databases.Nancy,France:Springer Press,2014.130-144

76 Huang E H,Socher R,Manning C D,Ng A Y.Improving word representations via global context and multiple word prototypes.In:Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics(ACL′2012). Jeju Island,Korea:ACL Press,2012.873-882

77 Zhou S S,Chen Q C,Wang X L.Active deep networks for semi-supervised sentiment classification.In:Proceedings of the 23rd International Conference on Computational Linguistics(COLING′2010).Beijing,China:ACL Press,2010. 1515-1523

78 Glorot X,Bordes A,Bengio Y.Domain adaptation for largescale sentiment classification:a deep learning approach. In:Proceedings of the 28th International Conference on Machine Learning(ICML′11).Bellevue,Washington,USA: Omni Press,2011.513-520

79 Socher R,Pennington J,Huang E H,Ng A Y,Manning C D.Semi-supervised recursive autoencoders for predicting sentiment distributions.In:Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing(EMNLP′2011).Edinburgh,UK:ACL Press,2011.151-161

80 Liu L M,Watanabe T,Sumita E,Zhao T J.Additive neural networks for statistical machine translation.In:Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics(ACL′2013).Sofa,Bulgaria:ACL Press,2013.791-801

81 Yang N,Liu S J,Li M,Zhou M,Yu N H.Word alignment modeling with context dependent deep neural network.In: Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics(ACL′2013).Sofa,Bulgaria: ACL Press,2013.166-175

82 Kalchbrenner N,Blunsom P.Recurrent continuous translation models.In:Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing(EMNLP′2013).Seattle,Washington,USA:ACL Press,2013.1700-1709

83 Sutskever I,Vinyals O,Le Q V.Sequence to sequence learning with neural networks.In:Proceedings of the 2014 Advances in Neural Information Processing Systems 27(NIPS′14).,Quebec,Canada:MIT Press,2014. 3104-3112

86 Bahdanau D,Cho K,Bengio Y.Neural machine translation by jointly learning to align and translate.In:Proceedings of the 3rd International Conference on Learning Representations(ICLR′2015).San Diego,California,USA:arXiv Press,2015.1409.0473V7

87 Dong D X,Wu H,He W,Yu D H,Wang H F.Multi-task learning for multiple language translation.In:Proceedings of the 53rd Annual Meeting on Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.Beijing,China:ACL Press,2015.1723-1732

88 Pinheiro P O,Collobert R.Recurrent convolutional neural networks for scene labeling.In:Proceedings of the 31st International Conference on Machine Learning(ICML′14). Beijing,China,2014.82-90

89 Le Q V.Building high-level features using large scale unsupervised learning.In:Proceedings of the 2013 IEEE International Conference on Acoustics,Speech and Signal Processing.Vancouver,BC:IEEE,2013.8595-8598

90 Tian Yuan-Dong.A simple analysis of AlphaGo.Acta Automatica Sinica,2016,42(5):671-675(田淵棟.阿法狗圍棋系統的簡要分析.自動化學報,2016,42(5): 671-675)

奚雪峰蘇州大學計算機科學與技術學院博士研究生.主要研究方向為自然語言理解,篇章分析,自動問答.

E-mail:xfxi@mail.usts.edu.cn

(XI Xue-FengPh.D.candidate at the School of Computer Science and Technology,Soochow University.His research interest covers natural language understanding,discourse analysis and questionanswering.)

周國棟蘇州大學特聘教授.主要研究方向為自然語言理解,中文信息處理,信息抽取.本文通信作者.

E-mail:gdzhou@suda.edu.cn

(ZHOU Guo-DongDistinguished professor at the School of Computer Science and Technology,Soochow University.His research interest covers natural language understanding,Chinese computing,and information extraction.Corresponding author of this paper.)

A Survey on Deep Learning for Natural Language Processing

XI Xue-Feng1,2,3ZHOU Guo-Dong1

Recently,deep learning has made significant development in the fields of image and voice processing.However,there is no major breakthrough in natural language processing task which belongs to the same category of human cognition. In this paper,firstly the basic concepts of deep learning are introduced,such as application motivation,primary task and basic framework.Secondly,in terms of both data representation and learning model,this paper focuses on the current research progress and application strategies of deep learning for natural language processing,and further describes the current deep learning platforms and tools.Finally,the future development difficulties and suggestions for possible extensions are also discussed.

Natural language processing,deep learning,representation learning,feature learning,neural network

Manuscript November 2,2015;accepted June 12,2016

10.16383/j.aas.2016.c150682

Xi Xue-Feng,Zhou Guo-Dong.A survey on deep learning for natural language processing.Acta Automatica Sinica,2016,42(10):1445-1465

2015-11-02錄用日期2016-06-12

國家自然科學基金(61331011,61472264)資助

Supported by National Natural Science Foundation of China(61331011,61472264)

本文責任編委柯登峰

Recommended by Associate Editor KE Deng-Feng

1.蘇州大學計算機科學與技術學院 蘇州 2150062.蘇州科技學院電子與信息工程學院蘇州2150093.蘇州市移動網絡技術與應用重點實驗室蘇州215009

1.School of Computer Science and Technology,Soochow University,Suzhou 2150062.School of Electronic and Information Engineering,Suzhou University of Science and Technology,Suzhou 2150093.Suzhou Key Laboratory of Mobile Networking and Applied Technologies,Suzhou 215009

猜你喜歡
深度特征模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 国产一在线| 伊人AV天堂| 亚洲性日韩精品一区二区| 日韩在线视频网| 婷婷伊人久久| 99er这里只有精品| 这里只有精品免费视频| 日韩成人午夜| 国产XXXX做受性欧美88| 性网站在线观看| 久无码久无码av无码| 毛片一级在线| 91九色国产porny| 波多野结衣国产精品| 亚洲人成影视在线观看| 99re精彩视频| 在线观看无码av五月花| 久久黄色一级视频| 99久久人妻精品免费二区| 亚洲日韩久久综合中文字幕| 国产色婷婷| 98精品全国免费观看视频| 大陆精大陆国产国语精品1024| 蜜芽国产尤物av尤物在线看| 欧美一区国产| 在线视频亚洲欧美| 国产网站免费观看| www.99在线观看| 亚洲无码高清视频在线观看| 国产免费精彩视频| 欧洲一区二区三区无码| 国产精鲁鲁网在线视频| 这里只有精品免费视频| 亚洲国产成人自拍| 中文字幕乱码中文乱码51精品| 激情亚洲天堂| 中文字幕亚洲精品2页| 国产精品女主播| 亚洲天堂精品视频| 国产精品视频久| 国产午夜在线观看视频| 欧美精品aⅴ在线视频| 国产草草影院18成年视频| 精品国产美女福到在线直播| 国产免费观看av大片的网站| 午夜毛片免费看| 大陆精大陆国产国语精品1024 | 国内毛片视频| 成人午夜视频在线| 九九热在线视频| 超碰aⅴ人人做人人爽欧美 | 国产菊爆视频在线观看| 中文字幕天无码久久精品视频免费 | 日韩在线欧美在线| 天堂在线亚洲| 亚洲国产成人久久77| 国产精品999在线| 岛国精品一区免费视频在线观看| www精品久久| 亚洲综合二区| 欧洲日本亚洲中文字幕| 天堂av综合网| 日韩a级毛片| 亚洲黄色激情网站| 欧美一级专区免费大片| 亚洲男人在线| a级毛片免费看| 在线中文字幕网| 久久综合色88| 国产第一页屁屁影院| 亚洲成人动漫在线| 久久久久九九精品影院| 精品免费在线视频| 成人一级免费视频| 激情成人综合网| 亚洲一区二区在线无码| 日本国产一区在线观看| 婷婷伊人五月| 亚洲无线国产观看| 免费一级毛片在线播放傲雪网| 国产在线精彩视频论坛| 毛片基地美国正在播放亚洲|