秦 越,禹 龍,田生偉,馮冠軍,吐爾根·依布拉音,艾斯卡爾·艾木都拉,趙建國
(1. 新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046; 2. 新疆大學 網絡中心,新疆 烏魯木齊 830046;3. 新疆大學 軟件學院,新疆 烏魯木齊 830008; 4. 新疆大學 人文學院 新疆 烏魯木齊 830046)
指代(anaphora)是常見的自然語言現象,它是指在語篇中用一個指代詞回指前文出現過的某一語言單位。在維吾爾語語篇中,能夠通過上下文語境判斷出的部分經常被省略,被省略的部分在語句中承擔相應的句法成分,且指代前文中出現過的某一語言單位,這一現象稱為零指代。被省略的部分稱為零指代項,被指代的語言單位稱為先行語(antecedent)。如例句所示,其中“φ”代表零代詞出現的位置(維吾爾語書寫習慣為從右向左)。
例:



(譯: 這時候克斯買提喬魯克從路那邊走過來了,[φ]手上拿著一個有五角星的帽子和軍綠色的水壺。)


近年來,隨著機器學習的深入研究,基于機器學習方法在零指代消解研究中得到運用。Zhao等[2]首先提出一個完整的關于機器學習的中文零指代消解方法,并提出適用于中文零指代消解任務的特征集。Kong等[3]設計了完整的中文零指代消解框架,并采用基于樹核函數的方法完成對零元素消解子任務。Chen等[4]提出一個端到端中文零指代消解平臺,并提取一系列更有效的句法和上下文特征。Chen等[5]采用深度神經網絡思想,有監督地學習高層特征并完成中文零指代消解任務。Ryu Iida等[6]提出使用多列卷積神經網絡進行日語零指代消解。由前人工作可知,基于機器學習的零指代消解能夠有效提高性能,而深度學習機制則能夠學習文本中高層特征和深層語義信息。
目前,零指代消解研究主要集中在中文等大語種,對同樣出現缺省現象的維吾爾語等少數民族語言研究不夠深入。針對此問題,本文探索維吾爾語中缺省零代詞的消解問題,將富含上下文語義信息和句法信息的詞嵌入表示(word embedding)向量作為候選先行語和缺省零代詞的語義特征表達,并依據維吾爾語語言特點,提取針對本任務的14項hand-crafted特征,融合上述兩類特征作為棧式降噪自編碼(Stacked Denoising Autoencoder)的輸入,采用無監督學習機制預訓練網絡參數,并使用有監督的微調反向調優,從而學習文本中的深層語義信息和隱含內部聯系。此外,SDAE對原始數據加噪,使其能夠從含噪數據中學習到更具魯棒性的特征表達,有助于維吾爾語零指代消解性能的提升。
鑒于深度學習在計算機視覺及語音識別等領域取得重大突破,學者們試圖在自然語言處理研究中運用深度學習技術。語言中蘊含豐富的語義信息和隱藏的語境表達,深度學習機制通過多層神經網絡的逐層學習,能夠將復雜的特征映射為抽象的高層語義特征,其強大的無監督學習方式及特征提取能力解決了眾多自然語言處理問題。其中,李陽輝等[7]采用降噪自編碼器的深度學習算法實現文本信息的情感分析;張開旭等[8]使用自動編碼器無監督地學習語料中詞匯的分布信息,完成分詞、詞性標注任務;劉勘等[9]提出采用深度噪聲稀疏自動編碼器提取文本中的本質特征并且在短文本聚類研究中取得良好效果。
維吾爾語語篇中包含豐富的語義,但也存在非必要的信息影響零指代消解性能,為了使包含“雜質”的數據復現原始信息,需要對噪聲與冗余語義具備良好的魯棒性,因此本文采用基于深度學習機制的棧式降噪自編碼進行維吾爾語零指代消解。通過對原始數據加入一定比例的噪聲,增強自動編碼器的特征表達并使模型具備較強的去噪能力,經過多層特征提取及多次迭代,使模型學習到更具魯棒性和有效性的深層語義特征,完成維吾爾語零指代消解任務。
基于SDAE維吾爾語零指代消解流程如圖1所示。首先對待消解的零指代項φ與其候選先行語進行配對,表述為<候選先行語,φ>的形式(為方便表達,該內容將在2.2節中描述),將配對完成的零指代對進行特征抽取,本文把維吾爾語零指代消解特征分為兩部分: word embedding特征與hand-crafted特征;其次對訓練實例和測試實例進行抽取,并將訓練實例送入模型中,經加噪處理后學習得到更具魯棒性的深層語義特征,然后將測試實例送入訓練調優完備的模型中進行測試,最后使用softmax分類器判斷每個零指代對<候選先行語,φ>是否存在指代關系,最終完成維吾爾語零指代消解任務。

圖1 基于SDAE的維吾爾語零指代消解流程
與圖像不同的是,文本中不包含形如像素點這樣可直接利用的特征信息,然而語篇中蘊含豐富的語義、語法及句法等信息,準確的特征抽取有利于深度學習模型進一步挖掘高層面語義特征,本文將維吾爾語零指代消解特征集分為兩部分: word embedding特征和hand-crafted特征。其中,word embedding特征用于表述零指代項φ及其候選先行語的語義特征,此外,另抽取14項hand-crafted特征用于描述維吾爾語零指代現象,刻畫零指代項φ與其候選先行語之間的聯系。
2.1.1 word embedding特征
本文引入富含上下文語義信息及句法信息的word embedding[10]表述缺省零指代項φ及其候選先行語的語義層面特征。將候選先行語的word embedding作為候選先行語的語義特征;然而零指代項為缺省項,語篇中不包含零指代項的詞嵌入表示,因此本文使用零指代項前一個詞匯的word embedding及后一個詞匯的word embedding來表示零指代項φ的上下文語義特征。若零指代項為語句的句首,即零指代項無前一個詞匯,則用相同維度的0向量,表示零指代項的前一個詞匯。
基于神經網絡思想的詞嵌入表示通過大規模語料庫無監督地學習,將詞匯進行語義的分布式表示,每個詞匯由低維、稠密、連續的實值特征向量替代原先的one-hot稀疏向量,表示了詞匯間的語法特征及語義相似性,因此本文引入詞嵌入表示作為維吾爾語零指代消解特征類型之一。
2.1.2 hand-crafted特征
hand-crafted特征用于表示零指代項φ及候選先行語間的聯系,凸顯了零指代方面的知識表示,并依據維吾爾語語言特性刻畫零指代現象,根據維吾爾語零指代消解研究,提取針對本任務的hand-crafted特征如下:
(1) 候選先行語是否為代詞(CandiPron.)

(2) 候選先行語是否為包含領屬性人稱詞尾的名詞短語(CandiPossession)

(3) 候選先行語是否為包含賓格標志的名詞短語(CandiObject)

(4) 候選先行語是否存在嵌套(CandiNest)
該屬性取值FCandiNest={0,1}。若候選先行語嵌套于其他名詞短語內,特征值取1,否則取0。
(5) 候選先行語的語義角色是否為施事者(CandiArg0)
該屬性取值FCandiArg0={0,1}。若候選先行語的語義角色為施事者,特征值取1,否則取0。
(6) 候選先行語的語義角色是否為受事者(CandiArg1)
該屬性取值FCandiArg1={0,1}。若候選先行語的語義角色為受事者,特征值取1,否則取0。
(7) 候選先行語是否在可被消解的名詞短語集合{Obj-Zero}中(CandiInSet)
該屬性取值FCandiInSet={0,1}。若候選先行語在可被消解的名詞短語集合{Obj-Zero}中,特征值取1,否則取0。

(8) 候選先行語是否存在句法關系中的主謂關系(CandiSBV)
該屬性取值FCandiSBV={0,1}。若候選先行語存在句法關系中的主謂關系,特征值取1,否則取0。
(9) 候選先行語是否存在句法關系中的動賓關系(CandiVOB)
該屬性取值FCandiVOB={0,1}。若候選先行語存在句法關系中的動賓關系,特征值取1,否則取0。
(10) 候選先行語是否存在語義關系中的施事關系(CandiAgt)
該屬性取值FCandiAgt={0,1}。若候選先行語存在語義關系中的施事關系,特征值取1,否則取0。
(11) 候選先行語是否存在語義關系中的受事關系(CandiPat)
該屬性取值FCandiPat={0,1}。若候選先行語存在語義關系中的受事關系,特征值取1,否則取0。
(12) 零指代項φ是否出現在語句的開頭(ZeroBegin)
該屬性取值FZeroBegin={0,1}。若零指代項φ出現在語句的開頭,特征值取1,否則取0。
(13) 零指代項φ是否在語句中的主語或賓語位置(ZeroPosition)
該屬性取值FZeroPosition={0,1}。若零指代項φ在語句中的主語或賓語位置,特征值取1,否則取0。
(14) 零指代項φ與候選先行語間的距離(BothDistance)
距離特征指的是零指代項φ與候選先行語之間語句編號的空間距離[11]。若空間距離越遠,零指代項φ與候選先行語發生指代關系的可能性越小,定義特征值f(d)=0.1×d,0≤d<4,對空間距離逆向取值。
設空間距離為d,因在構建訓練/測試樣例時,已配對的<候選先行語,φ>僅考慮4句之內,所以定義d取值為0≤d<4。
將零指代項φ與它之前出現過的名詞短語依次配對,并根據2.1節的特征描述生成訓練實例和測試實例。
生成訓練實例時,指代鏈信息已知。對識別出的零指代項φ,查找其是否位于某條指代鏈中,若不在,則視為非待消解項,不必為其尋找先行語,進行下一個零指代項φ的查找;若在某條指代鏈中,則為零指代項φ尋找合適的先行語。經維吾爾語語料統計,選取與φ距離為四句之內的名詞短語NP0,NP1,…,NPn為候選先行語,依次配對。如圖2所示,若存在NPi(0為正例;φ與NPi+1,…,NPn配對的名詞短語對

圖2 維吾爾語零指代對配對
生成測試實例與生成訓練實例過程類似,但指代鏈信息未知。對識別出的零指代項φ選取與其四句之內的名詞短語,配對為<候選先行語,φ>對,將測試實例交由模型判斷,若模型判斷該實例為正例,則<候選先行語,φ>存在指代關系;若判斷為負例,則<候選先行語,φ>不存在指代關系。
表1為引言中的例句依據2.1節抽取特征生成的訓練/測試樣例。

表1 維吾爾語零指代消解訓練樣例和測試樣例
2.3.1 自動編碼器
自動編碼器(autoencoder,AE)為無監督學習網絡,AE由編碼器和解碼器組成,包括輸入層、隱藏層和輸出層。AE嘗試學習形如hw,b(x)≈x的函數,使得輸出hw,b(x)無限接近于輸入x,從而將輸入信號從目標中重構出來,盡可能完整地保留原有特征信息。
(1) AE編碼階段: 編碼器將n維輸入向量x∈Rn通過編碼函數fθ(x)映射到y,如式(1)所示。
y=fθ(x)=s(Wx+b)
(1)
其中θ={W,b}為編碼參數,s為sigmoid(.)激活函數。
(2) AE解碼階段: 解碼器將y反向變換,得到對原始輸入x的重構表示z,y與z滿足式(2)。
z=gθ′(y)=s(W′y+b′)
(2)
其中θ′={W′,b′}為解碼參數。最后通過不斷地調整θ和θ′的值,得到最小化重構誤差J,重構誤差如式(3)所示。

(3)
其中D為訓練樣本集合,L為重構誤差函數,本文選擇交叉熵誤差函數,如式(4)所示。
(4)
2.3.2 降噪自動編碼器
維吾爾語文本中包含豐富的語義信息,同樣也存在干擾語義影響零指代消解性能信息,因此對模型學習出的特征提出更高的要求,訓練得到的模型必須具備較強的魯棒性。為了使AE具備魯棒性的特征表達,Vincent[12]提出降噪自編碼神經網絡(denoising autoencoder,DAE),DAE與AE類似,也需要編碼與解碼過程來重構數據,同屬于無監督學習。但不同的是,DAE在AE的基礎上,對原始輸入數據加入一定比例的噪聲污染,經過編碼與解碼階段后,最終映射還原出更具魯棒性的特征信息,提高了基本AE對輸入數據的泛化能力。
設原始輸入數據為X,DAE通過一個隨機映射變換X~qD(X′|X),對原始輸入數據X進行“破壞”,進而得到一個含有噪聲污染的數據X′,其中D為數據集,則DAE的編碼器輸出如式(5)所示。
Y′=fθ(X)=s(WX′+b)
(5)
接著通過解碼器將Y′反向變換,得到對原始輸入數據X的重構表示Z,Y′與Z滿足式(6)。
Z=gθ′(Y′)=s(W′Y′+b′)
(6)
2.3.3 維吾爾語零指代消解的SDAE模型
深度神經網絡經過多層非線性表達能夠學習出更有效的特征,而SDAE由多個DAE疊加,對每個DAE加入一定比例的噪聲ρ能夠學習更強健的特征表達。基于維吾爾語零指代消解的SDAE,由多層DAE與一層softmax分類器構成,其結構如圖3所示。其中,DAE數目作為模型的一個重要參數,將在3.2.1節實驗部分討論如何確定。將多層DAE學習到的特征作為softmax分類器的輸入,若<候選先行語,φ>存在指代關系,標簽為1;若不存在指代關系,則標簽為0。由分類器判斷<候選先行語,φ>是否存在指代關系,從而完成零指代消解任務。
SDAE的學習分為無監督逐層貪婪的預訓練與有監督的微調。當模型在逐層預訓練過程時,訓練每一層DAE的輸入數據為加入一定比例噪聲ρ的數據信息,在微調過程中使用未加噪聲的原始數據對整個SDAE網絡進行微調,圖3體現了預訓練過程與反向微調過程。
模型學習的具體過程如下:
(1) 無監督的預訓練(pre-training)
Step1將無標簽的零指代消解訓練數據加入一定比例的噪聲ρ,生成樣本數據X'作為第一個DAE的輸入,利用DAE的重構方式,訓練得到隱藏層1的權重參數θ1,同時計算出隱藏層1的輸出Y1;

圖3 SDAE模型結構及預訓練、微調過程

Step3用同樣的方法將上一層的輸出數據加入相同比例的噪聲ρ,作為第n個DAE的輸入,訓練得到隱藏層n的權重參數θn,并計算出隱藏層n的輸出Yn;
Step4將Step3隱藏層的輸出作為softmax分類器的輸入,使用零指代消解標簽訓練得到softmax分類器的參數θn+1;
Step5將Step1~Step4逐層訓練得到的網絡參數θ1,θ2,…,θn,θn+1作為網絡的初始參數,完成模型預訓練。
(2) 有監督的微調(fine-tuning)
微調是采用少量標簽數據進行有監督訓練,與此同時對全局網絡訓練中的誤差進行優化,微調的作用是對整個SDAE+softmax網絡的權重進行調優,使模型具備更精準的特征提取和學習能力。
Step1使用帶標簽的維吾爾語零指代消解訓練數據作為輸入數據,對SDAE+softmax進行全局訓練,計算整個網絡的損失函數,以及對每個參數的偏導函數;
Step2如圖4所示,采用誤差反向傳播算法并運用隨機梯度下降法對網絡權值進行優化,將這些參數作為SDAE+softmax整個網絡的最優參數。

圖4 誤差反向傳播算法流程圖
本文針對維吾爾語零指代現象,對語料進行篩選及標注,實驗語料以人民網、天山網、昆侖網及論壇、博客等維吾爾語版網頁為來源,利用網絡爬蟲或人工下載頁面,對頁面內容進行去噪處理,最終獲得實驗所需的原始文本。為確保語料的普遍性,語料內容涵蓋了新聞、人物、科普等。語料采取人工標注方式,在實驗組維吾爾語語言學專家的指導下,將語料標注完畢并用XML文件存儲。實驗測評方式采用準確率P、召回率R和F值考察零指代性能,其中,P指正確消解的實體占實際消解的實體的百分比;R指正確消解的實體占消解系統應消解實體的百分比;F值為準確率和召回率的綜合評價指標,即:F=2×R×P/(R+P)。
實驗選擇并標注維吾爾語語料179篇,包含維吾爾語語句900余句,配對完成的零指代對<候選先行語,φ>共3 286對,其中,存在指代關系的零指代對<候選先行語,φ>1 038對,不存在指代關系的零指代對<候選先行語,φ>2 248對,為避免實驗不確定性,確保數據隨機性,本文實驗均采取五折交叉驗證法進行,將80%的數據作為訓練數據,其余20%的數據作為測試數據。
為了從不同角度考察維吾爾語零指代消解的性能,本文設計了以下五組實驗: ①SDAE不同隱藏層層數對性能的影響; ②SDAE的噪聲比對性能的影響; ③不同維度的詞嵌入表示對性能的影響;④word embedding特征與hand-crafted特征對性能的影響; ⑤維吾爾語零指代消解模型SDAE與棧式降噪自編碼、淺層機器學習的支持向量機(support vector machine,SVM)和人工神經網絡(artificial neural networks,ANN)性能對比。
此外,本文對原有實驗語料進行擴充,額外從大型維吾爾語網站獲取共約7 000余篇題材豐富的生語料,進行去重、去噪處理后,使用Mikolov[13]提出的Word2Vec工具,選擇Skip-gram模型作為訓練框架,訓練k維(k=10,50,100,150)的word embedding向量。
在實驗過程中,先選擇維度為50的詞向量作為word embedding特征;SDAE的噪聲系數取值為[0,1],先折中選擇噪聲系數為0.5,在后續實驗考察中將確定它們的最優值。經過反復嘗試網絡模型的不同參數組合,確定了基于本實驗數據量下的最優參數,如表2所示。

表2 模型最優參數

續表
3.2.1 SDAE不同層數對性能的影響
一般來說,模型中若包含更多的網絡層,則能學習到更本質的數據表達與更抽象的特征,然而網絡層數過多,會增加網絡訓練成本與計算難度,導致模型過擬合。SDAE的層數作為重要參數之一,本節采用DAEi(i為DAE的個數)表示SDAE隱藏層層數,實驗結果如表3所示。

表3 不同隱藏層層數的零指代消解性能
由表3可知,反映P和R整體性能的F值隨著隱藏層層數的增加而增加,在隱藏層層數為4時達到最優,為56.784%,在隱藏層層數為5時F值回落,說明本文中維吾爾語零指代消解的性能在第四層為最佳。隨著SDAE隱藏層層數的增加,F值逐漸提高,這是由于深度學習機制通過多層映射單元提取主要的結構信息,能夠挖掘文本中隱含的深層語義信息,然而在第五層F值并未提升,說明基于本研究的SDAE深度為4已足夠,SDAE通過堆疊多層DAE,達到學習數據中有價值特征的目的,最終提升零指代消解性能。所以“深度模型”是手段,“特征學習”是目的[14]。因此在本文中確定SDAE的層數為4。
3.2.2 SDAE的噪聲比對性能的影響
在SDAE的學習過程中,為了能夠從原始文本中挖掘到更具魯棒性的特征,對每層DAE的輸入數據均添加一定比例的人工噪聲。為了探索噪聲比對零指代消解性能的影響,本節將噪聲比取值[0.2,0.95]進行實驗,實驗結果如圖5所示。

圖5 不同噪聲比的零指代消解性能
由圖5可知,隨著噪聲比的增加,反映P和R整體性能的F值先呈上升趨勢,在噪聲比為0.45時達到最優,F值達到57.711%,表明在該噪聲比下,模型學習數據中魯棒性深層語義特征的能力為最優;隨后F值呈下降趨勢,說明過大的噪聲比使數據受損嚴重,導致模型學習能力降低,從而造成零指代消解性能下降。因此在本文中確定SDAE的最優噪聲比為0.45。
3.2.3 不同維度的詞嵌入表示對性能的影響
詞嵌入表示維度是生成word embedding向量的參數之一,本節分別采用詞向量的維度為10維、100維、150維的word embedding向量,用以考察不同維度下的word embedding特征對零指代消解性能的影響,實驗結果如表4所示。

表4 不同維度的word embedding特征對零指代消解性能的影響
由表4可知,F值隨著維度的增加先上升,在50維時達到最優,然而維度達到100維時的F值較50維時有回落;150維與100維相比,F值也并未顯著增加。F值先上升,這是因為50維較10維包含更為豐富的語義信息和上下文特征,使得模型能夠挖掘更多的有用信息;F值接著下降,這是因為100維和150維的維度較大,生成訓練實例的維度也相應較大,增加了模型的訓練難度,產生過擬合,使模型對數據的泛化能力降低,因此在本任務中50維的詞嵌入表示已足夠滿足需求。
3.2.4 word embedding特征和hand-crafted特征對性能的影響
word embedding特征表述了零指代項與候選先行語語義層面的表達,而hand-crafted特征則表述了零指代研究層面的知識表示,為了探索word embedding特征與hand-crafted特征對性能的影響,本節分別將word embedding特征與hand-crafted特征作為模型輸入,與包含全部兩類特征做輸入的模型作對比,實驗結果如表5所示。

表5 Fword embedding與Fhand-crafted對性能的影響
由表5可知,僅用word embedding特征與僅用hand-crafted特征條件下,與包含全部兩類特征的F值相比,分別降低6.211%與8.374%。驗證了本文將word embedding特征與hand-crafted特征融合,將二者共同作為維吾爾語零指代消解任務特征的有效性與可行性。在僅用word embedding特征的情況下,雖包含豐富的語義與句法信息,然而缺少了零指代消解研究方面的知識表示;在僅用hand-crafted特征的情況下,雖刻畫了維吾爾語零指代現象,但缺乏語義層面的聯系,因此將word embedding特征與hand-crafted特征結合,相輔相成,用以解決零指代消解問題。
3.2.5 SDAE與其他模型性能對比
為驗證本文方法的有效性,將SDAE模型與傳統棧式自編碼SAE、淺層機器學習SVM、ANN的性能做對比,其中,SAE與SDAE的網絡結構與模型參數相同;SVM采用RBF核函數,γ=1;ANN采用三層隱層網絡結構,節點數為55,迭代次數為100,批尺寸為30。實驗結果如表6所示。

表6 SDAE與其他模型性能對比
由表6可知: SDAE的F值與SAE相比,提高了4.450%,且SDAE與淺層機器學習SVM與ANN相比,F值均有明顯提升;而基于深度網絡結構的SAE與SVM和ANN相比,其F值也具有顯著優勢。SDAE優于SAE,這是由于SDAE在學習過程中向輸入數據加入一定比例的噪聲,使得SDAE的多層結構能學習到更具魯棒性的深層語義特征,完美重構了原始數據的表達,所以其性能與傳統SAE相比具有優勢。而兩種深度網絡結構的SDAE與SAE的性能,均優于淺層機器學習的SVM和ANN,這是由于基于深度學習思想的模型具備挖掘隱藏信息能力,經過無監督的層層學習,能夠自主抽取文本信息中的顯著特征,有挖掘維吾爾語語篇中的深層語義信息的優勢。
零指代消解研究有助于自然語言處理的發展,然而現有研究主要針對漢語等大語種,且缺乏對深層語義的探索,針對此問題,本文依據維吾爾語零指代現象,提出采用深度學習機制的SDAE解決維吾爾語零指代消解任務。結合維吾爾語語言特色及零指代特點,提出將蘊含上下文語義信息和句法信息的word embedding特征與刻畫維吾爾語零指代知識表示的hand-crafted特征融合,將這兩類特征共同作為SDAE的輸入,挖掘更深層且具備魯棒性的語義特征進而完成維吾爾語零指代消解任務。此外,本文還從SDAE隱藏層層數對性能的影響及word embedding特征與hand-crafted特征對性能的影響等方面對維吾爾語零指代消解研究進行了探索。與傳統SAE、淺層機器學習SVM和ANN相比,SDAE均體現出其優勢,驗證了本方法在維吾爾語零指代消解任務中的有效性與可行性。
[1] 帕提古力·麥麥提. 基于向心理論的維吾爾語語篇回指研究[D]. 北京: 中央民族大學博士學位論文, 2010.
[2] Zhao S, Ng H T. Identification and resolution of Chinese zero pronouns: A machine learning approach[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and ComputationalNatural Language Learning,2007: 541-550.
[3] Kong F, Zhou G. A tree kernel-based unified framework for Chinese zero Anaphora Resolution.[C]//Conference on Empirical Methods in Natural Language Processing(EMNLP),2010: 882-891.
[4] Chen C, Ng V.Chinese zero pronoun resolution: Some recent advances[C]//Conference on Empirical Methods in Natural Language Processing(EMNLP),2013: 1360-1365
[5] Chen C, Ng V. Chinese zero pronoun resolution with deep neural Networks[C]//Proceedings of the Meeting of the Association for Computational Linguistics(ACL),2016: 778-788.
[6] Iida R, Torisawa K, Oh J H, et al. Intra-sentential subject zero anaphora resolution using multi-column convolutional neural network[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP),2016: 1244-1254.
[7] 李陽輝, 謝明, 易陽. 基于深度學習的社交網絡平臺細粒度情感分析[J]. 計算機應用研究, 2017, 34(3): 743-747.
[8] 張開旭, 周昌樂. 基于自動編碼器的中文詞匯特征無監督學習[J]. 中文信息學報, 2013, 27(5): 1-7.
[9] 劉勘, 袁蘊英. 基于自動編碼器的短文本特征提取及聚類研究[J]. 北京大學學報(自然科學版), 2015, 51(2): 282-288.
[10] Bengio Y, Ducharme R, Jean, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3(6): 1137-1155.
[11] 楊勇, 李艷翠, 周國棟,等. 指代消解中距離特征的研究[J]. 中文信息學報, 2008, 22(5): 39-44.
[12] Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoder [C]//Proceedings of the 25th International Conference on Machine Learning. New York: ACM, 2008: 1096-1103.
[13] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013(26): 3111-3119.
[14] 余凱, 賈磊, 陳雨強,等. 深度學習的昨天、今天和明天[J]. 計算機研究與發展, 2013, 50(9): 1799-1804.