金 宸,李維華,姬 晨,金緒澤,郭延哺
(1.云南大學 信息學院,云南 昆明 650503;2.河南師范大學 教育學院,河南 新鄉 453007)
中文分詞是指將連續的中文字符串按照一定的規范分割成詞序列的過程。中文不同于英文,其自身的特點在于中文是以字為基本書寫單位,句子和段落之間通過分界符來劃界,但詞語之間并沒有一個形式上的分界符,而在自然語言處理中,詞是最小的能夠獨立運用的有意義的語言成分,所以分詞質量的好壞直接影響之后的自然語言處理任務[1]。
中文分詞問題作為中文自然語言處理領域的重要基礎研究,從20世紀80年代提出到現在,常用的研究方法可以分為以下四類:(1)基于字典的字符串匹配方法[2-3];(2)基于語言規則的方法[4-5];(3)基于傳統概率統計機器學習模型的方法;(4)基于深度神經網絡模型的方法。
隨著SIGHAN國際中文分詞評測Bakeoff的展開,將中文分詞任務視為序列標注問題來解決逐漸成為主流。基于傳統機器學習模型的方法主要為基于字標注的概率統計機器學習模型方法,在Bakeoff展開的初期,基于字標注的中文分詞方法廣泛應用,在評測中取得性能領先的系統均應用了此類思想[6]。基于統計的自然語言處理方法在消除歧義和句法分析等方面得到越來越廣泛的應用,是近年來興起的一種新的、也是最常使用的方法。對于給定的輸入詞串,該方法先確定其所有可能的詞性串,選出得分最高的作為最佳輸出。其中應用比較廣泛的主要有隱馬爾可夫模型(hidden markov model,HMM)[7]、最大熵模型(maximum entropy model,MEM)[8]和條件隨機場(conditional random fields,CRF)[9-11]。以上基于傳統機器學習模型的性能受限于特征的選擇和提取,模型的訓練是基于提取出的人為設定的特征。
為了盡可能避免特征工程的影響,深度學習網絡模型逐漸應用到中文分詞等自然語言處理任務中。2011年Collobert[12]將神經網絡模型應用到自然語言處理中。2013年,Zheng等人[13]首先將神經網絡模型應用到中文分詞任務,同時還提出了一種感知器算法,在幾乎不損失性能的前提下加速了訓練過程。在此基礎上,Pei等人[14]通過利用標簽嵌入和基于張量的轉換,提出了MMTNN的神經網絡模型的方法,并用于中文分詞任務。2015年,Chen等人[15]使用LSTM神經網絡來解決中文分詞問題,克服了傳統神經網絡無法長期依賴信息的問題,取得了很好的分詞效果,同年,Chen等人[16]構造了一種基于棧結構的GRU神經網絡模型,使用樹形結構來捕捉長期依賴信息。這些方法都取得了非常不錯的效果。
然而,單向LSTM神經網絡只能記住過去的上文信息,但中文句子的結構較為復雜,有時需要聯系下文的信息才能做出判斷。2015年Huang[17]提出了一種雙向LSTM-CRF模型,并把它用在了序列標注的任務上,取得了很好的效果。受此啟發,在Chen[15]模型的基礎上,本文提出使用雙向的LSTM神經網絡模型進行分詞,在單向LSTM神經網絡的基礎上增加一層自后向前的LSTM神經網絡層,并引入貢獻率α對前傳LSTM層和后傳LSTM層輸入隱藏層的權重矩陣進行調節,綜合雙向的記憶信息,實現更加準確的分詞。
RNN(recurrent neural network)模型是Rumelhart等人[18]在1986年提出的具有循環結構的網絡結構,具備保持信息的能力。RNN模型中的循環網絡模塊將信息從網絡的上一層傳輸到下一層,網絡模塊的隱含層每個時刻的輸出都依賴于以往時刻的信息。RNN模型的鏈式屬性表明其與序列標注問題存在著緊密的聯系,但在經典RNN模型的訓練中,存在梯度爆炸和梯度消失的問題,且經典RNN模型很難處理長期依賴的問題。
LSTM神經網絡(Long short-term memory neural network)模型[19]是RNN的擴展,專門設計用來處理長期依賴缺失的問題。與經典RNN網絡不同,LSTM的循環單元模塊具有不同的結構,存在四個以特殊方式相互影響的神經網絡層。
LSTM網絡的關鍵在于LSTM單元的細胞狀態。在LSTM單元中,通過門(gates)結構來對細胞狀態增加或刪除信息,而門結構是選擇性讓信息通過的方式,如圖1所示。LSTM單元具有輸入門(input gates)、忘記門(forget gates)和輸出門(output gates)三種門結構,用以保持和更新細胞狀態,以下公式中it、ft、ot和Ct表示t時刻對應的三種門結構和細胞狀態。
LSTM神經網絡模型已經在許多應用中取得重大成功,諸如文本、情感分類[20-21]、機器翻譯[22]、語意識別[23]、智能問答[24]和對圖像進行文本描述[25]等自然語言處理任務中。由于LSTM神經網絡模型通過記憶單元去學習從細胞狀態中忘記信息、去更新細胞狀態的信息,而且具有學習文本序列中遠距離依賴的特性,很自然地想到可以使用LSTM神經網絡模型進行中文分詞的任務。

圖1 LSTM結構圖
雙向RNN(BRNN)模型是Schuster[26]在1997年提出的,目的是解決單向RNN無法處理后文信息的問題,單向的RNN只能在一個方向上處理數據,則雙向循環神經網絡的基本思想是提出每一個訓練序列向前和向后分別是兩個循環神經網絡(RNN),而且這兩個都連接著一個輸出層。圖2展示的是一個沿著時間展開的雙向循環神經網絡。
其中自前向后循環神經網絡層的更新公式為:
(4)
自后向前循環神經網絡層的更新公式為:
(5)
兩層循環神經網絡層疊加后輸入隱藏層:
(6)

圖2 雙向RNN結構圖
雙向LSTM神經網絡(Bi-direction long short-term memory neural network)模型是結合雙向RNN和LSTM兩個模型的優點形成的新模型,簡單來說就是用LSTM單元替換掉經典雙向RNN模型中的循環單元。2005年Graves[27]首次將雙向LSTM神經網絡模型應用于分類問題,并取得了較單向LSTM神經網絡模型更為出色的結果。隨后這個模型被推廣到自然語言處理的各項任務中:2009年Wollmer[28]將雙向LSTM模型應用于關鍵字提取;2013年Graves[29]將其應用于語音識別;2015年Wang[30]將其應用于字嵌入中;2015年Huang將其應用于詞性標注[17];2016年Kiperwasser[31]將其應用于句法分析中。這些應用均取得了很好的效果。
中文分詞可視為字符級別的序列標注問題,因此可以將分詞過程視為對字符串中每一個字符標注的機器學習過程。目前,學術界使用最廣泛的字符標注方法是四詞位標注集{B,M,E,S},其中B(begin)代表標注詞的開始字符,M(middle)代表標注詞的中間字符,E(end)代表標注詞的結束字符,S(single)代表標注詞是單字字符。通過為字符序列中的每一個字符確定相應的標簽,我們可將此問題轉化為一個多分類的問題,然后通過神經網絡模型的多分類層實現相關的標簽分類。
基于神經網絡的中文分詞模型主要由三個部分組成:
(1) 文本向量化層;
(2) 神經網絡層;
(3) 標簽推斷層。
基于雙向LSTM神經網絡的中文分詞模型如圖3所示。

圖3 雙向LSTM神經網絡模型結構圖
使用神經網絡模型來處理數據,需要先將輸入的數據進行向量化處理。文本向量化的方式主要有兩種。
(1) 獨熱表示(onehot representation):就是用一個很長的向量來表示一個詞,向量的長度為詞典的大小,向量的分量只有一個1,其它全為0。1的位置對應該詞在詞典中的位置。但這種詞表示有兩個缺點:
① 會因為詞典過大造成數據的維數非常大,而所構成的矩陣非常稀疏,不易進行訓練,就是所謂的“維數災難”問題;
② 不能很好地刻畫詞與詞之間的相似性,也就是所謂的詞匯鴻溝問題。
(2) 分布式表示(distributed representation)[32]是針對獨熱表示這兩大缺點而提出的方法[31]。通過訓練將某種語言中的每一個詞映射成一個固定長度的短向量,將所有這些向量放在一起就形成一個詞向量空間,而每一向量則為該空間中的一個點,在這個空間中引入“距離”,就可以根據詞之間的距離來判斷它們之間的語義相似性了。分布式表示通常又稱embedding字嵌入(embedding)。
已有的研究表明,加入預先訓練的字嵌入向量可以提升自然語言處理任務的性能。Word2Vec[33-34]是Google公司于2013年開源推出的一個獲取字向量的工具包,它簡單、高效、易于使用。本文的實驗部分用Word2Vec作為第一層,把輸入數據預先處理成字嵌入向量。基于字標注的分詞方法則基于一個局部滑動窗口,假設一個字的標簽極大地依賴于其相鄰位置的字。給定長度為n的文本序列c(1:n),大小為k的窗口從文本序列的第一個字c(1)滑動至最后一個字c(n)。對序列中每個字c(t),當窗口大小為5時,上下文信息(c(t-2),c(t-1),c(t)c(t+1)c(t+2))將被送入查詢表中,當字的范圍超過了序列邊界時,將以諸如“start”和“end”等特殊標記來補充。然后,將查詢表中提取的字向量連接成一個向量X(t)。
雙向LSTM神經網絡層由兩個部分構成:(1)自前向后的單層LSTM; (2)自后向前的單層LSTM。
設窗口大小為k,字向量維度為d,窗口內的文本數據通過訓練好的字嵌入查找表,得到一個分布式表示向量,將此分布式表示向量從前往后輸入到一個獨立的LSTM單元中;又從后往前將其逆序后輸入到一個獨立的LSTM單元中。同時我們引入貢獻率變量α來調整兩個獨立的單向LSTM層對后續數據的貢獻影響,加權之后輸入隱藏層進行線性變換,得到一個與標簽集維度相等的向量。
中文分詞問題可以轉換成字符序列中字符的標簽分類問題。對于字符序列中的每個字符,基于雙向LSTM神經網絡的中文分詞模型都會給出一個它在每類標簽的得分。
以一個輸入序列c(1:n)為例,概率Ct,設窗口大小為k,字向量維度為d,則通過訓練好的字嵌入查找表,從前往后在m時刻得到一個維度為k×d向量x(mk+1,(m+1)k),輸入到一個獨立的LSTM單元中;從后往前在m時刻得到一個維度為k×d向量x((n-m)k+1,(n-m+1)k),將其逆序后輸入到一個獨立的LSTM單元中。兩個輸入作為雙向LSTM神經網絡的輸入。
通過常識我們判斷,對于分詞任務來說,自前文的信息量與自后文的信息量是不對等的,前者要大于后者,也就是說通過自前往后LSTM層獲得的gf(x(t))與通過自后向前LSTM層獲得的gb(x(t))貢獻不同。因此,我們引入一個貢獻率變量α,并且α≥0.5。在引入α的條件下,雙向LSTM神經網絡經過變換之后得到一個輸出y(t),如式(7)所示。
y(t)=αgf(x(t))+(1-α)gb(x(t))
(7)
y(t)再經過隱藏層的線性變換,可以得到一個與標簽集維度相等的向量y(t),表示ct屬于各個標簽的得分。
在{B,M,E,S}標簽系統中,相鄰標簽的分布并不是相互獨立的,如標簽B之后出現標簽B、S的概率為0,也就是說標簽B之后只可能出現標簽M、E。故本文使用Collobert[12]提出了標簽轉移權重矩陣A的方法表示這個依賴關系,其中Aij表示從標簽i轉移到標簽j的權重大小。Aij的值越高,表示標簽i轉移到標簽j的可能性越大。那么,對于訓練數據集中的一個輸入字符序列c(1:n),其標簽序列為y(1:n),則將該字符標簽序列的得分定義為s(c1:n,y1:n,θ),如式(8)所示。
(8)


(9)
其中,s(x,y,θ)來自式(8),是字符標簽序列的得分。

(10)

(11)
其中,
(12)
訓練過程中用Dropout[35-36]來控制在模型訓練時隨機讓網絡中的某些隱藏層節點不工作,阻止了某些特征僅僅在其他特定特征下才有效果的情況。最后用小批量AdaGrad優化算法[37]對目標函數進行優化,其計算過程中采用誤差反向傳播[19]的方式逐層求出目標函數對神經網絡各層權值的偏導數,并更新全部權值和偏置值。
本文所用實驗環境的主要參數為處理器:Intel(R)Core(TM)i7-6700k CPU @ 4.00GHz;圖形加速卡:NVIDIA GeForce GTX 1060 6 GB;內存:16GB;操作系統:Ubuntu 16.04 LTS(64bit);使用Google開源深度學習框架TensorFlow 0.12構建所有神經網絡模型進行訓練和測試;使用Word2Vec對字向量進行訓練預處理。
本文的實驗數據集來自當前學術界普遍采用的訓練語料和測試語料,其中本文神經網絡模型的訓練語料和測試語料來自MSRA數據集和PKU 數據集,這個由SIGHAN舉辦的第二屆國際中文分詞評測Bakeoff 2005所提供的封閉語料。其中訓練語料按照通常做法,取90%作為訓練集,10%作為開發集,且用來訓練詞向量的語料混合了搜狗實驗室提供的全網新聞數據(SogouCA)以及MSRA數據集和PKU數據集中的訓練集。其語料規模如表1所示。

表1 實驗所用語料庫規模統計信息
在對中文分詞性能的評估中,采用了Bakeoff 2005提供的評分腳本,其中包括分詞評測常用的R(召回率)、P(準確率)和F1(召回率和準確率的調和平均值),以F1值作為評測的主要參考指標。
本文設計了四個實驗。
實驗一為了驗證文本向量化的必要性,設計了在其他條件都相同的情況下,實驗得到通過未使用字嵌入層在PKU數據集中測試數據P、R、F1的值,以及不同維度下的字嵌入層在PKU數據集中測試數據的P、R、F1值,如表2所示。由于獨熱向量的“維數災難”問題,故未使用字嵌入層的實驗,只使用MSRA 數據集和PKU數據集中的訓練集和開發集的數據,將其轉化為獨熱表示。而使用字嵌入層的實驗則混合使用SogouCA數據集以及MSRA、 PKU 數據集中訓練集和開發集,通過Word2Vec轉化為不同維度的詞向量。

表2 隨著字嵌入維度的變化,分詞模型在PKU數據集上評測指標的變化
實驗二為了驗證Dropout的有效性,并確定合適的丟棄率,設計了不使用Dropout以及Dropout丟棄率為20%和Dropout丟棄率為50%的實驗。在保證實驗其他參數相同的條件下,測試在MSRA 數據集和PKU數據集中每一次迭代后的F1測試數據的變化情況。實驗結果如圖4所示。
實驗三為了測試本文所構建的雙向LSTM神經網絡模型的效果,本文使用了如下幾個基準模型:基于條件隨機場模型的分詞模型CRF++[38];Chen[15]提出的單向LSTM分詞模型;雙向RNN分詞模型。對基準模型與本文使用的雙向LSTM分詞模型在MSRA數據集和PKU數據集下進行實驗對比,在確保其他變量都一致的情況下(如使用相同維度的字嵌入,在輸出層均使用丟棄率相同的Dropout),記錄得到P、R、F1測試數據,對比模型參數均基于原作者給出的參數設置,實驗統計數據均使用在可信范圍內的最佳數據。實驗結果如表3所示。
實驗四為了驗證本文提出的貢獻率α是否會影響到實驗效果,并確定效果最佳的貢獻率α,本文設計了六個α取值,從0.5到1.00,相鄰單位取值相差為0.1。以六個α值為基礎構建了本文設計的雙向LSTM神經網絡模型,并保證其他參數都相同的條件下,在MSRA 數據集和PKU數據集下進行分詞實驗,并得到在不同的貢獻率α下的測試數據P、R、F1,并進行對比。實驗結果如表4所示。

表4 隨著α的增長,分詞模型評測指標的變化
通過多次實驗優化參數,我們最終把各項參數設置如下:初始學習率設置為0.2,最小批處理尺寸設置為20,隱藏層節點數設置為150,字嵌入向量的維度為100。對于輸入窗口,我們將窗口分為左右兩邊,左窗口設置為0,右窗口設置為2。即將t到t+2的三個字符同時輸入。為防止神經網絡過擬合,我們采用l2正則化,參數設置成10-4,同時采用Dropout,并設置Dropout的丟棄率為0.2。
實驗一通過對比表2第2行和第3、4、5行數據可知,文本向量化的處理是非常必要的,加入字嵌入層會極大地提高模型的正確率。由使用大數據集SougouCA轉化獨熱表示失敗可知:只能在較小的規模下使用獨熱表示,若訓練數據集較大,會導致詞典過大而造成數據的維數非常大,且構成的矩陣非常稀疏,不易進行訓練。其次,通過對比表2第3、4、5行數據可知:文本向量化使用的維度也會對結果有一定的影響,故本文采用結果相對較好的100維作為字嵌入向量的維度。
實驗二通過觀察圖4中數據點的分布和走向有如下三個方面的結論。(1)不設置Dropout的模型在迭代前幾次表現得較好,但隨著迭代次數的增加,模型評測數據趨于穩定后,Dropout丟棄率為20%的模型表現優于不設置Dropout的模型; (2)Dropout丟棄率設置為50%的模型在整個迭代過程中都表現得比較糟糕,說明Dropout的丟棄率不宜過大,過大后可能會丟失重要信息; (3)無論是在MSRA數據集還是在PKU數據集,二者的趨勢都較為接近,說明本文模型在不同數據集上表現較為一致,可以使用相同的參數設置。
實驗三通過對比表3第6行和第4、5行數據可知:本文模型在MSRA數據集上實驗結果F1,較單向LSTM提升0.72%,較雙向RNN提升1.67%;在PKU數據集上的實驗結果F1,較單向LSTM提升1.04%,較雙向RNN提升2.76%。通過數據的分析比較,說明文本所提出的模型在分詞的準確度上確有提高。
實驗四通過對表4的各項數據的比較可知:(1)貢獻率α對實際分詞表現作用比較明顯,P、R、F1的值隨著α的增長,先變大后變小,在0.8處到達峰值。(2)無論是在MSRA數據集還是PKU數據集,二者的趨勢都較為接近,這說明本文模型在不同數據集上表現較為一致,可以使用相同的參數設置。
本文的工作主要有兩點:(1)將雙向的LSTM神經網絡模型運用到中文分詞任務中,并構建了完整的模型;(2)創新地引入了貢獻率α,通過α對前傳LSTM層和后傳LSTM層輸入隱藏層的權重矩陣進行調節,設計了四個實驗,實驗結果證明:①使用文本向量化的字嵌入和在輸入層設置Dropout會對實驗結果帶來影響; ②本文構建的雙向LSTM神經網絡中文分詞模型在正確率上要優于其他基準模型; ③本文提出的貢獻率α的確會對實驗結果帶來影響。
本文模型還存在著以下不足:(1)雙向LSTM模型較單向LSTM模型在模型結構上更為復雜,從而在模型訓練和測試的時候效率不如單向LSTM模型;(2)由于條件所限,本文實驗在設置精度上比較粗糙,并沒有優化到最理想的參數設置。
接下來值得研究改進的方向:(1)使用GRU等LSTM的變種單元替換傳統LSTM,使得模型進一步簡化,在效率上進行提升;(2)引入注意力機制完善模型,爭取在正確率上進一步提升;(3)將本文所用的分詞模型和貢獻率α進一步套用在其他序列標注的相關問題(如詞性標注、命名實體識別)上。
[1]黃昌寧,趙海.中文分詞十年回顧[J].中文信息學報,2007,21(3):8-19.
[2]梁南元.書面漢語自動分詞系統——CDWS[J].中文信息學報,1987,1(2):46-54.
[3]趙海,揭春雨.基于有效子串標注的中文分詞[J].中文信息學報,2007,21(5):8-13.
[4]Wu A,Jiang Z.Word segmentation in sentence analysis[C]// Proceedings of the 1998 International Conference on Chinese Information Processing,1998:169-180.
[5]Sui Z,Chen Y.The research on the automatic term extraction in the domain of information science and technology[C]//Proceedings of the 5th East Asia Forum of the Terminology,2002.
[6]任智慧,徐浩煜,封松林,等.基于LSTM網絡的序列標注中文分詞法[J].計算機應用研究,2017,34(5):1321-1324.
[7]李月倫,常寶寶.基于最大間隔馬爾可夫網模型的漢語分詞方法[J].中文信息學報,2010,24(1):8-14.
[8]Xue N,Converse S P.Combining classifiers for Chinese word segmentation[C]//Proceedings of the first SIGHAN workshop on Chinese language processing-Volume 18.Association for Computational Linguistics,2002:1-7.
[9]Peng F,Feng F,McCallum A.Chinese segmentation and new word detection using conditional random fields[C]//Proceedings of the 20th International Conference on Computational Linguistics.Association for Computational Linguistics,2004:562.
[10]羅彥彥,黃德根.基于CRFs邊緣概率的中文分詞[J].中文信息學報,2009,23(5):3-8.
[11]方艷,周國棟.基于層疊CRF模型的詞結構分析[J].中文信息學報,2015,29(4):1-7.
[12]Collobert R,Weston J,Bottou L,et al.Natural language processing(almost)from scratch[J].Journal of Machine Learning Research,2011,12(1):2493-2537.
[13]Zheng X,Chen H,Xu T.Deep learning for Chineseword segmentation and POS tagging[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing,2013:647-657.
[14]Pei W,Ge T,Chang B.Max-margin tensor neural network for Chinese word segmentation[C]//Proceedings of the Meeting of the Association for Computational Linguistics,2014:293-303.
[15]Chen X,Qiu X,Zhu C,et al.Long short-term memory neural networks for Chinese word segmentation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing,2015:1197-1206.
[16]Chen X,Qiu X,Zhu C,et al.Gated recursive neural network for Chinese word segmentation[C]//Proceedings of the ACL(1),2015:1744-1753.
[17]Huang Z,Xu W,Yu K.Bidirectional LSTM-CRF models for sequence tagging[J].arXiv preprint arXiv:1508.01991,2015.
[18]Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors[J].Nature,1986,323(6088):533-536
[19]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[20]Liu P,Qiu X,Chen X,et al.Multi-timescale long short-term memory neural network for modelling sentences and documents[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing:2326-2335.
[21]Wang X,Liu Y,Sun C,et al.Predicting polarities of tweets by composing word embeddings with Long Short-Term Memory[C]//Proceedings of Meeting of the Association for Computational Linguistics and the International Joint Conference on Natural Language Processing,2015:1343-1353.
[22]Sutskever I,Vinyals O,Le Q V.Sequence to sequence learning with neural networks[C]//Proceedings of the 20th NIPS,2014:3104-3112.
[23]Graves A,Mohamed AR,Hinton G.Speech recognition with deep recurrent neural networks[C]//Proceedings of IEEE International Confenence on Acoustics,2013,38(2003):6645-6649.
[24]Wang D,Nyberg E.A long short-term memory model for answer sentence selection in question answering[C]// Meeting of the Association for Computational Linguistics and the International Joint Conference on Natural Language Processing,2015:707-712.
[25]Vinyals O,Toshev A,Bengio S,et al.Show and tell:A neural image caption generator[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2015:3156-3164.
[26]Schuster M,Paliwal K K.Bidirectional recurrent neural networks[J].IEEE Transactions on Signal Processing,1997,45(11):2673-2681.
[27]Graves A,Schmidhuber J.Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J].Neural Networks,2005,18(5):602-610.
[28]Wollmer M,Eyben F,Keshet J,et al.Robust discriminative keyword spotting for emotionally colored spontaneous speech using bidirectional LSTM networks[C]//Proceedings of the ICASSP 2009.International Conference on IEEE,2009:3949-3952.
[29]Graves A,Jaitly N,Mohamed A.Hybrid speech recognition with deep bidirectional LSTM[C]//Proceedings of the 2013 IEEE Workshop on Automatic Speech Recognition and Understanding(ASRU).IEEE,2013:273-278.
[30]Wang P,Qian Y,Soong F K,et al.A unified tagging solution:Bidirectional LSTM recurrent neural network with word embedding[J].arXiv preprint arXiv:1511.00215,2015.
[31]Kiperwasser E,Goldberg Y.Simple and accurate dependency parsing using bidirectional LSTM feature representations[J].arXiv preprint arXiv:1603.04351,2016.
[32]Hinton G E.Learning distributed representations of concepts[C]//Proceedings of the eighth annual conference of the cognitive science society.1986:1-12.
[33]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[C]//Proceedings of International Conference on Learning Representation,2013:1-12.
[34]Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[J].Advances in Neural Information Processing Systems,2013(26):3111-3119.
[35]Hinton G E,Srivastava N,Krizhevsky A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.
[36]Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:a simple way to prevent neural networks from overfitting[J].Journal of Machine Learning Research,2014,15(1):1929-1958.
[37]Duchi J,Hazan E,Singer Y.Adaptive subgradient methods for online learning and stochastic optimization[J].Journal of Machine Learning Research,2011,12(7):2121-2159.
[38]Taku.CRF++:Yet Another CRF toolkit[CP10L].http://taku910.github.io/crtpp/2005.

金宸(1991—),碩士研究生,主要研究領域為自然語言處理、機器學習。E-mail:chenjin0721@gmail.com

李維華(1977—),通信作者,博士,副教授,主要研究領域為數據與知識工程。E-mail:lywey@163.com

姬晨(1993—),碩士研究生,主要研究領域為自然語言處理。E-mail:418445839@qq.com