李昊澤 云南師范大學
命名實體識別的是從非結構化或半結構化等文本中提取出來的所需要的內容使其變成為有用的文本內容。在現在這個大數據以及云計算的時代,主要面對的用戶的群體是各式各樣的普通用戶,對于不同的群體所需要從文本內容中提取的信息野不盡相同。所以,如何高效的從幾何級數的互聯網看似雜亂無章的數據中抽取出來對各類用戶有用的文本信息顯得非常的重要。命名實體識別技術為了解決上述提出的主要問題提供了一種新的思路。中文命名實體識別技術是自然語言處理的基礎并且也是主要的任務。現在的自然語言處理任務都需要先運用到命名實體識別等基礎的任務。如海量文本的情感分析、語義的標注任務以及機器翻譯等領域中都非常普遍用到命名實體識別技術,所以,對于命名實體識別的研究對于自然語言處理領域來說是具有非常重要的意義。
長短期記憶網絡(LSTM)就是為了解決循環神經網絡因為梯度消失會使得無法利用距離過遠的信息這個問題。一般來說循環神經網絡在6 層以后記憶的能力已經接近為零了。長短期記憶網絡模型解決了循環神經網絡存在梯度消失會使得無法利用距離過遠的信息這個問題,提出短期和長期記憶單元的引入,其主要目的是將信息存儲在內存單元,更新,和衰減記憶單元和輸入/輸出將由多個門控制對應的記憶單元,學會控制的參數對應的記憶單元門決定信息的記憶單元存儲或遺忘。在長短期記憶網絡模型里,設長短期記憶網絡在t 時刻的輸入是i_t,t-1 時刻的隱藏層和記憶單元分別為h_(t-1)、c_(t-1),輸出t 時刻的隱藏層h_t和記憶單元c_t。
(1)門信息公式:

(2)記憶單元值的公式:

(3)t 時刻隱藏層值的公式:

其中W 和b 均表示參數,σ一般取sigmod 函數 。
從以上的門信息、記憶單元值以及t 時刻的隱藏層值的計算公式我們可以看出來,不添加門的時候記憶單元值與輸入門來乘得到的數值放到記憶單元值里,這樣就可以把信息放到里面,而對于門信息里的遺忘門與t-1 時刻的隱藏層的值乘起來,這樣得到的數值,把數值放到放到記憶單元里,主要會使得記憶單元的衰減,將t 時刻的記憶單元與輸出門相乘,使記憶單元中的信息輸出到隱藏層,從而影響t+1 時刻各個門的輸出。有了控制信息的記憶單元,網絡就可以存儲對任務最有用的信息。可以看出,LSTM 基本解決了循環神經網絡中梯度消失的缺陷。
長短期記憶網絡模型雖然理論上解決了解決解決循環神經網絡因為存在梯度消失會使得無法利用距離過遠的信息這個問題,但是在實際實驗過程中,我們還是會發現長期記憶和短期記憶的網絡模型只能利用以前的歷史信息,而沒有考慮到后面文本對前面文本的影響,這也是非常重要的。此外,對于整個序列標注任務,如果沒有充分利用上下文信息進行預測是不準確的。對于長短期記憶網絡模型所存在的問題,又有學者提出了雙向長短期記憶網絡(Bi LSTM)模型,雙向長短期記憶網絡模型可以使得其同時使用整個序列的信息,也就是可以考慮到上下文的信息。雙向長短期記憶網絡模型是由反向LSTM 網絡和正向LSTM 網絡組成,在雙向計算輸入序列時,可以充分考慮輸入序列上下文信息的使用。并且長短期記憶網絡模型不僅可以捕捉到對于時序的動態信息,而且也可以利用到當前詞的前后文信息,使得最后獲得較好的依賴關系。
對于以上所闡述的的命名實體識別模型LSTM 以及BiLSTM,我們可以發現在做實體識別的任務時,長短期記憶網絡模型不僅可以捕捉到對于時序的動態信息,而且也可以利用到當前詞的前后文信息,使得最后獲得較好的依賴關系,使得命名實體識別的效果顯著提升,并且結合中文語言的結構特點,可以做到充分挖掘文本序列中的潛在信息,從而更好的識別實體.