仇增輝,赫明杰,林正奎
(大連海事大學(xué)信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026)
命名實(shí)體識(shí)別NER(Named Entity Recognition)是開(kāi)展網(wǎng)絡(luò)評(píng)論分析、內(nèi)容檢索、事件檢測(cè)、機(jī)器翻譯、問(wèn)答系統(tǒng)等研究的一項(xiàng)基礎(chǔ)性工作,其目的是識(shí)別出評(píng)論文本中的人名、地名等專有詞匯和有意義的時(shí)間、日期等數(shù)量短語(yǔ)并加以歸類[1]。網(wǎng)購(gòu)評(píng)論作為一類代表性的網(wǎng)絡(luò)評(píng)論,由于參與人數(shù)多、評(píng)論數(shù)量大、評(píng)論過(guò)程持久、內(nèi)容表達(dá)方式口語(yǔ)化、情感表達(dá)方式多樣化等鮮明特點(diǎn),導(dǎo)致其命名實(shí)體識(shí)別任務(wù)的挑戰(zhàn)性巨大,因而得到了學(xué)術(shù)界的廣泛關(guān)注。
命名實(shí)體識(shí)別研究起步于20世紀(jì)90年代初期。1991年Rau[2]在第7屆IEEE人工智能應(yīng)用會(huì)議上發(fā)表了“抽取和識(shí)別公司名稱”的有關(guān)研究文章,首次描述了采用啟發(fā)式算法和手工編寫(xiě)規(guī)則抽取和識(shí)別公司名稱的方法。1996年,命名實(shí)體評(píng)測(cè)作為信息抽取的一個(gè)子任務(wù)被引入MUC-6[3],在其后的MUC-7的MET-2[4]以及IEER-99、CoNLL-2002、CoNLL-2003、IREX、LREC等一系列國(guó)際會(huì)議中,命名實(shí)體識(shí)別都被作為其中的一項(xiàng)指定任務(wù)。在中文命名實(shí)體識(shí)別方面,孫茂松等[5]在國(guó)內(nèi)較早開(kāi)始采用統(tǒng)計(jì)的方法進(jìn)行了中文人名識(shí)別;張小衡等[6]采用人工規(guī)則對(duì)中文機(jī)構(gòu)名稱進(jìn)行了識(shí)別與分析。Intel中國(guó)研究中心的Zhang等[7]提出了利用基于記憶的學(xué)習(xí)MBL(Memory Based Learning)算法獲取規(guī)則,用以抽取中文命名實(shí)體以及它們之間的關(guān)系,之后眾多學(xué)者將該方法應(yīng)用到中文命名實(shí)體識(shí)別研究之中并取得了比較豐富的研究成果。相對(duì)于英文命名實(shí)體識(shí)別,由于中文自身所具有的語(yǔ)言表述方式的復(fù)雜性、多樣性和發(fā)展迅速性,導(dǎo)致其命名實(shí)體識(shí)別與英文相比,挑戰(zhàn)更大,目前尚未解決的難題更多。
目前傳統(tǒng)的命名實(shí)體識(shí)別方法主要包括:基于規(guī)則和詞典的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法和二者混合的方法等。其中,基于規(guī)則和詞典的方法借助知識(shí)庫(kù)和詞典,利用語(yǔ)言學(xué)專家手工構(gòu)造的規(guī)則模板進(jìn)行命名實(shí)體的識(shí)別,是命名實(shí)體識(shí)別中最早使用的方法。例如,Hu等[8]通過(guò)建立規(guī)則模板將網(wǎng)購(gòu)評(píng)論中的名詞和名詞短語(yǔ)作為屬性詞,將距離屬性詞最近的形容詞作為觀點(diǎn)詞;Lakkaraju等[9]通過(guò)建立規(guī)則模板把動(dòng)詞或形容詞作為觀點(diǎn)詞,利用滑動(dòng)窗口把高頻名詞或名詞短語(yǔ)作為屬性詞。該類方法存在實(shí)施周期長(zhǎng)、移植性差等問(wèn)題。基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法通過(guò)人工選取文本特征,借助融合語(yǔ)言模型和機(jī)器學(xué)習(xí)算法進(jìn)行命名實(shí)體識(shí)別,代表性的方法主要包括隱馬爾可夫模型[10]、最大熵[11]、支持向量機(jī)[12]、條件隨機(jī)場(chǎng)CRF(Conditional Random Field)[13]等。Liu等[14]通過(guò)最大熵模型構(gòu)造了屬性詞與標(biāo)簽之間的映射關(guān)系,利用隱馬爾可夫模型進(jìn)行屬性詞的命名實(shí)體識(shí)別。Kim等[15]運(yùn)用最大熵模型學(xué)習(xí)語(yǔ)法特征進(jìn)而識(shí)別出觀點(diǎn)發(fā)表者。該類方法由于需要從文本中選擇對(duì)特定任務(wù)最有影響的各種特征,并將這些特征加入到特征向量之中,因此對(duì)特征選取的要求較高,同時(shí)也對(duì)參與模型訓(xùn)練的語(yǔ)料庫(kù)依賴性較大。這些混合方法主要包括規(guī)則、詞典和機(jī)器學(xué)習(xí)方法和不同機(jī)器學(xué)習(xí)方法之間的混合方法。該類方法雖然在應(yīng)用實(shí)踐中被普遍采用,但在融合技術(shù)的選擇和實(shí)現(xiàn)等方面仍然面臨著許多問(wèn)題。
近年來(lái),隨著基于神經(jīng)網(wǎng)絡(luò)的各類深度學(xué)習(xí)方法的快速發(fā)展,命名實(shí)體識(shí)別研究逐漸從機(jī)器學(xué)習(xí)轉(zhuǎn)向深度學(xué)習(xí)。該類方法首先使用大規(guī)模的未標(biāo)注語(yǔ)料進(jìn)行詞向量訓(xùn)練,然后通過(guò)將預(yù)訓(xùn)練的詞向量輸入到深度學(xué)習(xí)網(wǎng)絡(luò)模型,用以實(shí)現(xiàn)端到端的命名實(shí)體識(shí)別。如Huang等[16]利用雙向長(zhǎng)短時(shí)記憶BiLSTM(Bidrectional Long Short-Time Memory)網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)進(jìn)行命名實(shí)體識(shí)別;劉新星等[17]利用循環(huán)圖和開(kāi)關(guān)遞歸神經(jīng)網(wǎng)絡(luò)模型對(duì)屬性詞進(jìn)行識(shí)別;沈亞田等[18]利用長(zhǎng)短時(shí)記憶模型對(duì)評(píng)價(jià)詞和評(píng)價(jià)對(duì)象進(jìn)行命名實(shí)體識(shí)別;Shahina等[19]利用不同的遞歸神經(jīng)網(wǎng)絡(luò)單元(例如遞歸神經(jīng)網(wǎng)絡(luò)、長(zhǎng)期短期記憶、門(mén)控遞歸單元、堆疊式)進(jìn)行命名實(shí)體識(shí)別;Ali等[20]利用自注意力機(jī)制與LSTM(Long Short-Term Memory)相結(jié)合的方法對(duì)阿拉伯語(yǔ)進(jìn)行了命名實(shí)體識(shí)別;Cao等[21]利用對(duì)抗遷移學(xué)習(xí)和自注意力機(jī)制對(duì)微博文本進(jìn)行命名實(shí)體識(shí)別;Zhu等[22]利用具有局部注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)和具有全局自注意力機(jī)制的門(mén)控遞歸網(wǎng)絡(luò)進(jìn)行命名實(shí)體識(shí)別。相比傳統(tǒng)機(jī)器學(xué)習(xí)方法,基于深度學(xué)習(xí)的方法通過(guò)自主學(xué)習(xí)而非人工方式從原始數(shù)據(jù)中獲得更深層次和更抽象的文本特征,較好地解決了傳統(tǒng)方法特征選取難度大和對(duì)數(shù)據(jù)的人為干擾等問(wèn)題,因而成為研究熱點(diǎn)。但在應(yīng)用實(shí)踐中,針對(duì)不同的問(wèn)題域特征,基于深度學(xué)習(xí)的方法在提高命名實(shí)體識(shí)別效率和準(zhǔn)確性方面,仍有許多難點(diǎn)問(wèn)題需要進(jìn)一步探索。其中,注意力模型結(jié)合深度學(xué)習(xí)方法用于命名實(shí)體識(shí)別是一個(gè)重要研究方向。
本文以現(xiàn)實(shí)情境下中文網(wǎng)購(gòu)評(píng)論文本的命名實(shí)體識(shí)別作為研究對(duì)象,為使命名實(shí)體識(shí)別更聚焦于人們所關(guān)注的評(píng)論內(nèi)容的目標(biāo)主體,提出了一種多頭注意力機(jī)制MA(Multi-head Attention)和BiLSTM-CRF(Bidirectional Long Short-Term Memory-Conditional Random Field)模型相結(jié)合的網(wǎng)購(gòu)評(píng)論命名實(shí)體識(shí)別方法MA-BiLSTM-CRF。通過(guò)實(shí)驗(yàn)驗(yàn)證,兩者的有機(jī)結(jié)合可進(jìn)一步提高網(wǎng)購(gòu)評(píng)論中命名實(shí)體的整體識(shí)別效率和識(shí)別準(zhǔn)確性。
BiLSTM-CRF模型源自長(zhǎng)短時(shí)記憶LSTM模型和條件隨機(jī)場(chǎng)CRF算法的結(jié)合。LSTM 最初由Hochreiter和Schmidhuber提出[23],作為一種特殊循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)結(jié)構(gòu),能夠?qū)W習(xí)到長(zhǎng)期依賴關(guān)系,以解決梯度消失和梯度爆炸問(wèn)題。該模型利用BiLSTM層的輸出作為原始CRF模型的參數(shù),最終獲得標(biāo)簽序列的概率。
LSTM的單元結(jié)構(gòu)如圖1所示。在t時(shí)刻,每個(gè)LSTM 單元的輸入有3個(gè),分別是當(dāng)前時(shí)刻網(wǎng)絡(luò)的輸入值xt、上一時(shí)刻 LSTM 單元的輸出值ht-1和上一時(shí)刻的單元狀態(tài)ct-1;輸出有2個(gè),分別是當(dāng)前時(shí)刻 LSTM 的輸出值ht和單元狀態(tài)ct。每個(gè)LSTM 單元通過(guò)遺忘門(mén)、輸入門(mén)和輸出門(mén)控制是否將當(dāng)前輸入信息忽略或者傳遞給下一個(gè)單元。門(mén)(Gate)本質(zhì)上是一層全連接層,輸入是一個(gè)向量,輸出是一個(gè)0~1的數(shù),表示允許信息通過(guò)的多少,0表示不允許完全通過(guò),1表示允許完全通過(guò)。LSTM的優(yōu)點(diǎn)是使當(dāng)前單元可以得到本單元之前所有單元的信息,但其缺點(diǎn)是無(wú)法獲得本單元之后的單元信息。為解決這一問(wèn)題,學(xué)者們通過(guò)對(duì)其改進(jìn)提出了雙向LSTM即BiLSTM模型,如圖2所示。BiLSTM的基本思想是分別用前向和后向的LSTM 來(lái)抓取過(guò)去和將來(lái)所含的隱藏信息,這2部分的信息組成最終的模型輸出。之后許多研究者針對(duì)BiLSTM 進(jìn)行了一系列的優(yōu)化改進(jìn)工作,其中BiLSTM-CRF模型[24]的表現(xiàn)尤為突出,現(xiàn)已被廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域內(nèi)命名實(shí)體識(shí)別、詞性標(biāo)注、分詞等多個(gè)方面。

Figure 1 Schematic diagram of LSTM unit圖1 LSTM單元示意圖

Figure 2 Schematic diagram of BiLSTM unit圖2 BiLSTM單元示意圖
BiLSTM模型結(jié)合CRF算法主要用于解決命名實(shí)體識(shí)別的有效性問(wèn)題。理論上BiLSTM雖然可以獲得輸入語(yǔ)句的命名實(shí)體標(biāo)簽,但是由于無(wú)法建立彼此之間的依賴關(guān)系,因此并不能保證所獲得的命名實(shí)體標(biāo)簽的有效性,而通過(guò)將CRF從訓(xùn)練數(shù)據(jù)中自動(dòng)學(xué)習(xí)得到的標(biāo)簽序列之間的約束條件添加到最終的命名實(shí)體標(biāo)簽,則可以保證預(yù)測(cè)標(biāo)簽的有效性。如圖3所示,BiLSTM-CRF模型由向量層、BiLSTM網(wǎng)絡(luò)層和CRF層3部分組成。對(duì)于一個(gè)輸入句子,首先經(jīng)過(guò)向量層將每個(gè)詞匯或字符映射為一個(gè)詞向量或者字符向量;然后傳入BiLSTM層,獲得句子的前向向量和后向向量;接著將前向向量和后向向量進(jìn)行拼接作為當(dāng)前詞匯或字符的隱藏狀態(tài)向量;最后將包含上下文信息的語(yǔ)義向量輸入到 CRF中進(jìn)行解碼,通過(guò) CRF計(jì)算出序列文本每個(gè)詞語(yǔ)或字符的標(biāo)簽,將具有最高得分的標(biāo)簽序列作為模型預(yù)測(cè)的最好結(jié)果。

Figure 3 Structure of BiLSTM-CRF model圖3 BiLSTM-CRF模型結(jié)構(gòu)圖
基于評(píng)論文本的網(wǎng)購(gòu)評(píng)論分析,利用命名實(shí)體識(shí)別、關(guān)系抽取、情感計(jì)算等方法,獲得消費(fèi)者關(guān)于商品的情感偏好特征,是在線評(píng)論分析中最具代表性的研究?jī)?nèi)容之一,其分析結(jié)果的有用性和可信度對(duì)網(wǎng)購(gòu)活動(dòng)具有重要影響。BiLSTM-CRF模型應(yīng)用于網(wǎng)購(gòu)評(píng)論分析,通過(guò)自動(dòng)學(xué)習(xí)上下文語(yǔ)義信息,一定程度上克服了對(duì)人工選取特征和專家知識(shí)的依賴[25],同時(shí)利用CRF計(jì)算輸出標(biāo)簽序列的全局概率,進(jìn)一步提高了命名實(shí)體識(shí)別的準(zhǔn)確率。但在現(xiàn)實(shí)情境下,不同類別消費(fèi)者對(duì)商品或其屬性作出的評(píng)價(jià)所產(chǎn)生的實(shí)際影響往往存在很大差異,由于BiLSTM-CRF模型并未考慮到不同詞的特征向量對(duì)命名實(shí)體識(shí)別的貢獻(xiàn)程度,因此無(wú)法保證識(shí)別結(jié)果的有用性和可信度。
近年來(lái),注意力機(jī)制被廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域中,其在文本處理中的特點(diǎn)是為重要的文字特征賦予較高的權(quán)重,而多頭注意力機(jī)制可依據(jù)特征向量的重要程度,從多角度綜合計(jì)算特征向量的權(quán)重,可有效解決特征向量的賦權(quán)問(wèn)題,提高命名實(shí)體識(shí)別效率。綜上所述,本文借鑒多頭注意力機(jī)制,基于詞匯貢獻(xiàn)度和雙向長(zhǎng)短時(shí)記憶條件隨機(jī)場(chǎng)提出一種基于MA-BiLSTM-CRF模型的網(wǎng)購(gòu)評(píng)論命名實(shí)體識(shí)別方法,以實(shí)現(xiàn)從眾多命名實(shí)體標(biāo)簽中選擇出對(duì)網(wǎng)購(gòu)評(píng)論分析任務(wù)目標(biāo)更關(guān)鍵的命名實(shí)體標(biāo)簽。

Figure 4 MA-BiLSTM-CRF model structure and named entity recognition process圖4 MA-BiLSTM-CRF模型結(jié)構(gòu)與命名實(shí)體識(shí)別過(guò)程
MA-BiLSTM-CRF模型結(jié)構(gòu)如圖4所示,包括輸入層、向量層、BiLSTM層、多頭注意力機(jī)制層和CRF層。
(1)輸入層。
輸入層對(duì)原始網(wǎng)購(gòu)評(píng)論文本進(jìn)行數(shù)據(jù)清洗降噪、分詞、詞性標(biāo)注和命名實(shí)體標(biāo)注等預(yù)處理,得到符合模型要求的數(shù)據(jù)集。首先,對(duì)網(wǎng)購(gòu)評(píng)論文本的結(jié)構(gòu)特征進(jìn)行大數(shù)據(jù)統(tǒng)計(jì)分析,基于分析結(jié)果去除評(píng)論文本中過(guò)短、過(guò)長(zhǎng)的評(píng)論和與商品內(nèi)容無(wú)關(guān)的評(píng)論;然后,對(duì)其進(jìn)行分詞和詞性標(biāo)注處理;最后,對(duì)其進(jìn)行命名實(shí)體人工標(biāo)注。考慮到網(wǎng)購(gòu)評(píng)論的口語(yǔ)化特征,本文通過(guò)提取特定商品評(píng)論常用詞構(gòu)建自定義詞典庫(kù),以提高分詞及詞性標(biāo)注的準(zhǔn)確率。
(2)向量層。

(3)BiLSTM層。
BiLSTM層通過(guò)前向LSTM層和后向LSTM層連接同一輸出層,充分利用上下文信息以獲得網(wǎng)購(gòu)評(píng)論中每個(gè)詞所對(duì)應(yīng)的不同命名實(shí)體標(biāo)簽的概率。
步驟1計(jì)算前向LSTM。
(1)
步驟2計(jì)算后向LSTM 。
(2)
步驟3將前向和后向的ht拼接作為多頭注意力。
(3)
其中,xt是t時(shí)刻向量層的輸出向量,即BiLSTM層t時(shí)刻的輸入向量;ct-1是t-1時(shí)刻記憶細(xì)胞的狀態(tài);ht-1是t-1時(shí)刻LSTM層輸出向量;ct是t時(shí)刻的記憶細(xì)胞狀態(tài);ht是t時(shí)刻BiLSTM層的輸出向量,該層的輸出向量序列構(gòu)成的矩陣記為H=(h1,…,hi,…,ht)。
(4)多頭注意力機(jī)制層。
最近幾年注意力機(jī)制在圖像處理、語(yǔ)音識(shí)別、機(jī)器翻譯等深度學(xué)習(xí)的各個(gè)領(lǐng)域被廣泛使用。鑒于現(xiàn)實(shí)情境下,網(wǎng)購(gòu)評(píng)論中的每個(gè)特征向量對(duì)命名實(shí)體識(shí)別的實(shí)際貢獻(xiàn)率不同,本文在傳統(tǒng)BiLSTM-CRF模型中通過(guò)引入多次自注意力(Self-Attention)計(jì)算機(jī)制,即多頭注意力機(jī)制層,為輸入序列的不同詞語(yǔ)賦予不同的權(quán)重,以保證在計(jì)算能力有限的情況下,使模型快速收斂于需要重點(diǎn)關(guān)注的命名實(shí)體標(biāo)簽。
如圖5所示,多頭注意力機(jī)制以BiLSTM層的輸出矩陣H作為輸入,主要由查詢矩陣Q、鍵矩陣K、值矩陣V和縮放點(diǎn)積注意力(Scaled Dot-Product Attention)組成[26],其計(jì)算過(guò)程如下所示:
步驟1對(duì)Q、K、V分別進(jìn)行線性映射。
(4)
(5)
(6)


Figure 5 Structure of multi-head attention mechanism圖5 多頭注意力機(jī)制結(jié)構(gòu)
步驟2計(jì)算縮放點(diǎn)積注意力。
首先,對(duì)Q′和K′中的每個(gè)向量通過(guò)點(diǎn)積的方式進(jìn)行相似性計(jì)算。

最后,根據(jù)得到的權(quán)重系數(shù)對(duì)V′進(jìn)行加權(quán)求和。
(7)
步驟3計(jì)算多頭注意力。
將步驟1和步驟2循環(huán)計(jì)算h次得到的縮放點(diǎn)積注意力結(jié)果進(jìn)行拼接,再進(jìn)行一次線性映射得到h頭注意力的計(jì)算結(jié)果值M:
M=Concat(M1,…,Mi,…,Mh)
(8)
(5)CRF層。
CRF層通過(guò)引入狀態(tài)轉(zhuǎn)移矩陣獲得實(shí)體標(biāo)簽之間的依賴關(guān)系,以提高命名實(shí)體識(shí)別效果,計(jì)算過(guò)程如下所示:
步驟1給定網(wǎng)購(gòu)評(píng)論語(yǔ)句(s1,…,si,…,sn),其中si表示網(wǎng)購(gòu)評(píng)論語(yǔ)句的第i個(gè)詞語(yǔ),使用CRF計(jì)算其所有的實(shí)體標(biāo)簽序列(y1,…,yi,…,yn)的概率為:
(9)
其中,Tyi-1,yi表示從實(shí)體標(biāo)簽yi-1成功轉(zhuǎn)移到實(shí)體標(biāo)簽yi的分?jǐn)?shù);Mi,yi是多頭注意力機(jī)制層輸出的矩陣元素,表示網(wǎng)購(gòu)評(píng)論語(yǔ)句中第i個(gè)詞語(yǔ)為實(shí)體標(biāo)簽yi的概率;Z(X)為規(guī)范化因子。
(10)

步驟2使用Viterbi算法[27]判斷最有可能出現(xiàn)的標(biāo)簽序列,并將其作為最終的命名實(shí)體識(shí)別的標(biāo)注結(jié)果。
本節(jié)對(duì)所提出的方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)基礎(chǔ)語(yǔ)料來(lái)自于某電商平臺(tái)2017年4月28日至2018年6月28日某品牌型號(hào)手機(jī)的11 536條網(wǎng)購(gòu)評(píng)論相關(guān)信息,包括商品ID、商品名稱、店鋪名稱、商品價(jià)格、商品月銷量、總評(píng)論數(shù)、評(píng)論內(nèi)容、評(píng)論時(shí)間、商品評(píng)分、店鋪服務(wù)評(píng)分、物流評(píng)分、追評(píng)數(shù)、評(píng)論中圖片數(shù)量等信息。首先,本文對(duì)上述網(wǎng)購(gòu)評(píng)論進(jìn)行預(yù)處理,主要包括去噪、分詞處理和詞性標(biāo)注3個(gè)部分,然后通過(guò)人工標(biāo)注的方法對(duì)預(yù)處理后的詞進(jìn)行標(biāo)簽化處理,即將指代商品一般特性的詞作為屬性詞,標(biāo)注為A;將指代商品屬性所持意見(jiàn)的詞作為觀點(diǎn)詞,標(biāo)注為V;將程度副詞標(biāo)注為C;將其他詞和標(biāo)點(diǎn)符號(hào)統(tǒng)一標(biāo)注為O。經(jīng)上述處理后形成的實(shí)驗(yàn)數(shù)據(jù)實(shí)例如表1所示,其中,n表示名詞;d表示副詞;a表示形容詞等。隨機(jī)選取其中的80%組成訓(xùn)練集,剩余20%組成測(cè)試集,各類別的標(biāo)簽標(biāo)注數(shù)量如表2所示。

Table 1 Example of experimental data表1 實(shí)驗(yàn)數(shù)據(jù)實(shí)例

Table 2 Label quantity of experimental data表2 實(shí)驗(yàn)數(shù)據(jù)標(biāo)簽標(biāo)注數(shù)量
本文采用準(zhǔn)確率(P)、召回率(R)和F1值3種在命名實(shí)體識(shí)別領(lǐng)域通用的評(píng)價(jià)指標(biāo)來(lái)對(duì)所提出方法的性能進(jìn)行評(píng)估。3種評(píng)價(jià)指標(biāo)具體定義為:
(11)
(12)
(13)
針對(duì)實(shí)驗(yàn)語(yǔ)料特征選擇一組合適的超參數(shù)對(duì)于模型性能尤為重要。通過(guò)多次對(duì)比實(shí)驗(yàn)不斷調(diào)整優(yōu)化參數(shù),模型表現(xiàn)最好的超參數(shù)設(shè)置方案如表3所示。

Table 3 Super parameter setting表3 超參數(shù)設(shè)置
為驗(yàn)證本文方法的有效性,將其與CRF、LSTM、BiLSTM、BiLSTM+CRF進(jìn)行了5組對(duì)比實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果如表4所示。

Table 4 Comparison of experimental results between the method in this paper and the mainstream methods表4 本文方法與主流方法的實(shí)驗(yàn)結(jié)果對(duì)比 %
從實(shí)驗(yàn)結(jié)果可以看出,首先LSTM同CRF相比,其準(zhǔn)確率、召回率和F1值分別提高了4.73%,7.24%和5.57%。可見(jiàn),在命名實(shí)體識(shí)別中LSTM比CRF更有優(yōu)勢(shì),具有更好的遠(yuǎn)程依賴關(guān)系,更能充分地提取和利用評(píng)論文本中的特征。其次,BiLSTM同LSTM相比,其準(zhǔn)確率、召回率和F1值都有所提高,可見(jiàn),BiLSTM通過(guò)正向LSTM和反向LSTM疊加,既保存了評(píng)論文本中過(guò)去的特征信息,又保存了文本中未來(lái)的特征信息,從而更充分地利用了上下文特征信息,其效果要優(yōu)于單向LSTM。通過(guò)BiLSTM和BiLSTM-CRF對(duì)比分析發(fā)現(xiàn),加入了CRF的BiLSTM比單一BiLSTM具有更好的效果,說(shuō)明CRF模塊能夠通過(guò)聯(lián)合概率的計(jì)算,更加充分地利用標(biāo)簽的相鄰信息和標(biāo)簽之間的依賴關(guān)系,為BiLSTM預(yù)測(cè)的標(biāo)簽添加限制,減少BiLSTM識(shí)別的錯(cuò)誤結(jié)果。
相比于上述方法,本文提出的方法由于在BiLSTM-CRF基礎(chǔ)上進(jìn)一步引入了多頭注意力機(jī)制,不僅可以獲取文本的局部特征,而且實(shí)現(xiàn)了從多角度、多層面計(jì)算不同詞的特征向量的權(quán)重,提高重要特征的權(quán)重,從而抑制無(wú)用信息。盡管本文提出的方法增加了部分計(jì)算量和模型的復(fù)雜度,但是有效地解決了不同詞的特征向量對(duì)命名實(shí)體識(shí)別的貢獻(xiàn)程度不同以及特征抽取不全面的問(wèn)題,并在實(shí)驗(yàn)數(shù)據(jù)集上取得了更好的性能表現(xiàn)。
本文針對(duì)中文網(wǎng)購(gòu)評(píng)論命名實(shí)體識(shí)別過(guò)程中重要詞匯可能被忽略而導(dǎo)致的后續(xù)分析任務(wù)效用下降問(wèn)題,在深度學(xué)習(xí)模型BiLSTM-CRF的基礎(chǔ)上,通過(guò)引入多頭注意力機(jī)制,提出了一種多頭注意力機(jī)制和BiLSTM-CRF模型相結(jié)合的中文網(wǎng)購(gòu)評(píng)論命名實(shí)體識(shí)別方法MA-BiLSTM-CRF,以提高網(wǎng)購(gòu)評(píng)論中關(guān)鍵命名實(shí)體識(shí)別的效率和準(zhǔn)確率。該方法在真實(shí)實(shí)驗(yàn)語(yǔ)料上取得了較好的實(shí)驗(yàn)效果。從如何更好地服務(wù)于網(wǎng)購(gòu)評(píng)論分析的最終目的出發(fā),進(jìn)一步提高關(guān)鍵性命名實(shí)體識(shí)別的準(zhǔn)確率和識(shí)別效率將是下一步的重點(diǎn)研究工作。