999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

支持背景知識(shí)的多維端到端短語(yǔ)識(shí)別算法研究

2022-04-21 05:17:32劉譯鍵占志強(qiáng)
關(guān)鍵詞:特征提取模型

劉 廣,涂 剛,李 政,劉譯鍵,占志強(qiáng)

華中科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430074

隨著即時(shí)通信、微博、論壇、朋友圈等的快速流行,人們?cè)诰W(wǎng)絡(luò)上發(fā)布的文字信息也越來(lái)越多。這些文字信息蘊(yùn)含極大的價(jià)值,它們是分析社會(huì)整體及公眾個(gè)體的觀點(diǎn)、喜好、情緒、趨勢(shì)等的入口。快速準(zhǔn)確地分析文字信息,是自然語(yǔ)言處理研究的目標(biāo)。

目前,實(shí)體識(shí)別與依存關(guān)系分析,采用的主要是基于監(jiān)督學(xué)習(xí)的深度端到端方法。這種方法存在一些不足。首先,不能借助背景知識(shí),比如:“中華人民共和國(guó)”是知識(shí)庫(kù)中已知實(shí)體名稱,但是算法模型不能方便地導(dǎo)入這些知識(shí)庫(kù)信息;其次,不能很好地識(shí)別出語(yǔ)言的多粒度、嵌套特征。比如:“中華人民共和國(guó)國(guó)務(wù)院”,包括“中華人民共和國(guó)”“國(guó)務(wù)院”“中華人民共和國(guó)國(guó)務(wù)院”等多粒度、嵌套的實(shí)體名稱,但是端到端模型只能預(yù)測(cè)出單一的標(biāo)簽;再者,一個(gè)端到端模型只能完成一類預(yù)測(cè)任務(wù),不能同時(shí)預(yù)測(cè)命名實(shí)體以及它們之間的依存關(guān)系。

為了解決這些問(wèn)題,只能從源頭上入手:改變標(biāo)注規(guī)則,同時(shí)設(shè)計(jì)更加合適的算法。本文首先提出了基于短語(yǔ)窗口的標(biāo)注規(guī)則。該標(biāo)注規(guī)則既可以表示語(yǔ)言的多粒度、嵌套關(guān)系,又可以表示語(yǔ)言片段之間的依存關(guān)系。然后,使用該規(guī)則,標(biāo)注了各種類型的句子數(shù)據(jù)集,把這個(gè)數(shù)據(jù)集稱為中文短語(yǔ)窗口數(shù)據(jù)集(Chinese phrase window dataset,CPWD)。最后,設(shè)計(jì)了相應(yīng)的算法。新的算法采用多維輸入和多維輸出的端到端模型,可以把背景知識(shí)作為信息輸入,同時(shí),識(shí)別出多粒度、嵌套短語(yǔ),以及短語(yǔ)之間的依存關(guān)系,對(duì)應(yīng)模型稱為多維端到端模型(multi-dimensional end-to-end model,MDM)。實(shí)驗(yàn)的結(jié)果表明,該標(biāo)注規(guī)則方便易用;MDM模型比端到端模型更加適用于語(yǔ)法的多粒度與多樣性特征,準(zhǔn)確性有明顯提高。

1 相關(guān)工作

語(yǔ)塊分析體系最早是由Abney在1991年提出的語(yǔ)塊描述體系[1],之后Kudo等[2]提出了一種基于支持向量機(jī)的語(yǔ)塊自動(dòng)分析方法;同時(shí),Shen等[3]提出了一種投票分類策略,將多種不同的數(shù)據(jù)表示和多種訓(xùn)練模型結(jié)合在一起,根據(jù)投票分類策略確定最終結(jié)果;此外,Mancev等[4]提出了一種處理支持向量機(jī)非凸結(jié)構(gòu)的斜率損失的最小化問(wèn)題的序列雙向方法。在漢語(yǔ)的語(yǔ)塊分析方面,周強(qiáng)等[5-6]構(gòu)造了基于規(guī)則的漢語(yǔ)基本塊分析器,并設(shè)計(jì)了相應(yīng)的基本塊規(guī)則,給出了一整套解決方案,提高了基于規(guī)則的基本塊分析器的性能;此外,李超等[7]應(yīng)用最大熵模型和馬爾科夫模型構(gòu)建了一套漢語(yǔ)基本塊的分布識(shí)別系統(tǒng)。

深度學(xué)習(xí)方法出現(xiàn)后,短語(yǔ)識(shí)別研究迎來(lái)了快速發(fā)展。Chiu等[8]使用雙向LSTM提取文本全局特征,同時(shí),使用CNN提取單詞的特征,進(jìn)行名詞短語(yǔ)實(shí)體的識(shí)別;Kuru等[9]使用Stacked Bidirectional LSTMs提取文本全局特征進(jìn)行名詞短語(yǔ)實(shí)體識(shí)別,取得了較大進(jìn)展;侯瀟琪等[10]利用深度模型,將詞的分布表征作為模型的輸入特征維度,用于基本短語(yǔ)識(shí)別任務(wù)中,比使用傳統(tǒng)的詞特征表示方法提高明顯;李國(guó)臣等[11]以字作為標(biāo)注單元和輸入特征,基于深層模型研究短語(yǔ)的識(shí)別問(wèn)題,并將基于C&W和Word2Vec兩種方法訓(xùn)練得到的字分布表征作為模型的特征參數(shù),避免了對(duì)分詞及詞性標(biāo)注結(jié)果的依賴;徐菁[12]利用知識(shí)圖譜,提出基于主題模型和語(yǔ)義分析的無(wú)監(jiān)督的名詞短語(yǔ)實(shí)體指稱識(shí)別方法,同時(shí)具備短語(yǔ)邊界檢測(cè)和短語(yǔ)分類功能;程鐘慧等[13]提出了一種基于強(qiáng)化學(xué)習(xí)的協(xié)同訓(xùn)練框架,在少量標(biāo)注數(shù)據(jù)的情況下,無(wú)須人工參與,利用大量無(wú)標(biāo)注數(shù)據(jù)自動(dòng)提升模型性能,從非結(jié)構(gòu)化大數(shù)據(jù)集中抽取有意義的名詞短語(yǔ)。

語(yǔ)法依存最早是著名的法國(guó)語(yǔ)言學(xué)家特思尼耶爾在《怎樣建立一種句法》一書(shū)談到,我國(guó)學(xué)者徐烈炯[14]認(rèn)為,語(yǔ)義角色是一個(gè)“句法-語(yǔ)義”接口概念,而不是單純的語(yǔ)義概念;劉宇紅[15]提出語(yǔ)義和語(yǔ)法雙向互動(dòng)的觀點(diǎn);孫道功[16]基于詞匯義征和范疇義征的分析,研究了詞匯與句法的銜接機(jī)制;亢世勇等[17]通過(guò)構(gòu)建“現(xiàn)代漢語(yǔ)句法語(yǔ)義信息語(yǔ)料庫(kù)”,研究了義類不同的體詞在施事(主語(yǔ)、賓語(yǔ)、狀語(yǔ))和受事(主語(yǔ)、賓語(yǔ)、狀語(yǔ))六個(gè)語(yǔ)塊的分布特點(diǎn)。這其中還包括哈工大、百度、清華等團(tuán)隊(duì)的語(yǔ)法分類貢獻(xiàn)。

在語(yǔ)法分析方面,McDonald等[18]提出了基于圖模型的依存句法分析器MSTParser;Nivre等[19]提出了基于轉(zhuǎn)移模型的依存句法分析器MaltParser;Ren等[20]對(duì)MaltParser依存句法分析器的Nivre算法進(jìn)行了優(yōu)化,有效地改進(jìn)了在漢語(yǔ)中難以解決的長(zhǎng)距離依存等問(wèn)題;車萬(wàn)翔等[21]對(duì)MSTParser依存句法分析器進(jìn)行了改進(jìn),使用了圖模型中的高階特征,提高了依存句法分析的精度;Dyer等[22]在基于轉(zhuǎn)移模型的依存句法分析框架上運(yùn)用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò),將傳統(tǒng)的棧、隊(duì)列、轉(zhuǎn)移動(dòng)作序列看作3個(gè)LSTM細(xì)胞單元,將所有轉(zhuǎn)移的歷史均記錄在LSTM中,改進(jìn)了長(zhǎng)距離依存問(wèn)題;Ji等[23]開(kāi)發(fā)了一種依賴樹(shù)節(jié)點(diǎn)表示形式,可以捕獲高階信息,通過(guò)使用圖神經(jīng)網(wǎng)絡(luò)(GNN),解析器可以在PTB上實(shí)現(xiàn)最佳的UAS和LAS;Wang等[24]提出了一種基于神經(jīng)過(guò)渡的解析器,通過(guò)使用基于列表的弧躍遷過(guò)渡算法的一種變體,進(jìn)行依賴圖解析,獲得了較好的效果;Fried等[25]通過(guò)強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練基于過(guò)渡的解析器,提出了將策略梯度訓(xùn)練應(yīng)用于幾個(gè)選區(qū)解析器的實(shí)驗(yàn),包括基于RNN過(guò)渡的解析器。

在語(yǔ)義分析方面,丁偉偉等[26]利用CRF在英文語(yǔ)料上能夠利用論元之間的相互關(guān)系、提高標(biāo)注準(zhǔn)確率的特點(diǎn),將其運(yùn)用到中文命題庫(kù),使用CRF對(duì)中文語(yǔ)義組塊分類,取得好的效果;王麗杰[27]提出了基于圖的自動(dòng)漢語(yǔ)語(yǔ)義分析方法,使用哈工大構(gòu)建的漢語(yǔ)語(yǔ)義依存樹(shù)庫(kù)完成了依存弧和語(yǔ)義關(guān)系的分析;王倩等[28]基于謂詞和句義類型塊,使用支持向量機(jī)的語(yǔ)義角色對(duì)句子的句義類型進(jìn)行識(shí)別,也有一定的啟發(fā)意義。

綜上,傳統(tǒng)方法存在一些不足。首先,不能引入背景知識(shí);其次,不能很好識(shí)別出語(yǔ)言的多粒度、嵌套特征;再者,端到端模型只能完成一類預(yù)測(cè)任務(wù),不能同時(shí)預(yù)測(cè)命名實(shí)體以及它們之間的依存關(guān)系。

為了解決這些問(wèn)題,從源頭上入手:改變標(biāo)注規(guī)則,同時(shí)設(shè)計(jì)更加合適的算法。本文首先提出了基于短語(yǔ)窗口的標(biāo)注規(guī)則。然后,使用該規(guī)則,標(biāo)注了各種類型的句子數(shù)據(jù)集CPWD。最后,設(shè)計(jì)了相應(yīng)的多維端到端模型MDM。

2 短語(yǔ)標(biāo)注規(guī)范

為了實(shí)現(xiàn)句子的短語(yǔ)識(shí)別與依存關(guān)系分析,制定了一套短語(yǔ)標(biāo)注規(guī)范。該短語(yǔ)標(biāo)注規(guī)范不僅可以對(duì)嵌套短語(yǔ)進(jìn)行標(biāo)注,而且可以反映短語(yǔ)之間的依存關(guān)系。例如嵌套詞語(yǔ):“中國(guó)海軍”,傳統(tǒng)端對(duì)端模型只可以識(shí)別出“中國(guó)”“海軍”或者“中國(guó)海軍”,不可以同時(shí)識(shí)別3個(gè)短語(yǔ)。本文提出的短語(yǔ)標(biāo)注規(guī)范和MDM模型解決了詞語(yǔ)嵌套問(wèn)題。標(biāo)注規(guī)則相對(duì)簡(jiǎn)單,容易推廣。

根據(jù)該規(guī)則,標(biāo)注了中文短語(yǔ)窗口數(shù)據(jù)集CPWD,數(shù)據(jù)集包括45 000條從對(duì)話、新聞、法律、政策、小說(shuō)中挑選的非文言文的中文句子。為了方便模型設(shè)計(jì),句子最大長(zhǎng)度限制在50個(gè)字以內(nèi)。

2.1 短語(yǔ)依存關(guān)系

標(biāo)注規(guī)范將句子中的短語(yǔ)分成:名詞短語(yǔ)、動(dòng)詞短語(yǔ)、數(shù)量詞短語(yǔ)、介詞短語(yǔ)、連詞短語(yǔ)、語(yǔ)氣詞、從句,總共7類基本類型。句子由短語(yǔ)組成,因此7類短語(yǔ)類型通過(guò)樹(shù)狀結(jié)構(gòu)組成句子,即依存關(guān)系。

通常,句子的樹(shù)狀結(jié)構(gòu)由主、謂、賓關(guān)系組成,圖1是句子語(yǔ)法樹(shù)結(jié)構(gòu)圖。(a)句子成分樹(shù):句子“我愛(ài)祖國(guó)”,按照句子語(yǔ)法可以分為主語(yǔ)“我”、謂語(yǔ)“愛(ài)”、賓語(yǔ)“祖國(guó)”;(b)句子原型樹(shù):把“我”“愛(ài)”“祖國(guó)”放到對(duì)應(yīng)的主謂賓位置;(c)短語(yǔ)類別樹(shù):“我”是名詞短語(yǔ),“愛(ài)”是動(dòng)詞短語(yǔ),“祖國(guó)”是名詞短語(yǔ)。

圖1 句子語(yǔ)法樹(shù)結(jié)構(gòu)圖Fig.1 Syntax tree structure

對(duì)于復(fù)雜的句子同樣可以采用這種方法進(jìn)行短語(yǔ)識(shí)別和依存關(guān)系的分析。圖2是復(fù)雜句子的語(yǔ)義單元?jiǎng)澐诌^(guò)程。為了方便介紹,使用“()”表示名詞短語(yǔ),“[]”表示動(dòng)詞短語(yǔ),“{}”表示數(shù)量詞短語(yǔ),“<>”表示介詞短語(yǔ),“##”表示連詞短語(yǔ),“@@”表示語(yǔ)氣詞短語(yǔ),“/”表示從句。

圖2 短語(yǔ)依存關(guān)系Fig.2 Phrase dependency

2.2 短語(yǔ)標(biāo)注規(guī)范

短語(yǔ)類別有名詞短語(yǔ)“()”、動(dòng)詞短語(yǔ)“[]”、數(shù)量詞短語(yǔ)“{}”、介詞短語(yǔ)“<>”、連詞短語(yǔ)“##”、語(yǔ)氣詞短語(yǔ)“@@”、從句“/”。標(biāo)注允許嵌套結(jié)構(gòu)的存在,每種短語(yǔ)類別的標(biāo)注規(guī)則如下。

(1)連詞短語(yǔ)

連詞短語(yǔ)是用來(lái)連接詞與詞、詞組與詞組或句子與句子、表示某種邏輯關(guān)系的虛詞。連詞短語(yǔ)可以表并列、承接、轉(zhuǎn)折、因果、選擇、假設(shè)、比較、讓步等關(guān)系。連詞短語(yǔ)主要成分為連詞。

如:“但是”表轉(zhuǎn)折,“因?yàn)椤薄八浴北硪蚬取?/p>

在標(biāo)注體系中連詞短語(yǔ)一般無(wú)嵌套關(guān)系。

(2)語(yǔ)氣詞短語(yǔ)

語(yǔ)氣詞短語(yǔ)是表示語(yǔ)氣的虛詞,常用在句尾或句中停頓處表示種種語(yǔ)氣。語(yǔ)氣詞短語(yǔ)的主要成分即為語(yǔ)氣詞。

如:“嗎”“吧”“呢”等在詞語(yǔ)、句子末,表示語(yǔ)氣。

在標(biāo)注體系中語(yǔ)氣詞短語(yǔ)一般無(wú)嵌套關(guān)系。

(3)名詞短語(yǔ)

表示人或事物以及時(shí)間、方位等,在句子中主要充當(dāng)主語(yǔ)、賓語(yǔ)、定語(yǔ)。它包括:以名詞為中心詞的偏正短語(yǔ)(如“偉大祖國(guó)”“這些孩子”);用名詞構(gòu)成的聯(lián)合短語(yǔ)(如“工人農(nóng)民”);復(fù)指短語(yǔ)(如“首都北京”);方位短語(yǔ)(如“桌面上”“大樓前面”);“的”字短語(yǔ)(如“打更的老漢”)等。某些名詞短語(yǔ)的中心詞也可以是動(dòng)詞、形容詞,定語(yǔ)可以是代詞、名詞或其他名詞短語(yǔ)。名詞短語(yǔ)的主要成分有多種形式,模板種類復(fù)雜,主要包括以動(dòng)詞、形容詞為中心詞,以代詞、名詞和其他名詞短語(yǔ)為定語(yǔ)而組成的名詞短語(yǔ)。

(4)動(dòng)詞短語(yǔ)

動(dòng)詞短語(yǔ)代表動(dòng)作,包括起修飾作用的狀語(yǔ)與補(bǔ)語(yǔ)。動(dòng)詞短語(yǔ)的主要成分是動(dòng)詞,包括部分修飾狀語(yǔ)。

如:“馬上開(kāi)始了”包括狀語(yǔ)“馬上”,中心動(dòng)詞“開(kāi)始”,補(bǔ)語(yǔ)“了”。

(5)介詞短語(yǔ)

又稱為介賓短語(yǔ),是介詞和其他代詞或名詞或從句搭配形成的短語(yǔ)。介詞短語(yǔ)的主要成分由介詞和名詞短語(yǔ)構(gòu)成。

“在這次考試中”為介詞+名詞短語(yǔ),標(biāo)注為<在({這次}考試中)>。

“被”“把”字句。如:<被(他)>,<把(他)>。

(6)數(shù)量詞短語(yǔ)

數(shù)量短語(yǔ),指由數(shù)詞和量詞組合構(gòu)成的短語(yǔ)。

數(shù)量詞和名詞搭配,如:({一首}動(dòng)聽(tīng)的曲子)。

作為狀語(yǔ),如:[{一蹦一跳}地走著]。

作為補(bǔ)語(yǔ),如:[看了](他){一眼}。

(7)從句

為了標(biāo)注一個(gè)完整的語(yǔ)義單元,需要使用從句結(jié)構(gòu)體現(xiàn)短語(yǔ)間的層次關(guān)系。從句的主要成分較為復(fù)雜,主要成分包括名詞、動(dòng)詞、介詞等,從句允許存在嵌套現(xiàn)象。

兼語(yǔ)句標(biāo)為從句。如“我命令他去外面”,這里“他”既是前面的賓語(yǔ),又是后面的主語(yǔ),標(biāo)注:(我)[命令]/(他)[去](外面)。

連動(dòng)句標(biāo)為從句。如“我出去騎車打球”,“騎車”“打球”為連動(dòng),標(biāo)注為:(我)//[出去]/[騎](車)/[打](球)\。

主語(yǔ)從句、賓語(yǔ)從句。如:(他)[說(shuō)]/(計(jì)算機(jī))[正在改變](世界)。

3 算法

本章詳細(xì)介紹短語(yǔ)多維端到端算法。短語(yǔ)多維端到端算法采用多維輸入,多維輸出的形式。以句子長(zhǎng)度50為例,例句為“我的祖國(guó)是中華人民共和國(guó)”。

多維輸入包括50維,其中,第n維對(duì)應(yīng)的是知識(shí)庫(kù)中的長(zhǎng)度為n的短語(yǔ)的信息,例如:長(zhǎng)度為7的“中華人民共和國(guó)”是知識(shí)庫(kù)中的實(shí)體,第7維輸入對(duì)應(yīng)于“中”字的偏移位置,會(huì)放入實(shí)體分類的標(biāo)記。標(biāo)記類型包括名詞、動(dòng)詞、介詞等多種詞性。

多維輸出包括50維,其中,第n維對(duì)應(yīng)預(yù)測(cè)結(jié)果中的長(zhǎng)度為n的短語(yǔ)類型(7類),例如:長(zhǎng)度為7的“中華人民共和國(guó)”被預(yù)測(cè)成了名詞,則第7維輸出對(duì)應(yīng)于“中”字的偏移位置開(kāi)始的7個(gè)標(biāo)簽,會(huì)預(yù)測(cè)為名詞標(biāo)記。標(biāo)記類型包括7種短語(yǔ)類型。

可見(jiàn),算法可以預(yù)測(cè)多粒度、嵌套短語(yǔ),以及短語(yǔ)依存關(guān)系。下面幾節(jié)詳細(xì)介紹算法對(duì)應(yīng)的模型MDM,包括算法模型基本結(jié)構(gòu)圖,以及具體的背景知識(shí)、分類網(wǎng)絡(luò)、短語(yǔ)分片及依存關(guān)系的應(yīng)用。

3.1 算法流程

算法流程如下。

(1)輸入維度。

使用“我愛(ài)祖國(guó)”字向量作為輸入。字向量以外的50維,需要引入知識(shí)庫(kù)查找結(jié)果:第1維對(duì)應(yīng)標(biāo)簽包括,“我”標(biāo)記為“名詞”,“愛(ài)”標(biāo)記為“動(dòng)詞”;第2維對(duì)應(yīng)標(biāo)簽包括,“祖國(guó)”標(biāo)記為“名詞”;如果有沒(méi)找到的字詞,則標(biāo)記為0。這里并不關(guān)注分詞正確性,只要是知識(shí)庫(kù)找到的詞,都會(huì)作為輸入,即使是錯(cuò)誤的分詞,由模型訓(xùn)練判斷對(duì)錯(cuò)。字詞查找采用AC(Aho-Corasick automaton)樹(shù)算法。

(2)短語(yǔ)特征提取。

通過(guò)特征提取網(wǎng)絡(luò)進(jìn)行特征提取,可以使用語(yǔ)言模型進(jìn)行特征提取。

(3)短語(yǔ)分類。

使用全連接識(shí)別出短語(yǔ)類別與依存關(guān)系。例如:“我”是名詞短語(yǔ),“愛(ài)”是動(dòng)詞短語(yǔ),“祖國(guó)”是名詞短語(yǔ)。

(4)輸出維度。

將50維短語(yǔ)分類預(yù)測(cè)結(jié)果綜合,去除有沖突的預(yù)測(cè),比如長(zhǎng)度與維度不匹配錯(cuò)誤等,使用標(biāo)注符號(hào)表示出來(lái),得到結(jié)果。例如:“(我)[愛(ài)](祖國(guó))”。

3.2 MDM模型

短語(yǔ)算法模型采用多維輸入與多維輸出的端到端模型,識(shí)別短語(yǔ)類別及它們之間的依存關(guān)系。圖3是模型結(jié)構(gòu)圖。主要分為四個(gè)部分:(1)字向量和背景知識(shí)層。字向量是將句子中的字進(jìn)行嵌入的一種方式;背景知識(shí)是使用知識(shí)庫(kù)查詢結(jié)果進(jìn)行標(biāo)示;字向量與背景知識(shí)concat后通過(guò)embedding層輸入。(2)特征提取層。特征提取層負(fù)責(zé)特征的抽取,該層使用Bi-LSTM或者BERT語(yǔ)言模型。(3)分類層。使用特征提取層提取的特征進(jìn)行全連接分類,實(shí)現(xiàn)短語(yǔ)類別預(yù)測(cè)。(4)短語(yǔ)分片及依存關(guān)系層。對(duì)句子中的短語(yǔ)進(jìn)行識(shí)別,同時(shí)解決沖突,預(yù)測(cè)出依存關(guān)系。

圖3 算法結(jié)構(gòu)Fig.3 Algorithm structure

(1)字向量和背景知識(shí)嵌入層

模型輸入是字向量和背景知識(shí)。字向量是通過(guò)word2vec訓(xùn)練得到的一組向量,每個(gè)字向量是256維組成。

背景知識(shí)以標(biāo)記形式輸入,包括分詞與詞性信息。標(biāo)記包含詞性信息,并且,標(biāo)記以B標(biāo)示開(kāi)始位置,而且只在開(kāi)始位置標(biāo)示,與分詞的BIO方式不同,見(jiàn)表1。

表1 輸入標(biāo)記類型Table 1 Input tag type

背景知識(shí)是增加的維度,由50維的知識(shí)編碼形成。其中,第n維對(duì)應(yīng)的是知識(shí)庫(kù)中的長(zhǎng)度為n的短語(yǔ)的信息,例如,句子“一輛汽車停在馬路邊”中,長(zhǎng)度為2的詞包括“一輛”“汽車”“馬路”“路邊”,長(zhǎng)度為3的詞為“馬路邊”,這些是從知識(shí)庫(kù)中的查找獲得的。那么,第2維輸入對(duì)應(yīng)于詞的第一個(gè)字“一”“汽”“馬”“路”的位置,會(huì)放入實(shí)體分類的標(biāo)記,標(biāo)記類型包括名詞、動(dòng)詞、介詞等多種詞性(這里為了方便圖示,簡(jiǎn)化成統(tǒng)一用B代替)。第3維輸入對(duì)應(yīng)“馬”的位置,放入實(shí)體分類的標(biāo)記,代表“馬路邊”是一個(gè)長(zhǎng)度為3的詞。

背景知識(shí)引入了一句話的不同組成成分在知識(shí)庫(kù)中的信息。增加背景知識(shí)后模型能學(xué)到更多的語(yǔ)言特征,可以引入更多的信息來(lái)進(jìn)行監(jiān)督學(xué)習(xí),提高短語(yǔ)識(shí)別和依存關(guān)系的準(zhǔn)確性。引入的知識(shí)庫(kù)分類信息并不需要關(guān)注分詞結(jié)果,而是查找到了對(duì)應(yīng)的詞就把輸入信息加入相應(yīng)維度,由模型訓(xùn)練判斷取舍。如圖4,“馬路邊”在該句里面的正確分詞是“馬路”而不是“路邊”,但是由于知識(shí)庫(kù)中存在“路邊”一詞,所以還是引入到輸入的維度信息中,讓模型訓(xùn)練去習(xí)得規(guī)律。

圖4 背景知識(shí)Fig.4 Background knowledge

實(shí)驗(yàn)證明,這種處理方式可以省略分詞步驟,而且結(jié)果比分詞后進(jìn)行預(yù)測(cè)更準(zhǔn)確。

由于模型輸入的句子長(zhǎng)度限定為50,所以有50維的輸入知識(shí)編碼,對(duì)應(yīng)從最短的(長(zhǎng)度為1)的短語(yǔ)到最長(zhǎng)的(長(zhǎng)度為50)的短語(yǔ)。如圖5所示,第n維背景知識(shí)表示的是長(zhǎng)度為n的詞的知識(shí)編碼,其中第一維、第二維背景知識(shí)大多是一些名詞、動(dòng)詞、介詞等基本詞分類。第三維以后,隨著長(zhǎng)度變長(zhǎng),短語(yǔ)大多是一些實(shí)體名稱,經(jīng)過(guò)訓(xùn)練,發(fā)現(xiàn)模型對(duì)于實(shí)體名稱的權(quán)重設(shè)置較大,遇到長(zhǎng)于3的實(shí)體名稱,都可以正確識(shí)別,而且可以識(shí)別出多粒度、嵌套的實(shí)體名稱與各類短語(yǔ)。

圖5 多維背景知識(shí)輸入標(biāo)記舉例Fig.5 Examples of multi-dimensional background knowledge input tags

用B-ming、B-dong等標(biāo)示名詞、動(dòng)詞的起始位置,如圖5的方式進(jìn)行輸入編碼:“馬路邊”是名詞,“在馬路邊”是介詞短語(yǔ),“一輛”是數(shù)詞,“一輛汽車”是名詞。嵌套與依存關(guān)系都蘊(yùn)含在這種標(biāo)示中。

(2)特征提取層

特征提取層負(fù)責(zé)短語(yǔ)特征的提取,特征提取比較成熟,可以選用卷積神經(jīng)網(wǎng)絡(luò)、雙向長(zhǎng)短記憶網(wǎng)絡(luò)Bi-LSTM、BERT等來(lái)實(shí)現(xiàn)特征抽取。目前測(cè)試最佳的網(wǎng)絡(luò)架構(gòu)是BERT與Bi-LSTM的組合。經(jīng)過(guò)特征提取網(wǎng)絡(luò)后,輸出的是512維的隱層權(quán)值向量,特征提取提取的結(jié)果將被用于后續(xù)的分類網(wǎng)絡(luò)。

(3)分類層

對(duì)特征提取層提取到的特征進(jìn)行全連接,輸出50維的預(yù)測(cè)標(biāo)簽,輸出第n維對(duì)應(yīng)的是長(zhǎng)度為n的短語(yǔ);標(biāo)簽是分詞常用的B/I組合方式,其中B代表開(kāi)始字,I代表后續(xù)的字,如:三個(gè)字“馬路邊”在第三維輸出,對(duì)應(yīng)的標(biāo)簽是“B-ming I-ming I-ming”,這里與輸入層只用B作為標(biāo)記不同,如圖6。

圖6 短語(yǔ)及依存關(guān)系識(shí)別Fig.6 Phrases and dependency recognition

多維輸出包括50維,其中第n維對(duì)應(yīng)預(yù)測(cè)結(jié)果中的長(zhǎng)度為n的短語(yǔ)類型(7類),例如:長(zhǎng)度為7的“中華人民共和國(guó)”被預(yù)測(cè)成了名詞,則第7維輸出對(duì)應(yīng)于“中”字的偏移位置,會(huì)輸出名詞標(biāo)記,標(biāo)記類型包括7種短語(yǔ)類型,除從句外其他6種如表2。

表2 輸出標(biāo)記類型Table 2 Output tag type

(4)短語(yǔ)識(shí)別及依存關(guān)系層

該層對(duì)判斷后的短語(yǔ)類型進(jìn)行輸出。輸出50維的短語(yǔ)識(shí)別和依存關(guān)系結(jié)果,其中有錯(cuò)誤的地方。比如:第2維輸出了一個(gè)“B-ming I-ming I-ming”長(zhǎng)度為三個(gè)字的預(yù)測(cè)標(biāo)簽,即使采用CRF層也無(wú)法避免,需要把這種標(biāo)簽去掉。此外,還有預(yù)測(cè)沖突與錯(cuò)誤的標(biāo)簽,比如:以I開(kāi)頭的標(biāo)簽。該層對(duì)這些問(wèn)題進(jìn)行統(tǒng)一整理,然后輸出一致的預(yù)測(cè)標(biāo)簽,同時(shí)生成類似“(我)[愛(ài)](祖國(guó))”的預(yù)測(cè)結(jié)果。

(5)損失函數(shù)

損失函數(shù),由輸出的所有維度決定。采用交叉熵函數(shù),通過(guò)交叉熵來(lái)計(jì)算預(yù)測(cè)的結(jié)果和標(biāo)簽之間的距離。式(1)是損失函數(shù),其中M是短語(yǔ)類別數(shù)量,即M=7,yc是真實(shí)分布,pc是預(yù)測(cè)結(jié)果的分布。總的loss是50維loss的求和。

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)集與評(píng)估標(biāo)準(zhǔn)

實(shí)驗(yàn)數(shù)據(jù)集使用標(biāo)注的中文短語(yǔ)窗口數(shù)據(jù)集CPWD,包括45 000條從對(duì)話、新聞、法律、政策、小說(shuō)中挑選的中文句子。其中文言文只占不到5%比例,多是一些成語(yǔ)與諺語(yǔ)組成的句子。為了方便模型設(shè)計(jì),句子最大長(zhǎng)度限制在50個(gè)字以內(nèi)。在數(shù)據(jù)集劃分上,劃分訓(xùn)練集/驗(yàn)證集/測(cè)試集,分別為43 000條、1 000條和1 000條,在訓(xùn)練過(guò)程中,針對(duì)訓(xùn)練集和驗(yàn)證集采用了交叉驗(yàn)證方式訓(xùn)練。

傳統(tǒng)端到端的結(jié)果統(tǒng)計(jì),主要根據(jù)每個(gè)字預(yù)測(cè)得到標(biāo)簽的情況。這樣的統(tǒng)計(jì)方式存在偏差,不如按照短語(yǔ)統(tǒng)計(jì)準(zhǔn)確,比如:“中華人民共和國(guó)”命名實(shí)體的標(biāo)簽是“BIIIIII”為正確,如果預(yù)測(cè)結(jié)果是“BIIIBII”,那么存在一個(gè)標(biāo)簽錯(cuò)誤。按照傳統(tǒng)方式統(tǒng)計(jì),只算7個(gè)標(biāo)簽中出現(xiàn)了一次錯(cuò)誤;按照短語(yǔ)方式統(tǒng)計(jì),“BIIIIII”全對(duì)為正確,“BIIIBII”為錯(cuò)誤,即有一個(gè)標(biāo)簽錯(cuò)誤,整個(gè)短語(yǔ)的預(yù)測(cè)是錯(cuò)誤的,這樣更加準(zhǔn)確合理。

4.2 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)采用Python語(yǔ)言實(shí)現(xiàn),python版本為3.6.1。使用的框架為T(mén)ensorFlow,版本為1.12.0。使用的電腦配置為內(nèi)存:32 GB,處理器:Intel Xeon?CPU E5-2623 v3@3.00 GHz×8,顯卡:TITAN Xp,操作系統(tǒng)類型:ubuntu14.04 64-bit。

4.3 實(shí)驗(yàn)分析

首先,MDM在多種網(wǎng)絡(luò)結(jié)構(gòu)或者數(shù)據(jù)形式的情況下進(jìn)行對(duì)比優(yōu)化,同時(shí),在準(zhǔn)確性和時(shí)間上做一個(gè)均衡。在序列標(biāo)注模型中,典型的特征抽取器包括有Bi-LSTM[29]、BERT模型[30]、Transformer[31]等。雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)是序列建模中最常用的架構(gòu)之一,結(jié)構(gòu)上包括2個(gè)LSTM單元,用2組不同參數(shù)模擬前向和后向序列。Transformer結(jié)構(gòu)最初被用于序列轉(zhuǎn)換(sequence to sequence)問(wèn)題,在這問(wèn)題上它比RNN、CNN結(jié)構(gòu)更有優(yōu)勢(shì)。同時(shí),Transformer的Encoder模塊可用于序列標(biāo)注任務(wù)。Jacob等人提出的BERT預(yù)訓(xùn)練模型,就是基于Transformer的Encoder模塊堆疊而成。因此,優(yōu)化方法包括采用雙層BiLSTM,采用BERT代替BiLSTM,使用CRF層,在BiLSTM層之前加入CNN層進(jìn)行特征抽取,在特征抽取層之后加入Transformer結(jié)構(gòu),選取不同比例的反例,輸入維度不同等。CPWD的測(cè)試集的實(shí)驗(yàn)結(jié)果如表3所示。

表3 MDM優(yōu)化過(guò)程對(duì)比Table 3 MDM optimization process comparison

從結(jié)果可以看出,最優(yōu)的模型結(jié)構(gòu)是50維輸入,1∶2正反例,BERT+CRF。但是考慮到運(yùn)行效率和資源占用情況,在做實(shí)驗(yàn)或者工程部署的時(shí)候,建議采用的模型是50維輸入,1∶2正反例,BiLSTM+Transformer。

Loss值收斂情況在BERT、BiLSTM兩種最優(yōu)模型之間進(jìn)行比較,收斂情況如圖7,可以看到,BiLSTM收斂快些,BERT語(yǔ)言模型的收斂慢,一個(gè)epoch的訓(xùn)練時(shí)間也長(zhǎng)些。在實(shí)際部署中,推薦使用BiLSTM作為特征提取層,可以提高效率。

圖7 Loss收斂情況圖Fig.7 Loss Convergence

4.4 對(duì)比實(shí)驗(yàn)結(jié)果

由于各種端到端算法輸出與標(biāo)簽形式有不同,所以將標(biāo)簽形式調(diào)整成在統(tǒng)一的方式下進(jìn)行對(duì)比。MDM模型輸出標(biāo)簽比端到端多,附帶有嵌套等信息,所以需要進(jìn)行降維處理,之后與端到端模型進(jìn)行對(duì)比。降維后可以形成命名實(shí)體標(biāo)簽、依存標(biāo)簽,分別與BiLSTM、BERT等端到端算法進(jìn)行對(duì)比。同上,表4為不同模型在CPWD數(shù)據(jù)集上的F1測(cè)試結(jié)果。

表4 對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Comparative experiment result %

從表4可以看到MDM模型比傳統(tǒng)端到端有優(yōu)勢(shì)。這種優(yōu)勢(shì)的產(chǎn)生,分析是由于MDM更適合語(yǔ)言多樣性,使得模型不用在嵌套的命名實(shí)體之間做多選一的抉擇,降低了模型的困惑度;而且,MDM可以預(yù)測(cè)語(yǔ)法依存關(guān)系,模型不需要進(jìn)行降維映射,所以就不會(huì)造成特征的丟失,也因此獲得了更高的準(zhǔn)確性。同時(shí),將SWM模型用于CCL2018的中文隱喻情感分析任務(wù)中,通過(guò)抽取名詞短語(yǔ)、動(dòng)詞短語(yǔ)、介詞短語(yǔ)和語(yǔ)氣詞短語(yǔ),分析不同實(shí)體詞對(duì)應(yīng)的正負(fù)面情感詞,并將此作為情感分類模型輸入的一部分進(jìn)行模型優(yōu)化,在原有模型基礎(chǔ)上提升了1個(gè)百分點(diǎn)以上,并在比賽中獲得了第一名的成績(jī)。

5 總結(jié)

針對(duì)傳統(tǒng)端到端算法的一些問(wèn)題,從源頭上入手:改變標(biāo)注規(guī)則,同時(shí)設(shè)計(jì)更加合適的算法。首先提出了基于短語(yǔ)窗口的標(biāo)注規(guī)則。該標(biāo)注規(guī)則既可以標(biāo)示語(yǔ)言的多粒度、嵌套關(guān)系,又可以標(biāo)示語(yǔ)言片段之間的依存關(guān)系。然后,使用該規(guī)則,標(biāo)注了包括各種類型句子的數(shù)據(jù)集CPWD。最后,設(shè)計(jì)了多維端到端模型,可以把背景知識(shí)作為信息輸入,同時(shí),識(shí)別出多粒度、嵌套短語(yǔ),以及短語(yǔ)之間的依存關(guān)系。實(shí)驗(yàn)的結(jié)果表明,該標(biāo)注規(guī)則方便易用;MDM模型比端到端模型更加適用于語(yǔ)法的多粒度與多樣性特征,引入背景知識(shí)后,準(zhǔn)確性有明顯提高。

猜你喜歡
特征提取模型
一半模型
特征提取和最小二乘支持向量機(jī)的水下目標(biāo)識(shí)別
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP腦電特征提取算法
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 九九热在线视频| 全裸无码专区| 国产综合另类小说色区色噜噜| 青青草国产在线视频| 毛片久久网站小视频| 色综合久久久久8天国| 欧美狠狠干| 亚洲一区二区三区麻豆| 欧美精品在线免费| 天天色天天综合| 亚洲第一成年人网站| 国产丝袜91| 久无码久无码av无码| 依依成人精品无v国产| 国产成年女人特黄特色大片免费| 亚洲精品欧美重口| 亚洲va视频| 一区二区三区四区在线| 免费一级无码在线网站| 99久久精品国产自免费| 欧美va亚洲va香蕉在线| 久草青青在线视频| 日韩av无码DVD| 成人国产一区二区三区| 亚洲人成在线精品| 在线看免费无码av天堂的| vvvv98国产成人综合青青| 国产波多野结衣中文在线播放| 亚洲成人77777| 亚洲性日韩精品一区二区| 亚洲无码免费黄色网址| 91po国产在线精品免费观看| 日本亚洲成高清一区二区三区| 久久久久无码精品国产免费| 婷婷中文在线| 亚洲中久无码永久在线观看软件 | 伊人色天堂| 日韩区欧美区| 日韩在线永久免费播放| 国产Av无码精品色午夜| 久久久精品无码一二三区| 国产麻豆福利av在线播放| 毛片在线看网站| 99re视频在线| 亚洲网综合| 国产欧美综合在线观看第七页| 国内熟女少妇一线天| 97狠狠操| 欧美亚洲国产一区| 日韩高清一区 | 无码免费视频| 91精品久久久久久无码人妻| 五月婷婷亚洲综合| 国产黄网站在线观看| 国产99热| 国产成人亚洲无吗淙合青草| 亚洲第一天堂无码专区| 在线观看欧美国产| 伊人网址在线| 香蕉国产精品视频| 久久永久免费人妻精品| 亚洲美女高潮久久久久久久| 99国产精品免费观看视频| 国产欧美日韩另类| 国产手机在线ΑⅤ片无码观看| 1024国产在线| 99精品久久精品| 亚洲福利一区二区三区| 中国精品久久| 在线国产你懂的| 欧美色视频网站| 99久久国产精品无码| 五月激情综合网| 第一区免费在线观看| 久久综合婷婷| 日韩黄色精品| 国产微拍一区| 中文字幕首页系列人妻| 亚洲无线国产观看| 91小视频在线播放| 色综合天天操| 国产在线一区二区视频|