999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合Self-Attention機(jī)制和n-gram卷積核的印尼語復(fù)合名詞自動識別方法研究

2020-06-03 06:34:36丘心穎陳漢武譚立聰肖莉嫻
關(guān)鍵詞:語義方法模型

丘心穎 ,陳漢武 ,陳 源 ,譚立聰 ,張 皓 ,肖莉嫻

(1.廣東外語外貿(mào)大學(xué) 廣州市非通用語種智能處理重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510006;2.廣東外語外貿(mào)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,廣東 廣州 510006;3.廣東外語外貿(mào)大學(xué) 東方語言文化學(xué)院,廣東 廣州 510006)

1 研究背景

MWEs(multiword expressions)是一種由兩個(gè)或者兩個(gè)以上詞匯所組成的語義單元。它們作為多種語言中普遍存在的特殊語言形式,其語義屬性以及釋義不能簡單地由其構(gòu)成的詞匯得出。由于在句法以及語義特征上的特性,多詞表達(dá)是自然語言處理的一大難題,尤其對于句法分析和機(jī)器翻譯尤為關(guān)鍵。

復(fù)合名詞是多詞表達(dá)的一類重要形式,是普遍存在于各種語言中的一種特殊而又常見的語言結(jié)構(gòu)。簡單來說,復(fù)合名詞短語就是由兩個(gè)或者兩個(gè)以上名詞構(gòu)成的名詞短語。據(jù)祝慧佳[1]對國內(nèi)外相關(guān)工作的總結(jié)以及對HIT-IR(Harbin Institute of Technology-Information Retrieve)漢語依存關(guān)系樹庫的統(tǒng)計(jì),在英文中,包括小說體散文、新聞以及科技摘要等多種文體在內(nèi),存在大量復(fù)合名詞,并且其數(shù)量和種類都在增長[2-4];HIT-IR 關(guān)系樹庫內(nèi)的10 000句語料中也發(fā)現(xiàn)了大量的復(fù)合名詞。陳昌熊[5]指出,復(fù)合詞在大多數(shù)的技術(shù)說明書中非常普遍,通常一個(gè)科技術(shù)語本身就是一個(gè)復(fù)合詞。高年華[6]指出,印尼語的復(fù)合名詞依據(jù)其組成方式可主要分為3具體如表1所示。印尼語復(fù)合名詞自動化抽取的研究可以應(yīng)用于多種場景,包括印尼語的新詞發(fā)現(xiàn)、詞典自動擴(kuò)充、機(jī)器翻譯、印尼語教學(xué)以及句法分析等。

表1 復(fù)合名詞類別舉例Table1 Examples of Indonesian compound nouns

多詞表達(dá)研究,尤其是復(fù)合名詞的識別,具有重要的理論價(jià)值和應(yīng)用前景,并且在英語、漢語等通用語種中的相關(guān)研究已經(jīng)取得了一定的成效[7-11]。目前主要是以大量的語料數(shù)據(jù)庫、詞典、復(fù)合名詞語義知識庫、依存關(guān)系樹庫等作為驅(qū)動,通過基于規(guī)則、基于統(tǒng)計(jì)、基于神經(jīng)網(wǎng)絡(luò)的方法或以上方法的結(jié)合,以實(shí)現(xiàn)復(fù)合名詞的自動識別。基于規(guī)則的多詞表達(dá)技術(shù),一般具體研究某一種多詞表達(dá)類型或者某一特定領(lǐng)域,結(jié)合了語言學(xué)的知識,構(gòu)造了描述語言的規(guī)則集合。基于統(tǒng)計(jì)的多詞表達(dá)技術(shù),是指從詞頻等可用于統(tǒng)計(jì)的信息出發(fā),通過使用各種數(shù)學(xué)公式或其他度量方法來度量多詞表達(dá)內(nèi)部的結(jié)合程度,以及多詞表達(dá)與上下文的結(jié)合程度等。隨著神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,當(dāng)前最新的技術(shù)大多是通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,Bi-LSTM)等神經(jīng)網(wǎng)絡(luò)結(jié)合條件隨機(jī)場(condition random field,CRF)的方法。近年來,Self-Attention機(jī)制通過捕獲同一個(gè)句子中單詞之間的一些句法特征或語義特征,更容易得到句子中長距離相互依賴的特征,對神經(jīng)網(wǎng)絡(luò)處理文本信息的效果有顯著提升,從而在各種自然語言處理(natural language processing,NLP)任務(wù)中得到認(rèn)可。

印尼語是一類典型的黏著語,具有豐富的形態(tài)變化。作為一種非通用語言,印尼語與漢語、英語等通用語種的語法規(guī)則和語義關(guān)系不盡相同,并且缺少相關(guān)的語料和詞典,這導(dǎo)致其復(fù)合名詞的識別面臨著更大的挑戰(zhàn)。

由于現(xiàn)有的研究技術(shù)和方法在印尼語復(fù)合名詞識別任務(wù)中也并非是最有效的,因此本研究提出基于有限的標(biāo)注語料,檢驗(yàn)多詞表達(dá)識別的最新神經(jīng)網(wǎng)絡(luò)算法對于印尼語復(fù)合名詞自動識別的效果。課題組前期研究中注意到印尼語的復(fù)合名詞大多數(shù)為二元詞和三元詞,少數(shù)為四元詞,因此提出檢驗(yàn)n-gram卷積核對于現(xiàn)有模型的影響。同時(shí),考慮到Self-Attention 處理序列信息的優(yōu)勢,提出以融合 Self-Attention和n-gram卷積核進(jìn)一步改進(jìn)現(xiàn)有的state-ofthe-art模型,即SHOMA模型[11]在印尼語復(fù)合名詞識別中的應(yīng)用。

2 相關(guān)研究

目前國內(nèi)外對印尼語復(fù)合名詞提取的相關(guān)研究尚未開展,但從大規(guī)模語料庫中自動提取多詞表達(dá)式、短語或搭配等語言知識的研究已廣泛開展,并獲得了較多的研究成果與進(jìn)展。這些研究可以為印尼語復(fù)合名詞提取的研究提供借鑒。

2.1 語言學(xué)研究

在印尼語的語言結(jié)構(gòu)方面,高華年[6]從語言學(xué)的角度對印尼語的名詞結(jié)構(gòu)進(jìn)行了深入研究,總結(jié)出印尼語復(fù)合名詞主要有如下3:由名詞和名詞組合而成、由名詞和動詞組合而成、由名詞和形容詞組合而成。每個(gè)類別下又根據(jù)復(fù)合名詞中組成詞的主從關(guān)系、詞義關(guān)系等細(xì)分為多個(gè)不同的小類。其闡述了印尼語名詞的構(gòu)造規(guī)律,為印尼語復(fù)合名詞的提取提供了語言學(xué)基礎(chǔ)。

在復(fù)合名詞短語的分類方面,劉鵬遠(yuǎn)等[7]總結(jié)了國外復(fù)合名詞短語語義關(guān)系分類的研究,主要有兩種路線:一種是通過復(fù)合短語內(nèi)部各個(gè)成分的語義類來定義其語義關(guān)系[12],另一種則是基于刪除謂詞的語義類來定義復(fù)合名詞短語內(nèi)部成分的語義關(guān)系[13-14]。B.Warren[13]在對英語復(fù)合名詞短語的研究中,通過刪除謂詞對而獲得“N1+N2”復(fù)合名詞短語,然后對其名詞成分之間的語義關(guān)系進(jìn)行分類,并根據(jù)可刪除謂詞的語義類別,提出了做修飾成分的名詞和核心名詞之間存在12種語義關(guān)系,為英語復(fù)合名詞的提取和識別提供了詞匯學(xué)和語義學(xué)基礎(chǔ)。

2.2 多詞表達(dá)提取研究

2.2.1 通用語種多詞表達(dá)提取

從20世紀(jì)90年代開始就有學(xué)者對MWEs 提取進(jìn)行研究,如F.Smadja[15]設(shè)計(jì)了Xtract 系統(tǒng)來提取詞語搭配(collocations)。在基于語言規(guī)則與統(tǒng)計(jì)的多詞表達(dá)提取方法方面,S.Piao等[16]使用對數(shù)似然以及卡方的方法從中國電子信息產(chǎn)業(yè)發(fā)展研究院的中文語料庫中抽取了中文MWEs。在國際計(jì)算語言學(xué)會2009年主辦的MWEs 專題討論會上,H.Wakaki等[17]介紹了如何使用對數(shù)線性模型抽取日語的MWEs。唐亮等[18]根據(jù)重復(fù)頻次、左右鄰接熵、內(nèi)部關(guān)聯(lián)度、多詞嵌套等方法,在漢日平行語料庫中抽取出多詞短語。

另外,一些研究者通過引入語義信息來提高 MWEs的識別效率。如T.Baldwin[19]和G.Katz等[20]使用向量空間計(jì)算語義距離的方法識別MWEs,T.van de Cruys等[21]在2007年使用聚類和優(yōu)選語義的方法識別了MWEs。肖健等[22]提出了一種基于語義模板與基于統(tǒng)計(jì)工具相結(jié)合的方法,該方法采用基于詞表和分布的方法計(jì)算詞語間的相似度,擴(kuò)大了MWEs的覆蓋范圍,并且從三元組可比語料庫中自動提取了本族英語MWEs。梁穎紅等[23]提出了半監(jiān)督策略抽取漢語多詞表達(dá),并且在聚類算法的中后期加入有監(jiān)督的信息,使分類器能使用正確的標(biāo)注信息進(jìn)行訓(xùn)練。

近年來,許多學(xué)者結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法實(shí)現(xiàn)了多詞表達(dá)提取。如J.R.Williams[8]使用了非單詞標(biāo)記,即“邊界”,提出了一種跨越19種不同的語言用于MWEs 分割的監(jiān)督式機(jī)器學(xué)習(xí)細(xì)粒度文本分塊算法。M.J.Hosseini等[9]提出了使用“2-CRF”(double-chained conditional random field)來進(jìn)行英語語料多詞表達(dá)的識別。O.Rohanian等[10]結(jié)合GCN(graph convolutional network)和multi-head self-attention 兩種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于多詞表達(dá)的提取。其中,GCN利用依賴性來解析文體信息,然而自注意力機(jī)制(self-attention)則關(guān)注長期關(guān)系。S.Taslimipoor等[11]提出了一種適用于多詞表達(dá)識別任務(wù)的深度學(xué)習(xí)體系結(jié)構(gòu),它是一個(gè)由卷積層和遞歸層組成的神經(jīng)結(jié)構(gòu),并且在頂層增加了一個(gè)可選的條件隨機(jī)場層,卷積層通過捕獲輸入序列的n-gram 詞匯信息,使得這個(gè)系統(tǒng)在Parseme 共享任務(wù)中的表現(xiàn)明顯優(yōu)于其他所有參與的系統(tǒng)。

2.2.2 非通用語種多詞表達(dá)提取

受通用語種的多詞表達(dá)提取研究成果的啟發(fā),國內(nèi)外許多學(xué)者在此基礎(chǔ)上結(jié)合非通用語種的特點(diǎn),提出了一些非通用語種多詞表達(dá)提取的方法。已有研究結(jié)果表明,借鑒通用語種的多詞表達(dá)提取方法,對非通用語種的多詞表達(dá)提取大有幫助。其中趙維納等[24]結(jié)合藏語三音動詞短語的結(jié)構(gòu),利用統(tǒng)計(jì)算法和語言規(guī)則庫進(jìn)行過濾,提出了一種統(tǒng)計(jì)和規(guī)則相結(jié)合的藏語三音動詞短語的自動抽取算法。麥熱哈巴·艾力等[25]討論了目前常見的互信息、對數(shù)似然比和卡方3種統(tǒng)計(jì)方法在維吾爾語多詞表達(dá)抽取方面的影響。張海軍[26]總結(jié)了近年來維吾爾語短語識別的有關(guān)語言學(xué)研究成果,重點(diǎn)梳理了維吾爾語短語自動抽取的相關(guān)研究方法。古麗扎達(dá)·海沙等[27]提出了一種搭配規(guī)則集與最大熵相結(jié)合的混合策略方法對哈薩克語KzBaseVP(基本動詞短語)進(jìn)行識別,取得了較好的實(shí)驗(yàn)結(jié)果。

3 研究方法和評價(jià)指標(biāo)

3.1 研究內(nèi)容

本研究在現(xiàn)有多詞表達(dá)識別模型的基礎(chǔ)上進(jìn)行改進(jìn),采用神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)方法相結(jié)合的模型,探究其對印尼語復(fù)合名詞的自動發(fā)現(xiàn)。用神經(jīng)網(wǎng)絡(luò)表示學(xué)習(xí)印尼語文本的特征,用概率模型表示學(xué)習(xí)到的特征,以固定的輸出方式得到對復(fù)合名詞短語的預(yù)測結(jié)果。通過建立單個(gè)模型和組合模型來對以上兩個(gè)研究問題分別進(jìn)行探索,并分析實(shí)驗(yàn)結(jié)果,得出相關(guān)結(jié)論。本研究以基于深度學(xué)習(xí)方法的印尼語復(fù)合名詞短語的自動識別為目的,提出如下2個(gè)研究問題(research question,RQ)。

RQ1n-gram卷積核的機(jī)制對多詞表達(dá)的識別是否有效?

研究問題1(RQ1)的提出是基于對印尼語復(fù)合名詞n-gram 數(shù)據(jù)的觀察,圖1展示的是復(fù)合名詞短語的n-gram 分布情況。

圖1 n元復(fù)合名詞短語分布情況Fig.1 Distribution of n-gram compound noun phrases

由于復(fù)合名詞包含二元、三元、四元詞匯,因而提出比較n-gram卷積核和基準(zhǔn)模型以及無n-gram卷積核模型的識別效果。

RQ2Self-Attention機(jī)制是否可以對現(xiàn)有的神經(jīng)網(wǎng)絡(luò)方法帶來改善?

現(xiàn)有的多詞表達(dá)state-of-the-art模型(即SHOMA[11])采用了Bi-LSTM(Bidirectional LSTM)模型[28]。由于Self-Attention 每個(gè)節(jié)點(diǎn)都可以捕獲到序列上其他節(jié)點(diǎn)的信息,可以用于學(xué)習(xí)序列中復(fù)合名詞短語的表示結(jié)構(gòu),故本研究提出融合Self-Attention對多詞表達(dá)識別的影響。

3.2 研究框架

采用BIO 標(biāo)簽將印尼語語料進(jìn)行復(fù)合名詞短語標(biāo)注,之后轉(zhuǎn)化為詞嵌入表示作為不同模型的輸入。根據(jù)模型結(jié)構(gòu)的差異,用于探討本文提出的2個(gè)研究問題,即分別評價(jià)n-gram卷積特征對模型的影響以及Self-Attention機(jī)制和n-gram卷積特征對模型的影響。研究框架的具體流程如圖2所示。

圖2 研究框架流程Fig.2 Research framework

3.2.1 基準(zhǔn)模型

多詞表達(dá)發(fā)現(xiàn)的方法有基于規(guī)則的方法、基于統(tǒng)計(jì)的方法和基于神經(jīng)網(wǎng)絡(luò)的方法。本文采用基于統(tǒng)計(jì)的CRF模型作為基準(zhǔn)模型。

CRF是自然語言處理領(lǐng)域的常用算法之一,常被用于句法分析、命名實(shí)體識別、詞性標(biāo)注等。在給定輸入序列和輸出序列的情況下,CRF可以通過學(xué)習(xí)輸出序列的表示形式,來約束輸入序列經(jīng)過計(jì)算之后得到的輸出序列的格式。

本研究中使用單個(gè)CRF層作為基準(zhǔn)模型,將印尼語文本學(xué)習(xí)到的詞嵌入向量和文本對應(yīng)的標(biāo)注序列作為CRF層的輸入,得到的輸出即是預(yù)測的標(biāo)注序列。

3.2.2 State-of-the-art模型

文獻(xiàn)[11]提出的SHOMA模型(見圖3中的SHOMA),是一種基于CNN和Bi-LSTM的神經(jīng)網(wǎng)絡(luò)同時(shí)結(jié)合CRF統(tǒng)計(jì)方法的模型,可用于20種語言多詞表達(dá)的抽取。

SHOMA模型在羅馬尼亞語上取得最佳F1值,為87.18,在部分非通用語種上也表現(xiàn)出較好的效果。表明該模型可以被復(fù)用于通用語種和非通用語種的多詞表達(dá)識別。

3.3 融合Self-Attention和n-gram卷積核的模型

鑒于印尼語的復(fù)合名詞大多數(shù)為二元詞和三元詞,少數(shù)為四元詞,本文首先采用2種形式的CNN用于捕獲n-gram 信息,檢驗(yàn)n-gram 特征對于神經(jīng)網(wǎng)絡(luò)模型的影響:

1)使用卷積核大小為3的單層CNN(見圖4),僅提取句子中3-gram的詞匯信息。實(shí)驗(yàn)中也嘗試了卷積核大小為2和4的單層CNN,但效果沒有卷積核大小為3的好。

2)使用卷積核大小為2,3,4的三層CNN(見圖5),即采用TextCNN[29]的思想,可用于同時(shí)提取2-gram、3-gram和4-gram的詞匯信息。

在本實(shí)驗(yàn)中,同時(shí)使用TextCNN 對SHOMA的模型進(jìn)行改進(jìn),即在原本的CNN層中,添加一層卷積核大小為4的CNN層,使得模型可以捕獲到4-gram的詞匯信息(如圖3中的TextCNN+Bi-LSTM+CRF所示)。

圖3 模型架構(gòu)比較Fig.3 Model architecture comparison

圖4 單層CNN模型Fig.4 Single layer CNN model

圖5 三層CNN模型Fig.5 Three-layer CNN model

Self-Attention 將輸入向量X(分別乘以WQ,WK,WV權(quán)值矩陣得到3個(gè)向量Query(Q),Key(K),Value(V),并對Q,K,V進(jìn)行如圖6所示的Scaled Dot-Product Attention,讓每個(gè)輸入節(jié)點(diǎn)的V都能捕獲到其他節(jié)點(diǎn)的Q和K。由于這種機(jī)制使得Self-Attention 每個(gè)輸出節(jié)點(diǎn)都會保留序列上所有輸入節(jié)點(diǎn)的信息,可以捕獲長距離依賴的關(guān)系。在處理序列信息時(shí),Bi-LSTM 能捕獲到雙向語義依賴,但是其效率明顯低于Self-Attention機(jī)制的。本文使用Self-Attention替換Bi-LSTM的方法(如圖3中的TextCNN+Self-Attention+CRF模型所示),探討融合Self-Attention機(jī)制對印尼語復(fù)合名詞短語自動識別效果的影響。

圖6 Scaled Dot-Product Attention結(jié)構(gòu)Fig.6 Scaled Dot-Product Attention structure

CNN和Self-Attention 能夠有效地捕獲上下文特征,但它們對最終輸出標(biāo)簽的結(jié)構(gòu)一無所知。為了有效地預(yù)測序列的標(biāo)簽,模型除了要學(xué)習(xí)數(shù)據(jù)的特征外,還要學(xué)習(xí)輸出的結(jié)構(gòu)。

綜上所述,實(shí)驗(yàn)?zāi)P徒Y(jié)合3層CNN模型,并采用CRF 作為最終的輸出預(yù)測層,學(xué)習(xí)已知的標(biāo)注序列,將Self-Attention 學(xué)習(xí)到的特征按照約束輸出預(yù)測的標(biāo)注序列,實(shí)現(xiàn)印尼語復(fù)合名詞多詞表達(dá)的自動識別。

3.4 評價(jià)指標(biāo)

實(shí)驗(yàn)中使用精度(precision)、召回率(recall)和F1值(F1-score)作為評價(jià)指標(biāo)[30],在兩種情況下對結(jié)果進(jìn)行評估:一種情況是嚴(yán)格匹配(基于多詞識別),這種情況下所有的多詞表達(dá)的組件都被視為一個(gè)單元,應(yīng)該被正確區(qū)分;另一種情況是模糊匹配(基于單字識別),它計(jì)算的是預(yù)測的單詞及其對應(yīng)的標(biāo)注。

3.4.1 基于短語多詞識別的F1值

CN表示正確抽取出來的復(fù)合名詞短語的數(shù)量,PN表示總共抽取出來的復(fù)合名詞短語的數(shù)量,TN表示所有測試數(shù)據(jù)中復(fù)合名詞短語的數(shù)量。基于短語多詞識別的評價(jià)指標(biāo)如表2所示。

表2 基于短語多詞識別的評價(jià)指標(biāo)Table2 Evaluation metric based on multi-word recognition

3.4.2 基于短語單字識別的F1值

基于單字識別的評價(jià)指標(biāo)如表3所示。

表3 基于單字識別的評價(jià)指標(biāo)Table3 Evaluation index based on single-word recognition

其中,CW表示正確識別的復(fù)合名詞短語中單詞的數(shù)量,PW表示總共抽取出來的復(fù)合名詞短語的單詞的數(shù)量,TW表示所有測試數(shù)據(jù)中復(fù)合名詞短語的單詞的數(shù)量。

4 實(shí)驗(yàn)設(shè)置

4.1 數(shù)據(jù)準(zhǔn)備

本文的數(shù)據(jù)來自Universal Dependencies 公開的印尼語標(biāo)準(zhǔn)數(shù)據(jù)集,包含了1 000句印尼語文本數(shù)據(jù),其中每一句印尼語都有對應(yīng)的詞性標(biāo)注。

為了獲取標(biāo)簽序列,根據(jù)詞性標(biāo)注對該數(shù)據(jù)集使用BIO 標(biāo)注格式(見表4),標(biāo)記出復(fù)合名詞短語,得到了332個(gè)復(fù)合名詞短語,其中二元詞289個(gè),三元詞37個(gè),四元詞6個(gè)。

表4 BIO 標(biāo)注Table4 BIO annotation

為了去除數(shù)據(jù)中一些無關(guān)的信息,增強(qiáng)復(fù)合名詞短語在語句中的表示,對原始數(shù)據(jù)進(jìn)行如下處理:

1)將原始數(shù)據(jù)和標(biāo)簽序列一一對應(yīng)存放,并按句劃分;

2)替代特殊符號,減少噪聲的出現(xiàn);

3)根據(jù)人工標(biāo)注的結(jié)果,使用BIO 格式對完成預(yù)處理的數(shù)據(jù)進(jìn)行標(biāo)注,讓模型學(xué)習(xí)到輸出序列的表示。

實(shí)驗(yàn)結(jié)果表明,使用BIO 標(biāo)注格式,并將預(yù)測結(jié)果是單個(gè)詞語的刪除,對印尼語復(fù)合名詞短語的自動識別是有效的。

印尼語語料通過處理后的樣例如表5所示。從表5中的標(biāo)注結(jié)果可以得知,transisi media sosial是一個(gè)復(fù)合名詞短語,將其提取詞條后轉(zhuǎn)化為復(fù)合名詞識別標(biāo)簽序列。為了使得印尼語文本轉(zhuǎn)化為模型輸入的格式,本文采用隨機(jī)訓(xùn)練的方法,用one-hot表示印尼語文本,將one-hot 向量輸入到神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行端到端的訓(xùn)練。

表5 數(shù)據(jù)預(yù)處理和標(biāo)注舉例Table5 Illustration of data preprocessing and annotation

4.2 參數(shù)設(shè)置

為了研究基于深度學(xué)習(xí)方法的印尼語復(fù)合名詞短語的自動識別,設(shè)置多個(gè)模型來驗(yàn)證前文所提出的2個(gè)研究問題。這些模型訓(xùn)練時(shí)所設(shè)置的部分參數(shù)如表6所示。

在構(gòu)建模型時(shí),使用relu 作為模型的激活函數(shù)。為了提取完整的n-gram 詞匯信息,CNN層沒有采用dropout;在Bi-LSTM層中,使用0.5的dropout和0.2的recurrent dropout。

表6 模型參數(shù)設(shè)置Table6 Model parameters

在模型訓(xùn)練時(shí),為了得到模型的平均結(jié)果,使用十折交叉驗(yàn)證的方法,并去除最高和最低的一組結(jié)果,剩下的8個(gè)結(jié)果求平均值。

5 實(shí)驗(yàn)結(jié)果和評價(jià)

本文研究的2個(gè)問題,一是檢驗(yàn)n-gram卷積核與基準(zhǔn)模型和其他非卷積核模型的性能比較,二是檢驗(yàn)融合了Self-Attention機(jī)制和n-gram卷積核的方法。

n-gram卷積核對復(fù)合名詞的識別(即RQ1)的實(shí)驗(yàn)結(jié)果與其他模型的結(jié)果比較如表7所示。

表7 n-gram卷積核對模型影響的結(jié)果比較Table7 Comparison of the effects of n-gram convolution on the model

由表7可知:基準(zhǔn)模型CRF的兩項(xiàng)F1值分別為8.99和12.79。而2個(gè)非卷積核模型,即Bi-LSTM+CRF,兩項(xiàng)的F1值分別為22.22和25.58;Self-Attention+CRF兩項(xiàng)的F1值分別為13.04和18.68。這兩種基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)模型效果均好于CRF基準(zhǔn)模型。但是3-gram CNN+CRF的所有評價(jià)指標(biāo)都顯著高于基準(zhǔn)模型和其他神經(jīng)網(wǎng)絡(luò)模型,F(xiàn)1值達(dá)到了23.73和30.22。而采用三層卷積(即2元、3元、4元卷積核)的TextCNN+CRF模型,效果不僅好于基準(zhǔn)模型,并且優(yōu)于只有一層3元卷積核的CNN+CRF模型,F(xiàn)1值達(dá)到了24.96和31.68。因此,同時(shí)使用多層n-gram卷積核,可以提升印尼語復(fù)合名詞短語識別效果。

在n-gram卷積核上,融合Self-Attention機(jī)制(即RQ2)的實(shí)驗(yàn)結(jié)果與其他模型所得的結(jié)果比較,如表8所示。

表8 Self-Attention機(jī)制和n-gram卷積核對模型影響的結(jié)果比較Table8 Comparison of the effects of Self-Attention mechanism and n-gram convolution on the model

由表8可知:State-of-the-art模型,即SHOMA模型,能夠取得27.27和29.30的F1值,說明其融合了2元、3元卷積核的機(jī)制和序列機(jī)制,即Bi-LSTM的架構(gòu),在短語多詞識別方面效果優(yōu)于只有n元機(jī)制而缺乏序列機(jī)制的TextCNN+CRF模型。但SHOMA在短語單詞識別評價(jià)指標(biāo)下,并不優(yōu)于無序列機(jī)制的TextCNN+CRF。

本文提出的2種方法,多層n元卷積核序列機(jī)制(即TextCNN+Bi-LSTM+CRF)的F1值,比SHOMA 有顯著提高,達(dá)到了32.32和31.07。而融合了Self-Attention機(jī)制和多層n元卷積核的方法,除了在短語多詞識別上達(dá)到與Bi-LSTM 極為接近的F1值(32.20),并且在短語單詞識別評價(jià)方面,取得了最高的F1值為32.34。這說明Self-Attention和Bi-LSTM 雖然都可以捕獲到序列信息,但Self-Attention在印尼語復(fù)合名詞短語識別中,效率和效果都優(yōu)于Bi-LSTM;同時(shí)也說明了采用n-gram卷積核和Self-Attention機(jī)制對于多詞表達(dá)的識別是有效的。

6 結(jié)語

本文針對印尼語復(fù)合名詞短語自動識別,在統(tǒng)計(jì)方法和現(xiàn)有的SHOMA模型的基礎(chǔ)上,提出了基于多層n-gram卷積核和Self-Attention機(jī)制的模型(TextCNN+Self-Attention+CRF)。一系列的實(shí)驗(yàn)結(jié)果表明,在CNN層提取n-gram時(shí),同時(shí)提取2-garm、3-gram和4-gram的特征,對印尼語復(fù)合名詞短語的自動識別是有效的,能顯著提升F1值,取得了32.32和31.07的F1值。Self-Attention機(jī)制可以改善現(xiàn)有的神經(jīng)網(wǎng)絡(luò)方法,在TextCNN+Self-Attention+CRF模型中取得了32.20和32.34的F1值,比SHOMA模型分別提升了4.93%和3.04%。

本研究存在一些不足之處,收集數(shù)據(jù)量較少且未使用BERT[31]進(jìn)行預(yù)訓(xùn)練,這對研究結(jié)果會有一定影響。在后續(xù)研究中將擴(kuò)充數(shù)據(jù)量,總結(jié)印尼語復(fù)合名詞的語義關(guān)系規(guī)律,并使用BERT 對印尼語文本進(jìn)行表示;進(jìn)一步提升模型對印尼語復(fù)合名詞短語自動識別的效果,并為其他非通用語言的多詞表達(dá)識別研究提供更有價(jià)值的參考和借鑒。

猜你喜歡
語義方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
語言與語義
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 无码aaa视频| 在线观看的黄网| 色婷婷综合在线| 亚洲综合香蕉| 思思热精品在线8| 99热这里只有免费国产精品| 国产91小视频在线观看| 精品无码国产自产野外拍在线| 无码精品国产VA在线观看DVD| 久久semm亚洲国产| 不卡国产视频第一页| 国产激爽大片高清在线观看| 国产自在自线午夜精品视频| 久草视频中文| 美女一区二区在线观看| av大片在线无码免费| 国产成人精品在线1区| 一级香蕉视频在线观看| 国产高清又黄又嫩的免费视频网站| 午夜三级在线| 国产成人精品午夜视频'| 亚洲黄色片免费看| 欧美日韩专区| 亚洲视频a| 自慰网址在线观看| 欧美精品在线免费| 国产三级毛片| 亚洲午夜久久久精品电影院| 欧美亚洲另类在线观看| 国产特级毛片aaaaaa| 丁香婷婷激情综合激情| 亚洲无码四虎黄色网站| 免费人成视网站在线不卡| 精品99在线观看| 精品国产欧美精品v| 成人欧美日韩| 国产高清在线精品一区二区三区 | jizz在线观看| 亚洲福利网址| 中文天堂在线视频| 亚洲精品片911| 日韩欧美中文字幕在线韩免费 | 亚洲AV永久无码精品古装片| 亚洲熟女中文字幕男人总站| 日韩av无码DVD| 久久人妻系列无码一区| 91在线精品麻豆欧美在线| 国产草草影院18成年视频| 久久精品无码中文字幕| 精品三级在线| 久久久国产精品无码专区| 91成人在线观看| 亚洲无码免费黄色网址| 午夜不卡福利| 国产成人a毛片在线| 国内精品久久九九国产精品| 国产日韩欧美视频| 91国内外精品自在线播放| 国产精品自在线天天看片| 亚洲视频色图| 国产精品私拍在线爆乳| 精品视频在线观看你懂的一区| 国产精品粉嫩| 少妇精品网站| 国产成人精彩在线视频50| 欧美日韩专区| 丰满少妇αⅴ无码区| 国产精品免费露脸视频| 天天综合网亚洲网站| 亚洲最黄视频| 国产人前露出系列视频| 萌白酱国产一区二区| 丁香六月激情综合| 91无码人妻精品一区| 欧美国产综合视频| 黄色网在线| 欧洲日本亚洲中文字幕| 成人精品在线观看| 亚洲成A人V欧美综合| 亚洲色成人www在线观看| 国产剧情一区二区| 在线不卡免费视频|