999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞語關(guān)系的詞向量模型

2017-07-18 10:53:19蔣振超李麗雙黃德根
中文信息學(xué)報 2017年3期
關(guān)鍵詞:關(guān)聯(lián)語義模型

蔣振超,李麗雙,黃德根

(大連理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

基于詞語關(guān)系的詞向量模型

蔣振超,李麗雙,黃德根

(大連理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

詞向量能夠以向量的形式表示詞的意義,近來許多自然語言處理應(yīng)用中已經(jīng)融入詞向量,將其作為額外特征或者直接輸入以提升系統(tǒng)性能。然而,目前的詞向量訓(xùn)練模型大多基于淺層的文本信息,沒有充分挖掘深層的依存關(guān)系。詞的詞義體現(xiàn)在該詞與其他詞產(chǎn)生的關(guān)系中,而詞語關(guān)系包含關(guān)聯(lián)單位、關(guān)系類型和關(guān)系方向三個屬性,因此,該文提出了一種新的基于神經(jīng)網(wǎng)絡(luò)的詞向量訓(xùn)練模型,它具有三個頂層,分別對應(yīng)關(guān)系的三個屬性,更合理地利用詞語關(guān)系對詞向量進(jìn)行訓(xùn)練,借助大規(guī)模未標(biāo)記文本,利用依存關(guān)系和上下文關(guān)系來訓(xùn)練詞向量。將訓(xùn)練得到的詞向量在類比任務(wù)和蛋白質(zhì)關(guān)系抽取任務(wù)上進(jìn)行評價,以驗證關(guān)系模型的有效性。實驗表明,與skip-gram模型和CBOW模型相比,由關(guān)系模型訓(xùn)練得到的詞向量能夠更準(zhǔn)確地表達(dá)詞語的語義信息。

詞表示;詞嵌入;詞向量;神經(jīng)網(wǎng)絡(luò);關(guān)系模型

1 引言

目前,機(jī)器學(xué)習(xí)方法已廣泛運用于文本挖掘任務(wù)當(dāng)中。然而,傳統(tǒng)的機(jī)器學(xué)習(xí)算法,如支持向量機(jī)(support vector machine,SVM)、邏輯回歸(logistic regression,LR)等,其輸入往往是實值類型的向量或矩陣,因此,自然語言處理和文本挖掘中的一個重要的環(huán)節(jié),就是將字符串或者符號形式的輸入轉(zhuǎn)換為實值類型的向量或矩陣,常見的轉(zhuǎn)換方式如one-hot coding、向量空間模型(vector space model,VSM)[1]等。

Bengio等借助語言模型的思想[2],使用句子中第t-n+1到第t-1個詞作為回歸神經(jīng)網(wǎng)絡(luò)的輸入,第t個詞作為回歸神經(jīng)網(wǎng)絡(luò)的輸出,利用語言模型的思想和回歸神經(jīng)網(wǎng)絡(luò)方向傳播算法,對詞向量進(jìn)行學(xué)習(xí);Mikolov等[3-4]發(fā)布的word2vec工具,提供了skip-gram和continuous bag-of-word(CBOW)兩種詞向量訓(xùn)練模型,利用某個詞的周圍詞來預(yù)測當(dāng)前詞,同時,頂層采用基于詞頻的hierarchical softmax形式,大大縮短了訓(xùn)練時間。Pennington等結(jié)合了矩陣分解和上下文窗口,能利用更多的統(tǒng)計信息,在越大的語料上越具有優(yōu)勢[5]。另外,Tian等人在skip-gram模型基礎(chǔ)上,融合概率模型和EM算法解決一詞多義的表示問題[6],Qiu等人從詞形角度出發(fā),利用神經(jīng)網(wǎng)絡(luò)框架聯(lián)合訓(xùn)練詞向量和詞形向量[7]。以上方法均為無監(jiān)督框架,無需借助標(biāo)記語料便可完成詞向量的訓(xùn)練,其出發(fā)點均是: 上下文越接近的詞,其語義越接近。因此,上下文的局限性是制約詞表達(dá)質(zhì)量的重要因素之一。

Collobert和Western提出了一個由查表層、卷積層、hardtanh層、max層組成的神經(jīng)網(wǎng)絡(luò)框架來解決自然語言處理中的多種任務(wù)[8],同時,該框架能夠借助相關(guān)任務(wù)的標(biāo)記語料有監(jiān)督地聯(lián)合訓(xùn)練出詞向量;Socher利用遞歸自編碼器來解決情感分類問題[9],同樣,該框架也可以聯(lián)合訓(xùn)練出詞向量。然而,由于以上兩種框架與具體任務(wù)具有很強(qiáng)的耦合性,例如,Socher的遞歸自編碼器無法運用到關(guān)系抽取任務(wù)當(dāng)中,因此,聯(lián)合學(xué)習(xí)的方式具有相對較差的普適性。

聯(lián)合學(xué)習(xí)具有較強(qiáng)的耦合性,而基于上下文的方法受到了上下文信息的制約,合理地融合豐富的句法信息成為提升詞向量性能的關(guān)鍵。在自然語言當(dāng)中,一句話不僅是一個由詞組成的序列,更是一個由依存句法關(guān)系連接起來的圖狀結(jié)構(gòu),如圖1所示。盡管Levy等人引入了依存信息[10],但其思路是用依存標(biāo)記簡單地擴(kuò)展上下文,而訓(xùn)練模型仍然是skip-gram,因此,該方法并沒有以合理的方式將依存信息融合到訓(xùn)練模型當(dāng)中。

圖1 文本“a particular segment of DNA is copied into RNA”經(jīng)過依存解析后得到的依存圖

本文提出了一種新的基于關(guān)系的無監(jiān)督詞向量表示模型。該模型能夠合理地融合上下文關(guān)系和依存關(guān)系,克服了聯(lián)合學(xué)習(xí)普適性較差的弱點,并且該方法能同時利用上下文信息和深層依存信息,使詞向量的分布更加充分地考慮詞語在依存結(jié)構(gòu)中的角色。實驗結(jié)果表明,相比skip-gram和CBOW,關(guān)系模型詞向量對自然語言處理性能的提升更加顯著。

2 基于神經(jīng)網(wǎng)絡(luò)的關(guān)系模型

2.1 關(guān)系的表示

語義的本質(zhì)在于關(guān)系,不與任何其他詞產(chǎn)生關(guān)系的詞不具有任何實際意義。本文將關(guān)系看作三元組,包括: (1)關(guān)聯(lián)單位,即某關(guān)系關(guān)聯(lián)了哪兩個詞;(2)關(guān)系類型,即某關(guān)系為何種關(guān)系;(3)關(guān)系方向,即哪個詞是關(guān)系的施加方,哪個詞是關(guān)系的承受方。另外,不同的關(guān)系對詞向量訓(xùn)練具有不同程度的影響力,因此我們在三元組的基礎(chǔ)上對關(guān)系引入權(quán)重屬性,表示該關(guān)系的重要程度,權(quán)重可以人工指定或由關(guān)系模型自動學(xué)習(xí)。

關(guān)聯(lián)單位、關(guān)系類型和關(guān)系方向是關(guān)系的基本要素,三者完整地描述了一條關(guān)系,缺一不可。如圖1所示,當(dāng)訓(xùn)練詞為“is”時,假如不考慮關(guān)系類型,“segment”和“copied”對“is”產(chǎn)生的作用將完全一致,這與事實不符。假如不考慮關(guān)系的方向,則無法區(qū)分“segment”和“is”究竟誰是主語。本文通過建立神經(jīng)網(wǎng)絡(luò)框架,使用所有與目標(biāo)詞相關(guān)的關(guān)系對目標(biāo)詞的詞向量進(jìn)行訓(xùn)練,從而構(gòu)建基于詞語關(guān)系的詞向量模型。具體框架如圖2所示。

為了加快訓(xùn)練速度以適應(yīng)大規(guī)模訓(xùn)練的要求,該框架只保留了輸入層和頂層兩層: 輸入層為目標(biāo)詞(即關(guān)聯(lián)單位)的詞向量,詞向量最初是隨機(jī)初始化的維度固定的向量,而后使用大規(guī)模的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí);而頂層分為三個部分,分別對應(yīng)關(guān)系類型、關(guān)系方向和關(guān)聯(lián)單位。其中關(guān)系類型和關(guān)系方向部分的訓(xùn)練采用softmax。由于大規(guī)模文本中的詞匯量極大,因此關(guān)聯(lián)單位2部分的訓(xùn)練采用hierarchical softmax。

2.2 關(guān)系模型的數(shù)學(xué)表達(dá)

在skip-gram模型中,當(dāng)窗口(假設(shè)窗口大小為2)滑動到某個詞t的時候,skip-gram會使用t對t周圍的詞w-2、w-1、w+1、w+2進(jìn)行詞向量訓(xùn)練。關(guān)系模型則首先找到與詞t相關(guān)的關(guān)系l,然后如圖2所示,使用l中的關(guān)聯(lián)單位2、關(guān)系方向和關(guān)系類型對關(guān)聯(lián)單位1進(jìn)行訓(xùn)練。表1給出了圖1例句中以“t=is”時的所有關(guān)系。本文的關(guān)系模型中,不同的關(guān)系類型具有不同的重要度,例如在圖1當(dāng)中,冠詞a、形容詞particular和介詞of都以NMOD的類型來修飾segment,體現(xiàn)出了segment可作名詞的事實;而segment以SUB的方式修飾is,體現(xiàn)出了segment可作主語的事實。由此可見,不同的關(guān)系類型對目標(biāo)詞詞向量的學(xué)習(xí)產(chǎn)生不同程度的作用,可以通過人為設(shè)置或自動學(xué)習(xí)的方式獲得類型的權(quán)重。因此,本文在經(jīng)典softmax的基礎(chǔ)上引入了關(guān)系權(quán)重來表示關(guān)系l的關(guān)系類型所對應(yīng)的權(quán)重。

圖2 基于神經(jīng)網(wǎng)絡(luò)的關(guān)系模型框架

在真實數(shù)據(jù)中,關(guān)系類型和關(guān)系方向的種類相對較少,數(shù)量遠(yuǎn)小于關(guān)聯(lián)單位的種類,softmax足以勝任, 但語料的巨大詞匯量對關(guān)聯(lián)單位的訓(xùn)練帶來了極大的負(fù)擔(dān),因此,頂層關(guān)聯(lián)單位部分選用hierarchical softmax[11]。如圖2所示,根據(jù)詞語的詞頻構(gòu)建哈夫曼樹,首先利用堆排序算法按照詞頻構(gòu)建大頂堆,而后依次取出當(dāng)前堆中詞頻最大的兩個詞作為葉子節(jié)點,創(chuàng)建詞頻大小為兩者之和的父節(jié)點,并將此父節(jié)點加入到堆中,重復(fù)該過程直到所有詞都被加入到樹中。訓(xùn)練過程中,hierarchical softmax并不像softmax那樣對整個權(quán)重矩陣W做計算和更新,而是只對哈夫曼樹中關(guān)聯(lián)單位詞到根節(jié)點的路徑上的所有單位所對應(yīng)的部分做計算和更新,如圖2中虛線部分所示,即為hierarchical softmax對應(yīng)的權(quán)重。

表1 圖1中詞is涉及的關(guān)系的形式化表示

關(guān)系模型的三個頂層V、F、D分別對應(yīng)關(guān)聯(lián)單位、關(guān)系類型和關(guān)系方向,關(guān)系權(quán)重α則能令不同類型的關(guān)系得到不同程度的對待,這使得關(guān)系的重要度能夠以細(xì)粒度的級別對詞向量的學(xué)習(xí)產(chǎn)生不同程度的作用。因此,相比起skip-gram、CBOW等模型,關(guān)系模型能夠充分利用關(guān)系中的豐富信息,從而獲得更高質(zhì)量的詞向量。在訓(xùn)練過程中,依次遍歷關(guān)系圖中的所有節(jié)點。當(dāng)遍歷單詞t時,t即作為圖2中的關(guān)聯(lián)單位2。首先找到所有與t相關(guān)的關(guān)系集合,遍歷集合中的每一條關(guān)系l,使用t、關(guān)系類型和關(guān)系方向?qū)﹃P(guān)系l中關(guān)聯(lián)單位1所對應(yīng)的向量x進(jìn)行訓(xùn)練。

記V為語料中所有詞的集合,其基數(shù)為n;L為語料中所有關(guān)系的集合;X為詞向量矩陣,X∈Rn×d,d為詞向量維度,語料中的第t個詞的詞向量對應(yīng)為x=Xt;令Pl,t=P(y=l|x),表示第t個詞涉及關(guān)系l的概率總和,即

詞向量x的更新也包含三個部分,如式(5)所示。

3 實驗

目前詞向量的驗證方法尚無統(tǒng)一標(biāo)準(zhǔn)。一方面, Mikolov提出了用類比(word analogy)任務(wù)來驗證詞向量的質(zhì)量,成為大多數(shù)研究者認(rèn)可的評價方式,因此,本文將采用該類比任務(wù)來評價關(guān)系模型。另一方面,由于詞向量的終極目的是服務(wù)于自然語言處理和文本挖掘領(lǐng)域的相關(guān)任務(wù),因此,本文還將詞向量融合到蛋白質(zhì)關(guān)系抽取任務(wù)(protein-protein interaction extraction, PPIE)中,以該任務(wù)來評價關(guān)系模型,對關(guān)系模型進(jìn)行更完整的評價。由于聯(lián)合學(xué)習(xí)詞向量模型往往需要在特定的有監(jiān)督自然語言處理任務(wù)才能學(xué)習(xí)詞向量,具有很強(qiáng)的任務(wù)耦合性,因此本文方法不與聯(lián)合模型做比較。

3.1 類比任務(wù)

Word analogy任務(wù)用詞向量的余弦相似度來衡量詞之間的類比,共14類,其中五類為語義類比,比如“king”-“queen”=“man”-“woman”,“China”-“Beijing”=“U.K.”-“London”,九類為句法類比,比如“write”-“writing”=“read”-“reading”。在實驗中,以word2vec工具提供的text8語料為訓(xùn)練集,以Mikolov整理的19 544個類比關(guān)系為測試集,以精確率的方式衡量詞向量質(zhì)量。

3.2 蛋白質(zhì)關(guān)系抽取任務(wù)

蛋白質(zhì)關(guān)系抽取的目標(biāo)是從生物醫(yī)學(xué)文本當(dāng)中挖掘出具有交互作用的蛋白質(zhì)對,可以看作是一個二元分類問題。例如,根據(jù)描述“The binding of hTAFII28 and hTAFII30 requires distinct domains of hTAFII18”,算法需要自動識別出hTAFII28和hTAFII30是具有交互關(guān)系的蛋白質(zhì)對。在實驗中,以5.8 GB的生物醫(yī)學(xué)文獻(xiàn)為訓(xùn)練集,以目前該任務(wù)上的五個公共的評測數(shù)據(jù)集: AIMed[12]、BioInfer[13]、HPRD50[14]、IEPA[15]和LLL[16]為測試集,采用十倍交叉驗證計算F值和AUC值的方式衡量詞向量的質(zhì)量。

4 結(jié)果與分析

4.1 類比任務(wù)

表2給出了Word Analogy任務(wù)上skip-gram模型、CBOW模型和關(guān)系模型的表現(xiàn)??梢钥吹剑谡Z義任務(wù)上,關(guān)系模型具有明顯的優(yōu)勢(33.17%),比skip-gram高7.12個百分點;在句法任務(wù)上,關(guān)系模型達(dá)到了23.32%,比skip-gram模型低2.52個百分點??傮w考慮,關(guān)系模型具有最高的精確率26.41%。可以看出,關(guān)系模型在語義表達(dá)方面更具有優(yōu)勢,而這一優(yōu)勢得益于關(guān)系模型能夠充分挖掘依存關(guān)系和上下文關(guān)系。

值得一提的是,句法任務(wù)中的類比大都是動詞時態(tài)、形容詞形式等,例如,“dance之于dancing如同fly之于__?”而在實際應(yīng)用中常常更關(guān)心詞的語義信息而非時態(tài)、形式,例如,詞干特征;另外,從人的角度出發(fā),當(dāng)面對詞語時態(tài)和形式存在錯誤的句子時,我們往往也能明白句子的意思,例如,“He is dance”,這是因為語義信息足以表達(dá)句子的含義。因此,盡管關(guān)系模型在句法任務(wù)上表現(xiàn)略低于skip-gram,關(guān)系模型在語義任務(wù)上的突出表現(xiàn)更應(yīng)當(dāng)受到關(guān)注。

表2 Skip-gram、CBOW和關(guān)系模型在類比任務(wù)上的比較

4.2 蛋白質(zhì)關(guān)系抽取

本文使用Li等提出的蛋白質(zhì)關(guān)系抽取統(tǒng)一框架進(jìn)行蛋白質(zhì)關(guān)系抽取[17]。該框架采用的特征包括: 蛋白質(zhì)名特征、前后詞特征、中間詞特征和句子特征,通過詞向量映射的方式將原始特征向量轉(zhuǎn)換為數(shù)字型的輸入向量,然后通過四種向量組合方式和向量拼接,將基于詞的特征向量轉(zhuǎn)換為實值型的輸入向量,最終采用SVM對蛋白質(zhì)關(guān)系實例進(jìn)行分類。

表3將關(guān)系模型與CBOW和skip-gram模型進(jìn)行了比較。在訓(xùn)練詞向量過程中,三者的訓(xùn)練參數(shù)均保持一致,例如,使用相同的初始化權(quán)重、學(xué)習(xí)率等??梢钥吹?,在五個語料上,skip-gram模型要優(yōu)于CBOW模型,而關(guān)系模型要優(yōu)于skip-gram模型。關(guān)系模型在AIMed、BioInfer、HPRD50、IEPA和LLL上的F值比skip-gram分別高出了1.4%,0.4%,1.9%,1.5%和0.3%,而AUC值分別高出了0.9%,0.0%,4.9%,2.1%,2.1%。

AIMed、BioInfer、HPRD50、IEPA和LLL這五個語料具有不同的實例個數(shù)、正負(fù)例比例和標(biāo)注風(fēng)格,可以看到,不論在哪個語料上,關(guān)系模型的表現(xiàn)總要優(yōu)于skip-gram和CBOW,而且每組實驗均采用十倍交叉驗證,因此,該實驗結(jié)果受過擬合的影響非常小。

表3 Skip-gram、CBOW和關(guān)系模型在AIMed、BioInfer、HPRD50、IEPA和LLL語料上的結(jié)果

關(guān)系模型可以像skip-gram和CBOW一樣利用上下文中的詞,同時,關(guān)系模型更能夠利用依存信息,并且合理的考慮了關(guān)系的類型和方向,這是skip-gram模型和CBOW模型做不到的。關(guān)系模型能夠充分利用更豐富的依存信息和上下文信息,相比skip-gram和CBOW模型,由關(guān)系模型訓(xùn)練得到的詞向量在空間中的分布更加合理,可更準(zhǔn)確地刻畫詞語的語義信息,從而使得蛋白質(zhì)關(guān)系抽取的性能得到進(jìn)一步的提升。

4.3 關(guān)系權(quán)重α的影響

(1)α自動學(xué)習(xí)。

當(dāng)α自動學(xué)習(xí)時,如果α取值接近0,會出現(xiàn)權(quán)值w和詞向量x的更新接近于0的“不學(xué)習(xí)”的現(xiàn)象;相反,如果α取值很大,會出現(xiàn)“步長過大”的現(xiàn)象而不利于收斂,甚至是梯度趨于無窮大的現(xiàn)象。因此,本文將α初值設(shè)置為1,限定其最大值為1.5,最小值為0.5,使模型的優(yōu)化保持穩(wěn)定。在α自動學(xué)習(xí)策略中,α的取值隨著梯度下降對模型的優(yōu)化而不斷變化,表4按照訓(xùn)練時間軸對α取值進(jìn)行了均勻采樣,由此得到每一種關(guān)系的平均權(quán)重。從表4可以看出, 不同關(guān)系類型對詞向量訓(xùn)練起到了不同程度的作用,最大權(quán)重和最小權(quán)重之間相差0.34。在人工設(shè)置權(quán)重時,可參考表4列出的權(quán)重進(jìn)行設(shè)置。

表4 詞表示訓(xùn)練過程中關(guān)系類型的平均權(quán)重

(2)α自動學(xué)習(xí)和固定權(quán)重的比較。

表5比較了兩種不同的關(guān)系權(quán)重策略,α自動學(xué)習(xí)和α恒為1。表5顯示,固定α和自動調(diào)整α兩種策略各有優(yōu)勢: 從AUC的評價角度看,在AIMed(實例數(shù)5 834)和BioInfer(實例數(shù)9 660)這兩個規(guī)模相對較大的語料上,后者表現(xiàn)較好,AUC值分別高出了0.7個百分點和0.3個百分點;在HPRD50(實例數(shù)443)、IEPA(實例數(shù)817)和LLL(實例數(shù)330)上,前者在AUC值上分別高出3.9,0.1和2.2個百分點。而從F值的角度來說,在AIMed、HRPRD50、LLL上權(quán)重自動調(diào)整的策略更具優(yōu)勢。

表5 兩種不同關(guān)系權(quán)重取值策略的比較

綜上所述,關(guān)系權(quán)重自動學(xué)習(xí)策略對大規(guī)模的文本挖掘應(yīng)用場景具有相對較大的AUC提升效果。在語料較小的情況下,將權(quán)重固定為1不失為一種簡單高效的選擇。

5 結(jié)論

本文針對自然語言處理和文本挖掘任務(wù)中的詞表示問題,提出了一種能夠充分利用依存關(guān)系和上下文關(guān)系,從大規(guī)模文本中無監(jiān)督地學(xué)習(xí)詞向量的方法。不同于skip-gram、CBOW等模型,該方法合理地利用了依存關(guān)系和上下文關(guān)系,具有一個輸入層和一個由三個部分組成的頂層,分別對應(yīng)關(guān)系中的關(guān)聯(lián)單位、關(guān)系類型和關(guān)系方向。同時,該方法能夠自動的學(xué)習(xí)關(guān)系類型的權(quán)重,進(jìn)而利用依存關(guān)系和上下文關(guān)系對目標(biāo)詞進(jìn)行訓(xùn)練。傳統(tǒng)的詞向量模型僅僅考慮了上下文窗口中的單詞,而關(guān)系模型能夠更好地將語義信息融合到詞向量當(dāng)中。

詞向量的終極目標(biāo)是服務(wù)于自然語言處理和文本挖掘領(lǐng)域的相關(guān)任務(wù),本文分別以類比任務(wù)和蛋白質(zhì)關(guān)系抽取任務(wù)作為評價集合,較完整的評價了詞向量的語義表達(dá)能力。實驗表明,不論是在語義信息占主導(dǎo)作用的應(yīng)用場境,還是將詞向量當(dāng)作額外特征或者輸入向量,相比skip-gram和CBOW,關(guān)系模型對系統(tǒng)性能的提升具有更顯著的作用。

在下一步工作中,我們將考慮引入外部語義資源,如WordNet本體等,進(jìn)一步提高詞向量的語義表達(dá)能力。

[1] Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11): 613-620.

[2] Bengio Y, Ducharme R, Vincent P, et al.A Neural Probabilistic Language Model[J].The Journal of Machine Learning Research.2003,3: 1137-1155.

[3] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv: 1301.3781, 2013.

[4] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the Advances in Neural Information Processing Systems. 2013: 3111-3119.

[5] Pennington J, Socher R, Manning CD. GloVe: Global Vectors for Word Representation[C]//Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014), 2014.

[6] Tian F, Dai H, Bian J, Gao B. A Probabilistic Model for Learning Multi-Prototype Word Embeddings[C]//Proceedings of Coling 2014, 2014: 151-160.

[7] Qiu S, Gao B. Co-learning of Word Representations and Morpheme Representations[C]//Proceedings of Coling 2014, 2014: 141-150.

[8] Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J]. The Journal of Machine Learning Research, 2011, (12): 2493-2537.

[9] Socher R, Pennington J, Huang E H, et al. Semi-supervised recursive autoencoders for predicting sentiment distributions[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 151-161.

[10] Levy O, Goldberg Y. Dependency-based word embeddings[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. 2014.

[11] Mnih A, Hinton G E. A scalable hierarchical distributed language model[C]//Proceedings of the Advances in neural information processing systems. 2009: 1081-1088.

[12] Bunescu R, Ge R, Kate R J, et al. Comparative experiments on learning information extractors for proteins and their interactions[J]. Artificial intelligence in medicine, 2005, 33(2): 139-155.

[13] Pyysalo S, Ginter F, Heimonen J, et al. BioInfer: a corpus for information extraction in the biomedical domain[J]. BMC bioinformatics, 2007, 8(1): 50.

[14] Fundel K, Küffner R, Zimmer R. RelEx—relation extraction using dependency parse trees[J]. Bioinformatics, 2007, 23(3): 365-371.

[15] Ding J, Berleant D, Nettleton D, et al. Mining MEDLINE: abstracts, sentences, or phrases[C]//Proceedings of the pacific symposium on biocomputing. 2002, (7): 326-337.

[16] Nédellec C. Learning language in logic-genic interaction extraction challenge[C]//Proceedings of the 4th Learning Language in Logic Workshop (LLL05). 2005: 7.

[17] Li L, Jiang Z, Huang D. A general instance representation architecture for protein-protein interaction extraction[C]//Proceedings of International Conference on Bioinformatics and Biomedicine, 2014: 497-500.

WordRepresentationBasedonWordRelations

JIANG Zhenchao, LI Lishuang, HUANG Degen

(School of Computer Science and Technology, Dalian University of Technology, Dalian,Liaoning 116024, China)

In natural language processing tasks, distributed word representation has succeeded in capturing semantic regularities and have been used as extra features. However, most word representation model are based shallow context-window, which are not enough to express the meaning of words. The essence of word meaning lies in the word relations, which consist of three elements: relation type, relation direction and related items. In this paper, we leverage a large set of unlabeled texts, to make explicit the semantic regularity to emerge in word relations, including dependency relations and context relations, and put forward a novel architecture for computing continuous vector representation. We define three different top layers in the neural network architecture as corresponding to relation type, relation direction and related words, respectively. Different from other models, the relation model can use the deep syntactic information to train word representations. Tested in word analogy task and Protein-Protein Interaction Extraction task, the results show that relation model performs overall better than others to capture semantic regularities.

word representation; word embedding; word vectors; neural network; relation model

蔣振超(1988—),博士研究生,主要研究領(lǐng)域為自然語言處理。

李麗雙(1967—),教授,博士,主要研究領(lǐng)域為自然語言理解、信息抽取與文本挖掘。

黃德根(1965—),教授,博士生導(dǎo)師,主要研究領(lǐng)域為自然語言理解與翻譯。

1003-0077(2017)03-0025-07

2015-09-23定稿日期: 2016-02-18

國家自然科學(xué)基金(61672126、61173101)

TP391

: A

猜你喜歡
關(guān)聯(lián)語義模型
一半模型
“苦”的關(guān)聯(lián)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
語言與語義
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 久久天天躁狠狠躁夜夜躁| 国产精品久久久久久久伊一| 久久香蕉国产线看观| 毛片免费在线视频| 免费无码在线观看| 日韩欧美中文字幕一本| 国产丝袜精品| 一本久道热中字伊人| 国产亚洲男人的天堂在线观看| 乱人伦中文视频在线观看免费| 国产亚洲精品资源在线26u| 91在线无码精品秘九色APP | 毛片在线播放a| 国产小视频a在线观看| 天堂在线视频精品| 国产毛片基地| 国产精品成| 毛片手机在线看| 在线免费无码视频| 中文字幕在线观| 国产凹凸一区在线观看视频| 国产一区二区免费播放| 午夜福利免费视频| 国产真实乱子伦精品视手机观看| 日韩中文字幕免费在线观看| 久久中文字幕2021精品| 日本a∨在线观看| 国模极品一区二区三区| 久久精品视频一| 制服丝袜在线视频香蕉| 久久综合九色综合97网| 日韩精品高清自在线| 国产流白浆视频| 国产精品亚洲五月天高清| 美女内射视频WWW网站午夜| 国内嫩模私拍精品视频| 真人高潮娇喘嗯啊在线观看| 国产福利在线免费观看| 国产日韩精品欧美一区灰| 中文精品久久久久国产网址| 欧美日韩高清在线| 强奷白丝美女在线观看| 亚洲成人在线免费| 国产日韩精品一区在线不卡| 999国内精品视频免费| 亚洲黄色视频在线观看一区| 久久精品电影| 91青青草视频在线观看的| 青青青国产视频| 一级毛片视频免费| 国产女人水多毛片18| 成人免费午间影院在线观看| 国产福利一区在线| 日韩天堂视频| 国产乱子伦手机在线| 亚洲无码精品在线播放| 久久精品亚洲热综合一区二区| lhav亚洲精品| 在线国产欧美| 国产精品专区第1页| 婷婷激情五月网| 中国精品自拍| 中文字幕亚洲无线码一区女同| 在线观看91香蕉国产免费| 欧美视频二区| 91精品日韩人妻无码久久| 国产精品久久久久久久久kt| 97se亚洲综合在线韩国专区福利| 亚洲天堂首页| 亚洲狼网站狼狼鲁亚洲下载| 久久免费观看视频| 亚洲乱码在线播放| 免费A级毛片无码免费视频| 四虎影视8848永久精品| 制服丝袜一区| 欧美成人手机在线视频| 无码福利日韩神码福利片| 国产精品尤物在线| 免费亚洲成人| 香蕉蕉亚亚洲aav综合| 国产在线观看高清不卡| 91色爱欧美精品www|