999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的領(lǐng)域?qū)嶓w屬性詞聚類抽取研究*

2016-04-13 09:52:40蘇豐龍謝慶華邱繼遠(yuǎn)岳振軍
關(guān)鍵詞:文本模型

蘇豐龍,謝慶華,邱繼遠(yuǎn),岳振軍

(1. 解放軍理工大學(xué) 通信工程學(xué)院,江蘇 南京 210007; 2. 解放軍理工大學(xué) 國(guó)防工程學(xué)院,江蘇 南京 210007)

基于深度學(xué)習(xí)的領(lǐng)域?qū)嶓w屬性詞聚類抽取研究*

蘇豐龍1,謝慶華2,邱繼遠(yuǎn)1,岳振軍1

(1. 解放軍理工大學(xué) 通信工程學(xué)院,江蘇 南京 210007; 2. 解放軍理工大學(xué) 國(guó)防工程學(xué)院,江蘇 南京 210007)

屬性詞的聚類是領(lǐng)域?qū)嶓w屬性抽取中的一個(gè)重要步驟。在未知領(lǐng)域和大量文本中,人工標(biāo)注尋找十分困難。本文將一種基于深度學(xué)習(xí)框架的詞語(yǔ)嵌入表示方法(Word Embedding)引入到領(lǐng)域?qū)嶓w屬性詞聚類研究中,在無(wú)監(jiān)督條件下解決大規(guī)模語(yǔ)料、領(lǐng)域?qū)嶓w屬性詞表人工參與構(gòu)建代價(jià)較高的問題,并進(jìn)行了適當(dāng)?shù)臄U(kuò)展,取得了較好的效果,可以為信息抽取等后續(xù)高級(jí)任務(wù)提供較好服務(wù)。

詞向量;深度學(xué)習(xí);詞語(yǔ)聚類;屬性抽取

0 引言

隨著機(jī)器學(xué)習(xí)理論的發(fā)展,基于自然語(yǔ)言處理的傳統(tǒng)信息抽取技術(shù)面臨著各種機(jī)遇和挑戰(zhàn)。特別是有監(jiān)督的學(xué)習(xí)方法需要大量人工去標(biāo)注語(yǔ)料,代價(jià)昂貴,成本較高,在現(xiàn)行的機(jī)器學(xué)習(xí)應(yīng)用研究當(dāng)中,逐步被半監(jiān)督、無(wú)監(jiān)督和混合學(xué)習(xí)方法取代。

在領(lǐng)域?qū)嶓w屬性抽取這一課題中,數(shù)據(jù)來源廣泛,載體形式多樣,大量的信息載體在互聯(lián)網(wǎng)上生成和傳播,從結(jié)構(gòu)化的數(shù)據(jù)庫(kù),半結(jié)構(gòu)化的百科網(wǎng)頁(yè),到完全非結(jié)構(gòu)化的自由文本,給信息抽取工作帶來了各種挑戰(zhàn)和機(jī)遇。傳統(tǒng)的監(jiān)督學(xué)習(xí)方法通過對(duì)大量已經(jīng)標(biāo)注的樣本來學(xué)習(xí)得到映射模型,然后再對(duì)未知樣本進(jìn)行標(biāo)簽預(yù)測(cè)。本文針對(duì)前人在使用監(jiān)督學(xué)習(xí)過程中語(yǔ)料標(biāo)注工作量大、代價(jià)高的實(shí)際,提出了一種基于詞語(yǔ)嵌入式表示的無(wú)監(jiān)督詞語(yǔ)聚類方法。假設(shè)同類別的屬性詞在文本中具有相同或相近的語(yǔ)用和語(yǔ)境,利用深層神經(jīng)網(wǎng)絡(luò)架構(gòu)學(xué)習(xí)出詞語(yǔ)的嵌入式表示,也稱詞向量(Word Embedding),使其帶上文本空間的各種特征信息,有助于降低大規(guī)模語(yǔ)料人工尋找構(gòu)建屬性詞表的困難。實(shí)踐證明此方法聚類出的詞語(yǔ)再通過后續(xù)的擴(kuò)展及過濾步驟,基本能夠達(dá)到專家要求的構(gòu)建標(biāo)準(zhǔn)。

1 相關(guān)理論

領(lǐng)域詞匯的自動(dòng)聚類可以看成是自然語(yǔ)言處理領(lǐng)域的一項(xiàng)重要任務(wù),并發(fā)展出較多的研究成果。如Sven Martin等提出了基于困惑度為代價(jià)函數(shù)的貪婪聚類算法對(duì)詞表中的詞進(jìn)行歸類,可使訓(xùn)練語(yǔ)料的困惑度最小,但算法時(shí)間代價(jià)高[1];陳浪舟等在前人研究的基礎(chǔ)上進(jìn)行了優(yōu)化,提出基于詞的相似性分層聚類算法,并用于基于詞類的可變長(zhǎng)統(tǒng)計(jì)語(yǔ)言模型研究當(dāng)中,取得了較好的效果,但是需要借助于專家預(yù)先設(shè)定的分類系統(tǒng)[2];程顯毅等利用屬性和屬性值組合的概念模板,并借助于Google搜索進(jìn)行頻繁挖掘,但實(shí)現(xiàn)過程較復(fù)雜,增加了人力成本[3];另外還有基于LDA分析進(jìn)行詞語(yǔ)聚類等方法,但其需要人工預(yù)先設(shè)置主題數(shù)目[4]。以上論文所使用的方法基本上可以分為基于規(guī)則的方法、基于統(tǒng)計(jì)的方法以及規(guī)則加統(tǒng)計(jì)的混合方法,多數(shù)花費(fèi)代價(jià)大,依賴性較高。

深度學(xué)習(xí)(Deep Learning)是近年來研究的熱點(diǎn),在圖像、語(yǔ)音和文本這三大信息載體領(lǐng)域均有突破性進(jìn)展。基于深度學(xué)習(xí)的詞向量是近年來研究比較多的一種無(wú)監(jiān)督的學(xué)習(xí)方法[5],在研究海量高維文本、未知領(lǐng)域?qū)I(yè)文本、陌生語(yǔ)種文本等問題中體現(xiàn)出極大的優(yōu)越性,其人工參與程度小、自動(dòng)化程度高,受到越來越多的學(xué)者關(guān)注,并且產(chǎn)生了多種擴(kuò)展模型。其中,word2vec(Word to Vector)是Google在2013年開發(fā)的詞向量轉(zhuǎn)化工具,可以學(xué)習(xí)出詞語(yǔ)的語(yǔ)義、語(yǔ)法和語(yǔ)用信息,計(jì)算詞語(yǔ)的相似度,是本文研究的工具之一。

1.1 word2vec理論描述

詞向量是訓(xùn)練神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型過程中的產(chǎn)物,與傳統(tǒng)的向量空間模型VSM(Vector Space Model)相比具有維度低、快速、精確等優(yōu)點(diǎn)[6]。

如圖1所示,最下方表示的是前n-1個(gè)詞語(yǔ):wt-n+1,…,wt-2,wt-1,利用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型可以預(yù)測(cè)出下一個(gè)詞wt。

圖1 訓(xùn)練詞向量的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型

網(wǎng)絡(luò)的第一層為輸入層:將前n-1個(gè)詞語(yǔ)的向量首尾拼接,組成(n-1)×m維的長(zhǎng)向量,其中m是初始規(guī)定的詞向量維度。

網(wǎng)絡(luò)的第二層為為隱藏層:與普通神經(jīng)網(wǎng)絡(luò)類似,偏置項(xiàng)可以隨機(jī)初始化,激活函數(shù)選用tanh。

網(wǎng)絡(luò)的第三層為輸出層:使用softmax函數(shù)將輸出值的概率歸一化。

1.2 循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型

循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Recurrent Neural Network Language Model,RNNLM)是Mikolov于2010年提出的一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、用來訓(xùn)練語(yǔ)言模型的改進(jìn)方法[7],比Bengio的神經(jīng)網(wǎng)絡(luò)模型更出色,也是本文所使用word2vec工具的算法原理模型。循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型如圖2所示。

通過調(diào)查發(fā)現(xiàn),很多國(guó)企管理思想落后,仍然分不清“財(cái)務(wù)管理”和“財(cái)務(wù)會(huì)計(jì)”。在日常工作中,財(cái)務(wù)人員需要花費(fèi)大量時(shí)間處理會(huì)計(jì)工作,忽視了財(cái)務(wù)管理工作。財(cái)務(wù)管理是一項(xiàng)綜合性工作,對(duì)財(cái)務(wù)人員的素質(zhì)要求(特別是工作經(jīng)驗(yàn))比較高,這一點(diǎn)需要引起企業(yè)的重視[2]。除此之外,財(cái)務(wù)管理人員專業(yè)能力和知識(shí)水平不高,公司對(duì)財(cái)務(wù)人員的培訓(xùn)也不夠,這些也將導(dǎo)致財(cái)務(wù)管理人員的知識(shí)水平不能滿足企業(yè)改革發(fā)展需要。

圖2 循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型

圖2中,RNNLM包含一個(gè)輸入層w(t),代表在t時(shí)刻輸入詞的1-of-N編碼,以向量形式輸入;一個(gè)循環(huán)連接的隱含層s(t),維持了句子的歷史信息和輸出層y(t);輸出層輸出詞的概率分布,以及它們對(duì)應(yīng)的權(quán)重矩陣U,V,W。

其中,隱含層s(t)和輸出層y(t)的值可以通過下面公式得出:

s(t)=f(U×w(t)+W×s(t-1))

y(t)=g(V×s(t))

1.3 基于語(yǔ)義相似度的聚類

詞語(yǔ)作為一種符號(hào)的集合,其在文本中有著特殊存在和表示形式,在中文領(lǐng)域的分詞、文法、語(yǔ)境、修飾等各種難點(diǎn)對(duì)機(jī)器學(xué)習(xí)來說均是巨大的挑戰(zhàn)。其中,基于語(yǔ)義相似度詞聚類依舊是研究的重點(diǎn)和難點(diǎn)。

本文結(jié)合領(lǐng)域?qū)嶓w屬性抽取這一課題,利用維基百科中文語(yǔ)料無(wú)監(jiān)督地訓(xùn)練出詞向量,然后再利用向量的夾角余弦距離公式計(jì)算詞語(yǔ)之間的距離,挖掘出領(lǐng)域?qū)嶓w所需的屬性詞,為后續(xù)的工作做準(zhǔn)備。

對(duì)于兩個(gè)n維樣本點(diǎn)a(x11,x12,…,x1n)和b(x21,x22,…,x2n),可以使用類似于夾角余弦的概念來衡量它們間的相似程度。

夾角余弦距離公式:

2 實(shí)驗(yàn)分析與驗(yàn)證

2.1 實(shí)驗(yàn)預(yù)處理

本文從維基百科中爬取了部分裝備語(yǔ)料,如圖3所示。由于內(nèi)容的開放性,用戶可以自由添加更改百科的內(nèi)容,部分內(nèi)容不規(guī)范,經(jīng)過預(yù)處理篩選后共有2 800篇能夠用于實(shí)驗(yàn)。借助于中科院的ICTCLAS分詞系統(tǒng)和CRF++-0.58工具包,語(yǔ)料經(jīng)過分詞、詞性標(biāo)注、斷句、命名實(shí)體識(shí)別后,以備后用。

2.2 屬性詞的聚類挖掘和擴(kuò)展

考慮到人工尋找屬性詞語(yǔ)會(huì)出現(xiàn)遺漏、費(fèi)時(shí)等困難,本文使用Python2.7中g(shù)ensim工具包(Google的word2vec工具源碼python封裝)進(jìn)行詞向量的訓(xùn)練和屬性詞的挖掘,選用大規(guī)模維基中文語(yǔ)料(截止2015年1月,共1.2 GB)進(jìn)行學(xué)習(xí),確保屬性詞語(yǔ)的覆蓋。研究在設(shè)置不同維度、不同窗口條件下對(duì)屬性詞挖掘效果的影響。借助于實(shí)驗(yàn)室已有的領(lǐng)域?qū)I(yè)詞典,設(shè)置了兩組對(duì)比實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)效果進(jìn)行初步分析。測(cè)試評(píng)價(jià)選用通用的準(zhǔn)確率P、召回率R和查全率F作為評(píng)價(jià)標(biāo)準(zhǔn)。

圖3 未處理語(yǔ)料樣例

根據(jù)先驗(yàn)知識(shí),選取軍事裝備領(lǐng)域常用的屬性詞語(yǔ)“速度”、“重量”、“航程”、“排水量”等進(jìn)行聚類挖掘,部分結(jié)果如表1、表2所示。

表1 與“速度”距離最近的10個(gè)詞語(yǔ)

表2 與“重量”距離最近的10個(gè)

實(shí)驗(yàn)過程中,預(yù)先訓(xùn)練出40、200、1 000維度詞向量模型,窗口大小均有5、10、15三種,共9種組合,為了防止漏詞,設(shè)置最小詞頻總數(shù)為1。經(jīng)過反復(fù)調(diào)整,部分結(jié)果如圖4、圖5所示。

2.3 結(jié)果分析

由于領(lǐng)域文本的特殊性,非專業(yè)人員容易遺漏特定的屬性詞,在網(wǎng)絡(luò)大規(guī)模海量語(yǔ)料面前會(huì)顯得束手無(wú)策。

表1和表2中所展示的結(jié)果是利用詞向量模型計(jì)算出的與“速度”、“重量”距離最近的10個(gè)詞語(yǔ)(窗口為5、維度為40),部分結(jié)果不是很準(zhǔn)確,個(gè)別詞語(yǔ)與“速度”、“重量”關(guān)系不大,如:“級(jí)位”、“反應(yīng)時(shí)間”、“M240B”、“車高”等,經(jīng)過仔細(xì)分析,有些詞語(yǔ)雖然不是嚴(yán)格意義上的同義詞或者近義詞,但也是相關(guān)的,如擴(kuò)展出“推重比”、“恒功”、“扭矩”等陌生領(lǐng)域相關(guān)詞匯,這與語(yǔ)料的質(zhì)量有很大關(guān)系。

圖4 固定窗口10,不同維度的詞向量模型對(duì)實(shí)驗(yàn)的影響

圖5 固定維度200,不同窗口的詞向量模型對(duì)實(shí)驗(yàn)的影響

圖4和圖5表明,在窗口為10、維度為200時(shí),屬性詞的聚類抽取效果最好。經(jīng)過分析,可能的原因是:窗口太小,不能足夠考慮上下文歷史信息(圖5中33.7%和27.4%),而窗口太大又容易造成信息冗余,產(chǎn)生“噪聲”,影響屬性詞的抽取(圖5中61.2%和66.1%);在模型維度選取方面,向量維度過小F值較差(圖4中20.4%和17.7%),與模型的構(gòu)建不合理以及訓(xùn)練不夠充分有關(guān),當(dāng)維度為1 000時(shí),又引入了大量的相關(guān)詞,也使F值下降(圖4中35.9%和25.6%),同時(shí)硬件的計(jì)算開銷也將增大。經(jīng)過反復(fù)驗(yàn)證,最終設(shè)定維度為200、窗口為10,效果最好(圖4、5中76.6%和84.6%),這與屬性詞在文本中出現(xiàn)的行文表達(dá)結(jié)構(gòu)有關(guān),需要根據(jù)不同任務(wù)反復(fù)調(diào)整。

3 結(jié)論與展望

本文在前人工作的基礎(chǔ)上,做出了一些改進(jìn)和簡(jiǎn)單嘗試,將深度學(xué)習(xí)中的詞向量模型引入到屬性詞語(yǔ)聚類抽取研究當(dāng)中,然后再結(jié)合專家詞典進(jìn)行評(píng)測(cè),取得了不錯(cuò)的效果,對(duì)于后續(xù)的研究有一定的借鑒意義。但也有較多不足:文本的分詞以及語(yǔ)料的規(guī)范性都需要進(jìn)一步提高;在訓(xùn)練神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型時(shí),需要大規(guī)模語(yǔ)料覆蓋,如何獲取高質(zhì)量的大規(guī)模語(yǔ)料依舊是需要考慮的問題;本文僅僅是用向量的夾角余弦公式指定泛化詞語(yǔ)進(jìn)行相似度查詢聚類,會(huì)產(chǎn)生偏差,且結(jié)果還需要進(jìn)一步清洗過濾。下一步研究將從文本的語(yǔ)言學(xué)特征入手,結(jié)合其他詞語(yǔ)距離度量方法,更好地實(shí)現(xiàn)信息抽取任務(wù)。

[1] MARTIN S, NEY H. Algorithms for bigram and trigram word clustering[C].In:Proc European Conference Speech Communication and Technology,Madrid,1995:1253-1256.

[2] 陳浪舟,黃泰翼.一種新穎的詞聚類算法和可變長(zhǎng)統(tǒng)計(jì)語(yǔ)言模型[J].計(jì)算機(jī)學(xué)報(bào),1999,22(9):942-948.

[3] 程顯毅,施佺,沈?qū)W華,等.屬性和屬性值組合的概念模板[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,49(1):15-19.

[4] 彭云,萬(wàn)常選,江騰蛟,等.一種詞聚類LDA的商品特征提取算法[J].小型微型計(jì)算機(jī)系統(tǒng),2015,7(7):1458-1463.

[5] 劉樹杰,董力,張家駿,等.深度學(xué)習(xí)在自然語(yǔ)言處理中的應(yīng)用[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2015,11(3):9-16.

[6] BENGIO Y,DUCHARME R,VINCENT P,et al. A neural probabilistic language model[J].The Joural of Machine Research,2003(3):1137-1155.

[7] MIKOLOV T,KOMBRINK S,BURGET L,et al. Extensions of recurrent neural network language model[C].Acoustics,Speech and Signal Processing(ICASSP),2011 IEEE International Conference on,IEEE,2011:5528-5531.

Study on word clusting for attribute extraction based on deep learning

Su Fenglong1,Xie Qinghua2,Qiu Jiyuan1,Yue Zhenjun1

(1. Institute of Communication Engineering, PLA University of Science and Technology, Nanjing 210007, China;2. Institute of National Defense Engineering, PLA University of Science and Technology, Nanjing 210007, China)

Attributes word clustering is an important step for entity attributes extraction in domain. It is very difficult for man to find them out in a large number of texts about unknown domain. We introduced Word Embedding which is based on a deep learning framework into the study of attributes word clustering, in that we should solve the problem of the higher cost of building the attibutes words lists in large scale corpus. Then we brought them to develop more vocabularies and expressions, and the results was good. It can provide us better service in some senior tasks in the follow-up work, such as information extraction .

word distributed representation; deeping learning; word clustering; attribute extraction

江蘇省自然科學(xué)基金資助項(xiàng)目(BK2012511)

TP391

A

1674-7720(2016)01-0053-03

蘇豐龍,謝慶華,邱繼遠(yuǎn),等.基于深度學(xué)習(xí)的領(lǐng)域?qū)嶓w屬性詞聚類抽取研究[J].微型機(jī)與應(yīng)用,2016,35(1):53-55,59.

2015-07-13)

蘇豐龍(1988-),男,碩士,助理工程師,主要研究方向:自然語(yǔ)言處理、文本挖掘、情報(bào)分析。

謝慶華(1971-),男,博士,副教授,主要研究方向:情報(bào)可視化。

邱繼遠(yuǎn)(1985-),男,碩士,工程師,主要研究方向:信息檢索、情報(bào)分析對(duì)抗。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产日韩欧美成人| 国产精品亚洲天堂| 国产99视频在线| 欧美日韩国产在线人成app| 亚洲精品自拍区在线观看| 国产精品视频3p| 国产成人无码久久久久毛片| 久久男人资源站| 成人免费网站久久久| 欧洲一区二区三区无码| 国产三级成人| 亚洲精品波多野结衣| 国产精品视频白浆免费视频| 欧洲免费精品视频在线| 一级爱做片免费观看久久| 欧美亚洲欧美| 婷婷激情五月网| 香蕉久久国产超碰青草| 亚洲欧洲日产国产无码AV| 国产在线视频欧美亚综合| 少妇露出福利视频| 精品国产免费观看一区| 91久久夜色精品国产网站| 亚洲国产综合自在线另类| 在线播放国产99re| 六月婷婷精品视频在线观看| 亚洲综合色婷婷| 玖玖精品在线| 青青久视频| 国产乱视频网站| 亚洲成AV人手机在线观看网站| 亚洲91在线精品| 国产草草影院18成年视频| 国产成人无码综合亚洲日韩不卡| 91美女视频在线观看| 国产免费网址| 亚洲爱婷婷色69堂| 久久伊人操| 国产成人综合网在线观看| 视频国产精品丝袜第一页| 亚洲免费毛片| 国产午夜看片| 激情无码视频在线看| 国产99视频精品免费视频7| 麻豆国产精品一二三在线观看| 国产人人射| 国产精品自在线拍国产电影| 欧美成人国产| 久久精品91麻豆| 伦伦影院精品一区| 97国内精品久久久久不卡| 久久精品一卡日本电影| 91精品国产一区自在线拍| 亚洲久悠悠色悠在线播放| 久草性视频| 精品少妇人妻av无码久久| 亚洲中文精品人人永久免费| 1024你懂的国产精品| 97青草最新免费精品视频| 久久性视频| 九九热精品在线视频| 99热国产这里只有精品9九 | 91精品网站| 青青青视频蜜桃一区二区| 亚洲三级色| 99在线视频免费观看| 精品黑人一区二区三区| 国产十八禁在线观看免费| 国产在线观看人成激情视频| 精品视频福利| 成人另类稀缺在线观看| www.精品视频| 国产极品粉嫩小泬免费看| 国产激情无码一区二区APP| 亚洲精品在线影院| 国产99在线观看| 日本人妻一区二区三区不卡影院| 一区二区欧美日韩高清免费| 玩两个丰满老熟女久久网| 亚洲国产欧美国产综合久久 | 91蝌蚪视频在线观看| 毛片在线看网站|