999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞向量與CRF的命名實(shí)體識(shí)別研究

2017-02-23 05:45:22
無(wú)線互聯(lián)科技 2017年1期
關(guān)鍵詞:特征文本實(shí)驗(yàn)

敬 星

(貴州師范大學(xué) 大數(shù)據(jù)與計(jì)算機(jī)科學(xué)學(xué)院,貴州 貴陽(yáng) 550001)

基于詞向量與CRF的命名實(shí)體識(shí)別研究

敬 星

(貴州師范大學(xué) 大數(shù)據(jù)與計(jì)算機(jī)科學(xué)學(xué)院,貴州 貴陽(yáng) 550001)

文章提出了一種基于詞向量與CRF中文命名實(shí)體。核心觀點(diǎn)為:命名實(shí)體識(shí)別任務(wù)本質(zhì)上為序列標(biāo)注任務(wù)。常見的序列標(biāo)注模型有HMM,MEMM,CRF。HMM模型是對(duì)轉(zhuǎn)移概率和表現(xiàn)概率建立模型。MEMM模型為將轉(zhuǎn)移概率與表現(xiàn)概率構(gòu)建為聯(lián)合概率,統(tǒng)計(jì)為條件概率。MEMM經(jīng)常為局部最優(yōu),原因是MEMM歸一在部分。CRF模型計(jì)算了整體概率,當(dāng)歸一時(shí),顧及信息在整體的出現(xiàn),所以避免了MEMM標(biāo)記偏移的出現(xiàn)。

CRF 標(biāo)注;轉(zhuǎn)移概率;條件概率

在統(tǒng)計(jì)自然語(yǔ)言處理領(lǐng)域,經(jīng)常要面對(duì)的是序列標(biāo)注問(wèn)題:根據(jù)觀察值序列來(lái)確定其狀態(tài)序列。例如在詞性標(biāo)注任務(wù)中,需要對(duì)每個(gè)詞標(biāo)注其詞性。在這里,詞就是觀察值,而詞性就是觀察值的狀態(tài)。一個(gè)觀察值可能有多個(gè)狀態(tài),這個(gè)狀態(tài)是隱藏在觀察值下面不可見的。如何對(duì)整個(gè)觀察值序列進(jìn)行建模,來(lái)求出最佳的觀察值序列,是統(tǒng)計(jì)自然語(yǔ)言處理經(jīng)常要面對(duì)的一個(gè)決策問(wèn)題。

在本文的命名實(shí)體識(shí)別實(shí)驗(yàn)中,筆者將文本內(nèi)容采用單字分割的方法。結(jié)合前人的研究成果,基于單個(gè)字的識(shí)別效果擁有很多的好處。第一,對(duì)文本內(nèi)容的處理方便,只需要把文本進(jìn)行字符分割就行。第二,實(shí)驗(yàn)效果好,在命名實(shí)體識(shí)別系統(tǒng)中[1],將使用采用單個(gè)字的模型。采用詞的模型與采用類的模型進(jìn)行了對(duì)比。把采用字的模型整體性能比另外兩種方法好。最后,可以防止不正確的分詞造成的錯(cuò)誤。在實(shí)際的實(shí)驗(yàn)過(guò)程中,采用B(開始),I(中間),E(結(jié)束),N(空),對(duì)每個(gè)處理字符進(jìn)行表述,所以對(duì)人名、地名、機(jī)構(gòu)名識(shí)別的任務(wù)定義了10種字符串的集合,L={BPER,I-PER,E-PER ,B-LOC ,I-LOC,E-LOC,B-ORG,I-ORG,E-ORG,N}。對(duì)于每個(gè)字符串的含義為:中文人名起始,中文人名中間,中文人名末,中文地名起始,中文地名中間,中文地名末,中文機(jī)構(gòu)名起始,中文機(jī)構(gòu)名中間,中文機(jī)構(gòu)名末,空。

例如下面的一句話,“巴菲特是美國(guó)的慈善家”,依據(jù)前文描述筆者把它分割為原始字符,打標(biāo)隊(duì)列:“巴……B-PER, 菲……I-PER,特……E-PER,是……O,美……B-LOC,國(guó)……E-LOC,的……O,慈……O,善……O,家……O。”此時(shí)的輸入序列為:

X={巴,菲,特,是,美,國(guó),的,慈,善,家}

對(duì)應(yīng)的標(biāo)注序列為:

把人民日?qǐng)?bào)1998年的文本資料通過(guò)上述方法處理就能得到可使用的訓(xùn)練文本,文本由原始字符,打標(biāo)隊(duì)列{i(x),j(y)}組成。

2 基于CRF的實(shí)體識(shí)別

2.1 函數(shù)集合

函數(shù)集合在條件隨機(jī)場(chǎng)中作為一個(gè)關(guān)鍵的概念。筆者先通過(guò)訓(xùn)練文本獲得函數(shù)fj=(yi-1,yi,x,i),接著再給不同的函數(shù)相應(yīng)的權(quán)重。fj=(yi-1,yi,x,i)為狀態(tài)與轉(zhuǎn)移函數(shù)相結(jié)合的表達(dá)。該函數(shù)只有兩個(gè)函數(shù)值,為0或1。為了構(gòu)建該函數(shù)的需要,筆者先定義原始文本上觀察特征b(x,i)的集合。該函數(shù)如公式1表示。

公式中b(x,i)代表實(shí)際值,出現(xiàn)某種情況是1,其余是0。

公式中wi="b"代表i的實(shí)際值是“b”,如果獲得了所有i位置的實(shí)際值的b(x,i),就能得到模型的函數(shù)集。對(duì)于i位置的實(shí)際值,在具體應(yīng)用中會(huì)給合適的窗口。

2.2 條件隨機(jī)場(chǎng)的特征模板

特征模板是用來(lái)配置特征的。在CRF中,使用的特征函數(shù)是已知的,模型訓(xùn)練的參數(shù)只是各特征的權(quán)重。因此你配置的是特征的位置關(guān)系,在訓(xùn)練預(yù)料中出現(xiàn)的符合這個(gè)位置的,成為一個(gè)特征。根據(jù)你的特征模板,CRF++從訓(xùn)練語(yǔ)料中得到了好多特征函數(shù),然后訓(xùn)練得到各特征函數(shù)的權(quán)重。

每個(gè)模板都只考慮一種因素。

Y[-3,1],Y[-1,0],Y[1,1],Y[1,0],Y[-2,1],在括號(hào)內(nèi)的首個(gè)數(shù)字代表窗口位置,末位數(shù)字代表特征種類。

2.3 確認(rèn)模型參數(shù)

獲得CRF模型分為兩個(gè)階段,首先獲取特征函數(shù)集,最后確認(rèn)模型里面的參數(shù)。

確認(rèn)模型參數(shù)本質(zhì)上就是獲取λ,λ是相應(yīng)特征函數(shù)的權(quán)重,極大似然估計(jì)(MLE)通過(guò)似然函數(shù)獲取λ。

2.4 參數(shù)估計(jì)的訓(xùn)練算法

本文實(shí)驗(yàn)使用L-BFGS算法[2]進(jìn)行模型訓(xùn)練。

如GIS和IIS的迭代梯度算法為經(jīng)典學(xué)習(xí)算法[3]。CRF模型符合最大熵原理,所以迭代梯度算法能夠適用CRF模型訓(xùn)練,然而采用了L-BFGS算法,基于該算法獲取CRF模型比傳統(tǒng)方法迅速,并且比變化斜率方法效果更好[4]。

3 詞向量

詞向量是深度學(xué)習(xí)的產(chǎn)物,它包含了豐富的句法、語(yǔ)義特征,同時(shí)由于詞向量的連續(xù)性,使得它能夠在原本離散的無(wú)關(guān)聯(lián)的詞與詞之間建立關(guān)系,更重要的是,在產(chǎn)生詞向量時(shí),可以使用各種領(lǐng)域的語(yǔ)料來(lái)一起訓(xùn)練,因而,詞向量具有領(lǐng)域獨(dú)立性,所以將詞向量特征使用到模型訓(xùn)練中,可以讓模型具有更強(qiáng)適用性。

4 實(shí)驗(yàn)分析

4.1 原始文本來(lái)源

該實(shí)驗(yàn)選擇1998年1月《人民日?qǐng)?bào)》公開文本用作原始數(shù)據(jù)。把該文本劃分為訓(xùn)練文本和測(cè)試測(cè)試,其文本長(zhǎng)度比例為4∶1。訓(xùn)練文本的句子數(shù)目共21 569。

4.2 工具的選擇

word2vec 是一個(gè)使用比較廣泛的開源的詞向量生成工具包,它可以將輸入的分好詞的文本中的詞語(yǔ)轉(zhuǎn)換成向量的形式。條件隨機(jī)場(chǎng)的訓(xùn)練和測(cè)試使用CRF++。CRF++可用于各種自然語(yǔ)言處理的問(wèn)題,如命名實(shí)體識(shí)別、信息抽取、文本分塊等等。

4.3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果如表1所示,其中P,R,F(xiàn)分別表示精確率,召回率和F值。

表1 實(shí)驗(yàn)結(jié)果數(shù)據(jù)

5 結(jié)語(yǔ)

通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),使用條件隨機(jī)場(chǎng)進(jìn)行命名實(shí)體識(shí)別實(shí)驗(yàn)時(shí)準(zhǔn)確率較高,但召回率比較低,認(rèn)為是條件隨機(jī)場(chǎng)模型對(duì)訓(xùn)練數(shù)據(jù)產(chǎn)生了一定程度的過(guò)擬合造成的。

[1]郭家清.基于條件隨機(jī)場(chǎng)的命名實(shí)體識(shí)別研究 [D].沈陽(yáng):沈陽(yáng)航空工業(yè)學(xué)院,2007.

[2]WALLACH H. Conditional Random Field: An Introduction[D]. University of Pennsylvaania CIS Technical Report MS-CIS-04-21,2004 .

[3]ANDREWB A. Maximum Entrop Approach to Natural Language Processing[J].Computation Linguistics,1996(1):39-72.

[4]JAYNES E T.Information Theory and Statistical Mechanics[J].Physics Reviews,1957(106):620-630.

Research on named entity recognition based on word vector and CRF

Jing Xing
(Data and Computer Science College of Guizhou Normal University, Guiyang 550001, China)

In this paper, a Chinese named entity based on word vector and CRF is proposed. The key point of this paper is: named entity recognition task is essentially a sequence tagging task. Common sequence annotation models includes HMM, MEMM, CRF. HMM model is a model of the transition probability and performance probability. The MEMM model is a model for the transition probability and the performance probability. The MEMM model is to construct the transition probability and the probability of expression as the joint probability, which is statistics of the conditional probability. Often MEMM is the local optimum, for MEMM is part normalization. CRF model calculated the overall probability, when normalization, taking into account the emergence of information in the whole, so avoid the emergence of MEMM mark offset.

CRF annotation; transition probability; conditional probability

敬星(1990— ),男,四川南部,碩士;研究方向:自然語(yǔ)言處理。

猜你喜歡
特征文本實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
如何表達(dá)“特征”
在808DA上文本顯示的改善
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 日本精品视频| 国产视频欧美| 五月婷婷综合网| 四虎永久在线精品影院| 国产黄网永久免费| 2021国产精品自产拍在线| 国产精品无码作爱| 成人一级黄色毛片| 波多野结衣无码视频在线观看| 一级毛片在线免费视频| 国产成人福利在线| 亚洲欧美日韩中文字幕在线| 高清精品美女在线播放| 国模极品一区二区三区| 亚洲区欧美区| 成年网址网站在线观看| 日韩午夜福利在线观看| 毛片网站观看| 亚洲欧美激情小说另类| 婷婷久久综合九色综合88| 四虎AV麻豆| 人妖无码第一页| 日韩精品一区二区深田咏美| 国产原创演绎剧情有字幕的| 999国产精品永久免费视频精品久久| 亚洲大尺码专区影院| 国产一级小视频| 色婷婷电影网| 日韩欧美国产精品| 亚洲精品无码AⅤ片青青在线观看| 亚洲国产日韩视频观看| 亚洲日韩欧美在线观看| 国产激情无码一区二区免费| 日本高清有码人妻| 色综合天天综合| 毛片免费观看视频| 日韩中文欧美| 制服无码网站| 在线无码私拍| 国产一级在线观看www色| 午夜国产理论| 婷婷五月在线| www.91中文字幕| 波多野结衣视频网站| 在线视频精品一区| 色成人亚洲| jizz在线免费播放| 中文字幕欧美成人免费| 久久大香香蕉国产免费网站| 欧美在线精品怡红院| 亚洲av综合网| 无码高潮喷水专区久久| 88国产经典欧美一区二区三区| 一级成人欧美一区在线观看| 久久黄色影院| 亚洲日本中文字幕乱码中文| 国产第二十一页| 午夜免费视频网站| 日本高清成本人视频一区| 久久人妻xunleige无码| 精品国产香蕉伊思人在线| 欧美国产另类| 72种姿势欧美久久久大黄蕉| 欧美一级视频免费| 亚洲国产成人综合精品2020| 激情无码字幕综合| 国产欧美日韩另类| 天天综合网站| 中文字幕无码中文字幕有码在线| 亚洲欧美自拍视频| 国产一级片网址| 日韩毛片基地| 国产精品区视频中文字幕| 超碰aⅴ人人做人人爽欧美 | 色哟哟精品无码网站在线播放视频| 91在线激情在线观看| 午夜日b视频| 免费jjzz在在线播放国产| 青青青视频91在线 | 思思热在线视频精品| 国产亚洲一区二区三区在线| 中文字幕在线视频免费|