999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

隱馬爾科夫模型對于文本數(shù)據(jù)處理的應(yīng)用

2017-07-13 03:06:12侯垚國防大學(xué)政治學(xué)院軍事信息與網(wǎng)絡(luò)輿論系
消費(fèi)導(dǎo)刊 2017年19期
關(guān)鍵詞:模型

侯垚 國防大學(xué)政治學(xué)院軍事信息與網(wǎng)絡(luò)輿論系

隱馬爾科夫模型對于文本數(shù)據(jù)處理的應(yīng)用

侯垚 國防大學(xué)政治學(xué)院軍事信息與網(wǎng)絡(luò)輿論系

一階隱馬爾科夫模型有兩個(gè)假設(shè):①馬爾科夫假設(shè),即某特定狀態(tài)只與其前一個(gè)狀態(tài)有關(guān);②輸出獨(dú)立性假設(shè),一個(gè)輸出某觀察值的概率只與產(chǎn)生該觀察值的狀態(tài)有關(guān),而與其他任何狀態(tài)和任何觀察值無關(guān)。

馬爾科夫模型 文本數(shù)據(jù)處理

一、詞語切分的應(yīng)用

運(yùn)用馬爾科夫模型在中文分詞中時(shí),需要確定模型的參數(shù)值具體指代什么含義。文獻(xiàn)[1]指出,在漢語詞性標(biāo)注時(shí),可以將輸入詞的序列作為觀測值序列,將詞性序列作為狀態(tài)轉(zhuǎn)移序列,該問題可以轉(zhuǎn)化為,已知詞語的字符串,求出最優(yōu)的詞性標(biāo)注序列(解碼問題)。在參數(shù)的訓(xùn)練中,初始狀態(tài)的概率分布矩陣可以用統(tǒng)計(jì)的方法求得,而狀態(tài)轉(zhuǎn)移矩陣可用詞性轉(zhuǎn)移次數(shù)與詞性出現(xiàn)總數(shù)的比值求得,發(fā)射概率矩陣也可用輸出詞頻數(shù)與詞性頻數(shù)的比值來確定。對于一個(gè)分詞模型來說其設(shè)計(jì)思路流程大體分為如下幾步[2]:

①帶切分句子;②生成解的空間集合(即候選的切分集);③在解空間中求最優(yōu)解(解決切分歧義);④切分結(jié)果。

文獻(xiàn)[2]分析了基于中文分詞的一階隱馬爾科夫模型和在生語料庫中的算法,并建立了基于HMM模型進(jìn)行中文分詞的仿真系統(tǒng)。文獻(xiàn)[3]在進(jìn)行詞語切分時(shí)對HMM進(jìn)行改進(jìn),將經(jīng)過初步切分的兼類詞串和未登錄詞串的詞匯單獨(dú)抽取出來,利用Viterbi算法求得某一詞串的最大概率。

在對詞語進(jìn)行切分時(shí),由于分詞詞典樣本并不能將所有詞語都包容在內(nèi),會(huì)造成通用的詞語粗切分將一些專業(yè)術(shù)語切分成孤立的、沒有意義的若干個(gè)字詞。比如“有限自動(dòng)狀態(tài)機(jī)”一詞會(huì)被切分為“有限”、“自動(dòng)”、“狀態(tài)”、“機(jī)”4個(gè)完全失去原始含義的孤立字詞。文獻(xiàn)[4]通過建立雙層隱馬爾科夫模型,從中文語法的構(gòu)成角度上來識別專業(yè)術(shù)語,比如在“名詞”+“動(dòng)詞”后面會(huì)出現(xiàn)一個(gè)完整的名詞語義單元并被視為一個(gè)整體。其底層為上文所提到的詞性標(biāo)注序列的問題,上層模型以其為基礎(chǔ),以粗切分的詞性標(biāo)注序列為輸入觀測序列,而輸出的則是文本的最佳邊界標(biāo)記序列,邊界的起點(diǎn)代表一個(gè)未登錄詞的開始,終點(diǎn)代表結(jié)束,有利于提高未登錄詞的識別率。

而隱馬爾科夫模型在詞性標(biāo)注中存在的問題主要有:①為了達(dá)到較高的準(zhǔn)確率,需要的訓(xùn)練語料較多。②隱馬爾科夫模型并沒有較好的結(jié)合語言學(xué)的知識。這些仍有待提高。

二、命名實(shí)體的應(yīng)用

文獻(xiàn)[5]綜合考慮機(jī)構(gòu)名的結(jié)構(gòu)和上下文文本信息,采取人工輔助和機(jī)器學(xué)習(xí)相結(jié)合的方法對金融領(lǐng)域的機(jī)構(gòu)命名實(shí)體進(jìn)行識別。文獻(xiàn)[6]使用Viterbi算法,對切分的結(jié)果進(jìn)行角色標(biāo)注成為角色序列,并在此基礎(chǔ)上進(jìn)行字符串和機(jī)構(gòu)名稱的識別,具有較高的準(zhǔn)確率。文獻(xiàn)[7]針對機(jī)構(gòu)命名實(shí)體識別的難點(diǎn),使用HMM對原文分詞進(jìn)行詞性標(biāo)注,使用Viterbi算法來對最有可能的詞性進(jìn)行選擇。考慮其所分析的京劇領(lǐng)域機(jī)構(gòu)命名實(shí)體的特征,建立特征詞庫來定制符合機(jī)構(gòu)名稱的識別規(guī)則,從而實(shí)現(xiàn)對原文命名實(shí)體的識別工作。

三、詞性標(biāo)注的應(yīng)用

在詞義標(biāo)注的應(yīng)用領(lǐng)域,1988年Church等首先設(shè)計(jì)出基于詞語出現(xiàn)與轉(zhuǎn)移概率的隱馬爾科夫英文標(biāo)注器,隨后Schvtze、Scott和Sang-Zoo等人提出了各式的改進(jìn)的隱馬爾科夫模型[8];文獻(xiàn)[9]對傳統(tǒng)隱馬爾科夫模型對于詞性標(biāo)注的應(yīng)用予以分析與改進(jìn),不同學(xué)者也提出了改進(jìn)的模型[10][11]。

四、語義傾向性的應(yīng)用

文獻(xiàn)[12]提出了利用統(tǒng)計(jì)手段來對詞語進(jìn)行語義傾向判斷的方法,即把語義傾向判別看做一個(gè)褒貶的分類問題,將文本數(shù)據(jù)處理的方法應(yīng)用到語義傾向性判別研究中。其狀態(tài)值為褒義(支持)、貶義(反對)和中性(中立)三種,可能的觀測值數(shù)目取權(quán)重較高的一部分詞語即可,減少了處理龐大詞語數(shù)量的壓力。

五、對隱馬爾可夫模型的具體改進(jìn)

原有的隱馬爾科夫模型在進(jìn)行中文文本的數(shù)據(jù)處理時(shí),根據(jù)自身模型的局限,只能使用其臨近的詞語,使結(jié)果不夠優(yōu)化。文獻(xiàn)[13]提出了基于語義格改進(jìn)的模型,將隱含的狀態(tài)值表示為詞義,將觀察值的數(shù)目表示為一個(gè)句子中所包含的單詞數(shù)目。然而在不少情況下被標(biāo)注的語義常常是是由需要標(biāo)注的詞語和其距離較遠(yuǎn)得此共同決定,為了解決這一問題,在原有隱馬爾科夫模型基礎(chǔ)上引入了格關(guān)系[14](一種研究句子核心謂詞與周圍體詞的方法),提高了中文詞義的標(biāo)注性能。文獻(xiàn)[15]使HMM模型在應(yīng)用時(shí),既使一個(gè)詞(觀察值)出現(xiàn)的概率與它的詞性有關(guān),也與之前的觀察值有關(guān)。文獻(xiàn)[16]把觀察值對狀態(tài)的影響也考慮其中,在原有HMM的基礎(chǔ)上,增加了從前一觀察值到后一狀態(tài)的轉(zhuǎn)移矩陣,提出了基于特征的詞匯標(biāo)注模型,由于觀察值(詞語數(shù))眾多,所以將多個(gè)詞對應(yīng)一類特征集,這樣既保證了一定的精確度又減小了概率轉(zhuǎn)移矩陣的大小。文獻(xiàn)[17]對傳統(tǒng)隱馬爾可夫模型進(jìn)行改進(jìn),通過對參數(shù)進(jìn)行修改,使其不僅依賴當(dāng)前狀態(tài)的上文信息還將下文信息加入到模型當(dāng)中,一定程度上克服了傳統(tǒng)HMM的不足之處。同時(shí)使用了線性插值平滑算法,有效地解決了數(shù)據(jù)比較稀疏的問題,也提高了一定的未登錄詞匯的識別率。文獻(xiàn)[18]改進(jìn)分詞方法,使用雙向最大匹配進(jìn)行預(yù)處理,對于有歧義的切分詞選擇概率最大值,使用隱馬爾科夫模型來識別新詞,用“詞首”、“詞中”、“詞尾”和“單獨(dú)成詞”對單詞進(jìn)行狀態(tài)標(biāo)記,有效地減少了歧義,提高了切分的正確率。文獻(xiàn)[19]在對隱馬爾科夫模型進(jìn)行改進(jìn)時(shí),在保證了傳統(tǒng)隱馬爾科夫模型具有前向依賴性的基礎(chǔ)上,增加了后一個(gè)狀態(tài)對觀察值的影響,即一個(gè)觀察值由相鄰兩個(gè)狀態(tài)決定,一個(gè)狀態(tài)也具有兩個(gè)觀察值。采取了既考慮正序又考慮逆序的解碼模型,綜合雙序,使抗干擾性得到增強(qiáng),解碼更加精確。

在對隱馬爾科夫模型算法的改進(jìn)方面:維特比算法的概率值是若干個(gè)概率的乘積,為避免計(jì)算機(jī)進(jìn)行過多的浮點(diǎn)運(yùn)算,會(huì)將概率擴(kuò)大若干倍,但是這樣處理后,即對若干概率進(jìn)行乘法運(yùn)算后,可能導(dǎo)致乘法結(jié)果向上溢出,文獻(xiàn)[20]對維特比算法進(jìn)行了改進(jìn),將該結(jié)果取對數(shù),將乘法運(yùn)算轉(zhuǎn)換為加法,縮小了乘積的值域,使結(jié)果更精確。文獻(xiàn)[28]在建立發(fā)射概率矩陣時(shí),將卡方統(tǒng)計(jì)和TFIDF方法引入到其中,建立出特征詞的語義相關(guān)性的反映,有利于保證文本分類過程更加穩(wěn)定的運(yùn)行。文獻(xiàn)[21]利用短語構(gòu)成的特征,采用滑動(dòng)窗口算法,避免了HMM中傳統(tǒng)的前向算法和后向算法的較高的計(jì)算量。

在如隱馬爾可夫模型這種統(tǒng)計(jì)標(biāo)注方法時(shí),在求每一個(gè)觀察值序列對應(yīng)的最佳詞性標(biāo)注序列時(shí),不僅要考慮上下文的影響,也可以計(jì)算二元或三元概率參數(shù)使結(jié)果更為優(yōu)化。目前的條件下,訓(xùn)練語料較為充足且具有人工標(biāo)注,并且統(tǒng)計(jì)模型的魯棒性較好,使得統(tǒng)計(jì)方法成為較為主流的詞性標(biāo)注方法。

[1]趙紅丹,王希杰.基于隱馬爾科夫模型的詞性標(biāo)注[J].安陽師范學(xué)院學(xué)報(bào), 2010(5):9

[2]李家福,張亞非.一種基于概率模型的分詞系統(tǒng)[J].系統(tǒng)仿真學(xué)報(bào),2002, 14(5):544-546.

[3]梁以敏,黃德根.基于完全二階隱馬爾可夫模型的漢語詞性標(biāo)注[J].計(jì)算機(jī)工程,2005, 31(10):177-179.

[4]岑詠華,韓哲,季培培.基于隱馬爾科夫模型的中文術(shù)語識別研究[J].現(xiàn)代圖書情報(bào)技術(shù), 2008(12):54-58.

[5]Chan T,Vese L.Active Contours Without Edges[J].IEEETransactions on Image Processing, 2001, 10(2):266-277.

[6]楊勇,馬志明,徐春.LCV模型在醫(yī)學(xué)圖像分割中的應(yīng)用[J].計(jì)算機(jī)工程,2010, 36(10):184-186.

[7]樂娟,趙璽.基于HMM的京劇機(jī)構(gòu)命名實(shí)體識別算法[J].計(jì)算機(jī)工程,2013, 39(6):266-271.

[8]袁里馳.基于改進(jìn)的隱馬爾科夫模型的詞性標(biāo)注方法[J].中南大學(xué)學(xué)報(bào):自然科學(xué)版,2012, 43(8):3053-3057.

[9]魏歐,吳健.基于統(tǒng)計(jì)的漢語詞性標(biāo)注方法的分析與改進(jìn)[J].軟件學(xué)報(bào),2000,11(4):473-480.

[10]梁以敏,黃德根.基于完全二階隱馬爾可夫模型的漢語詞性標(biāo)注[J].計(jì)算機(jī)工程,2005, 31(10):177-179.

[11]屈剛, 陸汝占.一個(gè)改進(jìn)的漢語詞性標(biāo)注系統(tǒng)[J].上海交通大學(xué)學(xué)報(bào),2003, 37(6):897-900.

[12]Turney P D, Littman M L.Measuring praise and criticism: Inference of semantic orientation from association[J].Acm Transactions on Information Systems, 2003, 21(4):315-346.

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 中日无码在线观看| 毛片视频网| 99久久99视频| 91黄视频在线观看| 欧美日韩精品一区二区在线线| 精品成人一区二区三区电影| 国产SUV精品一区二区| 99re在线观看视频| 国产精品自在拍首页视频8| 四虎永久在线视频| 亚洲va在线观看| 亚洲综合18p| 国产成人精品男人的天堂| 91精品小视频| 麻豆精品在线视频| 天堂网亚洲系列亚洲系列| 国产浮力第一页永久地址 | 99性视频| 成AV人片一区二区三区久久| 中文字幕伦视频| 在线色国产| 亚洲天堂自拍| 国产亚洲欧美日韩在线观看一区二区| 精品福利国产| 日韩亚洲高清一区二区| 人妻少妇乱子伦精品无码专区毛片| 大香网伊人久久综合网2020| 91视频青青草| 亚洲av无码专区久久蜜芽| 天天躁夜夜躁狠狠躁图片| 国产欧美成人不卡视频| 国产麻豆精品久久一二三| 国产成人盗摄精品| 99精品伊人久久久大香线蕉 | 在线观看无码av免费不卡网站 | 亚洲动漫h| 日韩av无码精品专区| 免费又爽又刺激高潮网址| 香蕉久久国产精品免| 在线观看欧美国产| 亚洲中文字幕23页在线| 欧美日韩中文国产| 九九热视频在线免费观看| 亚洲综合色在线| 欧美一区二区三区国产精品| 九月婷婷亚洲综合在线| 亚洲国产天堂久久综合226114| 任我操在线视频| 六月婷婷激情综合| 国产精品3p视频| 欧美日韩国产在线观看一区二区三区| 亚洲乱码在线视频| 国产高清无码麻豆精品| 日本色综合网| 亚洲色图在线观看| 国产精品永久不卡免费视频| 99热这里只有成人精品国产| 五月婷婷激情四射| 国产人在线成免费视频| 青青热久麻豆精品视频在线观看| 成年网址网站在线观看| 亚洲一区无码在线| 国产特级毛片aaaaaaa高清| 日韩精品一区二区三区免费在线观看| 国产视频资源在线观看| 亚洲无码精彩视频在线观看| 亚洲美女久久| 国产亚洲视频中文字幕视频 | 天堂成人av| 四虎成人在线视频| 色老二精品视频在线观看| 中文天堂在线视频| 欧美亚洲国产日韩电影在线| 欧美一区二区自偷自拍视频| 狼友视频国产精品首页| 亚洲男人的天堂视频| 国产精品精品视频| 国产一二三区视频| 精品视频第一页| 久久久久亚洲AV成人人电影软件| 国产激情无码一区二区APP| 婷婷丁香在线观看|