999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

隱馬爾科夫模型對于文本數(shù)據(jù)處理的應(yīng)用

2017-07-13 03:06:12侯垚國防大學(xué)政治學(xué)院軍事信息與網(wǎng)絡(luò)輿論系
消費導(dǎo)刊 2017年19期
關(guān)鍵詞:模型

侯垚 國防大學(xué)政治學(xué)院軍事信息與網(wǎng)絡(luò)輿論系

隱馬爾科夫模型對于文本數(shù)據(jù)處理的應(yīng)用

侯垚 國防大學(xué)政治學(xué)院軍事信息與網(wǎng)絡(luò)輿論系

一階隱馬爾科夫模型有兩個假設(shè):①馬爾科夫假設(shè),即某特定狀態(tài)只與其前一個狀態(tài)有關(guān);②輸出獨立性假設(shè),一個輸出某觀察值的概率只與產(chǎn)生該觀察值的狀態(tài)有關(guān),而與其他任何狀態(tài)和任何觀察值無關(guān)。

馬爾科夫模型 文本數(shù)據(jù)處理

一、詞語切分的應(yīng)用

運用馬爾科夫模型在中文分詞中時,需要確定模型的參數(shù)值具體指代什么含義。文獻[1]指出,在漢語詞性標注時,可以將輸入詞的序列作為觀測值序列,將詞性序列作為狀態(tài)轉(zhuǎn)移序列,該問題可以轉(zhuǎn)化為,已知詞語的字符串,求出最優(yōu)的詞性標注序列(解碼問題)。在參數(shù)的訓(xùn)練中,初始狀態(tài)的概率分布矩陣可以用統(tǒng)計的方法求得,而狀態(tài)轉(zhuǎn)移矩陣可用詞性轉(zhuǎn)移次數(shù)與詞性出現(xiàn)總數(shù)的比值求得,發(fā)射概率矩陣也可用輸出詞頻數(shù)與詞性頻數(shù)的比值來確定。對于一個分詞模型來說其設(shè)計思路流程大體分為如下幾步[2]:

①帶切分句子;②生成解的空間集合(即候選的切分集);③在解空間中求最優(yōu)解(解決切分歧義);④切分結(jié)果。

文獻[2]分析了基于中文分詞的一階隱馬爾科夫模型和在生語料庫中的算法,并建立了基于HMM模型進行中文分詞的仿真系統(tǒng)。文獻[3]在進行詞語切分時對HMM進行改進,將經(jīng)過初步切分的兼類詞串和未登錄詞串的詞匯單獨抽取出來,利用Viterbi算法求得某一詞串的最大概率。

在對詞語進行切分時,由于分詞詞典樣本并不能將所有詞語都包容在內(nèi),會造成通用的詞語粗切分將一些專業(yè)術(shù)語切分成孤立的、沒有意義的若干個字詞。比如“有限自動狀態(tài)機”一詞會被切分為“有限”、“自動”、“狀態(tài)”、“機”4個完全失去原始含義的孤立字詞。文獻[4]通過建立雙層隱馬爾科夫模型,從中文語法的構(gòu)成角度上來識別專業(yè)術(shù)語,比如在“名詞”+“動詞”后面會出現(xiàn)一個完整的名詞語義單元并被視為一個整體。其底層為上文所提到的詞性標注序列的問題,上層模型以其為基礎(chǔ),以粗切分的詞性標注序列為輸入觀測序列,而輸出的則是文本的最佳邊界標記序列,邊界的起點代表一個未登錄詞的開始,終點代表結(jié)束,有利于提高未登錄詞的識別率。

而隱馬爾科夫模型在詞性標注中存在的問題主要有:①為了達到較高的準確率,需要的訓(xùn)練語料較多。②隱馬爾科夫模型并沒有較好的結(jié)合語言學(xué)的知識。這些仍有待提高。

二、命名實體的應(yīng)用

文獻[5]綜合考慮機構(gòu)名的結(jié)構(gòu)和上下文文本信息,采取人工輔助和機器學(xué)習(xí)相結(jié)合的方法對金融領(lǐng)域的機構(gòu)命名實體進行識別。文獻[6]使用Viterbi算法,對切分的結(jié)果進行角色標注成為角色序列,并在此基礎(chǔ)上進行字符串和機構(gòu)名稱的識別,具有較高的準確率。文獻[7]針對機構(gòu)命名實體識別的難點,使用HMM對原文分詞進行詞性標注,使用Viterbi算法來對最有可能的詞性進行選擇。考慮其所分析的京劇領(lǐng)域機構(gòu)命名實體的特征,建立特征詞庫來定制符合機構(gòu)名稱的識別規(guī)則,從而實現(xiàn)對原文命名實體的識別工作。

三、詞性標注的應(yīng)用

在詞義標注的應(yīng)用領(lǐng)域,1988年Church等首先設(shè)計出基于詞語出現(xiàn)與轉(zhuǎn)移概率的隱馬爾科夫英文標注器,隨后Schvtze、Scott和Sang-Zoo等人提出了各式的改進的隱馬爾科夫模型[8];文獻[9]對傳統(tǒng)隱馬爾科夫模型對于詞性標注的應(yīng)用予以分析與改進,不同學(xué)者也提出了改進的模型[10][11]。

四、語義傾向性的應(yīng)用

文獻[12]提出了利用統(tǒng)計手段來對詞語進行語義傾向判斷的方法,即把語義傾向判別看做一個褒貶的分類問題,將文本數(shù)據(jù)處理的方法應(yīng)用到語義傾向性判別研究中。其狀態(tài)值為褒義(支持)、貶義(反對)和中性(中立)三種,可能的觀測值數(shù)目取權(quán)重較高的一部分詞語即可,減少了處理龐大詞語數(shù)量的壓力。

五、對隱馬爾可夫模型的具體改進

原有的隱馬爾科夫模型在進行中文文本的數(shù)據(jù)處理時,根據(jù)自身模型的局限,只能使用其臨近的詞語,使結(jié)果不夠優(yōu)化。文獻[13]提出了基于語義格改進的模型,將隱含的狀態(tài)值表示為詞義,將觀察值的數(shù)目表示為一個句子中所包含的單詞數(shù)目。然而在不少情況下被標注的語義常常是是由需要標注的詞語和其距離較遠得此共同決定,為了解決這一問題,在原有隱馬爾科夫模型基礎(chǔ)上引入了格關(guān)系[14](一種研究句子核心謂詞與周圍體詞的方法),提高了中文詞義的標注性能。文獻[15]使HMM模型在應(yīng)用時,既使一個詞(觀察值)出現(xiàn)的概率與它的詞性有關(guān),也與之前的觀察值有關(guān)。文獻[16]把觀察值對狀態(tài)的影響也考慮其中,在原有HMM的基礎(chǔ)上,增加了從前一觀察值到后一狀態(tài)的轉(zhuǎn)移矩陣,提出了基于特征的詞匯標注模型,由于觀察值(詞語數(shù))眾多,所以將多個詞對應(yīng)一類特征集,這樣既保證了一定的精確度又減小了概率轉(zhuǎn)移矩陣的大小。文獻[17]對傳統(tǒng)隱馬爾可夫模型進行改進,通過對參數(shù)進行修改,使其不僅依賴當前狀態(tài)的上文信息還將下文信息加入到模型當中,一定程度上克服了傳統(tǒng)HMM的不足之處。同時使用了線性插值平滑算法,有效地解決了數(shù)據(jù)比較稀疏的問題,也提高了一定的未登錄詞匯的識別率。文獻[18]改進分詞方法,使用雙向最大匹配進行預(yù)處理,對于有歧義的切分詞選擇概率最大值,使用隱馬爾科夫模型來識別新詞,用“詞首”、“詞中”、“詞尾”和“單獨成詞”對單詞進行狀態(tài)標記,有效地減少了歧義,提高了切分的正確率。文獻[19]在對隱馬爾科夫模型進行改進時,在保證了傳統(tǒng)隱馬爾科夫模型具有前向依賴性的基礎(chǔ)上,增加了后一個狀態(tài)對觀察值的影響,即一個觀察值由相鄰兩個狀態(tài)決定,一個狀態(tài)也具有兩個觀察值。采取了既考慮正序又考慮逆序的解碼模型,綜合雙序,使抗干擾性得到增強,解碼更加精確。

在對隱馬爾科夫模型算法的改進方面:維特比算法的概率值是若干個概率的乘積,為避免計算機進行過多的浮點運算,會將概率擴大若干倍,但是這樣處理后,即對若干概率進行乘法運算后,可能導(dǎo)致乘法結(jié)果向上溢出,文獻[20]對維特比算法進行了改進,將該結(jié)果取對數(shù),將乘法運算轉(zhuǎn)換為加法,縮小了乘積的值域,使結(jié)果更精確。文獻[28]在建立發(fā)射概率矩陣時,將卡方統(tǒng)計和TFIDF方法引入到其中,建立出特征詞的語義相關(guān)性的反映,有利于保證文本分類過程更加穩(wěn)定的運行。文獻[21]利用短語構(gòu)成的特征,采用滑動窗口算法,避免了HMM中傳統(tǒng)的前向算法和后向算法的較高的計算量。

在如隱馬爾可夫模型這種統(tǒng)計標注方法時,在求每一個觀察值序列對應(yīng)的最佳詞性標注序列時,不僅要考慮上下文的影響,也可以計算二元或三元概率參數(shù)使結(jié)果更為優(yōu)化。目前的條件下,訓(xùn)練語料較為充足且具有人工標注,并且統(tǒng)計模型的魯棒性較好,使得統(tǒng)計方法成為較為主流的詞性標注方法。

[1]趙紅丹,王希杰.基于隱馬爾科夫模型的詞性標注[J].安陽師范學(xué)院學(xué)報, 2010(5):9

[2]李家福,張亞非.一種基于概率模型的分詞系統(tǒng)[J].系統(tǒng)仿真學(xué)報,2002, 14(5):544-546.

[3]梁以敏,黃德根.基于完全二階隱馬爾可夫模型的漢語詞性標注[J].計算機工程,2005, 31(10):177-179.

[4]岑詠華,韓哲,季培培.基于隱馬爾科夫模型的中文術(shù)語識別研究[J].現(xiàn)代圖書情報技術(shù), 2008(12):54-58.

[5]Chan T,Vese L.Active Contours Without Edges[J].IEEETransactions on Image Processing, 2001, 10(2):266-277.

[6]楊勇,馬志明,徐春.LCV模型在醫(yī)學(xué)圖像分割中的應(yīng)用[J].計算機工程,2010, 36(10):184-186.

[7]樂娟,趙璽.基于HMM的京劇機構(gòu)命名實體識別算法[J].計算機工程,2013, 39(6):266-271.

[8]袁里馳.基于改進的隱馬爾科夫模型的詞性標注方法[J].中南大學(xué)學(xué)報:自然科學(xué)版,2012, 43(8):3053-3057.

[9]魏歐,吳健.基于統(tǒng)計的漢語詞性標注方法的分析與改進[J].軟件學(xué)報,2000,11(4):473-480.

[10]梁以敏,黃德根.基于完全二階隱馬爾可夫模型的漢語詞性標注[J].計算機工程,2005, 31(10):177-179.

[11]屈剛, 陸汝占.一個改進的漢語詞性標注系統(tǒng)[J].上海交通大學(xué)學(xué)報,2003, 37(6):897-900.

[12]Turney P D, Littman M L.Measuring praise and criticism: Inference of semantic orientation from association[J].Acm Transactions on Information Systems, 2003, 21(4):315-346.

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲色图欧美激情| 永久免费无码日韩视频| 日韩欧美国产中文| 国产成人免费| 亚洲天堂久久| 色AV色 综合网站| 亚洲精品视频免费| 亚洲一区二区黄色| 国产乱子伦精品视频| 丁香婷婷激情网| 日韩天堂网| 久久青草热| 精品人妻AV区| 国产乱人乱偷精品视频a人人澡| 九色视频一区| 91无码网站| 在线观看欧美精品二区| 色偷偷综合网| 国产男女免费完整版视频| 嫩草国产在线| 国产亚洲精久久久久久无码AV| 亚洲精品动漫| 国产永久在线视频| 九九九精品成人免费视频7| 亚洲无码91视频| 国产精品美乳| 无码中字出轨中文人妻中文中| 亚洲第一黄色网址| 97成人在线视频| 国内自拍久第一页| 日韩中文精品亚洲第三区| 无码高潮喷水在线观看| 精品久久久无码专区中文字幕| 亚洲成人77777| 青青草原国产av福利网站| 色爽网免费视频| 国产小视频a在线观看| 成人91在线| 国产18在线播放| 99这里只有精品在线| 国产精品内射视频| 99视频精品在线观看| 国产成人久久综合一区| 国产精品浪潮Av| 国产内射一区亚洲| 精品国产自在现线看久久| 日韩欧美国产成人| 日韩一二三区视频精品| 成人毛片免费观看| 日韩国产一区二区三区无码| 久久人与动人物A级毛片| 丁香婷婷久久| 热re99久久精品国99热| 日韩欧美成人高清在线观看| 国产xx在线观看| 亚洲色图狠狠干| 午夜一区二区三区| 香蕉国产精品视频| 风韵丰满熟妇啪啪区老熟熟女| 久久大香伊蕉在人线观看热2| 日韩欧美中文在线| 少妇精品久久久一区二区三区| 福利国产在线| 呦女亚洲一区精品| 日韩欧美中文在线| 国产成人8x视频一区二区| 亚洲欧美成aⅴ人在线观看| 国产日韩欧美精品区性色| 女人18毛片久久| 国产伦精品一区二区三区视频优播| 国产不卡网| 国产精品视频猛进猛出| 久久精品波多野结衣| 在线无码九区| 蝴蝶伊人久久中文娱乐网| 久久精品午夜视频| 国产一级毛片网站| 99re精彩视频| 亚洲日韩高清在线亚洲专区| 97久久精品人人| 精品国产91爱| 欧美成人精品高清在线下载|