999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

統計學中的n元語法模型

2017-01-17 21:11:34路佳佳代愛鳳李美芳
東方教育 2016年9期
關鍵詞:深度語言方法

路佳佳++代愛鳳++李美芳

摘要:目前國內外對統計語言模型在數據處理,經濟學,自然語言處理,地質統計等領域的研究越來越廣泛。n元語法模型是神經網絡語言模型是將深度學習的思想用于語言模型而構建的,在自然語言處理中n元語法模型有很重要的地位,它在語音識別,詞性標注,機器翻譯等領域有廣泛應用。本文詳細論述了模型的原理,并對該模型的優缺點進行分析,并說明了該模型在自然語言處理中的應用。

關鍵詞:n元語法模型;自然語言處理

一:詞向量

“詞向量”這個詞最早由1986年hinton的文章“learning distributed representations of concepts”中提出,將單個詞用“詞向量”的方式表示是將deep learning的算法引入NLP 領域的一個核心技術,deep learning中的詞向量是一種低維實數向量,詞向量使得一些詞的距離更近比如相關詞或者相似詞,這種距離通過歐式距離,夾角余弦來定義。“詞向量”不僅可以避免維數災難問題,而且由于相似詞或者相關詞的距離很小,應用詞向量構造的模型本身具有平滑性。

詞向量是通過訓練語言模型得到。從大量的無標簽的語料庫中進行無監督學習的想法有了語言模型。語言模型是針對某種語言建立的概率模型。語言模型的一般描述就是給定一個詞序列,詞序列 ,求該詞序列是自然語言的概率 ,其中, 表示詞序列的第t個詞,在n元語法模型中用 表示 。下面具體介紹n元語法模型。

二:n元語法模型

2.1模型的形式化表示。

假設有 個詞, , 個詞構成的詞序列記為 ,詞序列的概率為

(2.1)

上下文H中詞A的極大似然概率計算公式為

(2.2)

其中 是在訓練數據中詞序列 出現的次數,上下文 可以由幾個詞組成,對于通常的三元模型, ,當 時,它沒有考慮歷史,該模型稱為一元模型。

由于n元語法模型比較簡單,目前最常使用的語言模型基于n元語法模型,但是該模型由于數據缺乏需要采用一些平滑算法。影響n元語法模型的最重要的因素是順序和平滑技術的選擇,常用的平滑技術有加法平滑算法,Knerser-Ney平滑方法,Katz平滑方法,Jelinek-Mercer平滑方法等。對于基于詞的語言模型,修正的Knerser-Ney平滑方法(KN)在平滑技術中有較好的結果。

基于n元語法的統計數據模型的最大優勢在于速度,簡單和普遍性(只要存在一些訓練數據,該模型可以應用到任何領域)。直到今天n元語法模型依然是最先進的技術,不是因為沒有更好的技術,而是因為更好的技術計算過于復雜,僅僅進行了邊際分布的改善,對于給定應用的成功不是至關重要的。

2.2模型的優缺點

n元語法模型的最大缺點在于隨著上下文長度的增加,n元語法的數量成指數形式的增加。阻止這些模型有效的捕獲較長的上下文類型。如果有大量的訓練數據可用,從訓練數據得到的模式不能通過n元語法進行有效地表示。因此產生了將神經網絡應用到語言模型(LM)的思想,通過相似事件之間的共享參數來克服參數的指數增加,不再需要精確的歷史 的匹配。下面具體介紹幾種不同的神經網絡語言模型。

n元語法的n體現了該詞間的獨立性,n越小獨立性越強。則可根據不同語料的獨立性特點選擇不同的模型了。通常n=3。直觀上講,第i位置的詞與前面多少個詞的相關性并不一定,另外,“詞”是一個籠統的概念(可以代表字、詞短語等),它的選取也不確定,而一個模型直接賦予n一個確定的值,這本身是一種近似。所以說,模型不可能精確表達,根據這種局限性,一個好的模型的重要性就可想而知了。

2.3模型的改進

由于在自然語言處理中,如通過音素匹配法處理后,部分存在著缺失的可能。而且已識別的詞對未識別詞會有一定程度的影響,為了解決這種問題,所以華南理工大學陳偉雄[3]在論文"基于n元語法模型的領域語音指令識別"中對n元語法模型做一些改進。

Bengio[1]等人建議通過學習詞的分布式表示來避免維數災難,分布式表示允許每一個句子形成關于語義相近句子的指數數量的模型。該模型可以同時學習每一個詞的分布式表示和詞序列的分布式表示的概率函數。在合理的時間訓練包含數以萬計參數的如此大的模型本身是一種挑戰,使用神經語言模型的方法進行實驗,結果顯示在兩個文本預料(Brown corpus和AP new corpus)上該神經語言模型的方法極大地提高了n元語法模型的最先進的性能,并且該方法允許利用較長的上下文。

三:n元語法模型在自然語言處理中的應用

自然語言處理就是如何讓計算機正確處理人類語言并作出正確的響應,近年來作為人工智能的一個重要組成部分得到了快速發展,使得人機之間直接采用語言作為交互方式成為了可能。

自2006年Hinton等人提出深度學習的概念之后,將深度學習的思想用于語言模型中形成的神經網絡語言模型不僅僅是三層的神經網絡,而是多層的神經網絡語言模型。深度學習也就是深層神經網絡算法,每次訓練一層,逐層訓練,上一層的輸出作為下一層的輸入。將深度學習的思想應用于語言模型中形成的神經網絡語言模型可以應用于自然語言處理的很多領域,比如,詞性標注,句法分析,框架排歧,語義角色標注等任務。

n元語法模型在語音指令識別中也有廣泛應用.可以用一種音素匹配法[3]結合改進了的n元語法模型的方法對語音指令進行理解。指令按照結構劃分類別通過提取其中關鍵要素來獲取指令語義。音素匹配法可以提取指令中部分或全部要素對于指令中未識別的要素則根據已正確采用改進的n元語法模型進行推測。實驗表明該方法取得了較好的效果,并在原有的基礎上有一定的提高。

參考文獻:

[1]陳偉雄.基于n元語法模型的領域語音指令識別.2009.5

[2]Bengio,Yoshua,Rejean Ducharme,and Pascal Vincent..A neural probabilistic language model.In T.K.Leen,T.G.Dietterich,and V.Tresp,eds.,Adv ances in NIPS 13,MIT Press.2001:932-938.

[3]翟劍鋒.深度學習在自然語言處理中的應用..電腦編程技巧與維護.中國青年政治學院計算機中心,2013

[4]楊瑩,吳誠煒,胡蘇基.于受限玻爾茲曼機的中文文檔分類.科技創新導報,中國電子科技集團公司第七研究所.廣東廣州.2012.

猜你喜歡
深度語言方法
深度理解一元一次方程
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
深度觀察
深度觀察
深度觀察
讓語言描寫搖曳多姿
累積動態分析下的同聲傳譯語言壓縮
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
我有我語言
主站蜘蛛池模板: 国产91在线|中文| 久久这里只有精品国产99| 亚洲成aⅴ人在线观看| 精品一区二区无码av| 亚洲成aⅴ人片在线影院八| 国产亚洲欧美在线中文bt天堂| 国产日本一线在线观看免费| 69视频国产| 男人的天堂久久精品激情| 青草91视频免费观看| 亚洲无码视频喷水| 911亚洲精品| 国产精品大尺度尺度视频| 黄色网址手机国内免费在线观看| h网址在线观看| 色婷婷在线影院| 免费国产不卡午夜福在线观看| 99久久免费精品特色大片| 国产在线观看一区二区三区| 日韩成人免费网站| 亚洲精品你懂的| 日本三区视频| 欧美成人一级| 亚洲无线观看| 19国产精品麻豆免费观看| 国产日韩久久久久无码精品| 国产成人夜色91| 精品国产黑色丝袜高跟鞋| 青青国产在线| 国产91无码福利在线| 欧美激情第一区| 2048国产精品原创综合在线| 国产伦精品一区二区三区视频优播| 97人妻精品专区久久久久| 亚洲精品无码AV电影在线播放| 沈阳少妇高潮在线| 午夜毛片免费观看视频 | 九色综合伊人久久富二代| 免费av一区二区三区在线| 精品人妻一区二区三区蜜桃AⅤ| 亚洲第一成网站| 国产熟女一级毛片| 国产亚洲欧美另类一区二区| 午夜久久影院| 久久性妇女精品免费| 欧美区在线播放| 欧美亚洲国产精品久久蜜芽| 国模粉嫩小泬视频在线观看 | 国产精品主播| 伦精品一区二区三区视频| 九九热视频在线免费观看| 国产小视频免费观看| 亚洲国产精品一区二区第一页免| 99这里只有精品在线| 波多野结衣亚洲一区| 精品日韩亚洲欧美高清a| 久久伊伊香蕉综合精品| 亚洲 欧美 偷自乱 图片| 欧美日韩动态图| 在线欧美国产| 免费jjzz在在线播放国产| 亚洲日韩精品欧美中文字幕| 黄色a一级视频| 福利在线不卡一区| 国产va在线观看| 久草视频精品| 欧美日本在线| 亚洲精品麻豆| 日韩人妻无码制服丝袜视频| 国产h视频免费观看| 国产乱人伦AV在线A| 五月六月伊人狠狠丁香网| 亚洲人人视频| 国产精品爽爽va在线无码观看 | 9啪在线视频| 伊人久久婷婷| 精品福利视频导航| 成人日韩精品| 青青操国产视频| 久久精品人妻中文系列| 伊人蕉久影院| 亚洲精品视频在线观看视频|