999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于字符的遞歸神經(jīng)網(wǎng)絡(luò)在中文語言模型中的研究與實(shí)現(xiàn)

2018-10-21 10:52:55伍逸凡朱龍嬌石俊萍
現(xiàn)代信息科技 2018年8期

伍逸凡 朱龍嬌 石俊萍

摘 要:本文通過對(duì)基于字符的長短記憶遞歸神經(jīng)網(wǎng)絡(luò)的研究與實(shí)現(xiàn),探究了其在自然語言模型中的應(yīng)用,并選用了小說《挪威的森林》對(duì)遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行了訓(xùn)練與文本生成,總結(jié)了不足之處,探討了未來應(yīng)該解決的問題與研究方向。研究結(jié)果表明遞歸神經(jīng)網(wǎng)絡(luò)僅能學(xué)會(huì)字與字或詞與詞之間在表面的連接或變化關(guān)系,而自然語言不僅僅是文字表面的異同,更多的是字里行間中情感或思維上的變化,這些是一組序列數(shù)據(jù)所不能表達(dá)的。因此,未來自然語言模型應(yīng)更加注重對(duì)于文字間情感和思維的學(xué)習(xí),構(gòu)建更接近自然語言的模型。

關(guān)鍵詞:長短記憶單元;遞歸神經(jīng)網(wǎng)絡(luò);自然語言處理;字詞嵌入

中圖分類號(hào):TP391.1;TP183 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2018)08-0012-03

Abstract:Through the research and implementation of character-based recursive neural networks of long and short memory,this essay explored its application in natural language models,and selected the novel Forest in Norway to train recurrent neural networks and generate the corresponding text. Summed up the shortcomings,discussed the problems and research directions that should be solved in the future. The research results show that the recurrent neural network can only learn the connection or change relations between word and words or words on the surface,and the natural language is not only the similarities and differences between the surface of the words,but also more changes in emotions or thoughts between lines. These are a group of sequence data far from being able to express,so in the future natural language models should pay more attention to the study of sentiment and thinking between words to build a model that is closer to natural language.

Keywords:long short term memory unit;recursive neural network;natural language processing;word embedding

0 引 言

自然語言是人類智慧的結(jié)晶,而自然語言處理(Nature Language Processing)是嘗試通過計(jì)算機(jī)技術(shù)結(jié)合概率論與數(shù)理統(tǒng)計(jì)等數(shù)學(xué)方法,讓計(jì)算機(jī)理解或生成自然語言的技術(shù)。近年來,自然語言處理技術(shù)隨著時(shí)代的進(jìn)步逐漸興起,并迅速發(fā)展,讓計(jì)算機(jī)正確有效地理解和處理人類自然語言,并進(jìn)一步實(shí)現(xiàn)與人類的對(duì)話,已成為當(dāng)今具有巨大挑戰(zhàn)性的難題。

隨著時(shí)代的變遷與技術(shù)的發(fā)展,在自然語言處理中,詞匯的表征由最先的One-hot編碼發(fā)展為如今的詞嵌入編碼,詞嵌入將詞匯嵌入到一個(gè)低緯而緊湊的向量空間中,大大加強(qiáng)了詞匯間的聯(lián)系;文本的處理由最先的N-Grams模型發(fā)展為如今的遞歸神經(jīng)網(wǎng)絡(luò)模型,遞歸神經(jīng)網(wǎng)絡(luò)通過神經(jīng)元在時(shí)序上的連接,成功捕獲了文本長短期的順序依賴關(guān)系;而后由Jürgen Schmidhuber等人提出的長短記憶遞歸神經(jīng)網(wǎng)絡(luò),即LSTM網(wǎng)絡(luò),通過在網(wǎng)絡(luò)中引用一種叫做記憶單元的特殊結(jié)構(gòu),成功解決了遞歸神經(jīng)網(wǎng)絡(luò)中信息在傳遞過程中的梯度消失問題。隨后研究者們將這些成果結(jié)合,并運(yùn)用于各項(xiàng)領(lǐng)域,如語言翻譯、語音識(shí)別、自然語言處理和時(shí)間序列分析等,均取得了良好的效果。本文將主要討論LSTM網(wǎng)絡(luò)在中文語言模型中的研究與實(shí)現(xiàn)。

1 遞歸神經(jīng)網(wǎng)絡(luò)

遞歸神經(jīng)網(wǎng)絡(luò)(RNN,Recursive Neural Network)是一種專門解決序列問題的人工神經(jīng)網(wǎng)絡(luò)。它通過將神經(jīng)運(yùn)算單元在時(shí)序上堆疊,同時(shí)記憶歷史信息,向后傳播并預(yù)測(cè),通過反向傳播算法,讓神經(jīng)網(wǎng)絡(luò)逼近時(shí)序數(shù)據(jù)在前后邏輯上的映射關(guān)系。

本文以LSTM單元,即長短記憶單元,作為基本遞歸神經(jīng)運(yùn)算單元。LSTM單元包括輸入門、忘記門、更新門和輸出門,它們將共同決定歷史信息的去留,以實(shí)現(xiàn)歷史信息的長期記憶,它的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

設(shè)t時(shí)刻的數(shù)據(jù)為xt,則有:

2 自然語言模型的構(gòu)建

為了使算法能處理語言文字信息,首先需要將文本信息進(jìn)行統(tǒng)一編碼,我們將選用Embedding的方式進(jìn)行編碼。Embedding即嵌入,它是一種通過機(jī)器學(xué)習(xí)的方法將各字符嵌入到一個(gè)低緯向量空間的算法,比起One Hot編碼,Embedding將使字符向量更加稠密,而且可以使字符之間的相關(guān)性得以體現(xiàn)。這樣一來,文本信息便可被抽象為一段編碼序列。設(shè)某個(gè)句子的One Hot編碼序列為:

首先經(jīng)過一個(gè)Embedding層,將向量編碼為字向量的形式,設(shè)經(jīng)過Embedding層后的序列為:

Embedding層的字符嵌入向量通過Skip-Gram模型訓(xùn)練得到。為了加強(qiáng)字符的表達(dá)效果,在Embedding層后增加了三層全連接層,以修正線性單元ReLu作為激活函數(shù),ReLu(x)=max(0,x)。同時(shí)為了加強(qiáng)網(wǎng)絡(luò)的映射能力以及學(xué)習(xí)能力,使用了雙層LSTM結(jié)構(gòu),在輸出層也增加了三層全連接層,以反正切函數(shù)作為激活函數(shù),。

為了表示方便,將在一個(gè)LSTM單元中完成運(yùn)算,即公式(1)~(6),綜合表示為complstm,以ht作為輸出,即ht=complstm(xt)。

優(yōu)化目標(biāo)即找到一組參數(shù),使yt盡可能與下一個(gè)詞,即ot+1相等。選用交叉熵?fù)p失函數(shù)作為神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù):

其中,w代表所有的詞語或字符;t代表某個(gè)句子中的所有詞語或字符;corpus代表整個(gè)預(yù)料。

整體網(wǎng)絡(luò)結(jié)構(gòu),即建模步驟如圖2所示。

3 模型的訓(xùn)練與結(jié)果分析

3.1 研究對(duì)象的選取

選用日本作家村上春樹的長篇小說《挪威的森林》作為網(wǎng)絡(luò)的學(xué)習(xí)預(yù)料。該故事主要講述了主角糾纏在情緒不穩(wěn)定且患有精神疾病的直子和開朗活潑的小林綠子之間展開的自我成長旅程的故事。

3.2 模型的訓(xùn)練

設(shè)置初始學(xué)習(xí)率ε0為0.001,按指數(shù)衰減,公式為:。其中i為當(dāng)前迭代次數(shù),k為衰減周期,β為衰減系數(shù)。取β=0.95,k=100,即每迭代100次,學(xué)習(xí)率衰減為先前的0.95倍??偣步?jīng)過10000次訓(xùn)練,每次迭代送入語料中256句長度為64個(gè)字符的句子進(jìn)行訓(xùn)練,訓(xùn)練過程中的交叉熵?fù)p失曲線變化如圖3所示。

3.3 模型結(jié)果分析

利用訓(xùn)練好的模型,隨機(jī)生成一段約500字的文本,如下:

我此:『我說話,他也是不能見解了。我說:『你有什么都不認(rèn)為怎么樣?”

“是呀!你知道。”阿綠說?!澳愕哪X上就不喜歡莫本的人。真的!”直子說?!爸皇俏也幌矚g的?!?/p>

“是呀!我不知道!”我說。

“不過!我不能說:”

我們走著停進(jìn),像著一種東西袋喝酒。

“你是吧?渡邊,我的腦袋就有這種地方呀!”直子問道?!耙?yàn)槟銈兌际莻€(gè)年間了。我現(xiàn)在做,你會(huì)常常在你的人,你也很想一起子的?!蔽艺f。

“我也不會(huì)這么做?”我說。

阿綠從床袋中探下聽里,又重起阿綠似?!拔也恢赖??!蔽倚赐曇簟?/p>

“我會(huì)常打開始的事。”阿綠說。

“你不會(huì)見你家看了。你們不能去跟他嗎?”玲子說。

“是呀!你不知道嗎?渡邊,你們也不會(huì)再做,還是有自己一樣。”阿綠說。

“是呀!你知道自己的意思。我們也不能這么去呀!我們的話一次不能?”

“你可以說的。雖然我這些愛了,不知道,這里到東西就會(huì)去吃飯了?!卑⒕G說。“不過你,她們就能去你?!?/p>

“可能,她們就能不會(huì)見,我是我不喜歡地做,還是你一樣的話不行?我不要常去?!蔽艺f?!安贿^,你會(huì)常把這種事,而且真是我一直子做的?!?/p>

“我們?nèi)サ??”初而看著我。然后我們就像想了起來了。我一直在他一個(gè)人把新宿啡的收費(fèi)吃了一次。我們穿著我旁邊。在我自己不知道的,我也覺得自己的話。如果順利也許這么單。一切一個(gè)人,我只要告決硬子的事的。我想我的。”他說?!安皇牵俊?/p>

從中可以看到,在語法上已經(jīng)學(xué)會(huì)了要用引號(hào)將說的話引起來,然后或前或后會(huì)有個(gè)說話人;同時(shí)在某些語氣詞后學(xué)會(huì)了使用標(biāo)點(diǎn),比如“呀”后面接感嘆號(hào),“嗎”后面接問號(hào)等,但在語義上還存在很多問題,句子表述以及上下文聯(lián)系有些含糊不清。

4 結(jié) 論

遞歸神經(jīng)網(wǎng)絡(luò)在序列數(shù)據(jù)的學(xué)習(xí)上確實(shí)有很大的優(yōu)勢(shì),能從序列數(shù)據(jù)中找到序列之間的變化規(guī)律與趨勢(shì)。對(duì)于自然語言來說,它不僅僅是簡單的序列數(shù)據(jù)變化,而是夾雜了機(jī)器所不能理解的情感和思維等。

將文本數(shù)據(jù)序列化,從本質(zhì)上是一個(gè)降維的過程,是將一段夾雜著復(fù)雜情感和思維邏輯的內(nèi)容降維成一段低維的序列數(shù)據(jù),然后送入神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),而數(shù)據(jù)的降維必定是一個(gè)信息丟失的過程,只是丟失的程度不同,甚至有些數(shù)據(jù)在降維后必定會(huì)丟失大量信息,自然語言就是其中的一種,這是因?yàn)樗^復(fù)雜。換句話說,神經(jīng)網(wǎng)絡(luò)能學(xué)到的也就只是這段被大大壓縮過的文本信息,即它永遠(yuǎn)無法理解語言本身的內(nèi)涵。

綜上所述,自然語言處理不能僅僅從字符之間或是詞語之間來考慮它們表面的關(guān)系,更應(yīng)從詞語或是字符的內(nèi)在出發(fā),嘗試量化這些字符或是詞語在情感上的變化,以及一些思維邏輯上的因果關(guān)系,構(gòu)建深層次、多結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而得到更好的自然語言模型。

參考文獻(xiàn):

[1] 彭程.基于遞歸神經(jīng)網(wǎng)絡(luò)的中文自然語言處理技術(shù)研究 [D].南京:東南大學(xué),2014.

[2] 李長亮.基于神經(jīng)網(wǎng)絡(luò)的自然語言處理研究 [D].北京:中國科學(xué)院大學(xué),2015.

[3] 梁天新,楊小平,王良,等.記憶神經(jīng)網(wǎng)絡(luò)的研究與發(fā)展 [J].軟件學(xué)報(bào),2017,28(11):2905-2924.

[4] 張曉.基于LSTM神經(jīng)網(wǎng)絡(luò)的中文語義解析技術(shù)研究 [D].南京:東南大學(xué),2017.

[5] 吳稟雅,魏苗.從深度學(xué)習(xí)回顧自然語言處理詞嵌入方法 [J].電腦知識(shí)與技術(shù),2016,12(36):184-185.

[6] Liu P,Qiu X,Huang X. Learning context-sensitive word embeddings with neural tensor skip-gram model [C]//International Conference on Artificial Intelligence. AAAI Press,2015:1284-1290.

[7] 張鈸,張鈴.人工神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)方法 [J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),1998(S1):4-7.

作者簡介:伍逸凡(1996.11-),男,漢族,湖南人,本科。研究方向:深度學(xué)習(xí);石俊萍(1974.10-),女,苗族,湖南花垣人,副教授,碩士研究生。研究方向:大數(shù)據(jù)分析與處理。

主站蜘蛛池模板: 不卡视频国产| 92午夜福利影院一区二区三区| 波多野结衣二区| 欧美亚洲一二三区| 久久毛片免费基地| 久久综合结合久久狠狠狠97色| 中国国产一级毛片| 久久77777| 国产欧美精品午夜在线播放| 日韩成人在线一区二区| 欧美成人二区| 国产精品久久自在自线观看| 国产手机在线观看| 中文字幕 91| 丰满人妻一区二区三区视频| 国产精选自拍| 东京热一区二区三区无码视频| 岛国精品一区免费视频在线观看| 欧美国产日韩在线观看| 波多野结衣AV无码久久一区| 精品欧美一区二区三区在线| 欧美一区二区精品久久久| 欧美国产日韩在线| 67194在线午夜亚洲| 香蕉伊思人视频| 国产在线小视频| 亚洲第一成年网| 男女精品视频| 亚洲美女AV免费一区| 国产91精品久久| 国产麻豆精品久久一二三| 久久免费视频6| 欧美国产综合色视频| 中国成人在线视频| 婷婷激情亚洲| 香蕉国产精品视频| 99精品福利视频| 亚洲成人动漫在线| 欧美啪啪网| 少妇极品熟妇人妻专区视频| 国产激情影院| 亚洲午夜片| 精品少妇三级亚洲| 日韩中文欧美| 国产视频自拍一区| 亚洲精品国产日韩无码AV永久免费网| 在线亚洲精品福利网址导航| 免费网站成人亚洲| 国产老女人精品免费视频| 亚洲全网成人资源在线观看| 全部免费特黄特色大片视频| 成人午夜在线播放| 伊人成人在线视频| 亚洲婷婷六月| 国产麻豆福利av在线播放| 欧美亚洲激情| 一级毛片免费观看久| 综合天天色| 国产精品 欧美激情 在线播放| 成人va亚洲va欧美天堂| 欧美不卡视频在线观看| 国产在线视频福利资源站| 麻豆国产在线不卡一区二区| 久久久精品国产SM调教网站| 中文字幕在线观看日本| 在线一级毛片| 久久精品aⅴ无码中文字幕| 国内精品久久久久久久久久影视 | 自慰高潮喷白浆在线观看| 亚洲日韩AV无码精品| 好久久免费视频高清| 污网站在线观看视频| 国产午夜福利片在线观看| 99在线小视频| 一本久道久综合久久鬼色| 欧美怡红院视频一区二区三区| 99热这里只有精品2| 久久a级片| 亚洲色婷婷一区二区| 久久伊人久久亚洲综合| 综合网久久| www亚洲天堂|