999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于遞歸神經網絡的散文詩自動生成方法①

2018-08-17 12:06:52詹國華李志華
計算機系統應用 2018年8期
關鍵詞:文本模型

姜 力,詹國華,李志華

(杭州師范大學 信息科學與技術學院,杭州 311121)

散文詩是一種現代文體,兼有詩和散文特點的一種現代抒情文學體裁.它融合了詩的表現性和散文描寫性的某些特點.它具有散文的外觀和內涵,給讀者美和想象,但不像詩歌那樣分行和押韻,保留了詩的意象和細節.國內外詩歌生成的方法可被分類成基于模板的生成方法、基于遺傳算法的方法和基于實例推理的方法.模板生成方法即給定一個模板,在滿足語法等約束下進行填詞作詩.基于遺傳算法的方法,結合遺傳算法和評測模板,根據語法等信息用遺傳算法生成備選作品[1],代表系統有POEVOLVE[2]和McGonnagall[3].基于實例推理的方法,通過檢索已有詩句根據用戶的目標信息對已有詩句進行內容調整.ASPERA[4]是此類方法系統的代表.國內周昌樂等[5]在宋詞生成上的研究方法是在給定詞牌與韻律模板基礎上,用遺傳算法來進行宋詞的自動生成.He等人[6]則將統計機器翻譯的方法應用到了格律詩自動生成上.隨著深度學習的發展,為了解決傳統表示方法中字詞表示缺乏語義依存關系的問題,構建語義單元向量表示的神經網絡模型,該模型包含了針對語義單元局部上下文和全局上下文的語義神經網絡[7].另外,當前多個深度模型中,基于長短期記憶單元的遞歸神經網絡模型因其有效利用序列數據中長距離依賴信息的能力,故被用于文本序列數據處理,并展示出了在挖掘文本序列語義信息任務上的強大能力[8].

本文提出利用主題模型和深度學習下的遞歸神經網絡方法來進行生成,使得詩句上下句實現關系映射.首先獲取到樣本語料庫,使用中文分詞技術和主題模型方法,建立詞匯集以及實現詞的主題聚類.然后,利用人為給定的關鍵詞,通過首句語言模型根據首句結構選詞實現首句的生成.在獲取到首句的基礎之上,利用上下文模型進行句子向量的壓縮,將壓縮后的向量作為輸入喂給遞歸神經網絡進行訓練.最后用訓練完成的神經網絡,實現詩句的自動生成.

通過對大規模詩詞數據進行機器學習,將創作散文詩的特征融入到統計概率模型中,由此實現散文詩的輔助創作,為廣大散文詩愛好者提供了幫助,對散文詩文學的傳承和發揚具有積極意義.

1 散文詩創作背景和基本框架

在考慮如何創作散文之前,先從考慮如何賞析的角度出發.賞析過程中,可以獲取到詩歌的結構、用詞和情感表達,而生成作品的過程其實就是賞析結果的逆過程.

如圖1所示詩,鄉愁的賞析:這首鄉愁用簡短的七行來進行概括:第一節寫鄉音的清新繚繞笛聲,通過塑造笛聲在有月亮的晚上響起的場景從而渲染一種畫面感,第二節是抒發情感,寫鄉情的情感描述,體現鄉情纏綿,第三節寫鄉愁的永恒,是結合前面兩節過渡而來,而且最后部分直接點出主旨,鄉愁讓之前的模糊的表達遞進,逐漸鮮明.以上這是對詩的簡單分析,可以發現整個作品都是圍繞主題鄉愁進行描寫,通過與鄉愁接近的很多意象詞和情感詞來表現和抒發情感.本文的生成過程可以看成是這個簡單分析的逆向過程,即先進行簡單的主題定位和意象選取,再通過這個給定的內容生成出文本.

通過以上分析,進而確定整個生成的步驟,相應的散文詩輔助創作系統具體結構設計如下(圖2)整個詩句創作的過程可分為以下步驟:

(1)確定下主題思想或者意境.這些主題思想通過確切的主題詞來體現,比如描述想念家鄉的思想,可以直接用“鄉愁”或者“思鄉”這樣的詞來表述.

(2)在第一步確定下主題詞后,下一步需要的是通過已建立語料庫,找出與主題語義相關的詞匯,如“思鄉”可能對應了“月亮”、“別離”等詞.

(3)在第二步獲取到一系列詞匯后,要利用首句生成算法對這些詞匯進行排列組合完成首句創作.

(4)在生成后續詩句過程中,主要利用遞歸神經網絡的時序性實現下一句詩句的生成,在此基礎上再重新循環直至完成全部的生成.

圖1 《鄉愁》

圖2 詩句創作過程

2 詩句生成

2.1 中文詞處理及數據集建立

在使用模型對語料文本訓練之前,必須要對漢語語料文本進行一系列的處理.首先針對一份文本語料,需要做的是將語料中出現的標點符號與不同于漢語的其他字符進行獲取和處理,剔除掉相關的噪聲信息[6].另外語料中一般會有冗余的字詞.比如對于語料中出現的阿拉伯數字,則需要把它轉換成漢語中的表達方式,這類的操作是語料的正規化.在對語料正規化之后開始分詞,首先根據原先的不同的標點符號對句子進行分割.要知道在文本生成的時候,對標點符號的生成也是很重要的部分,它可以更好的分割句子,運用好標點也能讓文本的更富有情感化.

圖3 文本樣本處理流程

除了分詞過程以外,在已有的分詞數據集基礎上,另外建立了一個主題聚類模型[9,10],模型的目的是將不同的詞匯根據不同意象進行聚類,這樣會方便對主題詞進行擴展,給定某詞后提供多個相關詞匯.本文中選取的語料庫來源于原創文學交流平臺的作品,以及名家作品集中的作品,共計13 187首,在獲取這些作品時,平臺已經有欄目分類共計19類,如四季(春、夏、秋、冬),傷感類、夜、雪、雨、遠山、月亮、童年等等,對于沒有確定分類的作品采用人工鑒別給定主題.這些給定類別會作為文檔分詞后,詞匯進行主題聚類的重要依據[11].

該主題模型基本算法如下.首先模型的輸入是所有文檔的集合D,給定需要的分類個數k,那么所有的主題集合就是T,每個文檔d的內容就是一個單詞序列(w1,w2,···,wn),wi表示第i個單詞,設d有n個單詞.文檔集合D中所有文檔中的不同單詞組成一個大的詞匯表V.模型的輸入是文檔集合D,在輸入之前,對文檔內容進行相應的分詞,去除停用詞,獲取詞干信息等的預處理操作.之后,假設每個文檔d,對應到不同主題的概率(pt1,pt2,···,ptk),其中,pti表示d對應T中第i個主題的概率pti=nti/n,nti表示d中對應第i個主題的詞的個數,n為d中所有詞的總數.對于主題t,生成不同單詞的概率α(pw1,pw2,···,pwn),其中pwi表示t生成V中第i個單詞的概率.Pwi=Nwi/N,其中Nwi表示對應主題t的V中第i個單詞的數目,N表示所有對應到t的單詞總數.模型核心公示如下:

主題作為中間層,通過初始給定的(pt1,pt2,···,ptk)和(pw1,pw2,···,pwn),給出了文檔中d出現詞w的概率.實際上,利用當前的向量,可以為一個文檔中一個單詞計算它對應任意一個主題時的p(w|d),然后根據這個結果更新該詞對應的主題,如果這個更新改變了單詞對應的主題,就會影響θ和α變量.最后的模型輸出就是這兩個向量.從而可以得到詞匯聚類結果.如圖下,是給定了分類數目50情況下的部分分類結果.

2.2 生成方法

參考之前的工作,認為在生成處理過程中,必須要從相對整體的壞境來考慮分析.所以,在生成詩句的時候,每一句詩都是根據上下文來綜合衡量的.在生成過程中,需要考慮到是內容的選擇,以及字詞的表現.每一行詩句的組成是由初始建立的詞庫中選擇的詞匯集.

表1 分類結果舉例

2.2.1 生成首句

在生成首句前需要提供一些關鍵字,根據提供的關鍵字,將相應關鍵字進行擴展成一系列相關的詞組,再將詞組相連組成句子.擴展的詞組來源于初始創建的詞組分類庫.

這里給定的關鍵字一般是包括一些意象詞,情感詞.在給定關鍵詞之后,生成第一句的基本實現思想是,利用之前建立的同語義詞關系集合,進行詞匯擴展.這些詞匯是實現生成首句的基本依據.然后,結合模型來對生成結果進行評價,以保證好的生成結果,流程見圖4.

圖4 首句組合生成

以下介紹算法流程,利用給定的關鍵詞和生成的主題詞關系模型,得到所有和給定關鍵詞主題相近的所有詞集合{a1,a2,···,an},將獲得到的集合中的詞進行排列組合,即可獲取到{[a1?a2],[a1?a3],···}這樣的詞匯組合集合.利用判斷條件,確定是否符合句子標準.這個標準從組合結果的總長度,組合詞中的類別主題距離,以及是否出現重復詞等方面進行判斷.如果生成的字數太長就及時結束生成過程,類別距離是在之前建立的主題-詞關系矩陣中計算得到,具體詞之間的關系距離給定一個閾值,超出的話也會作為不合格組合,重復性判斷是指相同字詞不能出現次數過多.如果達到預定的判定標準后,就根據詞性進行停用詞插入,組成輸出的句子.如果沒有達到最終結果,則需要進行迭代修改,繼續進行生成.這個迭代過程,首先對不符合類別距離和重復性的組合詞從組合集合中進行刪除,這樣達到精簡組合集合的目的,迭代時使用精簡后的集合再次進行排列組合和計算,直至得到最后結果.

2.2.2 句子上下文模型

在生成了首句之后,下一步則是要確定的句子結構.理論上,其他模型也能實現詞組或句子的向量表示.我們選擇了卷積句子模型,因為它是基于n-gram計算,只需自身的詞向量就可以無需借助其他信息,工具等,這些方法因會出現誤差不適宜用在中文詩歌上.而基于樸素貝葉斯的概率模型雖然能得到句子的向量表示,卻不能考慮句中字詞出現的先后順序.卷積句子模型通過按順序合并相鄰向量的方法,從而計算一個句子內容的連續表示.另外在圖像處理的過程中,圖像的處理方法是轉換成向量表示,使用卷積神經網絡獲取整個圖像向量的特征,不僅僅可以一定程度上縮小圖像表示的維度大小,而且較好的獲取到圖像的所有特征信息[12].此處,因為卷積神經網絡在圖像處理上的效果很不錯,考慮將卷積神經網絡移植到文本處理中,將整個上文詩句向量看作一個整體,將這個整體向量進行卷積化處理,實現上文特征的提取.

該上下文模型包含輸入單元(input units),輸入集是各個句子中提取到的句子特征標記為{k0,k1,···,kt,kt+1,···},而輸出單元(output units)的輸出集則被標記為{y0,y1,···,yt,yt+1,···}.輸入集組合成矩陣記為Am?n,卷積計算時,需要給定卷積窗口大小(此處給定為i*i的矩陣,i<m)和卷積窗口移動步數step(step<i),通過卷積窗口從左向右,從上向下按照step大小進行移動計算卷積,此處對窗口采用平均采樣方法,由此可以得出經過卷積計算后的新矩陣A′的大小為m′,n′.

顯然新矩陣的長寬小于原來矩陣的長寬,并且卷積窗口的平均采用方式對原來矩陣的基本特征改變不大.如圖5,句子中的單詞向量依次進行卷積計算,并且采用平均采樣的方式得出新的一層的向量矩陣.以此類推,最后獲取到句子的矩陣結果向量R.

圖5 卷積結構圖

2.2.3 詩句生成

這部分工作是在確定了上文向量R的基礎上,進行語句的下句生成操作.將之前獲取到的矩陣結果向量作為輸入,在RNNs中包含隱藏單元(hidden units),將其之后的輸出集標記為{s0,s1,···,st,st+1,···,},這些隱藏單元完成了最為主要的工作.

余小木,本名徐樂杰,1969年8月出生,江西省永豐縣人。詩作散見于《詩林》《詩江西》《名作欣賞》《人民公安報》等報刊,入選過《2016江西詩歌年選》,參加多屆江西省谷雨詩會。

如圖6所示為該網絡結構的展開情況.舉例,對于一個有5個詞語的語句,展開后就是一個5層的神經網絡,每層代表一個詞.對網絡的計算首先明確如下變量:

圖6 神經網絡結構展開圖

①xt表示第t(t=0,1,2,3,…)步輸入,即第t個句子的向量表示.

② 這里設隱藏層的輸出St,表示第t步的狀態.St=f(W1(xt,xt+1)+b),f表示非線性的激活函數,如tanh或ReLU,在t=0時,St–1設置為零向量計算.

③Ot是第t步的輸出,Ot=softmax(VSt).這個輸出只與當前的隱藏層St有關.

關于該神經網絡模型,訓練樣本是之前計算所得的上文句子向量集R{r1,r2,…}.訓練過程中,首先給網絡確定權值矩陣W1和偏置向量b,對其進行隨機賦值初始化,設置初始學習率為0.1,該層接受的輸入有兩個:(1)當前時刻輸入向量ri記作xi;(2)上一時刻單元計算結果St–1.其中第一層計算時忽略St–1.具體計算方法見公式(1)、(2).

以上為輸入層向量的處理.后面隱藏層的計算和BP神經網絡不同,它不僅僅會接受來自輸入層處理過后的數據St,而且會接受來自上一時間隱藏層傳入的輸入Ot–1輸入向量是詩句的上下文相關向量.這其中包含長距離信息,是對輸入向量的一個補充,最終概率計算更加準確.該層的計算如公式(3)、(4):

其中,f(z)為sigmoid激活函數:

g(z)為softmax激活函數:

以上就是隱藏層計算結果,而輸出層和傳統的BP神經網絡一樣,通過激活函數獲取模型輸出y’.而后需要不斷迭代計算交叉熵最小值進行模型的調參,這里使用實際概率結果和輸出層得出的概率分布結果進行交叉熵計算,交叉熵的計算公式如下:

其中,yn代表實際句子向量分布,y’代表預測模型中的概率分布.提出交叉熵的目的,就是將其作為損失函數,然后利用梯度下降向著下降最快方向不斷更新參數使得損失函數獲取到最小值,在達到一定迭代次數后,所對應的參數就是我們要求的參數,見公式(8)參數θ代表式(1)中待求參數W1,b,參數的優化方法則使用了L-BFGS算法.得到所需參數以后,也就得到了整個適用于后續句子生成的遞歸神經網絡模型.利用模型生成輸出句子向量,直至最后得到指定結束符,即完成創作.

3 實驗設計與結果

實驗目的是對自動生成的文本進行評測,有人工評測和自動評測兩種方式,人工評測主要從流暢程度,情感理解,意象角度來進行評測.自動評測是基于已經創建的散文詩的語料庫.關于自動評測方案,本文的詩句生成方法是由上文生成下句的方法,此處借鑒用于機器翻譯系統[13]自動評測的BLEU評測方式[14].另外,多種文本生成和翻譯[15]方法的評測中都采用該種評測方案.BLEU的評測標準是給定上句后生成的下句,認為能夠更貼近于已有的參考下句,則判斷生成的質量更好.但是因為生成的內容比較多樣化,所以需要將多個下句的數據樣本加入答案集合.因為詩句的多樣性,在準備數據集時,會選取多個下句作為上句的對應結果,這些句對放入答案集中,這個篩選過程采用的人工整理.因為生成的結果總句數不一定,所以表中給出前6句評測結果和最后平均值.實驗結果見,表2通過和其他類型的系統,如隱馬爾科夫模型下的數據結果對比,該隱馬爾科夫的模型的結果均值為0.1516,本文系統結果為0.1806,高于隱馬爾科夫模型下的系統.

表2 自動評測結果

人工評價內容為,總計調查了40位文學專業的學生,讓他們對本文的生成結果進行一些判定,其判定標準主要是流暢通順性,詩句意象,情感傳遞等這幾個方面.每個方面有總分為5分,分數越高表示越優秀.人工評價部分結果見表3.

如圖7所示就是其中一段生成的文本,如表3實驗調查的結果,從統計結果發現,基本生成的作品在流暢通順性和情感傳遞上來說是相對有效的,

通過實驗發現:首先對語料庫的文本預處理可以很好的剔除無意義詞,提高生成結果.在初始化參數時需要考慮,不能直接把它們都初始化為0.因為初始化的不同對最后的結果是有不同影響的,初始化參數與神經網絡的激活函數是有關的.初始選擇的tanh 函數,推薦應該使用[–1/n,1/n] 之間的隨機數作為初始值,n表示和前一層的連接數.對于初始化參數,將他設置為很小的隨機數,有助神經網絡的正常訓練.

表3 人工評測結果

圖7 生成的文本結果

4 結論與展望

目前國內外的詩句生成研究基本采用直接基于模板的生成方法,本文提出利用主題模型和深度學習下的遞歸神經網絡方法來進行自動生成,使得詩句上下句關系與自動翻譯中的雙語關系進行映射,并考慮了該模型下的一些技術難題,實現了這一原理下的詩句生成.最后通過給定的人工評測和自動評測方法,對創作結果進行了判分,從結果來看,本研究對散文詩自動生成和自然語言生成有一定的參考價值.以后的工作需要更多的考慮語句的連貫與通順性,使之能夠又更好的表現.路永和,梁明輝.遺傳算法在改進文本特征提取方法中的

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 久久一级电影| 婷婷激情五月网| 久久99精品久久久久久不卡| 久久特级毛片| 亚洲香蕉久久| 国产日本视频91| 亚洲Aⅴ无码专区在线观看q| 亚洲无码电影| 欧洲日本亚洲中文字幕| 亚洲成人播放| 亚洲av成人无码网站在线观看| 91口爆吞精国产对白第三集| 91视频首页| 国产精品99r8在线观看| 72种姿势欧美久久久大黄蕉| 一本无码在线观看| 欧美日韩福利| 亚洲一级毛片在线观播放| 久久青草精品一区二区三区| 自慰高潮喷白浆在线观看| 欧美色丁香| 91热爆在线| 亚洲第一黄色网| 国产成人精品日本亚洲77美色| 国产黑丝视频在线观看| 中文字幕首页系列人妻| 亚洲床戏一区| 2048国产精品原创综合在线| 综合社区亚洲熟妇p| 国产麻豆精品在线观看| 国产精品免费露脸视频| 中文字幕在线免费看| 成人伊人色一区二区三区| 精品久久久久成人码免费动漫| 日韩少妇激情一区二区| 国产精品三区四区| 国产欧美日韩va| 亚洲男人天堂2018| 无码啪啪精品天堂浪潮av| 国产农村精品一级毛片视频| 特级欧美视频aaaaaa| 精品乱码久久久久久久| 精品1区2区3区| 999精品免费视频| 日韩天堂网| 五月天久久婷婷| 男女性色大片免费网站| 久久久久久尹人网香蕉| 国产亚洲精品91| 久久久久久尹人网香蕉| 婷婷六月综合网| 精品国产福利在线| 国产小视频a在线观看| 高清免费毛片| 欧美一级大片在线观看| a色毛片免费视频| 欧美全免费aaaaaa特黄在线| 亚洲欧美日韩色图| 在线a视频免费观看| 丰满少妇αⅴ无码区| av午夜福利一片免费看| 亚洲精品视频免费看| 无码电影在线观看| 免费无码网站| 五月婷婷丁香色| 天天躁夜夜躁狠狠躁图片| 永久免费AⅤ无码网站在线观看| 国产亚洲精品97AA片在线播放| 在线观看无码av免费不卡网站| av在线手机播放| 亚洲精品制服丝袜二区| 亚洲男人的天堂久久香蕉网| 无码久看视频| 国产精品成人第一区| a级毛片免费看| 亚洲色图另类| 国产日韩精品一区在线不卡| 久久超级碰| 国产在线第二页| 毛片免费视频| 亚洲欧美在线综合一区二区三区| 亚洲无卡视频|