摘要:本文以唐詩作為研究對象,根據(jù)遺傳算法的特點(diǎn),把唐詩的生成問題歸納為一個(gè)在解空間中尋求最優(yōu)化的過程,并對唐詩自動(dòng)生成系統(tǒng)創(chuàng)作的作品進(jìn)行了格律分析,作品鑒賞,最后對實(shí)驗(yàn)結(jié)果進(jìn)行分析和展望。
關(guān)鍵詞:唐詩生成 遺傳算法 格律
1 引入
遺傳算法是由J.H.Holland于二十世紀(jì)六十年代提出,具有仿真生物遺傳學(xué)和自然選擇機(jī)理,是通過人工方式所構(gòu)造的一類智能優(yōu)化搜索算法。遺傳算法的主要特點(diǎn)是直接對結(jié)構(gòu)對象進(jìn)行操作,它采用概率化的尋優(yōu)方法,能自動(dòng)獲取和指導(dǎo)優(yōu)化的搜索空間,自適應(yīng)地調(diào)整搜索方向,不需要確定的規(guī)則。遺傳算法已被人們廣泛地應(yīng)用于組合優(yōu)化、機(jī)器學(xué)習(xí)、信號處理、自適應(yīng)控制和人工生命等領(lǐng)域,它是現(xiàn)代有關(guān)智能計(jì)算中的關(guān)鍵技術(shù)之一。
詩詞生成問題在本質(zhì)上是一個(gè)解空間中尋求最優(yōu)化的過程,而解決這類問題正是遺傳算法的優(yōu)勢所在。考慮到詩歌的重要規(guī)律——對格律的講究,我們將“平、仄”恰好表示為計(jì)算機(jī)二進(jìn)制的“0、1”。
我們的設(shè)計(jì)目標(biāo)是構(gòu)建一個(gè)唐詩自動(dòng)生成系統(tǒng),它能按用戶輸入的關(guān)鍵詞和韻部來自動(dòng)生成唐詩,目前已經(jīng)完成。
2 作品分析
本系統(tǒng)運(yùn)行時(shí)要求用戶先通過輸入文字來確定一個(gè)主題詞,然后選擇作品的類型,分別是“五絕、七絕、五律、七律”,最后還可以讓用戶選擇押哪個(gè)韻。
第一個(gè)例子,輸入“清明”主題,分別選擇“七絕”和押“五微”韻,根據(jù)詞義相關(guān)度和相似度的計(jì)算,在唐詩切分語料庫中的查找,找到相關(guān)詞,而后根據(jù)押韻的韻部和七絕的格式要求,經(jīng)過一系列計(jì)算,生成作品原文如下:
清明此客共沾衣,未散多情尚有歸。
酒半飛時(shí)秦氏女,庭深露見鷺鷥飛。
由于此詩是七絕平起(首句入韻),其基本格式是:
平平仄仄平平仄
仄仄平平仄仄平(韻)
仄仄平平平仄仄
平平仄仄仄平平(韻)
逐字注音,檢查該作品的韻律。(○表示平聲,●表示仄聲,◎表示平韻):
清明此客共沾衣,未散多情尚有歸。
○○●●●○◎ ●●○○●●◎
酒半飛時(shí)秦氏女,庭深露見鷺鷥飛。
●●○○○●● ○○●●●○◎
結(jié)果表明,該作品完全符合此詩格律要求。其中,“衣”本是多音字,分別可押五微(平聲)和五未(仄聲),在作品中可以看出,根據(jù)給出的多音字判斷策略,已經(jīng)正確的把“衣”字歸為五微(平聲)。
從作品語意分析,詞語意關(guān)聯(lián)度較高,詩有一定含義,符合主題。
“問君能有幾多愁,恰似一江春水像東流”,翻開唐詩,表達(dá)“愁緒”的詩句滿目可見。在第二個(gè)例子中,選擇“愁緒”為主題詞,分別選擇“七律”和押“十一尤”韻,生成作品原文:
高歌客里客他州,極浦風(fēng)帆八月舟。
裊裊花飛常近鶴,褰褰雨歇不驚鷗。
滄江別鬢消更積,白日歸心結(jié)還流。
老鬢如霜來枕上,江頭洗岸柳關(guān)頭。
根據(jù)七律平起(首句入韻)詩的基本格式是:
平平仄仄仄平平(韻)
仄仄平平仄仄平(韻)
仄仄平平平仄仄
平平仄仄仄平平(韻)
平平仄仄平平仄
仄仄平平仄仄平(韻)
仄仄平平平仄仄
平平仄仄仄平平(韻)
檢查該作品的韻律:
高歌客里客他州,極浦風(fēng)帆八月舟。
○○●●●○◎ ●●○○●●◎
裊裊花飛常近鶴,褰褰雨歇不驚鷗。
●●○○○●● ○○●●●○◎
滄江別鬢消更積,白日歸心結(jié)還流。
○○●●○○● ●●○○●○◎
老鬢如霜來枕上,江頭洗岸柳關(guān)頭。
●●○○○●● ○○●●●○◎
檢查結(jié)果表明,該作品中的“還”字應(yīng)為仄聲,不符合格律要求。作品中的第二聯(lián)“裊裊花飛常近鶴,褰褰雨歇不驚鷗。”和第三聯(lián)“滄江別鬢消更積,白日歸心結(jié)還流。”實(shí)現(xiàn)了對仗。娓娓讀來,作者的鄉(xiāng)愁也躍然紙上。
最后一個(gè)例子,以“邊塞”為主題詞,分別選擇“七律”和押“一先”韻,生成作品原文:
連云碧草妒嬋娟,萬點(diǎn)春花四季鮮。
萬疊綠遮官舍月,數(shù)峰紅襯舊山煙。
度關(guān)遠(yuǎn)識平陵樹,過海遙知華岳蓮。
馬去胡塵皆野鶴,殘歌共舞雙簾卷。
此七律平起(首句入韻)詩的基本格式和前一例一致。
逐字檢查結(jié)果如下:
連云碧草妒嬋娟,萬點(diǎn)春花四季鮮。
○○●●●○◎ ●●○○●●◎
萬疊綠遮官舍月,數(shù)峰紅襯舊山煙。
●●○○○●● ○○●● ●○◎
度關(guān)遠(yuǎn)識平陵樹,過海遙知華岳蓮。
○○●●○○● ●●○○ ●○◎
馬去胡塵皆野鶴,殘歌共舞雙簾卷。
●●○○○●● ○○●●○○◎
該作品中的“雙”字應(yīng)為仄聲,不符合格律要求。作品中的第二聯(lián)“萬疊綠遮官舍月,數(shù)峰紅襯舊山煙”和第三聯(lián)“度關(guān)遠(yuǎn)識平陵樹,過海遙知華岳蓮”也實(shí)現(xiàn)了對仗。作品選詞關(guān)聯(lián)度較高,符合主題。
3 結(jié)束語
本課題組的唐詩生成系統(tǒng)是對詩歌機(jī)器生成的一種探索,取得了較好的預(yù)期效果,也有不少經(jīng)驗(yàn)可以總結(jié)。
比如:對候選詩作的語法和語義評判多以詞和句為單位,對于句間的邏輯組織考慮不夠,詩歌描述的是一種意境,每個(gè)句子上下關(guān)聯(lián),具有很強(qiáng)的邏輯性,而機(jī)器生成的作品往往可以做到格律規(guī)范,但是個(gè)別句子或詞有時(shí)顯得突兀,全詩缺乏整體性。
生成詩詞作品的質(zhì)量不夠穩(wěn)定。這主要是由于評判標(biāo)準(zhǔn)難以全面和量化。詩詞的鑒賞歷來是個(gè)“仁者見仁,智者見智”的過程,而且大多局限于文學(xué)領(lǐng)域,要形成一套系統(tǒng)的,可供計(jì)算機(jī)量化操作的評判標(biāo)準(zhǔn)相當(dāng)困難。
因而,在詩詞自動(dòng)生成領(lǐng)域,我們還有很多路可走。
參考文獻(xiàn):
[1]穗志方,俞士汶.羅鳳珠.宋代名家詩自動(dòng)注音研究及系統(tǒng)實(shí)現(xiàn)[J].中文信息學(xué)報(bào),1998,2:44-53.
[2]羅鳳珠,李元萍,曹偉政.中國古代詩詞格律自動(dòng)檢索與教學(xué)系統(tǒng)[J].中文信息學(xué)報(bào),1999.1:35-42.
[3]胡俊峰.基于詞匯語義分析的唐宋詩計(jì)算機(jī)輔助深層研究[D].北京:北京大學(xué),2001.5.
[4]周昌樂.心腦計(jì)算舉要[M].北京:清華大學(xué)出版社,2003.
[5]俞士汶,段惠明.北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范[J].中文信息學(xué)報(bào),2002,16(5):49-64.
[6]胡俊峰,俞士汶.唐宋詩中詞匯語義相似度的統(tǒng)計(jì)分析及應(yīng)用[J].中文信息學(xué)報(bào),2002,16(4):39-44.
課題項(xiàng)目:
本文系浙江省教育廳科研項(xiàng)目“中國古典詩歌的機(jī)器生成的計(jì)算方法的研究”的研究成果(課題申報(bào)編號Y201328703),2012年浙江省高等學(xué)校訪問學(xué)者教師專業(yè)發(fā)展項(xiàng)目“基于遺傳算法的唐詩自動(dòng)生成的研究”的研究成果(課題號FX2012131)。
作者簡介:
丁之彥(1973-),女,江蘇無錫人,講師,碩士,廈門大學(xué)訪問學(xué)者,研究方向:教育信息技術(shù)、人工智能等。
朱響斌(1971-),男,浙江金華人,浙江師范大學(xué)數(shù)理與信息工程學(xué)院副教授,復(fù)旦大學(xué)博士,研究方向:嵌入式系統(tǒng)、教育信息技術(shù)。