999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TF-IDF算法的唐代著名詩僧殘缺詩句的填充方法研究

2019-04-22 12:03:02鄧金史國陽蔡天鴻朱晉懷麗波
現代計算機 2019年8期
關鍵詞:文本方法

鄧金,史國陽,蔡天鴻,朱晉,懷麗波

(延邊大學計算機科學與技術學科智能信息處理研究室,延吉133002)

0 引言

中國詩詞在傳統文化中占據著重要地位。在文學史領域中,研究者通過研究不同時期的詩詞,結合歷史背景,可以深入了解不同時期的政治、經濟、文化等。唐朝作為中國歷史上版圖最大的大統一中原王朝,涌現的著名詩詞數不勝數。中晚唐后興盛的詩僧,將自己的所聞所見所想寫入僧詩中,促進了儒、佛二者的合流[1]。然而,由于歷史遺留中一些不可抗因素,如文物的破損等,很多流傳下來的僧詩成為殘缺詩,這些殘缺不全的詩句影響了世人對唐朝時期三教發展的研究。本文針對唐代遺留下來的著名詩僧的詩句殘缺問題,提出一種基于文本處理技術的填充方法,期望得到一個合理且具有一定參考價值的結果。

1 相關工作

1.1 唐代僧詩的研究現狀

唐代僧詩主要盛行于中晚唐時期,隨著中國佛教在盛唐時期的發展而盛行,唐代興盛的詩僧,是唐朝興盛時期的見證人,他們對整個唐朝詩歌文化的發展具有很大促進作用。自上世紀80年代起,唐代詩僧研究逐漸引起人們的關注。整體來看,唐代詩僧研究在文學史領域主要還是宏觀、背景式的[2]。大多數研究者或關注中唐僧詩的發展脈絡,或著眼晚唐代僧詩的創作特征,或以某位詩僧為特定的研究對象[3],很少有人研究唐代僧詩殘缺詩句的填充方法。

1.2 殘缺詩句填充方法研究現狀

目前國內外對于殘缺詩句的填充方法主要是采用人工填充的方式,它需要填充者在熟悉作者詩詞風格的基礎上,對殘缺進行補全。這種填充方式對填充者的文學功底要求非常高,且詩詞填充效果也是因人而異。目前,還沒有研究者采用計算機技術自動對殘缺詩句進行填充,但對于詩詞的其他方面如計算機自動生成詩歌、詩詞的分類等已經有學者進行研究,如國外的Lutz在1959年用計算機生成了第一首德文詩,國內的詩詞生成研究始于上世紀九十年代中期,如臺灣羅鳳珠的格律檢查和同韻詞查找系統,周昌樂等人利用遺傳算法進行宋詞的自動生成等[4]。20世紀80年代,陸續有一些民間人士在詩歌生成方面做了一些有益的探索和實踐,產生了一些詩歌生成軟件,如梁建章的“計算機詩詞創作”程序、林鴻程的“稻香老農作詩機”,等等。這些民間自發的業余愛好,帶動了漢語計算詩學的學術研究[5]。自20世紀90年代后,我國國內的不少學術機構和學者陸續在詩歌語料庫及知識庫的建設、韻律分析、風格分析、情感分析和詩歌自動生成等領域開展了漢語計算詩學的廣泛研究[6]。人工填充詩句是填詞者通過認真拜讀原作者詩詞進行的再創造,融入了大量后來者的主觀色彩,且沒有一個量化的標準來衡量詩詞所填內容的好壞。本文將自然語言處理技術應用于唐代詩僧殘缺詩句的填充上,為填充詩詞提供了一個量化標準,為文學工作者和愛好者研究唐代時期的詩僧文化提供了一定的幫助。

1.3 文本處理相關的研究現狀

自然語言處理對象即文本的表示,如今普遍采用Salton等人提出的向量空間模型。在這個模型中不必考慮文本中語義單元的順序,而是將文本簡化為一個BoW(Bag-of-Word),并表示為特征權重的向量。向量空間模型主要以詞作為特征,以詞頻矩陣為基礎計算權重[7]。常用的特征提取方法有文檔頻率、信息增益、互信息、卡方檢驗、期望交叉熵、TF-IDF方法和特征降維[8]。現有的特征降維技術有PCA等。

文本分類是基于內容的文本信息挖掘的基本技術之一,目前常用的文本分類方法主要有樸素貝葉斯分類算法、決策樹分類算法、神經網絡分類算法、K-最近鄰(KNN)分類算法、支持向量機(SVM)分類算法,等等[9]。其中SVM算法分類器訓練時間長,而決策樹算法的效率也會因為數據量的增大而降低。KNN算法在準確率和穩定性方面均有優勢,它不需要預先訓練模型,同時具有很好的魯棒性。

2 基本理論

2.1 文本處理相關技術

在VSM模型中,單詞權重計算最為有效地實現方法是TF-IDF,它是Salton在1988年提出的。它的計算式如下:

其中,W(ti,dj)是特征項ti在文本dj的權重取值;tf(ti,dj)是特征項ti在文本dj中出現的頻率,用于計算該詞描述文檔內容的能力;idf(ti,d)是特征項ti在文本集d中出現文本頻率數的反比,稱為反文檔頻率,用于計算該詞區分文檔的能力[10]。

KNN分類算法能夠確定待分類樣本與訓練樣本之間的相似程度,從而確定與待分類樣本距離最近的K個訓練樣本。其最關鍵的因素是相似性度量方法,最常采用的相似性度量方法是余弦相似度,見公式(2):

其中,X、Y代表兩個文檔表示向量。對于一個待分類文本x,根據相似性度量函數從整個訓練集中找到與文本x最相似的K(K是預先設定的一個整數)個文本,然后根據K個近鄰文本所屬的類別給x的候選類別評分[11]。本文采用1NN的方法進行比較。

2.2 基于TF-IDF的唐代著名詩僧殘缺詩句的填充方法

本文收集唐代著名詩僧齊己、貫休、皎然收錄于《全唐詩》的現存所有詩句,通過中文分詞、建立TFIDF空間向量等步驟,對詩僧的殘缺詩句進行了算法填充。先將詩人的所有詩句進行分詞后,進行特征提取獲得特征向量,這個特征向量就代表著詩人的詩風。詩風可量化的部分就是不同詩人對不同詞語的偏好程度。同派別尤其是同時期的詩人之間會互相影響,所以部分詩詞內容所含有詞語是通用的。

要想在浩瀚漢字海洋里挑選出符合殘缺詩句的合適詞語就猶如大海撈針一般,本文選取三位詩人的詩作為詞典,他們同為一個時代的詩人,有當代的共同點,因此殘缺部分會以更大概率出現在這些通用的詞語中間。這是本文進行唐代詩僧詩詞填充的基礎。

皎然、齊幾、貫休是唐代詩僧的杰出代表,他們的詩風互相影響,尤其是齊己和貫休,基本處于同時代?;谏鲜龇治鰧⑺麄兛赡苡玫降脑~整理成詞典(具體做法是將他們完整詩句進行中文分詞),然后在詞典里挑選更合理有效的詞進行填充。利用詞典和各自完整詩句集構建出三位詩僧的特征向量,這是為了量化他們的詩風,便于后期在填充結果集選擇最優結果。本文采用余弦相似度作為填充好壞的度量,較人工填充更加規則規范化。

本文的填充算法步驟如下:

輸入三位著名詩僧的完整詩句和殘缺詩句

Begin

Step 1:對所有完整詩句,使用NLPIR漢語分詞系統進行分詞,獲得總詞典;

Step 2:構建向量空間模型,利用公式(1)分別構建三位詩僧的特征向量;

Step 3:對三位詩僧的殘缺詩句進行分詞;

Step4:在詞典中從頭到尾遍歷,查找與空缺詞字數相同的詞,進行填充,并將填充后的詩句構建特征向量;

Step5:將Step4的特征向量與三位詩僧的特征向量利用公式(2),進行余弦相似度的計算;

Step6:利用KNN方法,總是選取相似度最高的前k(本文測試取k=1)個詩句填充的詞作為結果進行輸出;

輸出僧殘缺詩句的填充結果。

End

3 實驗結果與分析

本文采集了唐代詩僧齊己、貫休、皎然收錄于《全唐詩》的所有詩,并將上述采集內容分為完整詩句和殘缺詩句兩部分,并對空缺詩句進行填充。

3.1 驗證詩僧之間詩風的獨立性

為了驗證三位詩僧之間的獨立性,利用三位詩僧的完整詩句構建各自在向量空間下的特征向量(采用中科院分詞系統進行中文分詞),兩兩進行特征向量間的余弦相似度計算,得結果表1。

表1 三位詩僧兩兩之間的余弦相似度值比較結果

在向量空間比較特征向量之間的余弦相似度,如果越趨近于1則說明兩個特征向量之間越相似,相反,越趨近于0則說明兩個特征向量越獨立。通過表1看出,三位詩僧的特征向量兩兩之間是趨近于0的,這說明他們之間是獨立的。本文通過TF-IDF向量空間模型下產生的結果,這與后人將他們奉為詩僧界作詩的三大杰出代表不謀而合。此外,皎然的時代早于齊己、貫休,所以對后兩者的相互影響較弱,而齊己、貫休基本處于同時期,所以相互影響理論上應較強,這均與表1的數據相吻合。

3.2 基于TF-IDF的殘缺詩句填充方法

實驗一:僅使用每位詩人自己的詩詞構建詞典進行填充

為驗證本文實驗方法的可行性和合理性,進行了兩組對比試驗。

方法一:利用某位詩人的所有完整詩句進行分詞得到這位詩人的詞典,將該詩人的每一首詩作為一個文檔,計算出詞典中的每一個詞的idf值和tf值后,構建詩人的特征向量。

方法二:利用某位詩人的所有完整詩句進行分詞得到這位詩人的詞典,將該詩人的所有詩作為一個文檔,計算出詞典中的每一個詞的tf值,構建詩人的特征向量時,由于idf值為1,所以詩人的特征向量中每一個特征值都只由該詞的tf值確定。

利用三位詩人的六個殘缺詩句進行實驗:

(1)皎然:別離芳月積,岐路浮云偏。正□入空門,仙君依苦縣。

(2)皎然:江上重云起,何曾裛□塵。不能成落帽,翻欲更摧巾。

(3)貫休:嘉樹白雀來,祥煙甘露墜。中川一帶香,□開幽邃地。

(4)貫休:望塵□□連紫闥。吾皇必用整乾坤,莫忘江頭白頭達。

(5)齊己:巴江□□漲,楚野入吳深。他日傳消息,東西不易尋。

(6)齊己:夏□松邊坐,秋光水畔行。更無時忌諱,容易得題成。

詩句填充結果見表2。

表2 兩種方法的詩句填充結果

對實驗結果進行分析,發現方法一與方法二填充結果效果不好,分析其原因可知,方法一由于文檔數量龐大idf變化大而詞頻均較小,實驗填充的詞主要受idf的影響。方法二與方法一相反,方法二idf值一致,填充的詞只受tf值的影響。所以本文最終采用的方法是使用三位詩人的所有完整詩構建詞典,然后進行實驗。

實驗二:使用三位詩人的所有完整詩構建詞典進行填充

“巴江□□漲,楚野入吳深。他日傳消息,東西不易尋”是齊己《與張先輩話別》一詩中的殘缺部分。構建該句的TF-IDF特征向量,并計算當前該句和三位詩僧特征向量之間的余弦相似度得表3。

表3 《與張先輩話別》殘缺部分的比較結果

由于一句詩所包含的詞語特征太少,在計算余弦相似度時,大多數詞的特征值值為0,所以總體的余弦相似度值均偏低。但仍可以看出,該句與齊己的余弦相似度值最高,而事實上這就是詩僧齊己的詩句。

對該句進行填詞,分別獲得與三位詩僧特征向量余弦相似度最大的詞,如表4所示。

表4 填詞結果

本文算法填詞是沒有考慮到詩句押韻和詞詞耦合以及詩意銜接,但是通過本文算法填詞后不難發現:

巴江(起見)漲,楚野入吳深。他日傳消息,東西不易尋。

首先,填完詞的詩句是沒有影響押韻,其次詞語之間也有所關聯,其次“起”和“入”字對仗,整體構成的詩意給人一種反差美,這也能和下句達到匹配,有進一步研究的意義。

“別離芳月積,岐路浮云偏。正□入空門,仙君依苦縣?!笔丘ㄈ弧侗笤绱旱枪售的蠘峭ド剿掳Q觀示清道人并沈道士》一詩中的殘缺部分。構建該句的TF-IDF特征向量,并比較該句和三位詩僧的特征向量之間的余弦相似度值得表5。

表5 《兵后早春登故鄣南樓望昆山寺白鶴觀示清道人并沈道士》殘缺部分的比較結果

仍可以看出,該句與皎然的余弦相似度值最高,而事實上這就是詩僧皎然的詩句。

對該句進行填詞,分別獲得與三位詩僧特征向量余弦相似度最近的詞,如表6所示。

表6 填詞結果

填完詞的詩句為:

別離芳月積,岐路浮云偏。正(凄)入空門,仙君依苦縣。

如果上句是創造出一個意境來,那么下句就是這個意境里的具體內容。苦字奠定了整句的感情基調,整個意境給人一種凄涼的感覺,所以填寫出的凄字也是具有相當大的參考價值。

“嘉樹白雀來,祥煙甘露墜。中川一帶香,□開幽邃地?!笔秦炐荨渡媳R使君》一詩中的殘缺部分。構建該句的TF-IDF特征向量,并計算該句和三位詩僧的特征向量之間的余弦相似度值得表7。

表7 《上盧使君》殘缺部分的比較結果

依舊可以看出,該句與貫休的余弦相似度值最高。

對該句進行填詞,分別獲得與三位詩僧特征向量余弦相似度最近的詞,如表8所示。

表8 填詞結果

填完詞的詩句為:

嘉樹白雀來,祥煙甘露墜。中川一帶香,(遄)開幽邃地。

遄字有快、迅速之意。祥煙給人一種冉冉升起的感覺,而甘露墜就是一種迅速之感。上句作為鋪墊雖沒有明說,但下句的“遄開”一語道破,使前后句具有強關聯性,參考價值不菲。

本文用的是三個著名詩人的完整詞構建的詞庫,因此詞數有限,可以增大詞庫,然后進行降維處理,也可以增大k值以便盡可能獲得更多參考結果,這相對于研究者在浩瀚的文字中尋找一個詞容易很多,因此可以為研究者提供借鑒。

4 結語

本文將TF-IDF技術應用于殘缺詩詞的研究,初步構建了一個簡單的填詞系統,獲得了可供參考的填充詞。但本文的方法在進行填詞的時候并沒有考慮到詩的意境、押韻等方面的問題,構建的詞典也只是基于三位詩人的完整詩,具有較大的局限性,所以接下來的工作是改進本算法,考慮押韻、詞性以及多缺失詞的詩意限制等因素。

猜你喜歡
文本方法
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
學習方法
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 日韩乱码免费一区二区三区| 免费在线成人网| 日本一区二区三区精品视频| 国产高清毛片| 美女国产在线| 亚洲精品自拍区在线观看| 精品福利视频导航| 欧美人在线一区二区三区| 热思思久久免费视频| 欧美一级色视频| 亚洲v日韩v欧美在线观看| 国产99视频精品免费视频7| 无码精品国产dvd在线观看9久 | 亚洲人成电影在线播放| 日本高清视频在线www色| 国产精品美女免费视频大全| 国产精品久久久久久搜索| 亚洲无码视频喷水| 日本一区二区三区精品AⅤ| 日本三级欧美三级| 亚洲网综合| 性色在线视频精品| 91区国产福利在线观看午夜| 五月激情婷婷综合| 久久久噜噜噜| 国产欧美日韩资源在线观看 | 亚洲综合色婷婷| 亚洲成人福利网站| 国产视频资源在线观看| 蜜芽一区二区国产精品| 97青青青国产在线播放| 国产精品福利社| 有专无码视频| 国产人妖视频一区在线观看| 欧美日韩在线观看一区二区三区| 国产一区二区三区视频| 国产一级毛片高清完整视频版| 亚洲精品国产成人7777| 五月天丁香婷婷综合久久| 午夜精品久久久久久久99热下载| 91精选国产大片| 精品国产成人高清在线| 国产第一福利影院| 国产欧美另类| 欧美激情视频二区| 亚洲国产成人精品无码区性色| 国产永久在线观看| 国产91九色在线播放| 欧美一区二区自偷自拍视频| 这里只有精品在线| 国产精品污视频| 欧美A级V片在线观看| av免费在线观看美女叉开腿| 婷婷色丁香综合激情| julia中文字幕久久亚洲| 极品性荡少妇一区二区色欲| 国产亚洲欧美日韩在线观看一区二区| 凹凸国产分类在线观看| 亚洲免费黄色网| 亚洲精品在线91| 国产成人精品在线| www亚洲天堂| 国产精品嫩草影院视频| 亚洲中文字幕久久精品无码一区 | 性欧美精品xxxx| 欧美日韩亚洲国产主播第一区| 中文字幕人成人乱码亚洲电影| 久久性视频| 国产杨幂丝袜av在线播放| 欧美激情视频一区| 精品久久蜜桃| 亚洲三级成人| 国产剧情国内精品原创| 成人无码一区二区三区视频在线观看| 激情视频综合网| 日本不卡在线| 熟妇丰满人妻| 欧美劲爆第一页| 国产哺乳奶水91在线播放| 激情无码视频在线看| 欧美成人日韩| 国产不卡在线看|