999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BiLSTM寫作風格識別方法研究*

2021-10-08 13:55:48陳艷平
計算機與數字工程 2021年9期
關鍵詞:語義分類實驗

劉 莎 陳艷平

(貴州大學 貴陽 550025)

1 引言

不管是文學著作還是新聞報道,不同的作者有不同的寫作風格,如何根據作者各自獨有的特點來正確識別他們的文章寫作風格呢?這是一直以來備受關注的話題。寫作風格識別主要就是識別類型之間的差異性,包括文章的體裁、語言表達以及時代背景等。通過文章的寫作風格研究,不僅有助于作品風格分析、言語測定,還能用于文章作者的識別、垃圾電子郵件的身份鑒定、人物畫像分析、剽竊監測、網絡輿情監測等多方面的研究。

傳統的文章寫作風格識別常用的方法有很多。第一,研究文章中虛詞出現頻率的分布,采用多種不同的規格化方法來減輕文章長度上的差異,并使用多種不同的分類方法,從而達到很好的效果;第二,利用文章的句法、語義來進行訓練,形成作者寫作風格分類器;第三,利用模板匹配方法、支持向量機(SVM)等方法也可以進行識別。

目前,有關神經網絡算法研究相對較少。因此,本文提出了關于BiLSTM的識別方法。要想更加準確地識別文章的寫作風格還具有一定的難度,它的主要挑戰在于以下三個方面。

第一,風格差異。風格是文學作品從整體上表現出來的獨特而鮮明的風貌和格調,影響風格的因素有很多,比如:時代、環境、地域、文化背景、各個地方語言表達、藝術情感及作者的主觀思維等,每一部分的改變都有可能影響文章的寫作風格。

第二,特征差異。不同作家在寫作特點都有所不同,包括使用的修辭手法、詞匯、句型等,這些寫作特點有的時候會相對穩定,有的時候會不斷變化,我們很難準確把握作者的寫作風格意圖。

第三,表示困難。寫作風格是一個主觀性的描述,目前還沒有一個嚴謹的數學模型能夠表達寫作風格,而且不同的識別工具,最終得到的識別結果也千差萬別。

基于以上的研究難點,本篇文章提出一種基于神經網絡雙向長短時記憶(LSTM)的文章寫作風格識別的方法,該方法可以在實驗中達到很好的識別效果。LSTM是一種特殊的RNN(Recurrent Neural Networks),相比其他模型來說,它有很多優點。首先它能夠學習到長期依賴關系;其次,它可以用來解決梯度消失,梯度爆炸問題;最后,它能夠解決長距離的句子的學習效果不好的問題。

2 相關工作

有關寫作風格在國內外都有許多類似的研究。在國外,1938年,Yule George Udny[1]使用他所提出的Yule圖的方法推斷匿名文章的作者。自2000年以來,Stamatatos,Fakotakis和Kokkinakis[2]討論了作者驗證的問題,他使用了樣式特征并基于多元回歸為給定作者產生響應函數。該方法在希臘報紙文章生成的文本語料庫中進行了測試,產生了良好的效果。2003年Argamon,Shlomo[3]等對英國國家語料庫中涵蓋一系列類型的大部分男性和女性寫作的差異進行了探索。2018年Amelin,Konstantin[4]提出了一種利用動態相似度對書寫風格進化進行模式化的新方法,希望通過當前文本塊與其前任之間的關聯來對寫入過程進行建模。

在國內,類似的研究也相繼浮出水面。多數研究都是利用語料庫進行模板匹配,還有使用文本特征,比如:詞組進行劃分來判別彼此之間的差異性。2001年龐劍鋒,卜東波[5]主要聚焦在文本分類這一模塊,其中對文本分類中所涉及的關鍵技術進行研究,提出了關于向量空間的文本分類系統,并給出了相應的評判方法,這些都取得了一定的進展。2008年張運良[6]等提出,利用向量空間模型,以句類作為特征,形成作者的寫作風格分類器進行風格識別。

3 研究動機及解決方案

3.1 研究動機

以上這些研究雖然可以進行識別工作,但由于缺乏準確而又可靠的分類手段,大多數用了詞頻分布的方法,這些只能基于可量化的特征進行人為的統計推斷,所以無法較好地對文章寫作風格進行有效的識別。為了達到實驗效果,提出一種基于雙向LSTM神經網絡的文章寫作風格識別方法,能夠更有效地處理句子中單詞間的長距離影響。

3.2 解決方案

為了達到更好的識別效果,將通過預處理數據集,詞向量訓練,LSTM訓練,風格識別這四個方面進行詳細的討論。

1)預處理數據集。將數據集進行句子語義識別并劃分為多種語義結構的分類,將所劃分好的語義結構數據集每隔n句(n可以取1,2,3等正整數)作為一個實例(本次實驗中n=5),在此需要注意的是所有情況下的句子長度序列都沒有預先指定的約束,從而得到預處理數據集。

2)詞向量訓練。利用Word Embedding方法用高維向量表示詞語,提取預處理數據集中每個句子的每個詞的詞向量,構建句子矩陣集,它能夠自動實現:第一,單詞語義相似性的度量;第二,詞匯的語義的類比。

3)LSTM訓練。以句子為單位,將句子矩陣集中的每個詞對應的詞向量按照順序輸入至雙向LSTM網絡,經訓練得到句子向量集,利用句子向量集對神經網絡模型進行訓練,得到句子的分類模型。

4)風格識別。在輸出結束后,再加一個全連接層,它將每句話中的最后一個雙向LSTM模型得到的輸出作為全連接層的輸入,用來把前邊提取到的特征綜合起來,獲取句子語義具有的高層含義,再通過定義損失函數來判別預測和實際之間的差異,從而達到更好分類的效果。

4 模型

模型主要分為三大點來進行描述,分別是詞嵌入(Word Embedding)、BiLSTM、全連接層、損失函數。對于詞嵌入,是一個詞的低維向量表示,是將自然語言表示的單詞轉換為計算機能夠理解的向量或矩陣形式的技術。比如“我喜歡楊木”它是一句話,通過詞嵌入技術就可以將每個字用向量來表示,根據向量之間的相似度來捕獲它們之間的語義信息及相關性。對于全連接層,它在其中起的是分類器的作用,將學到的“分布式特征表示”映射到樣本標記空間,通俗來講就是對BiLSTM的輸出結果進行矩陣向量的乘積,如式(1)所示。

其中W、B分別為兩個參數,W為系數,B為偏置項,x、y分別為輸入和輸出。

本篇論文將重點討論BiLSTM。由于一般的循環神經網絡在時序處理上,經常會忽略上下文信息,因此,我們所希望的是在輸入和目標之間增加延遲,從而獲得更加有益的輸出。為了解決這個問題,我們采用了BiLSTM,它是一種特殊的遞歸神經網絡,能夠學習長期依賴關系。它的核心在于它有三個門與一個記憶單元,來保護和控制元胞狀態,包括輸入門,輸出門和遺忘門,而元胞狀態就像一個傳送帶,可以控制信息傳遞給下一時刻。LSTM可以通過門的結構對元胞狀態進行添加信息或者刪除信息。具體的框架如圖1所示。

圖1 風格識別框架圖

現在,對圖1中的工作具體細節進行討論,其步驟可總結如下。

1)遺忘門,讓循環神經網絡“忘記”之前沒有用的信息,它會根據輸入xt、上一時刻狀態ct-1和上一時刻的輸出ht-1共同決定哪一部分記憶需要被遺忘,從而輸出一個在0~1之間的數值。1表示“完全保留”,0表示“完全舍棄”。具體如式(2)所示。

2)輸入門,在循環神經網絡“忘記”了部分之前的狀態后,它還需要從當前的輸入補充最新的記憶,這個過程就是“輸入門”完成的。輸入門是將信息選擇性的新的信息加入到細胞狀態中來。實現這個過程需要包括兩個步驟:首先,輸入門層的sigmoid層決定哪些信息需要更新;tanh層生成一個向量-Ct,用來更新所產生的新內容,把這兩部分聯合起來,對細胞的狀態進行一個更新。具體如式(3)和式(4)所示。

現在更新舊細胞狀態Ct-1更新為Ct。把舊狀態Ct-1與ft相乘,丟棄掉確定需要丟棄的信息,接著加上,這就是新的候選值,根據決定更新每個狀態的程度進行變化,其中ft*Ct-1表示希望刪除的信息,表示新增的信息,如式(5)所示。

3)輸出門,是用來確定最終需要輸出什么值。首先運行一個sigmoid層來確定細胞狀態的哪個部分將輸出,從而得到一個初始輸出。接著使用細胞狀態通過tanh進行處理,將Ct縮放到一個在-1~1之間的值,再與sigmoid層得到的輸出逐對相乘,最終將會輸出所要確定輸出的那部分,如式(6)和式(7)所示。

在輸出結束后,再加一個全連接層,它將每句話中的最后一個雙向LSTM模型得到的輸出作為全連接層的輸入,用來把前邊提取到的特征綜合起來,獲取句子語義具有的高層含義,再將每句的輸出值作為softmax函數的輸入得到最大的分類概率值,所有概率值加起來剛好等于1,通過訓練該神經網路模型得到其最好的準確率,同時也優化參數。此步驟調用softmax函數,實現句子的語義分類。

最后,為了使預測的結果與實際值差值越小越好,所以在softmax層就定義了一種衡量模型好壞的方式,即損失函數(用來表現預測與實際數據的差距程度),本文中使用的是交叉熵函數,具體如式(8)所示:

其中y代表真實值,a代表softmax求出的值,i代表的是輸出結點的標號。交叉熵的值越小,兩個概率分布越接近,識別風格也就越明顯,從而更好地、更準確地識別和預測句子語義信息,達到文章寫作風格識別的目的。

5 實驗及結果分析

論文將通過兩個大的實驗來討論作品寫作風格的研究。實驗一是利用我們的方法判定《紅樓夢》前八十回和后四十回是不是同一個作者寫的,并且給出測試集,看是否能正確分類,從而通過判定作者來進行作者風格識別;實驗二為了進一步證明我們的方法的有效性,通過收集五大名家的作品數據集進行實驗,因為不同的作者都有不同的寫作風格,因此通過作者的正確分類來進行更好的風格識別。

5.1 實驗數據

實驗數據主要來源于http://www.shuku.net.cn/,http://www.dtnets.com/,http://www.shulu.net/,《紅樓夢》小說全文電子下載https://www.qisuu.la/。

5.2 實驗過程

5.2.1 數據預處理

本次實驗數據量大,語言格式錯綜復雜,需提前對數據集進行預處理,從而減少噪音,降低實驗復雜度,具體過程如下:

1)在文檔中,首先將每條評論通過標點符號來進行分隔,比如{,。;!?:};

2)LIWC2015詞典中包含了19,281個停用詞,用LIWC2015詞典來檢查分隔開的數據集,如果在詞典中,就將其作為邊界以生成候選句子。

3)輸出生成的候選句子以獲得整個語料庫的候選句子。

5.2.2 LSTM訓練

LSTM主要通過遺忘門、輸入門、輸出門實現信息的保護和控制。以句子為單位(長度設為5),通過Word Embedding將輸出的詞向量按照順序輸入至雙向LSTM網絡,正向、反向LSTM同時進行訓練,捕獲數據集更多上下文信息,經訓練得到句子向量集,利用句子向量集對神經網絡模型進行訓練,得到句子的分類模型。

5.3 實驗結論

5.3.1 《紅樓夢》識別

實驗一主要研究《紅樓夢》前八十回與后四十回的關系,根據文章寫作風格,從而判定《紅樓夢》是否為一人所寫。實驗總共收集《紅樓夢》前八十回合和后四十回合數據集,作品序列1是將第一回到第四十回劃分成一個集合,作品序列2是將第四十一回到第八十回劃分成一個集合,作品序列3是將第八十一回到第一百二十回劃分成一個集合,具體劃分見表1。

表1 《紅樓夢》數據集劃分

將實驗分為兩類:第一類,先將序列1和3作為訓練集,序列2為測試集。訓練樣本17568,測試樣本5856,通過實驗,可以看出F為86.04,它歸為第一類中,從而表明兩者各有自己的寫作風格,兩者寫作風格不是出自同一個人。第二類實驗同第一類實驗類似,將序列2和序列3作為數據集,序列1為測試集。訓練樣本數為30889,測試樣本數為15661,通過實驗,可以看出F高達91.73,進一步驗證了兩者之間寫作風格的不同,前八十回和后四十回不是出自同一作者。具體實驗結論如表2。

表2 實驗一風格識別

《紅樓夢》作品的研究大多是通過語料庫中詞頻統計分析進行的。比如參考文獻[15]的選用者、乎、焉、哉、乃等詞。我們的實驗采用神經網絡的方法進行論證,得到了和參考文獻[7]一樣的論證結果,作品序列1、作品序列2與作品序列3相比,文章寫作風格具有很大的相似性,可將前八十回分為一類,后四十回分為一類。有些研究學者認為后四十回有曹雪芹的殘稿,因目前沒有更多的語料庫,所以無法做進一步的深入研究。

5.3.2 關系驗證

為了進一步驗證我們的研究方法的有效性,我們同時對巴金、老舍、朱自清、金庸、張愛玲的部分文學作品進行了對比試驗,作家作品分類語料庫詳情如表3。

表3 作家作品分類語料庫詳情

主要進行五次實驗將其他作家的作品作為訓練集,其中一個比如巴金,朱自清,金庸分別作為測試集。文獻[9]中的實驗分類方法有三種,分別是模板匹配,分類結果為51;K近鄰,分類結果為91.14;SVM,分類結果為93.58;利用BiLSTM方法識別出作者風格的F高達到93.80,相比文獻[9]中的實驗結果有很大的提升效果,由此可以看出利用我們的神經網絡的方法能夠相對準確地判定作者的正確性以及他們的寫作風格。實驗結果如表4。

表4 實驗二風格識別

6 結語

本文提出基于BiLSTM寫作風格識別方法,它不同于傳統的風格識別。將預處理數據集通過Word Embedding提取預處理數據集中每個句子的每個詞的詞向量,從而構建句子矩陣集,將句子矩陣集輸入到雙向LSTM中進行訓練,再添加一層全連接層,用來把前邊提取到的特征綜合起來,從而獲取句子語義具有的高層含義。從實驗中可以發現,基于BiLSTM文章寫作風格識別方法在實驗效果上可以達到很好的提升,有利于更加高效地進行研究。

猜你喜歡
語義分類實驗
記一次有趣的實驗
分類算一算
語言與語義
做個怪怪長實驗
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 欧美成人免费一区在线播放| 99福利视频导航| 国产99热| 亚洲日韩每日更新| 一级毛片无毒不卡直接观看| 强奷白丝美女在线观看| 亚洲女同欧美在线| 精品亚洲欧美中文字幕在线看| 亚洲v日韩v欧美在线观看| 91无码网站| 中文字幕在线看| 亚洲综合在线最大成人| 免费一级毛片在线播放傲雪网| 国产欧美日韩综合一区在线播放| 久久精品国产亚洲AV忘忧草18| 国产欧美视频在线观看| 欧美中日韩在线| 91国语视频| 中文字幕佐山爱一区二区免费| 欧美影院久久| 国产精品污污在线观看网站| 亚洲愉拍一区二区精品| 亚洲小视频网站| 中文字幕在线永久在线视频2020| 99精品免费在线| 天堂av综合网| 女人毛片a级大学毛片免费| 国产精品亚洲精品爽爽| 国产精品va免费视频| 久久黄色毛片| 国产精品va免费视频| 欧美精品亚洲日韩a| 国产激爽大片高清在线观看| 国产鲁鲁视频在线观看| 在线另类稀缺国产呦| 这里只有精品免费视频| 99精品欧美一区| 国产精品无码作爱| 一级毛片在线播放免费观看| 国产激情第一页| 精品国产一区91在线| 婷婷亚洲最大| 91精品最新国内在线播放| 国产成人综合亚洲网址| 91网址在线播放| 日本高清在线看免费观看| 九九热这里只有国产精品| 国产在线自在拍91精品黑人| 精品无码日韩国产不卡av| 原味小视频在线www国产| 美女高潮全身流白浆福利区| 中文字幕人成人乱码亚洲电影| 欧美日韩福利| 久久综合丝袜日本网| 精品国产免费观看| 久久精品亚洲中文字幕乱码| 精品福利网| 亚洲精品无码抽插日韩| 99在线视频免费| 亚洲欧美成人在线视频| 欧美第二区| 91极品美女高潮叫床在线观看| 日本国产一区在线观看| 精品伊人久久久久7777人| 国产一二三区视频| 国产手机在线小视频免费观看| 国产成人精品一区二区| 色首页AV在线| 亚洲伊人电影| 亚洲女人在线| 91精品最新国内在线播放| 久久久精品无码一二三区| 亚洲无线一二三四区男男| 国产美女一级毛片| 国产三级视频网站| 影音先锋丝袜制服| 国产综合欧美| 欧美精品xx| 欧美日在线观看| 又粗又硬又大又爽免费视频播放| 国产原创第一页在线观看| 亚洲系列中文字幕一区二区|