999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA和GBDT算法的對文學作品愛國主義特征的分類研究

2019-06-18 11:44:54毛頻對外經濟貿易大學外語學院北京100029
文化創新比較研究 2019年13期
關鍵詞:愛國主義分類模型

毛頻(對外經濟貿易大學外語學院,北京 100029)

愛國主義是社會主義核心價值觀,自古至今,愛國主義一直是文學作品中最重要、最能引起讀者共鳴的主題之一,可謂日月高懸,激勵了一代又一代的仁人志士,為了國家和民族的利益,毅然承擔起歷史賦予的重任,赴湯蹈火在所不惜,在中國歷史上留下了濃墨重彩的一幕又一幕。弘揚愛國主義,傳遞正能量是毋庸置疑的,因此所有相關媒體、平臺在推介文學作品時,價值取向是首先要面對的問題,優先推薦愛國主義題材的佳作,淘汰宣揚分裂、背叛國家等思潮的不符合社會主義價值觀的作品。膾炙人口的現當代愛國主義小說有《紅日》《紅巖》等。進入當代消費社會,文學的互聯網化越來越成為當代文學創作和閱讀的重要特征。文學創作活動異常活躍,閱文等互聯網文學企業不斷產生發展,政府意識形態主管部門把控價值取向時,不可能對所有文學作品進行分析和判斷,文學企業在評價某個文學作品的特征時,也需要掌握文學作品本身的特點以及讀者對這部作品的感受。現在已經進入大數據時代,隨著互聯網海量數據的產生,以及自然語言處理算法的不斷革新,使得使用機器學習技術處理自然語言成為可能[1],我們認為,對文學作品本身的文本以及用戶閱讀文學作品后的反饋進行量化分析,判斷該作品對讀者產生了怎樣的價值取向,該文以讀者是否產生愛國主義情感為例,進行分析研究。

1 概述

該任務本質上是機器學習中的分類問題。分類問題屬有監督學習,在離線的模型訓練階段需要有標注的樣本集,樣本集可被分割為訓練集、測試集、驗證集。樣本由多個特征構成,其中有個特殊的特征被稱為目標特征,對應的是人工標注的文學作品類標簽(愛國主義作品、反面題材作品、中性作品)。類標簽可以從官方對文學作品的定性來獲取,值得一提的是,愛國主義與反面題材作品占到了全部文學作品的小部分,大部分是中性題材的,因此在控制樣本比例時需要考慮這一點。樣本數據的其他特征可以通過自然語言理解技術中的Topic Model(如PLSA、LDA等)來抽取作品的關鍵詞及其權重來構造。國內已有部分學者使用LDA方法用于歷史研究[2],還有的成功運用于對海量微博話題進行主題抽取。對于待分析的新作品(閱讀量大、傳播范圍廣的),則可以使用GBDT算法,基于從讀者評論中抽取的特征來進行分類。

2 邏輯與算法原理

2.1 處理流程概述

處理流程分兩類:離線處理和在線預測。離線處理包括數據預處理(特征提取,構造樣本集)和模型。在線預測指的是利用分類模型對沒有標簽的數據的愛國主義傾向進行預測,可以發現主題的演化內容,超越了Blei等人的動態主題模型[3]。關鍵步驟包括數據預處理、離線訓練和在線預測三部分。在數據預處理時,如果處理的是樣本集,輸出結果中目標特征值為(0,1,2),如果處理的是待預測實例,則不包含目標特征值。離線預測的訓練集、測試集和驗證集都同時包含了愛國主義評論、負面評論和中性評論。

2.2 關鍵技術

文學作品愛國主義影響力分類算法涉及兩類關鍵技術,它們分別是數據預處理涉及的特征提取和分類算法。前者主要涉及自然語言理解中的Topic Model技術,該方案選擇了前沿的LDA模型(隱性狄利克雷分布模型)。后者主要涉及分類算法的構造,該方案選擇了主流的GBDT算法。

2.2.1 LDA模型

LDA模型一種TopicModel,TopicModel即主題模型,顧名思義就是諸如一篇文章、一段話、一個句子所表達的中心思想。不過從統計角度來說是用一個特定的詞頻分布來刻畫主題的,并認為一篇文章、一段話、一個句子是從概率模型生成的,每個實體可能由若干個主題合成,主題概率之和為1。LDA本質上是一個多重貝葉斯模型。假設我們有M篇文檔,對應第d篇文檔中有Nd個詞。

模型的目標是找到每篇文檔的主題分布和每個主題中詞的概率分布。首先需要確定合成文檔的主題個數,記作K,所有的分布基于K個主題展開。

LDA假設文檔主題的先驗分布滿足Dirichlet分布,即對于任一文檔d,其主題分布滿足θd:θd=Dirichlet),其中α為分布的超參數,是一個K維向量。

LDA假設主題中詞的先驗分布分布也是Dirichlet分布,即對任一主題k,其詞分布βk為:βk=Dirichlet),η為分布的超參數,是一個V維向量。V代表詞匯表的大小。

對于任意一篇文檔d中的第n個詞,主題分布θd的后驗分布為:

βk的后驗分布為:Dirichlet(βk)

由于主題詞產生不依賴具體某一個文檔,因此文檔主題分布和主題詞分布是獨立的。理解了上面這M+K組Dirichlet-multi共軛,就理解了LDA模型原理。

剩下的問題是,基于這個LDA模型如何求解我們想要的每一篇文檔的主題分布和每一個主題中詞的分布呢?一般有兩種方法,第一種是基于Gibbs采樣算法求解,第二種是基于變分推斷EM算法求解。

用我們的分類算法,可以將每部作品或該部作品的全部讀者評論看成一個文檔,主題數設置為1,那么就能抽取出該作品或讀者評論的主題詞及其權重。

2.2.2 GBDT算法

GBDT(Gradient Boosting Decision Tree)被稱為梯度提升決策樹,可用于回歸或分類。隨著深度學習的不斷發展,以其自動提取特征的優勢被更多的應用在關系抽取任務中。關系抽取可以看成是多分類問題,奠雨潔等人將GBDT用于微博立場檢測當中,通過對語料庫手動提取特征,完成文本分類[4]。

在GBDT的迭代中,假設前一輪迭代得到的強學習器是 ft-1(x),損失函數是 L(y,ft-1(x)),我們本輪迭代的目標是找到一個CART回歸樹模型的弱學習器ht(x),讓本輪的損失函數 L(y,ft(x))=L(y,ft-1(x)+ht(x))最小。也就是說,本輪迭代找到決策樹,要讓樣本的損失盡量變得更小。

通過損失函數的負梯度來擬合,我們可以通過擬合損失誤差的辦法,這樣無論是分類問題還是回歸問題,都可以通過其損失函數的負梯度的擬合,就可以用GBDT來解決分類和回歸問題。區別僅僅在于損失函數不同導致的負梯度不同而已。

在我們的應用中,實際上是多元(3個類標簽)GBDT分類算法,假設類別數為K=3,則此時對數似然損失函數為:

其中如果樣本輸出類別為k,則yk=1。第k類的概率 pk(x)的表達式為:

3 實證研究

《紅巖》這部小說以解放前夕“重慶中美合作所集中營”敵我斗爭為主線,展開了對當時國統區階級斗爭全貌的描寫。作品結構錯綜復雜又富于變化,善于刻畫人物心理活動和烘托氣氛,語言樸實,筆調悲壯,被譽為革命的教科書。該書被中宣部、文化部、團中央命名為百部愛國主義教科書。該研究爬取了豆瓣網《紅巖》的讀者評論5199份,其中有文字的評論1480份,使用python3.6調用對LDA和GBDT算法編寫程序進行了測試。在運用LDA算法時,分別調用了NLTK,stop_words,gensim的python包,漢語分詞使用開源的中科院漢語詞法分析系統ICTCLAS,使用測試結果現實,對于讀者評論,刪除了停用詞、書名、人名、出版等與主題無關的詞。我們設定了愛國主義題材關鍵詞為六個,分別是:信仰,紅色,黨,革命,感動,英雄所占比例為46%。反面題材作品使用六個主題,關鍵詞分別為:洗腦、不真實、套路、文革、惡心、政治色彩,所占比例為12%,其余沒有這些關鍵詞的為中性評價,比例為42%。從讀者評論看,不少負面評論是閱讀結束以后,讀者感覺故事不真實而做出的評論,這表明讀者對同一作品在不同的時間閱讀,會有不同的感受,時間越長異樣的感受越明顯。

根據第一步LDA的主題模型計算結果,對每個讀者評論的每句話進行GBDT的三分類,有愛國主義題材關鍵詞的為句子賦值為1,有反面題材作品關鍵詞的句子賦值為-1,均沒有的賦值為0,仍然使用python語言,對數據進行GBDT分類,訓練后的模型表達式為:pk(x)=exp(fk(x))/∑Kl=1exp(fl(x)),使用此式,隨機選擇100個的讀者評論句子進行了驗證,成功率為91%,說明可以判定大部分讀者的感受判定,基本實現了機器判定文學作品是否為愛國主義題材的目的。

猜你喜歡
愛國主義分類模型
一半模型
分類算一算
重要模型『一線三等角』
在疫情大考中彰顯愛國主義力量
創造(2020年6期)2020-11-20 05:58:40
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
愛國主義教育
中國火炬(2014年7期)2014-07-24 14:21:22
主站蜘蛛池模板: 青草精品视频| 88av在线播放| 永久成人无码激情视频免费| 九九热精品视频在线| 狠狠色狠狠综合久久| 欧美成人精品欧美一级乱黄| 超碰91免费人妻| 美女高潮全身流白浆福利区| 91口爆吞精国产对白第三集| 午夜视频在线观看区二区| 97在线视频免费观看| 少妇高潮惨叫久久久久久| 在线a网站| 成人毛片在线播放| 国产乱论视频| 2024av在线无码中文最新| 日韩国产亚洲一区二区在线观看| 国产成人精品高清不卡在线| 中文字幕久久波多野结衣| 国产网站一区二区三区| 人人爱天天做夜夜爽| 欧美日韩高清| 国产办公室秘书无码精品| 日a本亚洲中文在线观看| 在线观看av永久| 国产偷国产偷在线高清| 免费一级成人毛片| 黄色a一级视频| 欧美成人综合视频| 国产真实乱了在线播放| 91精品啪在线观看国产91| 国产丰满成熟女性性满足视频| 无码aaa视频| 国产香蕉国产精品偷在线观看| 亚洲免费福利视频| jizz国产视频| 亚洲免费黄色网| 91外围女在线观看| 国产一区二区三区夜色| 永久成人无码激情视频免费| 亚洲成人福利网站| 人人妻人人澡人人爽欧美一区| 免费在线国产一区二区三区精品| 香蕉国产精品视频| 国产欧美精品专区一区二区| 自拍欧美亚洲| 中文字幕乱码二三区免费| 亚洲欧美在线综合图区| 国内精品免费| 久久精品无码一区二区国产区| 精品国产女同疯狂摩擦2| 国产精品亚洲片在线va| 国产丝袜无码一区二区视频| 91色在线观看| 成人字幕网视频在线观看| 午夜精品影院| 一级做a爰片久久毛片毛片| 伊人色在线视频| 视频一区亚洲| 欧美一级大片在线观看| 亚洲精品视频在线观看视频| 欧美精品二区| 在线亚洲小视频| 国产伦精品一区二区三区视频优播| 日韩不卡免费视频| 青青青伊人色综合久久| 国产精品久久久久久搜索 | 2018日日摸夜夜添狠狠躁| 2021天堂在线亚洲精品专区| 午夜激情福利视频| 国产精品女主播| 四虎成人精品| 97se亚洲综合在线韩国专区福利| 欧美午夜在线观看| 日本黄色不卡视频| 高清亚洲欧美在线看| 国产白浆视频| 国产成a人片在线播放| 91精品国产91欠久久久久| 亚洲精品视频免费| 刘亦菲一区二区在线观看| 天堂va亚洲va欧美va国产|