999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RNN 弱監(jiān)督網(wǎng)絡(luò)的英語語義分析技術(shù)研究

2021-08-15 11:36:22潘紅麗
電子設(shè)計工程 2021年15期
關(guān)鍵詞:單詞文本情感

潘紅麗

(西安航空學(xué)院外國語學(xué)院,陜西西安 710077)

隨著人們在互聯(lián)網(wǎng)上發(fā)布的信息越來越多,如何篩選其中的有用信息尤為重要,傳統(tǒng)的文本分析效果有限,無法及時處理大量數(shù)據(jù)。因此,建立有效的英語情感分析體系[1]變得日趨重要。

自然語言處理(NLP)旨在使用計算資源從語言數(shù)據(jù)(即語音和文本)中提取重要特征,以結(jié)構(gòu)化形式對數(shù)字化帶注釋的語言數(shù)據(jù)進行處理,以提供可供機器分析使用的信息。近年來,深度學(xué)習(xí)算法已成功解決了各個領(lǐng)域的問題,例如圖像分類、機器翻譯、語音識別、文本到語音的生成以及其他相關(guān)領(lǐng)域,這些領(lǐng)域的進步促使其通過計算機分析方法了解、分析人類情感成為可能。

文中基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)網(wǎng)絡(luò),設(shè)計了一種英語語義分析方法。RNN[2]可以提取文本中所有單詞的信息,長短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)作為一種RNN 網(wǎng)絡(luò)結(jié)構(gòu)[3],能夠準確識別文本數(shù)據(jù)的長短模式,精準識別真實隨機的英語文本包含的情感信息。

1 語義情感分析框架設(shè)計

單詞之間的拓撲關(guān)系對文本情感分析至關(guān)重要,基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的語言模型較為適合處理文本序列數(shù)據(jù)。RNN 由3 個模塊組成,分別是輸入層、隱藏層與輸出層[4]。在RNN 模型中,時間輸入層與時間隱藏層匯總為一個新的輸入層,同時也作為時間t處的隱藏層。RNN 的循環(huán)結(jié)構(gòu)可使隱藏層保留先前單詞中的所有信息,以提高識別單詞之間順序關(guān)系的能力[5]。

RNN 模型通過時間優(yōu)化算法(BPTT)進行的反向傳播中存在過多展開狀態(tài)層,這會導(dǎo)致訓(xùn)練時歷史信息梯度衰減[6]。文中采用LSTM 來避免模型對詞語的長期依賴,其結(jié)構(gòu)如圖1 所示。

圖1 單個單元的LSTM存儲模塊

LSTM 的計算過程主要包括4 個步驟:①計算忘記門與輸入門的值;②更新LSTM 單元的狀態(tài)[7];③計算輸出門的值;④更新整個單元的輸出。詳細步驟如下公式所示,輸入門由式(1)計算得出。

忘記門由式(2)計算得出:

忘記門單元狀態(tài)由式(3)計算得出:

輸出門由式(4)計算得出:

輸出門單元狀態(tài)由式(5)計算得出:

在上述函數(shù)中,s(·)是Sigmoid 型函數(shù)[8],h(·)是Tanh 函數(shù)。

具有LSTM 的RNN 可看作是傳統(tǒng)RNN 語言模型的改進模型,其將文本語句作為輸入序列來計算每個模型的誤差。但當(dāng)文本序列信息較長時,帶有LSTM 的RNN 模型可以有效克服序列信息衰減問題[9]。

對于英語句子,首先應(yīng)用分詞標(biāo)準CRF++-0.58將句子轉(zhuǎn)換為分詞;然后對LSTM 進行正向計算,按照從左到右的順序依次搜索句子中的分詞,輸出單詞在概率時間t之前的單詞序列概率[10];最終通過所有單詞的聯(lián)合分布概率來測量句子的誤差值,較高的聯(lián)合分配概率可以有效降低文本語句的錯誤值。

在訓(xùn)練階段,將訓(xùn)練數(shù)據(jù)根據(jù)其情感標(biāo)簽分為多個種類,針對每個種類的數(shù)據(jù),分別訓(xùn)練LSTM 模型,并產(chǎn)生多個LSTM 模型,將每個LSTM 模型用于相應(yīng)的情感評論。為了預(yù)測新輸入評論的情感偏向,在訓(xùn)練階段獲得的LSTM 模型將在新輸入評論上進行評估,并給出檢測誤差值。誤差值最小的模型被指定為新輸入評論的情感類別。

訓(xùn)練階段的主要過程如圖2 所示。其中,數(shù)據(jù)分為3 類:積極、消極與中性。

圖2 情感偏向分類流程圖

與傳統(tǒng)的RNN 語言模型相比,具有LSTM 的RNN 可以完全覆蓋較長的句子[11],其在多次驗證實驗中表現(xiàn)均優(yōu),尤其是對于帶有連接詞的英語語句結(jié)構(gòu)。

2 語義分析模型訓(xùn)練與使用

2.1 RNN模型參數(shù)訓(xùn)練設(shè)置

文中使用交叉熵損失加L2 調(diào)節(jié)懲罰作為優(yōu)化目標(biāo),并使用小型批處理SGD 的優(yōu)化程序Ada delta將優(yōu)化目標(biāo)最小化[12]。使用Ada delta而不是Adam 進行最小化優(yōu)化的原因是,實驗發(fā)現(xiàn)通過Ada delta 優(yōu)化的LSTM-RNN 可以實現(xiàn)更高的穩(wěn)定性,性能較Adam 更優(yōu)[13]。實驗相關(guān)的參數(shù)詳細信息如表1所示。

表1 RNN網(wǎng)絡(luò)訓(xùn)練參數(shù)

2.2 自然語言推理實例化

自然語言推理(NLI)的目的是建立前提句子與相應(yīng)假設(shè)句子之間的語義關(guān)系,語義關(guān)系包括必然、中立或矛盾。文中使用基準斯坦福自然語言推理(SNLI)數(shù)據(jù)集[14]比較了不同的模型。

遵循Bowman 的標(biāo)準程序,文中推出了兩個句子編碼模型,分別帶有前提句子與假設(shè)句子的綁定參數(shù)。給定假設(shè)前提的輸出編碼sp與sh,其關(guān)系可表示為sp、sh、sp-sh與sp?sh的串聯(lián)。將其饋送到300 D 完全連接層中,然后反饋入3 個單元的輸出層與Softmax,用于計算NHI 模型3 種關(guān)系的概率分布。

2.3 數(shù)據(jù)收集

文中使用基于LSTM 的RNN 網(wǎng)絡(luò)需要帶有注釋的語言數(shù)據(jù)集,為了訓(xùn)練、開發(fā)、培訓(xùn)與評估該系統(tǒng),從各大英文網(wǎng)站收集相關(guān)數(shù)據(jù),使用Beautiful Soup 2開發(fā)了一個自定義搜尋器[15],使用可擴展Python 庫從指定網(wǎng)站提取與解析結(jié)構(gòu)化信息。

2.4 數(shù)據(jù)預(yù)處理

與大多數(shù)NLP 系統(tǒng)相同,文中首先使用數(shù)據(jù)預(yù)處理簡化輸入,并以適合計算機處理消耗的運算資源減少特征空間。文中直接在帶注釋的原始數(shù)據(jù)上進行文本預(yù)處理:

1)刪除URL:眾多新聞文本均包含指向相關(guān)信息的鏈接,由于這些URL 不傳達任何真實含義,因此將其刪除。

2)刪除標(biāo)點符號:由于每個單詞均以一行空格隔開,標(biāo)點符號不表示任何實際含義,因此將其刪除。

3)文本分割:文本分割是將每個有意義的實體單位(如單詞、短語、句子)分開的處理方法。由于需要將句子中的每個單詞及其相關(guān)的含義標(biāo)簽排成一行,因此使用了Python 字符串拆分功能來標(biāo)記句子中的單詞。

2.5 培訓(xùn)與測試

類似于監(jiān)督式機器學(xué)習(xí)方法,文中將數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)[16]。然后使用訓(xùn)練數(shù)據(jù)對模型進行訓(xùn)練,以學(xué)習(xí)網(wǎng)絡(luò)的相關(guān)參數(shù),其次,將測試數(shù)據(jù)輸入模型以評估性能。因為數(shù)據(jù)集的大小有限,所以此處不使用驗證數(shù)據(jù)。同時,由于系統(tǒng)考慮了與語言無關(guān)的注釋方案,因此可以使用K-fold 驗證來提高數(shù)據(jù)集的性能。

2.6 第三方函數(shù)庫工具

TensorFlow 2 是一個用于數(shù)值計算與大規(guī)模機器學(xué)習(xí)的開源庫,其支持絕大多數(shù)機器學(xué)習(xí)、深度學(xué)習(xí)模型及算法,可以通過通用接口使用,文中選取其作為RNN 網(wǎng)絡(luò)的后端工作。Theano 4 是執(zhí)行大量運算工作的Python 庫,支持計算、優(yōu)化與高維數(shù)組有關(guān)的復(fù)雜數(shù)學(xué)計算,其也被用作后端來改善網(wǎng)絡(luò)含義背景計算。Scikit-Learn5 Python 庫具有簡潔、統(tǒng)一以及流線型的API,并支持一系列機器學(xué)習(xí)算法的實例化,文中還使用其來處理與簡化網(wǎng)絡(luò)。

3 實驗驗證

為訓(xùn)練模型,文中使用了4 種類型的數(shù)據(jù):網(wǎng)站評論、購物網(wǎng)站、旅行評論網(wǎng)站與英文電影評論。考慮到模型訓(xùn)練的錯誤率以及計算速度,文中采用2013 年Graves 的開源C++代碼庫,在具有4 GB RAM、Intel Core2 Quad 的個人計算機上進行測試,GPU為NVIDIA 2 GB RAM GTX 560。實驗流程如圖3所示。

圖3 驗證實驗流程

經(jīng)過必要的數(shù)據(jù)清理后,購物網(wǎng)站的評論被手動分為3 類:積極情緒、中性情緒與消極情緒。樣本數(shù)據(jù)集的總數(shù)為39 000,3 個類別的比例為1∶1∶1。選擇每個種類的3 000 個隨機樣本作為測試集,而其他樣本用作訓(xùn)練集。評論分為兩類:積極情緒與消極情緒,積極情緒訓(xùn)練數(shù)據(jù)的數(shù)量為19 493;消極情緒訓(xùn)練數(shù)據(jù)的數(shù)量為23 955,積極情緒測試數(shù)據(jù)的數(shù)量為10 000;消極情緒測試數(shù)據(jù)的數(shù)量為8 000。

此外,將英文旅行網(wǎng)站與英文電影評論網(wǎng)站的評論手動分為兩類:積極情緒與消極情緒。對于來自旅行網(wǎng)站的數(shù)據(jù)集,每個類別的訓(xùn)練數(shù)據(jù)數(shù)量為6 000,每個類別的測試數(shù)據(jù)數(shù)量為2 000。英文電影評論數(shù)據(jù)中,訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的數(shù)量均為12 500。

RNN 模型中展開狀態(tài)層的數(shù)量會影響訓(xùn)練的準確性,更多的展開狀態(tài)層通常會帶來更優(yōu)的結(jié)果,但同時也會帶來較高的計算復(fù)雜性。LSTM 結(jié)構(gòu)的先天優(yōu)勢使其需要更少的展開狀態(tài)層數(shù),即可獲得與常規(guī)RNN 相當(dāng)?shù)慕Y(jié)果。因此在實驗中,將模型中的展開狀態(tài)層數(shù)設(shè)置為10。

在每個數(shù)據(jù)集上,同時使用具有LSTM 的RNN與常規(guī)RNN。情緒分析結(jié)果如表2、表3 所示。

表2 LSTM-RNN網(wǎng)絡(luò)識別結(jié)果

表3 傳統(tǒng)RNN識別結(jié)果

分析表2 與表3 結(jié)果可知,與傳統(tǒng)RNN 相比,帶有LSTM 的RNN 可以帶來更優(yōu)的準確率與召回率。具體而言,具有LSTM 的RNN 可以識別較多結(jié)構(gòu)為“Although…But…”“,Not only…but also…”、“But”等的文本實例,因此,LSTM-RNN 相較傳統(tǒng)RNN 更優(yōu)地標(biāo)識出了一些長語句。

4 種不同模型在不同長度的英文句子上的表現(xiàn)如圖4 所示。在大多數(shù)評論句子的長度范圍(5,12)內(nèi),LSTM-RNN 明顯優(yōu)于其他模型。同時,對于在(25,38)范圍內(nèi)稍長的句子或段落,LSTM-RNN 也顯示出較為理想的性能。

圖4 細粒度情感分析準確性與句子長度的關(guān)系

4 結(jié)束語

文中提出了一種基于改進RNN 的語言模型LSTM,其涵蓋了所有歷史序列信息,性能優(yōu)于常規(guī)RNN,可用于實現(xiàn)英文文本情感屬性的多分類,且較傳統(tǒng)的RNN 可以更準確地識別出文本情感屬性。

神經(jīng)網(wǎng)絡(luò)的訓(xùn)練工作需要強大的理論支撐與計算機硬件性能支持,后續(xù)的工作重點將是如何設(shè)計模板化的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方案,使用云端服務(wù)器訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。

猜你喜歡
單詞文本情感
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
單詞連一連
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
看圖填單詞
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产精品99一区不卡| 中文字幕不卡免费高清视频| 首页亚洲国产丝袜长腿综合| 中文字幕不卡免费高清视频| 91九色国产在线| 大香网伊人久久综合网2020| 国产精品太粉嫩高中在线观看| 在线观看免费黄色网址| 亚洲国产综合第一精品小说| 久久人妻xunleige无码| 国产精品人成在线播放| 国产麻豆精品久久一二三| 国产乱子伦视频在线播放| 日本亚洲欧美在线| 99精品影院| 夜夜爽免费视频| 欧美成一级| www.亚洲天堂| 99精品福利视频| 一级毛片高清| 91福利片| 精品视频福利| 国产99视频精品免费视频7| 亚洲无线国产观看| 亚洲毛片一级带毛片基地| 亚洲精品午夜天堂网页| 精品一区二区无码av| 99久久精品国产精品亚洲| 国产微拍一区| 国产伦片中文免费观看| 最新国产麻豆aⅴ精品无| 激情五月婷婷综合网| 又大又硬又爽免费视频| 久久久久久久久18禁秘| 国产av剧情无码精品色午夜| 人人91人人澡人人妻人人爽| 国产精品色婷婷在线观看| www精品久久| 国产天天射| 91欧美亚洲国产五月天| 亚洲色成人www在线观看| 亚洲国产成人在线| 一本色道久久88| 国产精品自在在线午夜区app| 日本午夜网站| 国内丰满少妇猛烈精品播| 99久久免费精品特色大片| 亚洲男人天堂网址| 欧美一级爱操视频| 91精选国产大片| av一区二区三区高清久久| 亚洲国产天堂久久综合226114| 亚洲欧美在线精品一区二区| 青青久在线视频免费观看| yjizz视频最新网站在线| 最新国产网站| 国产性生交xxxxx免费| 丁香婷婷在线视频| 精品免费在线视频| 波多野衣结在线精品二区| 精品国产成人国产在线| 小13箩利洗澡无码视频免费网站| 欧美翘臀一区二区三区| 白丝美女办公室高潮喷水视频| 久久综合亚洲色一区二区三区| 亚洲最大情网站在线观看| 极品国产在线| 中文字幕亚洲无线码一区女同| 久久综合激情网| 亚洲性视频网站| 精品国产污污免费网站| 911亚洲精品| 深爱婷婷激情网| 97狠狠操| 最新精品国偷自产在线| 大香伊人久久| 色妞www精品视频一级下载| 18禁色诱爆乳网站| 午夜福利视频一区| 伊人大杳蕉中文无码| 亚洲系列中文字幕一区二区| 亚洲自拍另类|