999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Emoji自然語言處理綜述

2022-10-10 09:25:06
計算機應用與軟件 2022年9期
關鍵詞:語義文本模型

楊 暑 東

(大連理工大學 遼寧 大連 116024)

0 引 言

與表情有關的數字符號包含但不限于表情包(sticker)、顏文字(emoticon)和繪文字(emoji),本文研究的對象是emoji。

1982年前后日本用戶通過普通文字字符的組合將表情融合進枯燥的文本中,至此誕生了顏文字,kaomoji是日文“顔文字”的英文假名,英文意譯為emoticon,是emotion icon的縮寫,顏文字至今還在廣泛使用,如:對不起“orz”,大長腿的人說對不起“or2”,大頭的人說對不起“Orz”。

20世紀各大科技公司emoji編碼和視覺渲染的差異,導致了亂碼或emoji信息孤島[3]。為解決這一問題,Unicode在2010年6.0版本中首次引入了emoji,即對emoji的編碼進行了標準化,開啟了emoji世界語的大門。在2020年Unicode emoji 13.0版本中共有3 304個emoji,這樣無論用戶在哪使用任何設備都可以快速輸入emoji,同時傳達思想和情緒。emoji作為網絡時代的交流符號,豐富了網絡交流語言。

1 Emoji理論基礎

1.1 Emoji語義特點

Lu等[4]認為emoji與詞典中定義的自然語言相比,emoji本質上是符號的自由組合,沒有固定的詞法和語法,因此emoji的自由理解和自由使用給數據分析和數據挖掘帶來了相當大的挑戰。該文獻認為視覺化的emoji沒有語言障礙,因此可在不同國家用戶之間進行交流。受文化和年齡代際影響等,不同用戶對同一emoji可能會出現不同的理解與使用行為。emoji的流行程度通常遵循冪律分布,驗證了9.3%的emoji占總使用量的90%。Coman等[5]認為emoji的使用高度依賴于人類用戶對emoji視覺渲染的理解。Unicode emoji在不同平臺的視覺渲染不一致[6];即使單個emoji渲染一致,但對零寬連接符的處理不一致的話,所綜合出來的emoji組合也是不一致的;用戶或平臺對顏色、膚色等變換符的處理可能不一致[7],因此綜上等原因會導致廣泛存在的跨平臺溝通偏差問題。

Emoji的廣泛采用是普適計算的一種有趣實踐。Evans[8]認為非語言暗示是一種情感表達,但是在傳統數字通信中,這些提示丟失了,這可能導致通信偏差,而emoji恰恰履行了這個功能。emoji甚至可以反映作者真正的情感極性,如果丟棄emoji,那么情感極性可能會判斷出錯,例如:“受疫情影響,我不能返校了”,根據emoji綜合判斷作者其實是正面情緒,但如果丟棄emoji則可能判斷是中性或負面情緒。emoji可以作為自然語言處理(Natural Language Processing,NLP)技術的補充,通過將emoji用法與其他上下文信息進行綜合,更加準確地了解用戶的偏好,提高網絡信息處理的準確性。Pavalanathan等[9]研究表明,在微博領域,后起之秀emoji有逐漸取代顏文字之勢。

1.2 實際應用

Emoji自然語言處理在很多領域都有了實際應用,用于提高網絡信息處理的準確性[10]和互聯網用戶體驗[5]。

情緒識別。Lu等[10]對GitHub網絡社區的語料庫使用詞嵌入、SentiStrength-SE等工具來計算emoji的情感得分與情感分布,進行情緒識別,與不使用emoji自然語言處理相比更有助于優化網絡社區的迭代過程,以及提高Github上的協作效率。

攻擊性言語檢測。Hettiarachchi等[11]將emoji信息集成到膠囊網絡中,用于檢測攻擊性內容,與純文本自然語言處理相比,結合emoji的處理在識別目標侮辱、非針對性侮辱等攻擊類型,以及識別個人、組織等攻擊目標的應用上性能更佳。

Emoji預測。Coman等[5]橫向對比支持向量機、fastText、長短時記憶循環神經網絡、卷積神經網絡四種emoji模型,根據推文來預測最相關的emoji,有助于軟鍵盤輸入法的優化。Zhang等[12]使用遷移學習模型預測推文最有可能的emoji。

輿情監控。Zhao等[13]將95個emoji對應到生氣、厭惡、喜悅和悲傷4個類標簽,利用快速樸素貝葉斯分類器對包含350萬個標記的微博語料進行訓練,并且用增量學習法來處理情感轉移和新詞問題,進而實現更精準的微博實時輿情監控。

反諷檢測。反語(Irony)、諷刺(Sarcasm)的修辭方式給NLP帶來了極大的復雜性,傳統情緒識別難以識別反諷語料中的實際情感,Singh等[14]利用emoji2vec將emoji的官方釋義來替換emoji,對推文進行反諷分析。Gupta等[15]將人工神經網絡作為分類器來訓練emoji反諷檢測模型。

Emoji生成。在生成模型(Generative Model)大家族中,有兩個家族特別著名,分別是變分自編碼器(Variational Auto Encoder,VAE)和生成對抗網絡(Generative Adversarial Networks,GAN)。Yamaguchi等[16]采用條件VAE基于文本輸入來自動生成emoji。Radpour等[17]對82種常用面部emoji進行詞嵌入,用深度卷積GAN生成emoji組合。

協同過濾的預處理。Seyednezhad等[18]通過emoji與詞匯的雙模網絡方法來識別emoji的潛在模式,從emoji使用習慣識別用戶,用于改善后端的協同過濾推薦算法。

人機對話系統的用戶體驗優化。傳統的智能問答等人機對話系統的訓練用語料集一般是普通字符文本[19],這在判斷帶有emoji的對話時可能產生問題。引入emoji處理機制可以優化智能客服系統[20]、聊天機器人[21]等的用戶體驗。

1.3 常用數據集

含有emoji的數據集正在逐漸涌現,以下是一些常用的emoji數據集或語料庫。

(1) Unicode emoji標準庫,目前最新版本是2020年的Unicode emoji 13.0版,共有3 304個emoji。

(2) EmojiNet Datasets是最大的機器可讀的emoji語義庫[22]。在沒有附加嚴格語義的情況下,emoji可根據其上下文具有不同的含義。類似于自然語言處理中的詞義消歧任務,機器也需要對emoji進行消歧。該數據庫的目標是構建工具和算法以提高emoji在機器中的可識別性。

(3) EmojifyData-EN語料庫,包含1 800萬條帶有emoji的推文,并對@、#Hashtag和URL等隱私數據進行了脫敏預處理。

(4) COMP90049 2018SM1 Project 2語料庫是內嵌在Kaggle競賽中的一個小型emoji語料庫,包含12 159條帶有emoji的推文,含有作者ID、emoji和推文文本等信息。

常用數據集信息如表1所示。

表1 常用emoji數據集

1.4 偏差模型

從emoji誕生、發展到成熟的進程中,NLP在處理emoji的手法上也在逐漸發展和成熟。最原始的處理方法是將emoji視為停用詞然后舍棄;之后出現了文本替代法,就是將emoji的Unicode官方解釋替代emoji本身,即語料經過替代的預處理之后,均是普通的文字;Wijeratne等[22]認為同一個emoji在不同上下文中用于表達不同感覺的事實以及全世界所有語言都使用了emoji的事實使得將傳統的NLP技術應用于它們尤其困難,于是出現了emoji詞嵌入、emoji神經網絡模型和emoji社會網絡模型等處理方法。

人工智能的愿景之一是構筑一個沒有偏差的理想世界,然而Caliskan等[23]通過實證研究發現機器學習能從語料中習得類似人類的偏見,所以意識到偏差的普遍存在才能對其進行有效的補償。emoji自然語言處理技術的發展史其實也是減弱emoji偏差的歷史,與Web偏差類似[24],emoji偏差也存在著級聯循環,抽象出emoji的偏差結構是解決偏差問題面臨的首要挑戰,圖1展現了不同類型的偏差如何影響emoji的使用。用戶行為偏差源自不同時代不同地域用戶的上網行為所產生的隱形偏差,導致用戶在Web上、不同操作系統上、不同軟件上行為的細微差異;不同操作系統、不同軟件的emoji視覺渲染會導致emoji渲染偏差[25];這些有偏的數據以及對數據的有偏采樣會導致采樣偏差;對emoji預處理的差異會導致預處理偏差;不同的分類模型會產生不同的算法偏差;動態的軟鍵盤設計差異和人機界面設計的差異會導致人機交互偏差;信息“繭房效應”會導致自選擇偏差;這些積累后的偏差會產生新內容或使用記錄,進而級聯反饋到Web,再產生不同類型的二階偏差。

圖1 emoji偏差模型

系統設計者只能解決系統后端和系統前端的一系列偏差,而如何減弱包含自選擇偏差和行為偏差在內的用戶層面的偏差不在本研究范圍之內。與系統后端偏差相比,前端偏差更加宏觀,因為一般而言,硬件、操作系統等對于系統設計者而言屬于不可控因素,所以前端偏差的可觀可控性不如后端偏差。綜上原因,學界的研究熱點主要集中在如何弱化系統后端的偏差,包括采樣偏差、預處理偏差和算法偏差。目前主流的門類包括簡單粗暴的文本替代法、機器學習、端到端的深度學習,以及另辟蹊徑的社會網絡分析法。

2 Emoji自然語言處理流程與偏差補償

Emoji自然語言處理流程大致分為采樣、預處理、和分類三個階段,各階段與emoji偏差鏈路的映射關系如圖2所示。

圖2 emoji NLP流程與偏差鏈路映射關系

2.1 采樣階段

采樣階段的emoji自然語言處理一般包括語料庫選擇、網絡爬蟲和數據存儲等。語料庫選擇的恰當與否直接關系著數據是否有偏。

在以下因素的共同作用下,不同采樣策略會從源頭產生不同采樣偏差,進而影響語料處理的最終結果,比如:互聯網用戶能力水平不一致;互聯網上語料質量參差不齊;互聯網存在大量的虛假和冗余內容;時間序列會影響語料特征等。

當沒有適合的開源emoji語料庫時,一般需要通過網絡爬蟲工具進行爬取才能取得[26]。受網站反爬取機制的影響[27],網絡爬蟲所爬取的內容已經是有偏采樣的語料。采樣策略與語料獲取對應于偏差鏈路的采樣偏差。

數據存儲涉及編碼、數據庫等問題。Unicode于2010年發布了emoji,同年MySQL數據庫在5.5版本追加了utf8mb4編碼。utf8mb4是對utf8的一個擴展,全面支持emoji。所以為了讓爬取出的語料完整地存入數據庫,應當更換字符集為utf8mb4。當數據庫配置不當時,有可能導致emoji的有偏存儲。

2.2 預處理階段

預處理階段的emoji自然語言處理一般包括對語料進行語料清洗、分詞、特征提取和向量化等,此階段產生的偏差對應于emoji偏差模型的預處理偏差。

語料清洗。原始語料中可能存在不一致、不完整等異常數據或敏感的、對結論無影響的隱私數據、重復出現的冗余數據。異常數據和冗余數據會影響后續處理的執行效率和效果,甚至對結果產生偏差,而隱私信息會引起不必要的麻煩,所以預處理階段首先要進行語料清洗。常見的清洗手段是通過正則表達式匹配,編寫腳本按規則整理內容,具體包括去重、對齊、刪除和標注等。

分詞。由于emoji沒有固定的詞法和句法,比如:詞性可根據上下文變換;emoji出現的位置不固定;多emoji連用或單一emoji重復使用等。以上導致分詞變得復雜,詞典維護難。因此包括正向最大匹配法、逆向最大匹配法、雙向最大匹配法等在內的依賴于詞典的規則分詞方法不適用于emoji分詞。隨著大規模語料庫的建立,基于統計的分詞方法逐漸成為主流,與規則分詞方法相比,統計分詞無須人工維護詞典,能處理歧義和未登錄詞,但分詞效果依賴于訓練語料的數量和質量,且對算力要求較大。

特征提取與向量化。對于采用非深度學習的模型,特征工程決定了后續模型性能的上限,而后續模型的優化只是在逼近這個上限而已。去停用詞的策略根據分析目的不同而有所不同,比如感嘆號、語氣詞一般是被當作停用詞刪掉的,但在情感分析場景下,emoji、感嘆號和語氣詞等是應當被保留的。詞性標注(Part of Speech,POS)環節對于某些自然語言處理來說是不必要的,比如文本分類,但對于情感分析、推理等應用場景,一般還需要進行詞性標注、命名實體識別(Named Entity Recognition,NER)等處理環節。emoji位置等詞序特征是有助于分析的,所以實務中一般不采用去除詞序關系的詞袋模型(Bag of Word,BOW),而是采用向量化模型,常見的實例有獨熱編碼(One-Hot)、word2vec、emoji2vec、doc2vec等。其中獨熱編碼原理最簡單,適合對微型語料進行處理。word2vec主要包含兩個實例模型:Skip-Gram和連續詞袋模型(Continuous Bag of Words,CBOW),以及兩種高效訓練方法:負采樣(Negative Sampling)和層次Softmax(Hierarchical Softmax)。emoji2vec[28]是對word2vec的一種補充,emoji2vec直接從詞典或官方釋義進行詞嵌入,嵌入到與word2vec相同的高維空間。Illendula等[29]認為外部知識的使用可以提高NLP任務的準確性,利用外部知識來學習單詞嵌入,從而在單詞相似性和單詞類比任務方面提供了更好的準確性,emoji嵌入可以增強emoji預測、emoji相似度和emoji語義消歧任務的性能。Ramaswamy等[30]驗證了使用現成的詞嵌入模型進行預訓練可以大大加快emoji模型的收斂速度。另外,emoji使用頻率服從長尾分布,屬于不平衡分類,Ramaswamy等還驗證了聯邦學習計算范式對稀疏數據和不平衡分類數據有更好的適應性。emoji在不同主題場景下,其含義、詞性可能發生變化,因此主題提取有助于提高NLP任務的準確性,常見的主題模型有采用奇異值分解(Singular Value Decomposition,SVD)來蠻力破解的LSA算法、基于詞共現分析的LDA算法等。

2.3 分類階段

這一階段的emoji自然語言處理一般包括模型構建、模型訓練和模型驗證,此階段產生的偏差對應于emoji偏差模型的算法偏差。模型訓練的目標是防止過擬合、欠擬合和提高泛化能力。

本階段的難點主要有:在主題方面,同一個句子其語義根據會話的主題而有所不同,Seyednezhad等[18]基于多主題方法探討emoji的情感及其類別,其認為emoji位置、情緒屬性、頻率、語義四者之間具有相關關系。在時序方面,Barbieri等[31]認為時間序列信息能影響emoji的解釋和預測,使用時間信息可以顯著提高某些emoji的準確性。在隱私保護方面,Ramaswamy等[30]采用聯邦學習的策略,與服務器訓練的模型相比,聯邦模型顯示出更好的性能,同時將用戶數據保留在其設備上。在反諷處理方面,反諷修辭方式與字面意思無關,需要捕獲更深層次的語義信息[32],另外權威的反諷數據集較少且規模不大,所以訓練難度較大。在上下文處理方面,由于在線會話中以短文本為主,文本的長度限制了對上下文重要信息的捕獲。

本階段可能產生的偏差主要有:因模型中層次順序結構構建不當所導致的模型結構偏差;因梯度下降等優化算法配置不當所導致的算法偏差;因過度簡化模型所導致的欠擬合偏差;因算力不足而影響模型性能的算力偏差;因超參數過多不能兼顧所導致的調參偏差;因模型訓練時間過長而不適用于當下實際情景的時效偏差等。

2.4 偏差補償策略

對上述流程中各個環節的偏差,從整體考慮有如下偏差補償策略:

策略一,算力提高策略。提高算力會減弱分類階段的算力偏差、調參偏差、時效偏差,而且只要提高算力就能起到立竿見影的補償效果。此策略適用于項目時間緊迫且人力資源投入緊張,但財務預算富余的情景。

策略二,端到端策略。即通過多層神經網絡規避人工處理環節,減少偏差鏈路的長度。比如采用深度學習的方式來規避人工特征工程的環節,巧妙避免人工特征工程偏差。

策略三,外包與眾包策略。比如:基于已有的、成熟的詞嵌入模型進行訓練會提高準確率,減少詞嵌入偏差,同時會節省時間;聯邦學習可以在不交換數據的情況下共同建模[30],避免了有偏采樣。

3 模型對比

3.1 模型分類

Kopev等[33]按照應用原理將分類模型分為四種,分別為線性分類器、非線性分類器、深度學習模型和集成模型。近幾年出現了社會網絡模型分類器,因此共分為五種類型:

線性分類器。本類模型是參數的線性函數,因此一般用于處理簡單分類。主要有樸素貝葉斯分類器(Naive Bayes)、邏輯回歸模型(Logistic Regression)、線性核的支持向量機等。本類模型在實務中已不多見,因為線性分類器的性能對特征工程的依賴程度較大,會放大特征工程偏差。

非線性分類器。本類模型是線性分類器的升級版,模型分界面可以是曲面或者是超平面的組合。典型的非線性分類器有決策樹、隨機森林和非線性核的支持向量機。

深度學習模型。深度學習是端到端偏差補償策略的有效實踐。含有多個隱層的感知器就是一種深度學習結構,該結構通過組合低層特征形成更抽象的高層來表示特征。神經網絡可以視為能夠擬合任意函數的黑盒,只要訓練數據足夠多,當給定特定的輸入,就能得到預期的輸出。Encoder-Decoder框架可以看作是處理由一個句子生成另外一個句子的通用處理框架,如圖3所示。句子對的目標是給定輸入句子Source,期待通過Encoder-Decoder框架來生成目標句子Target。Source和Target可以是同一種語言,也可以是不同的語言。而Source和Target分別由各自的詞序列構成。Encoder-Decoder框架應用廣泛,在emoji NLP領域,如果Source是含有emoji的句子,Target是情感得分和情感分布,那么這就是解決情緒識別問題的Encoder-Decoder框架;如果Source是普通文本,Target是emoji序列,那么這是通過文本預測emoji的Encoder-Decoder框架;如果Source是含有emoji的句子,Target是反諷得分,那么這是反諷檢測模型的Encoder-Decoder框架。Encoder和Decoder部分采用不同的技術和內部結構將衍生出不同的深度學習模型。

圖3 Encoder-Decoder框架

社會網絡模型。主要分為emoji-詞匯雙模網絡、emoji共現網絡和ego network三個子類別。

分類器集成。是以上分類器的組合,與包含于其中的單個分類器相比,集成后的分類器具有更好的泛化性能。主要的集成方式有投票、平均和排名平均等。

3.2 模型介紹

(1) 支持向量機。支持向量機(Support Vector Machine,SVM)的本質是特征空間中最大化間隔的線性分類器,一般僅限于線性可分問題的二元分類,比如emoji情感極性判斷。SVM對缺失數據比較敏感,實務中對語料的預處理要求比較嚴格。SVM屬于監督學習模型,語料庫需要事先進行人工標注,SVM對計算機算力要求較高,一般僅能處理樣本量較小的語料庫,因此綜上SVM的應用場景比較受限。另外,為規避直接在高維空間進行計算,SVM引入了核函數,擁有高斯核的SVM可以處理非線性可分問題;二叉樹結構的SVM級聯可以處理多元分類問題。

SVM在特定場景下與深度學習模型性能相當,比如??ltekin等[34]證明了在沒有預訓練詞嵌入,也沒有訓練詞性標注和句法分析(Syntax Parsing)的條件下,將bag of n-grams作為特征,根據推文來預測高頻emoji,在這種場景下SVM比神經網絡更優秀。

(2) 邏輯回歸。邏輯回歸(Logistics Regression)的本質也是監督學習線性分類器,原理簡單,但容易出現過擬合。該模型假設條件較多,比如因變量為二分類的分類變量或某事件的發生率,并且是數值型變量;殘差和因變量都要服從二項分布;各觀測對象間要相互獨立;實務中樣本數量如果不到變量數量的10倍時預測性能不佳。因此綜上原因近年來邏輯回歸在emoji自然語言處理中應用較少。Alhessi等[35]用邏輯回歸模型對推文進行情感極性判斷。

(3) 隨機森林。隨機森林(Random Forest)是一種包含多個決策樹的分類器,隨機森林中每棵決策樹都有自己的預測結果,隨機森林通過統計眾數作為其最終預測結果,因此魯棒性較強,可以降低過擬合的風險,但代價是需要更多的算力來進行訓練,即通過提高算力來進行偏差補償。Guibon等[36]在真實的私人即時消息語料庫上使用多標簽隨機森林模型來預測emoji,其F1分數為84.48%,精度為95.49%。

(4) 卷積神經網絡。卷積神經網絡(Convolutional Neural Networks,CNN)在傳統的NLP實踐中已被證明是有效的,并且在句子分類中取得了卓越的性能[37]。在emoji NLP領域,Cui等[37]探索了利用CNN訓練含有emoji的語料庫進行情感分析,并且驗證了CNN的性能要強于SVM。在識別積極情緒的場景下,當召回率小于0.15時,CNN隨機模型性能最佳,否則SVM的性能最佳。在識別負面和中性情緒的場景下,CNN非靜態模型性能最佳。

(5) 膠囊網絡。膠囊網絡(Capsule Network)[38]將CNN的極限推到一個新的水平,而且比CNN所需要的訓練集要小,但由于采用協議路由算法,訓練模型所用的時間較多,適用于文本結構較復雜的場景[39]。Hettiarachchi等[11]提出了一種具有emoji信息的膠囊網絡架構,用于檢測社交媒體中的冒犯性內容。詞嵌入層的輸入是字符嵌入和emoji嵌入;然后輸出到特征提取層,用于提取文本中的長期記憶依賴;主膠囊網絡層主要捕獲詞序以及語義;卷積膠囊層使用動態路由算法,用于忽略文本中的停用詞;之后通過ReLU活化函數輸出到全連接層,最后通過Sigmoid函數輸出檢測結果。該系統具有不依賴于英語語言的特性,因此可以移植到任何其他語言。

(6) 循環神經網絡。循環神經網絡(Recurrent Neural Network,RNN)可以用來處理上下文不長的自然語言。但RNN對時間步長敏感,即RNN不具有長期記憶,會受到短期記憶的影響。為解決這一問題誕生了帶有長短期記憶網絡(Long Short-Term Memory,LSTM)和門控循環單元(Gate Recurrent Unit,GRU),它們都是RNN的變種。圖4所示為它們的內部結構對比。

圖4 LSTM與GRU內部結構圖

(7) LSTM。LSTM由Sepp Hochreiter和Jurgen Schmidhuber在1997年首次引入,直到目前還被廣泛使用,衍生出很多變種。LSTM與樸素RNN相比,追加了輸入門和遺忘門來解決梯度消失和梯度爆炸的問題,從而可以捕捉到遠程信息,能夠在長序列文本中有更好的性能表現。

Ramaswamy等[30]在LSTM基礎之上進行了改進,將輸入門與遺忘門進行耦合,與樸素LSTM相比,這種耦合關系將每個單元的參數數量減少了25%,并用此LSTM的變種在聯邦學習的計算范式下進行emoji預測。Xie等[40]也在LSTM基礎上進行了改進,利用層次化LSTM來構造多回合對話表示,可以很好地捕捉多回合對話中的上下文信息和情感流,并推薦相應的emoji。樸素LSTM將多人多回合對話視為長單詞序列,這種扁平化操作會破壞多人對話的層次結構。如圖5所示,層次化LSTM利用分層的LSTM分別學習每個句子的表示形式。

圖5 LSTM應用于多回合對話表示的模型

(8) CNN+LSTM和LSTM+CNN。LSTM與CNN神經網絡都可以用來進行文本分類。LSTM在文本分類中的作用是提取句子的關鍵語義信息,根據提取的語義對文本進行分類;而CNN的作用是提取文本特征,根據特征進行分類。LSTM與CNN可以相結合,CNN+LSTM模型首先進行關鍵特征提取,然后提取文本關鍵語義信息;LSTM+CNN模型首先提取文本關鍵語義信息,然后對語義進行關鍵特征提取。

Sosa等[41]探索了CNN+LSTM、LSTM+CNN兩種模型,CNN-LSTM模型的前端由初始卷積層組成,接收詞嵌入作為其輸入,卷積層提取局部特征,將輸出匯集到一個較小的維度,然后輸出到LSTM層,LSTM層能夠使用這些特征來了解輸入的文本排序。經驗證,該模型不如LSTM-CNN模型性能佳,甚至比樸素的LSTM模型還差,原因是CNN+LSTM模型前端的卷積層丟失了部分文本序列中的重要信息,而后端的LSTM層僅充當著全連接層的作用,本偏差屬于偏差鏈路中的模型結構偏差。

Wu等[42]結合了LSTM和CNN捕獲局部的和遠程的上下文信息,以進行推文表示。LSTM-CNN模型的前端是LSTM層,它將接收推文中每一個令牌的詞嵌入作為輸入,它輸出的令牌不僅僅存儲初始令牌的信息,還存儲任何先前的令牌。LSTM層為原始輸入生成一個新的編碼,然后LSTM層輸出到期望可以提取局部特征的卷積層中,卷積層的輸出將被匯集到一個較小的緯度,最終輸出情感極性標簽。

(9) 引入注意力機制的LSTM。深度學習中的注意力機制借鑒于人類視覺的注意力機制,是利用有限的注意力資源從大量信息中快速篩選出高價值信息,并且忽略低價值信息的機制,能極大地提高信息處理的效率與準確性,主要用于文本翻譯、圖像描述、語義蘊含、語音識別和文本摘要等。

前文的Encoder-Decoder框架是沒有體現注意力機制的。Target中每個詞的生成過程:y1=d(C),y2=d(C,y1),y3=d(C,y1,y2)。d()是Decoder的非線性變換函數,可觀測到在生成目標句子的詞時,不論生成哪個詞,它們使用的輸入句子Source的語義編碼C都是一樣的,沒有任何區別。沒有注意力機制的模型對短句影響不大,但在長句的情境下會丟失很多關鍵詞信息。Attention模型將固定的中間語義編碼C替換為根據當前輸出詞來調整成加入注意力機制的變化的Ci。增加了注意力機制的Encoder-Decoder框架如圖6所示。

圖6 引入注意力機制的Encoder-Decoder框架

對于采用RNN及其變種的Decoder來說,通過函數F(hj,Hi-1)來獲得目標單詞Yi和每個輸入單詞對應的對齊概率,這個F函數在不同模型里采取不同的方法,然后函數F的輸出經過Softmax進行歸一化就得到了符合概率分布取值區間的注意力分配概率分布,原理如圖7所示。

圖7 注意力分配概率分布原理圖

Barbieri等[31]研究了時間序列是否以及如何影響emoji的解釋和預測。其結論是使用時間信息可以顯著提高某些emoji的準確性,時序信息處理的位置越靠前,數據越完美。Barbieri等[43]使用標簽機制來分析分類器的行為,利用注意力權重來發現和解釋emoji的用法,通過實驗比較標簽機制對emoji分類器性能的影響。研究發現線性分類器、非線性分類器能夠預測常用的emoji,但對于不常見的emoji預測準確性偏低。實踐證明標簽式注意力機制可改善低頻emoji預測。

(10) Bi-GRU。GRU的輸入輸出結構與樸素RNN相似,但其內部結構與LSTM相似。GRU使用一個門控就可以進行遺忘和選擇記憶,參數也較少,而LSTM則要使用更多的門控和更多的參數才能完成同樣的任務,因此GRU比LSTM更容易進行訓練,而且GRU在較小數據集上比LSTM表現出更好的性能[11]。在實務中,考慮到算力和計算時間成本,越來越多的研究者選擇更實用的GRU。

GRU無法對從后向前的信息進行編碼。在分類粒度更細的場景下,比如對于強褒義、弱褒義、中性、弱貶義和強貶義的五分類任務需要注意程度詞、情感詞、否定詞之間的交互。雙向門控循環單元(Bi-directional Gate Recurrent Unit,Bi-GRU)解決了這個問題,Bi-GRU由前向與后向GRU疊加組合而成,可更好地捕捉雙向語義依賴。Bi-GRU可以在每個時間步長向前和向后連接句子矩陣向量,以獲得更完整的句子信息[44],因此Bi-GRU通常比GRU效果更好,但代價是訓練更費時。

Wang等[45]利用具有注意機制的Bi-GRU來構建emoji預測基礎模型,如圖8所示。然后采用融合集成的方法進行模型強化,即使用重新加權的方法迭代訓練基礎模型,每個回合的權重分布取決于前一輪模型預測結果。最后,為獲得最佳性能,系統中還對比了軟投票和硬投票的性能。軟投票是每個預測模型輸出所有類別的概率向量,并且對投票模型進行平均加權以便對最終的概率向量進行分類。硬投票是每個模型輸出其認為最可能的類別,投票模型從中選擇投票模型數量最多的類別作為最終分類。從最常用的20個emoji中選擇1個作為預測結果,這種場景下emoji類標簽不屬于長尾分布,Wang等驗證了在該場景下軟投票的效果要優于硬投票。如果類標簽服從長尾分布,即類不平衡(Class Imbalance)的場景下不能使用強化算法。

圖8 Bi-GRU分類器系統架構圖

(11) 社會網絡分析。社會網絡分析(Social Network Analysis,SNA)是基于圖論、社會學和管理學等多學科融合的理論和方法,為理解復雜網絡的形成、行為模式等提供了一種可計算的分析工具[46]。SNA在emoji自然語義分析中屬于冷門領域,另辟蹊徑地開創了新的研究范式,因為需要構筑詞網,一般適合于社交平臺的語料分析。目前有三種主流模型:emoji-詞匯雙模網絡模型、emoji共現網絡模型、ego network模型,其中前兩種屬于整體網,后一種屬于自我中心網(ego network),屬于整體網的一部分,側重于研究單個節點的性質[47]。Unicode聯盟為每個emoji提供了官方文本描述,然而用戶并不會參考官方手冊,所以基于emoji Unicode官方文本描述的研究方法在采樣階段都或多或少地引入偏差,而SNA研究范式不依賴于emoji Unicode官方文本描述,巧妙地規避了這部分采樣偏差。

Emoji-詞匯雙模網絡。雙模網絡是指在同一網絡下存在兩種不同類型節點的復雜網絡,多模網絡研究屬于網絡科學的前沿領域,emoji-詞匯雙模網絡將emoji與其他普通詞匯視為兩種不同的節點,是研究emoji與詞匯關系的有力工具之一。Seyednezhad等[18]認為同一個句子其語義根據會話的主題而有所不同,并基于多主題方法探討emoji的情感及其類別。其認為emoji位置、情緒屬性、頻率和語義四者之間具有相關關系,通過emoji-詞匯的雙模網絡方法來識別emoji的潛在模式。首先從至少包含一個emoji的推文中提取emoji和詞匯,再構建一個emoji和詞匯的雙模網絡,最后使用SNA來分析emoji的語義和情感極性。emoji的語義由與該emoji關聯詞匯的詞頻決定,這種方法巧妙地規避了詞典訓練環節,因此避免了中間環節可能會產生的偏差。

Emoji共現網絡。共現指對語料信息中特征項描述的信息共同出現的現象,而共現分析是對共現現象的定量研究,以揭示語料信息的內容關聯和特征項所隱含的知識,其中一種工具就是共現網絡,屬于SNA的研究范疇。共現分析包含文獻耦合、共詞分析、共鏈分析等子領域,其中共詞分析的研究對象是同一語料中同時出現的詞匯對[48],emoji共現網絡是供詞分析的一個比較前沿的研究方向。NLP系統主要使用從word2vec或GloVe或fastText獲得預訓練的詞嵌入,Illendula等[29]認為外部知識的使用可以提高NLP任務的準確性,利用emoji共現網絡用作訓練emoji嵌入,可以增強emoji預測、emoji相似度和emoji語義消歧任務的性能。Illendula等采用圖嵌入模型,有助于縮放來自大規模信息網絡的信息,并將其嵌入到有限維向量空間中。

Ego network。ego network網絡節點由唯一的一個中心節點(ego),以及該節點的鄰居(alter)組成,ego network中的邊包含ego與alter之間的邊,還有alter與alter之間的邊。在emoji語義分析領域,將某一emoji視為ego,從語料庫構建emoji與單詞的ego network,用上下文的特征來表征emoji的語義。

Zimmermann等[49]認為基于ego network可以提取與emoji語義相關的網絡屬性特征,包括但不限于Size、Ties、Pairs和Density等屬性。

Ai等[50]使用LINE詞嵌入模型來訓練單詞和emoji嵌入,構建共現網絡來表示語義結構,通過計算嵌入空間中令牌間的歐氏距離來度量語義相似度,所以LINE嵌入可以在語義上找到相似的令牌,最近鄰居關系可以表示為kNN圖,借助kNN圖和ego network的結構特性來刻畫emoji和單詞之間的語義關系。

3.3 小 結

沒有最好的分類模型,只有根據使用場景選擇最適合的分類模型[51],表2是對上文模型的整理。

表2 各分類器橫向比較

4 結 語

綜上,結合emoji語義和情感的機器學習應用,可以提高網絡信息處理的準確性。emoji作為網絡時代的交流符號,豐富了網絡交流語言,也豐富了人類用戶的表達和溝通能力,能夠表達自己的情緒并引起同理心,使用戶成為更好的溝通者[8],但與此同時emoji也為自然語言處理帶來了復雜性。為了最大限度地發揮emoji對社會的潛在價值,需要考慮很多因素,未來的挑戰也是多方面的。

第一,emoji自然語言處理需要與更多的學科緊密結合。emoji是一個誕生時間不長,卻在全球都有普遍使用的新文字,眾口難調是必然的,emoji將與用戶一起不斷進化,互為因果,僅靠NLP技術不足以應對這種復雜性,因此研究領域將擴大到多學科交叉領域,尤其是非技術領域,比如傳播學、社會學、符號學、行為設計學等。大學、互聯網巨頭和資助機構可以在跨學科研究中起到重要作用。

第二,emoji與其他文字有著本質不同。在書寫方面,emoji是不能被廣泛書寫的文字,因此常規的語言處理方法可能因emoji失效。在數量方面,Unicode emoji存量眾多,每年還會產生一定的增量,并占據Unicode新的編碼點,所以要避免過度引入新的emoji。在外部性方面,作為全球共用的emoji,可能會關系到某些國家和地區敏感的道德、法律、宗教和文化等因素[52],這可能會給本類研究人員帶來法律或道德問題,甚至阻礙這一類研究。

第三,emoji呈現標準化趨勢。emoji是自下而上的設計,在細節之處難免存在著缺陷和為彌補此缺陷而顛簸的設計,又因路徑依賴不容易回滾,因此帶來的固有偏差可能將長期存在。但縱觀歷史,從20世紀90年代的emoji信息孤島,到2010年統一碼聯盟將emoji統一編碼,再到2015年出現了emoji國際標準第一版,一旦emoji的視覺渲染被標準化,即圖標標準化,那么emoji自然語言處理的難度將大幅下降。

第四,emoji隱私計算生態逐漸形成。隨著公眾隱私保護意識的養成、相關法律法規的逐步完善,在不泄露用戶隱私且符合數據安全保護的原則下進行emoji自然語言處理已成為必然,聯邦學習范式提供了可行的解決方案[53],在企業各自數據不出本地的前提下,通過加密實現參數交換與優化,建立虛擬的共有學習模型。

猜你喜歡
語義文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产在线自揄拍揄视频网站| 东京热一区二区三区无码视频| 精品国产aⅴ一区二区三区 | 精品一区二区三区四区五区| 亚洲一区波多野结衣二区三区| 丁香五月激情图片| 欧美日韩激情在线| 国产精品尤物在线| 中文毛片无遮挡播放免费| 亚洲成A人V欧美综合| 伊人中文网| 五月婷婷亚洲综合| 欧美激情成人网| 国产嫩草在线观看| 欧美a级在线| 欧美笫一页| 国产精品无码翘臀在线看纯欲| 国产精品林美惠子在线播放| 亚洲无码A视频在线| 亚洲区第一页| 亚洲天堂日韩av电影| 精品三级在线| 一级爆乳无码av| 91久久性奴调教国产免费| 国产高清国内精品福利| 九月婷婷亚洲综合在线| 在线观看欧美精品二区| 久热中文字幕在线| 国产精品自在线拍国产电影| 色网站在线免费观看| 国产一级无码不卡视频| jizz亚洲高清在线观看| 国产精品无码AV中文| 亚洲一区波多野结衣二区三区| 特黄日韩免费一区二区三区| 久久香蕉国产线看观看精品蕉| 国产簧片免费在线播放| 99伊人精品| 国内精自视频品线一二区| 又黄又湿又爽的视频| 亚洲精品视频网| 欧美一区二区精品久久久| 亚洲黄色激情网站| 欧美性猛交xxxx乱大交极品| 国产在线观看一区二区三区| 欧美精品成人| 福利姬国产精品一区在线| 久久综合干| 波多野结衣无码AV在线| 国产精品九九视频| 亚洲日韩图片专区第1页| 综合亚洲网| 中国黄色一级视频| 亚洲视频a| 国产喷水视频| 亚洲六月丁香六月婷婷蜜芽| 在线欧美国产| 久久综合九九亚洲一区| 亚洲品质国产精品无码| 欧洲免费精品视频在线| 久久狠狠色噜噜狠狠狠狠97视色| 国产精品男人的天堂| 毛片一级在线| 日韩福利在线观看| 国产精品嫩草影院av| 国产精品大尺度尺度视频| 手机在线看片不卡中文字幕| 国内熟女少妇一线天| 日日碰狠狠添天天爽| 一级毛片在线播放免费| 亚洲精品片911| 久久免费观看视频| 毛片视频网址| 国产亚洲高清在线精品99| 日本精品αv中文字幕| 99免费在线观看视频| 国产精品成人第一区| a网站在线观看| 在线一级毛片| 国产在线观看高清不卡| 超薄丝袜足j国产在线视频| 男女性午夜福利网站|