孟 偉,張 黎
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們表達(dá)個(gè)人意見和觀點(diǎn)的重要渠道。社會(huì)輿論也隨之從線下轉(zhuǎn)移到線上而演變?yōu)榫W(wǎng)絡(luò)輿情。網(wǎng)絡(luò)輿情信息已成為輿情信息的重要組成部分。在大數(shù)據(jù)環(huán)境背景下,網(wǎng)絡(luò)輿情信息的挖掘比傳統(tǒng)媒體更加難以規(guī)范。面對海量的網(wǎng)絡(luò)輿情信息,就必須迅速掌握網(wǎng)絡(luò)輿情參與者目前所持有的主要觀點(diǎn),而這些觀點(diǎn)背后都帶有對應(yīng)的情感。因此,如何利用語義識(shí)別技術(shù)從海量的輿情信息中有效挖掘關(guān)鍵因素,指導(dǎo)決策和應(yīng)急處理成為輿情研究的重要方向[1]。在文本情感識(shí)別領(lǐng)域,已有許多研究取得了合理的成果。使用真實(shí)世界的數(shù)據(jù)來改善先前的結(jié)果和情感識(shí)別仍然是一個(gè)巨大的挑戰(zhàn)。
輿論是對成年人的個(gè)人態(tài)度和信仰的綜合看法。意見包括情緒。根據(jù)網(wǎng)民的不同情緒傾向,任何意見都可以分為積極、消極和中性[2-3]。公眾輿論領(lǐng)域中情感傾向的研究更為復(fù)雜。情緒已被證明與人類生活具有持久的相關(guān)性,甚至對理性的行動(dòng)至關(guān)重要,學(xué)術(shù)界越來越重視對人類情緒的研究。因此,關(guān)于情感在政治中的作用的學(xué)術(shù)研究也日益增加。情緒和公眾輿論的研究是一個(gè)年輕但發(fā)展迅速的領(lǐng)域。最近的一些研究,雖然主要集中在直接影響上,但通過展示特定情緒對風(fēng)險(xiǎn)感知、因果歸因和政策偏好的獨(dú)特影響,推動(dòng)了研究的深入。之前的研究證實(shí)情緒通過解釋意見形成和政治選擇過程中的個(gè)體和情境異質(zhì)性,有助于調(diào)和相互矛盾的理論解釋。同時(shí),情感作為一種動(dòng)機(jī)沖動(dòng),為學(xué)者們提供了一種方法,使公眾意見和政治行動(dòng)之間難以捉摸的聯(lián)系通過對情緒及其功能的使我們認(rèn)知,從而能夠更好地理解媒體和政治環(huán)境中此前被忽視的部分[4]。
網(wǎng)絡(luò)輿情信息語義識(shí)別的關(guān)鍵技術(shù)包括采集技術(shù)、預(yù)處理技術(shù)、主題識(shí)別技術(shù)等。目前,用于網(wǎng)絡(luò)輿情信息獲取的技術(shù)主要是根據(jù)一定規(guī)則自動(dòng)捕獲網(wǎng)絡(luò)信息的程序或腳本。目前,關(guān)于挖掘的研究主要集中在挖掘技術(shù)、挖掘算法、挖掘語言等方面。在海量的原始數(shù)據(jù)中,存在著大量雜亂、重復(fù)、不完整的數(shù)據(jù)。它嚴(yán)重影響了數(shù)據(jù)挖掘算法的效率,并可能導(dǎo)致挖掘結(jié)果的偏差。因此,在深度識(shí)別之前需要對信息進(jìn)行預(yù)處理。主題識(shí)別是文本預(yù)處理后的一個(gè)步驟。網(wǎng)絡(luò)輿情話題識(shí)別的工作多采用聚類分析算法。最后一步是結(jié)果的反饋。通過對情感強(qiáng)度的分析,及時(shí)識(shí)別轟動(dòng)的熱點(diǎn)話題,及時(shí)發(fā)出輿情預(yù)警,總結(jié)出針對不同情況的輿情引導(dǎo)策略,提供給用戶參考選擇。
傳統(tǒng)的情感識(shí)別分析方法大致可分為兩大類:一是基于詞匯的方法;二是機(jī)器學(xué)習(xí)方法。基于詞匯的方法是利用預(yù)先定義的詞匯列表,根據(jù)不同的情緒進(jìn)行分類分析。這些詞典通常是手工編譯的,繼而用關(guān)鍵字加以匹配。例如:由加拿大國家研究委員會(huì)(簡稱NRC)的專家創(chuàng)建的情緒和情感詞典,以及另一個(gè)常用于情感智能分析應(yīng)用的英語字典WordNet,由情感概念代表的情感狀態(tài)的單詞通過同義詞集標(biāo)記單詞情感分類標(biāo)簽。這類詞典除了受到語言限制以外,是在大眾外包的幫助下逐漸建立起來的,而不是由心理學(xué)研究領(lǐng)域的專家參與完成。雖然該詞典具有廣泛的應(yīng)用價(jià)值,但將其直接應(yīng)用與網(wǎng)絡(luò)輿情分析中,仍然具有一定的局限性。此外,“情感語匯”(DepecheMood)也是另一個(gè)基于詞匯的方法對情感進(jìn)行識(shí)別的嘗試,他們同樣以眾包的方式注釋單詞。以上這些基于詞典的方法通常以其直接應(yīng)用的功能而聞名。然而,手工標(biāo)記是容易出錯(cuò)的,具有時(shí)效性低和不靈活的特點(diǎn),而且具有地域性和語言的限制。其中衍生出來的啟發(fā)式詞匯被限制在一個(gè)狹隘的先驗(yàn)環(huán)境里,因此,這一過程在推廣到其他情緒研究的應(yīng)用中具有一定的困難。利用機(jī)器學(xué)習(xí)靈活性的方法對語義中的情緒進(jìn)行分析,常見的方法是依賴于一般的語言特性,上下文語義關(guān)系等。傳統(tǒng)機(jī)器學(xué)習(xí)平衡了有效的輿情信息收集結(jié)果與情感學(xué)習(xí)模型的可解釋性,為解決有限樣本的學(xué)習(xí)問題提供了一種框架,主要用于有限樣本情況下的模式分類、回歸分析、概率密度估計(jì)等。為在自然語言處理、語音識(shí)別、圖像識(shí)別、信息檢索等技術(shù)在輿情分析領(lǐng)域的應(yīng)用打下了基礎(chǔ)。
自然語言研究是一門由計(jì)算機(jī)科學(xué)、人工智能和語言學(xué)三科融合的新興領(lǐng)域,它的長遠(yuǎn)發(fā)展對每個(gè)學(xué)科都具有重大的意義和影響力。其發(fā)展趨勢是從人工構(gòu)建知識(shí)到自動(dòng)構(gòu)建。在輿情研究領(lǐng)域,有許多遞歸神經(jīng)網(wǎng)絡(luò)(RNN)方法被引入到情感識(shí)別任務(wù)中。由于缺乏情緒標(biāo)簽數(shù)據(jù)集,許多研究學(xué)者通過對情緒分類算法研究,對社交平臺(tái)(如Twitter)收集的數(shù)據(jù)進(jìn)行了分類,使用標(biāo)簽或表情符號(hào)作為數(shù)據(jù)的情緒標(biāo)簽。RNN 除了有用之外,也有一定的局限性,包括:RNN 體系結(jié)構(gòu)示例只能夠捕獲語言的一個(gè)方向上的依賴關(guān)系,同時(shí)RNN 也不能很好地捕捉長期依賴關(guān)系,從而導(dǎo)致梯度消失的問題。為了解決這些問題,相關(guān)學(xué)者利用GRU 網(wǎng)絡(luò)模型進(jìn)行精細(xì)情感識(shí)別的研究。
為了避免梯度消失的問題,相關(guān)學(xué)者還應(yīng)用一種特殊的RNN 即LSTM(Long-Short Term Memory)模型對網(wǎng)絡(luò)輿情進(jìn)行研究分析,例如Felbo(2017)利用長短時(shí)記憶模型(LSTM),根據(jù)推文中出現(xiàn)的表情符號(hào)進(jìn)行預(yù)先訓(xùn)練。在語義情感分析方面,Gupta(2017)等學(xué)者利用定制的LSTM 架構(gòu)來為社交媒體中的完整對話分配情感標(biāo)簽[5]。然而,這種方法是針對這類談話式數(shù)據(jù)的特定特征和情感量身定做的,具有一定的局限性,其實(shí)驗(yàn)的結(jié)論不能推廣到情緒識(shí)別。前向的LSTM 與后向的LSTM 結(jié)合成Bi-LSTM,Bi-LSTM 的優(yōu)勢在于可以考慮到詞與詞順序上的關(guān)系而被廣泛應(yīng)用NLP 中,BiLSTM 也被用來識(shí)別跨語文本中的情緒,它利用跨語言特征和詞匯級特征來分析多語言形式的文本。為了結(jié)合上下文相關(guān)的單詞,基于注意力的BiLSTM 模型被引入相關(guān)研究,這有助于決定每個(gè)單詞在情緒識(shí)別任務(wù)中的重要性。Bi-LSTM+Attention 就是在Bi-LSTM 的模型上加入Attention 層,Illendula(2019)等學(xué)者使用文本、表情符號(hào)和圖像這三種模式來編碼不同的信息來表達(dá)情感[6]。最近,谷歌開發(fā)了同樣的注意力模型“Transformer”,徹底放棄了循環(huán)和卷積。實(shí)驗(yàn)表明,使用Transformer的模型的質(zhì)量更優(yōu),同時(shí)所需訓(xùn)練時(shí)間也大大減少。
基于深度學(xué)習(xí)的方法多采用分布式單詞向量,常用的方法有Word2Vec、GloVe、FastText。Word2vec 可以根據(jù)給定的語料庫,通過優(yōu)化后的訓(xùn)練模型快速有效地將一個(gè)詞語表達(dá)成向量形式,為網(wǎng)絡(luò)輿情語義情感分析研究中自然語言處理的應(yīng)用研究提供了新的工具。GloVeGloVe 相對于Word2Vec 是一個(gè)改進(jìn),因?yàn)樗赪ord2Vec 中訓(xùn)練全局共現(xiàn)計(jì)數(shù),而不是單獨(dú)的本地上下文窗口。fastText 是用線性分類器進(jìn)行文本分類,線性結(jié)構(gòu)相比于非線性結(jié)構(gòu)的優(yōu)勢在于結(jié)構(gòu)簡單,訓(xùn)練地更快。Word2Vec 和Glove 將單詞視為最小的原子單位。FastText 比其他兩個(gè)模型更強(qiáng)大,因?yàn)樗梢杂行У靥幚碜值渲胁淮嬖诘暮币妴卧~。
另外,不少專家對情景化詞嵌入展開了研究,即來自語言模型的嵌入模型(ELMo)、來自Transformer 的雙向編碼器表示(BERT)以及生成預(yù)訓(xùn)練模型(GPT),來整合上下文信息,解決傳統(tǒng)詞嵌入中的一詞多義問題。EMLO 是一個(gè) RNN-based的模型,只需要有大量句子就可以訓(xùn)練。BERT 是Transformer 中的 Encoder,由許多個(gè) Encoder堆疊而成,在 BERT 里面,文本是不需要標(biāo)簽的,只有收集到一堆句子就可以訓(xùn)練了。GPT 則是Transformer 的 Decoder,在GPT 輸入一些詞匯,可以預(yù)測接下來的相關(guān)詞匯。還有學(xué)者研究的情感豐富的詞嵌入是在作品評論上學(xué)習(xí)的,語料庫要小得多。
基于以上相關(guān)研究證實(shí),深度學(xué)習(xí)方法在情感識(shí)別任務(wù)中的表現(xiàn)優(yōu)于機(jī)器學(xué)習(xí)方法。在網(wǎng)絡(luò)輿情語義情感的研究中,基于之前的相關(guān)研究,可以為結(jié)合人工智能展開研究梳理出一個(gè)路線,即:在BiLSTM 模型和CNN 模型的看框架基礎(chǔ)上建立新的模型,有效信息采集過程中可以結(jié)合使用嵌入Word2Vec、GloVe 和FastText 三個(gè)模型來捕捉詞與情感詞嵌入之間的語義關(guān)系,提取情感特征,與此同時(shí)借助Transformer 模型算法的優(yōu)勢對情景化詞嵌入進(jìn)行深度分析,得到相關(guān)應(yīng)用領(lǐng)域有效的網(wǎng)絡(luò)輿情語義情感數(shù)據(jù)和信息,最后對新的模型和其他相關(guān)模型進(jìn)行比較,繼而進(jìn)行評估和完善。