黑富郁,王景中,趙林浩
(北方工業大學 計算機學院,北京 100144)
隨著互聯網的發展,網絡已經成為民眾不可或缺的生活必備品.根據第41 次《中國互聯網絡發展狀況統計報告》,截至2017年12月,我國網民規模達7.72 億,手機網民規模達7.53 億,網民使用手機上網人群的占比由2016年的95.1%提升至97.5%[1].人們在獲取多樣化信息的同時,過多的信息也造成了人們注意力的分散,對輿情分析造成了極大的困難.因此對輿情信息進行分類具有重要意義.一方面,可以按照類別統計和查詢各類事件信息,統計形成相關的簡報.另一方面,由于同一事件在網絡上會有大量不同新聞報道,對輿情進行分類可以快速查找定位相關的信息,從技術上為判斷不同來源的同一事件提供支持.
現在輿情分析主要是針對文本進行分類[2,3],但是大數據[4]時代的到來使得網絡上的輿情數據越來越多且復雜(例如視頻、聲音、文本等),這些不同類型的數據包括圖片、視頻、語音等都承載了越來越多的信息和內容.網絡輿情數據中包含的各種類型的信息,它們在內容上和結構上相互之間有著密切的相關性,只是通過網絡輿情數據中的某一類型的數據進行分類,這種忽視了不同數據之間的關聯的傳統分類方法漸漸不適用于當下的網絡輿情數據信息.
為了應對這樣的情況,研究出更先進的技術是組織和管理這些數據的重要依據,在這些技術中優秀的分類技術(例如文本分類、圖像分類等)是其它技術的基礎,通過好的分類技術可以更好的管理這些信息.近幾年在數據處理技術方面的相關研究中,神經網絡的發展勢頭尤其迅猛.在圖像處理方面,通過神經網絡對圖像的處理已經屢見不鮮,例如人臉識別、物體識別、場景檢測都已經有了長遠的發展.在圖像處理、語音處理等領域取得的巨大進展的同時,神經網絡的焦點也開始匯集于自然語言處理方面的應用.伴隨著相關技術的日漸成熟,為各類型數據的融合處理打下了良好的基礎.其實,國外早在19 世紀就已經開始信息融合的相關工作,并且將信息融合技術列為20 世紀開發和研究的關鍵技術之一.然而我國展開對信息融合技術的研究時間較晚,主要局限于軍事相關的領域且發展緩慢.通過三十多年的研究,雖然現在信息融合方面的研究尚不成熟,但是信息融合技術已經得到了非常廣泛的關注和應用.
現在的信息融合技術從抽象的層次來分類,可以分為數據層級融合、特征層級融合和決策層級融合.本文主要從特征層級來考慮并實現對本文課題的研究.基于輿情數據的分布情況、現行的概念和技術,本文提出一種結合了不同類型的數據來進行綜合考慮的輿情分類方法.
自2012年Krizhevsky 等人在ILSVRC-2012 大賽中,利用深度卷積神經網絡對ImageNet 數據集進行分類,取得優秀的結果并以此獲得冠軍[5].神經網絡被學界和工業界越來越重視,神經網絡得以被廣泛的應用于各領域.2014年,Simonyan 等人[6]提出一種名為VGG16的卷積神經網絡,該神經網絡模型在ILSVR2014 的比賽中獲得冠軍.Hochreiter 等人在RNN 的基礎上提出了長短時記憶網絡(Long Short-Term Memory,LSTM)[7],LSTM 很好的解決了語義的長距離依賴問題.近年來,LSTM模型被成功地應用于機器翻譯[8]及信息檢索[9]等方面.
Ngiam 等人提出了多模態深度學習模型,通過玻爾茲曼機(RBM)分別獨立地進行訓練以提取視頻和語音數據的特征,在特征層對二者特征進行組合,對多模態數據進行聯合表示.再通過多模態數據的聯合表示的特征去學習數據的高層語義特征[10].2012年,Srivastava 等人提出了一種新的與Ngiam 等人的方法相似的訓練過程,同樣是利用受限玻爾茲曼機獨立學習不同數據的特征然后將二者的特征組合起來,最后再通過監督標簽對參數進行微調[11].除此之外與Ngiam等人不同的一點是,Srvastava 處理的是文本和圖像數據.馮方向通過自動編碼機分別對不同模態信息進行特征抽取并通過典型關聯分析學習共有信息以實現跨模態檢索[12].異構數據特征學習方法還包括Huiskes 提出的多模態支持向量機模型和Guillaumin等人提出的多模特半監督學習方法等[13-15].
越來越多的神經網絡模型被構建,但是它們只是針對單一類型的數據來進行分類,同時現在的多模態學習方法也主要是針對各類數據信息對稱的異構數據,而針對各類型數據信息不對稱的網絡輿情數據分類,以上的方法難以適用.
LSTM 神經網絡是一種特別的RNN 神經網絡,使用LSTM 神經網絡來對處理文本信息,通過這種方法可以防止RNN 神經網絡常見的梯度爆炸問題,同時LSTM的記憶機制在處理長文本信息方面也具有一定優勢.
Embeding 層通過Word2Vec 方法把文本信息表示到向量空間.通過LSTM 隱藏層提取文本特征,LSTM隱藏層由一系列的LSTM 基本單元組成.

圖1 LSTM 模型
平均池化層:通過對LSTM 隱藏層的數據特征進行池化操作提取出新的特征,實現特征的降維,這樣既可以降低計算復雜度又可以防止過擬合.同時因為LSTM 隱藏層的每一個特征向量都對分類結果有影響,為了保證分類的準確度這里使用平均池化.最后通過Softmax 層對提取到的特征進行分類.
卷積神經網絡采用權值共享工作方式,相鄰兩層只有部分節點相連,這種模式顯著降低了神經網絡模型的復雜度,減少了權值的數量,因而成為了現在眾多領域研究的熱點.由于CNN 神經網絡可以繞過復雜的預處理過程直接輸入原始圖像,而得到了學術界和工業界的青睞.其中有代表性的VGG16 模型,它是由16 層卷積層和全連接層組合而成,其中前13 層為卷積層,后3 層為全連接層.整個模型如圖2所示.
卷積神經網絡通過卷積層和池化層來完成特征提取.卷積層使輸入的特征圖(或原始圖像)與卷積核進行卷積操作,最終通過非線性的激活函數得到新的特征圖.池化層進行下采樣操作,通過激活函數得到一個更小的特征圖,以此減少訓練參數降低神經網絡的復雜度,并防止過擬合現象.通過全連接層來將特征映射到特征空間,全連接層的每一個神經元與前一層的所有神經元進行全連接,全連接層可以整合池化層中具有類別區分性的局部信息.最后一層全連接層的輸出值,通過Softmax 層進行分類.
隨著大數據時代的到來和網絡技術的不斷提升,不同類型的數據開始越來越多出現在網絡上,這些不同類型的數據在網絡上構成了一個復雜的集合.與以往不同,單一類型的數據難以完整表達輿情數據的信息.通過對輿情數據的多種類型數據綜合考慮進行分類,以便能夠在輿情數據中挖掘出更多有價值的信息和知識,更好地利用輿情數據.

圖2 VGG16 網絡模型
不同類型數據的底層信息存在明顯的差異,本文考慮到不同類型的數據,例如圖像數據和文本數據,文本數據的表示通常是離散的,而圖像數據的表示則是連續的,因此很難在底層數據表示上建立不同類型數據之間的關聯.神經網絡適用于不同類型數據信息的特征提取,考慮到各類數據信息的特點選擇更加適合的神經網絡模型并通過全連接層來將各類信息特征表達到相同的特征空間.
神經網絡的全連接層的結點與上一層的每一個結點相連,用來將前面提取到的特征綜合起來.由于其全連接的特性,一般的全連接層的參數也是最多的.全連接層的核心就是矩陣的乘積操作,具體過程如下:
矩陣表示(其中Wij表示權重系數,bi表示偏置系數):

通過全連接層能將特征空間中的特征映射到另一個特征空間.在CNN 神經網絡中,全連接層一般出現在整個神經網絡的最后幾層,對前面提取的特征做加權和,起到將提取到的特征映射到樣本標記空間的作用.在RNN 等神經網絡中,全連接層也可以用來將embedding 空間映射到隱層空間,再將其映射到樣本標記空間.

圖3 全連接層操作
基于神經網絡對不同類型數據的良好適用性,本文通過神經網絡來實現特征的提取.在現有神經網絡模型的基礎上,在最后幾層構建全連接層將不同類型的信息表示到同一特征空間,以便對各類數據特征進行融合.
據此,本文已構建了以下兩個特征提取模型.在上文提到的CNN 和LSTM 模型的基礎上增加或調整全連接層構建出新的CNN 模型和FC-LSTM 模型如圖4所示.
神經網絡分別單獨通過不同類型的數據訓練后,去掉神經網絡的Softmax 分類器即可得到對應的特征提取模型.通過調整的神經網絡模型,它們抽取的特征已經表示在了同一特征空間上,在此基礎上可以直接對特征進行融合.
由于輿情信息的各類型數據包含的內容并不對稱,只是簡單地將數據特征進行融合,難以達到預期的效果.考慮到不同類型的信息的重要性,具體的融合過程如下:

其中,V1i、V2i表示不同類型信息的特征向量,Vi表示融合后的特征向量,W1、W2分別表示不同類型信息的權重,這里通過對若干條數據測試來確定W1、W2,測試過程如圖5所示.

圖4 FC-LSTM 模型和CNN 模型
通過特征提取模型之后,在對整個特征融合過程中,讓特征V1i、V2i分別和權重W1、W2求積,將它們的結果相加得到融合后的特征.

最后,使用了Softmax 分類器(3)對融合后的特征進行分類.
根據上文可以架構出整個模型.如圖6所示.
以此(圖6),通過不同的神經網絡分別去提取不同類型網絡數據的特征,將他們表達到同一特征空間,并通過特征融合獲取更加全面的數據信息來對網絡數據進行分類.

圖5 權重獲取流程圖
在數據集上,當前缺少一個公開的具有一定標準的異構輿情數據庫.為此,本文收集了搜狐、騰訊網站上的圖像和文本數據信息,采用圖像和文本這兩種類型的數據信息來進行實驗驗證.它們的內容如表1所示.

圖6 輿情分類模型
本文選取內容較多的軍事、歷史、旅游、財經、房產、科技、體育、娛樂八個類別進行分類,一共收集了9000 條數據,各類別數據一千多條,將其中的8000 條作為訓練數據集,剩下1000 條作為測試數據集.

表1 數據集
通過上文構建的CNN 神經網絡和FC-LSTM 神經網絡特征提取模型構建分別提取圖像和文本信息的特征,實現特征融合并進行輿情分類.采用CNN、LSTM、FC-LSTM 神經網絡模型和LSTM-CNN 神經網絡模型進行對比實驗.
CNN 神經網絡模型:通過CNN 神經網絡模型僅對圖片進行分類.
LSTM 神經網絡模型:通過LSTM 神經網絡模型對文本進行分類.
FC-LSTM 神經網絡模型:通過FC-LSTM 神經網絡模型對文本進行分類.
LSTM-CNN 多模態深度學習模型:對圖像和文本進行特征提取,并對提取到的特征融合后再進行分類.
分析圖7可知,隨著文本權重W1的變小和圖像權重W2的變大,分類的準確率開始上升,當文本和圖像的權重分別為W1=0.81,W2=0.19 時,LSTM-CNN 可以得到準確性最好的分類結果,之后隨著圖像權重W2的增加,準確率開始出現下降.當分類結果達到最優時,圖像權重W2遠遠小于文本權重W1,經分析對比圖像和文本數據具備以下特點:
1)信息承載量:在圖片中可以包含的信息量少于文本信息.文本信息可以承載更多的信息.
2)信息可靠度:文本信息與圖像信息相比可靠性更高.在一些相對數據質量不高網絡數據中,相對應的圖像質量要更低.

圖7 不同權重下的分類結果
雖然圖像數據有這些不足,但是圖像數據作為整個數據的一部分,仍然有著不容忽視的作用.當文本信息內容出現缺失或兩個類別特征出現沖突時,將圖像信息作為輔助信息可以得到正確的分類結果.
訓練好的模型的精度如表2所示.

表2 不同模型的分類精度
根據表2比較各神經網絡模型.CNN 模型和LSTM 模型對比可知,文本信息的可靠度和質量要高于圖像信息.對比LSTM 和FC-LSTM 可知,FC-LSTM的全連接層并不會對分類結果構成影響.結合文本信息和圖像信息的LSTM-CNN 與LSTM 模型(文本)對比準確率提高了4%,與CNN 模型(圖像)對比準確率提高了11%.
綜上所述,結合文本和圖片信息的特征對網絡數據信息進行分類,較原來只是通過單一類型的數據進行分類,準確率有了一定的提高.對一個含有圖像和文本的輿情信息而言,根據數據集包含不同類型數據的特點,圖像和文本信息扮演的角色和重要性也各不相同.實驗結果證明在本文數據集中,文本數據相比圖像數據無論是信息承載量或信息質量都更為出色.但是文本和圖像數據都是不可或缺的一部分.本文通過根據它們的重要性,實現數據特征的融合及整體數據的分類.一方面,考慮到了文本信息的重要性,盡量減小圖像對文本信息分類結果造成的影響.另一方面,當文本信息出現不足時,通過圖像數據來對文本信息進行補充,最終達到了更好的分類效果.
本文針對現在網絡上輿情數據信息分布的特點和狀況,提出了基于異構數據的輿情分類方法.與傳統的只是針對單一類型數據進行分類的方法不同,本文考慮到輿情數據的特點對不同類型的網絡輿情數據進行特征提取,通過融合后的特征進行分類,同時這種方法最大限度的考慮到了各類數據中的有效信息和各類數據的不同特性,據此可以使用不同的神經網絡模型來完成特征提取,使得數據分類的結果更加準確.
隨著網絡的發展例如像微博、微信等新媒體已經漸漸興起并壯大,包含多種類型數據的輿情信息已經成為一種常態,網絡上的數據隨之必然更為復雜.如何更好地利用不同類型的數據,并針對這樣的數據進行綜合的處理和考慮,必然是未來的趨勢.