顏建弘
摘要:網絡輿情研究的要點之一是如何在大數據時代從互聯網海量信息中及時發現輿情并進行全面的分析,以判別輿情的性質和發展趨勢并對癥下藥地加以管控。但在目前復雜的互聯網大數據環境下,網絡輿情通常包裹在各種多媒體形式的外殼中。文章在分析大數據及多媒體網絡輿情概念和特點的基礎上,將大數據處理技術應用到多媒體網絡輿情分析中來,研究基于大數據的多媒體網絡輿情分析方法。
關鍵詞:大數據技術;輿情分析;多媒體
中圖分類號:TP3 文獻標識碼A 文章編號1674-6708(2019)239-0100-02
網絡輿論就是在互聯網上傳播的公眾對某一焦點所表現出的有一定影響力的、帶傾向性的意見或言論。截至2018年12月,我國網民規模達8.29億,普及率達59.6%,較2017年底提升3.8個百分點,全年新增網民5653萬。其中手機網民規模達8.17億,網民通過手機接入互聯網的比例高達98.6%。在如今的大數據網絡資源環境下,各種網絡新業務和多媒體的發展普及為網民提供了更多樣的信息發布載體,微信、QQ、微博、新聞客戶端、直播平臺、短視頻平臺、知識問答平臺等使得網絡輿情的表現方式發展得更為多元化。
1多媒體網絡輿情特點和研究現狀
多媒體網絡輿情為社會公眾和政府、傳統媒體構成的主體將對輿情客體的觀點和態度加工成多元外現的輿情本體,通過多媒體傳播通道在大數據網絡空問中進行互動的總和。多媒體輿情信息文件類型多樣,傳播快速而廣泛,在大數據環境下具有規模性、多樣性、變化快速性、價值等4個特征。多媒體輿情的復雜特性大大增加了以它為對象的輿情分析的難度和工作量,當前對于多媒體輿情信息的分析研究大部分仍集中在對低維度文本輿情的分析上,而對于以圖片、音頻、視頻等多媒體形式為載體的高維度輿情信息的挖掘分析研究還比較少。針對目前多媒體輿情的復雜性,采用傳統輿情的識別分析方式不易獲得準確有效的信息,需要對輿情信息的多媒體外殼在已有輿情分析研究方法的基礎上,結合大數據分析技術進行處理。
2多媒體網絡輿情大數據分析方法
目前,使用大數據技術處理數據時最常使用Hadoop、MapReduce、Spark等分布式處理方式。而最常運用的大數據分析方法主要分為兩種,第一種是基于人工經驗建立分析模型,這種方法對人力、物力資源的消耗較高,對數據的體量有限制,不能高效率地處理巨大量的數據且無法遷移。第二種是基于人工智能的大數據分析方法,其中最重要的技術包含有機器學習、聚類、關聯分析算法和卷積神經網絡等,這些方法適合于大數據量的處理,且數據量越大精確度越高,但在提取分析動態多媒體數據特征方面能力有限。目前較為新型高效的大數據分析方法是基于無限深度神經網絡(infinite deep neural networks,infinite DNN s)的大數據分析,這是一種全互連的回復式神經網絡(recurrentneural networks,RNN s)神經元之問存在反饋連接,能夠處理動態數據。深度神經網絡的學習算法通過調節神經元之問的網絡連接權值實現,其中比較經典實用的算法有基于反向傳播算法擴展的訓練前饋網絡BPTT算法,誤差從前向后傳播的RTRL(real-timer ecurrent learning)算法,以及Gers等人提出的改進“長短時記憶”(long short-termmemory)LsTM算法。本文主要以這種大數據分析方法將高維度的多媒體載體信息轉換為低維度的文本信息加以處理。具體分析處理方法如下:
2.1視頻信息分析
當前流傳在網絡上的視頻信息多為短視頻形式,生產流程簡單、制作門檻低、制作周期短、民眾參與性強、傳播度高。由于時長較短且背景音樂多為網紅歌曲片段且與視頻內容關聯不大,對短視頻輿情分析需側重于對視頻中的人物動作表情和文字信息的識別提取。對于視頻中的人物動作,可使用基于行為模板的方式獲取不同動作的特征從而設立各自的模板,實際使用時將捕捉到的動作與模板進行匹配,以達到對各種行為進行準確地識別的效果。通過鏡頭分割與分幀技術、關鍵幀提取技術等將視頻節選為圖像。也可以使用基于LSTM的網絡模型處理復雜的視頻序列,從傳統的視覺特征或深度特征中學習動態時序信息,然后識別視頻序列中的行為,并自動生成一個不定長的語句來正確地描述視頻內容。
2.2音頻信息分析簡化
網絡輿情分析中音頻的有效信息可分為人類語音信息和環境音。為更好地分析有用的音頻信息可使用Matlab的濾波器進行降噪預處理,之后利用拉普拉斯變換、快速傅里葉變換等工具能對音頻信號進行時頻分析;利用基于語音信號的梅爾頻譜倒譜系數對人類語音信息進行特征提取;對于環境音可利用基于非平穩信號的經驗模態分解法、局部均值分解、極點對稱模態分解等聲音特征提取方法達到特征提取的目的。在語音識別任務中,大數據技術在音頻轉換方面通常使用自動語音識別技術和相關算法,針對視音頻處理模塊統一轉碼重采樣后的音頻流進行智能識別,將其中的語音內容轉換為計算機可以識別的文本字符信息。而無限深度神經網絡不僅能夠記住上下文,有更高的識別精度,且抗噪性能更強,能更為準確高效地將語音傳譯為文字信息。
2.3圖像信息分析簡化
目前網絡中的圖像信息多以新聞和自媒體文章插圖、電腦手機截屏圖片、各類表情包等形式存在,內容多為人物、文字對話。圖像信息的分析識別主要在于圖像分割:通過對單個像素點或整個像素區域的分析提取出圖像的局部特征。傳統方法常基于聚類、小波變換、閾值、區域等進行圖像分割,由于關鍵信息比較復雜多變,以至處理效率不高。基于多代表點近鄰傳播聚類的MSMEAP算法,可以有效實現大數據圖像的快速分割。對于經過分割處理后的圖像,無限深度神經網絡的LSTM模型能學習將單張圖像的像素強度映射成一個語法正確的自然語句,再結合人物動作、表情、文本、背景特點等信息將圖像賦予文本性質的描述。
2.4文本信息分析
在網絡文本輿情分析方面,文獻提出了基于網絡日志數據挖掘的隱性輿情分析、基于社會網絡分析的輿情主體關系發現、關聯不同領域數據進行輿情分析以及基于網絡民意調查的4種面向大數據的輿情分析方法。文本分布式預處理可利用MapReduce框架將文本集的分詞、停用詞去除以及文本內的詞頻統計放置在Map階段,將構造倒排索引文件的任務設置在Reduce階段以最大化實現并行。此外,分析文本可使用jieba分詞、THULAC工具包、NLPIR分詞系統等技術進行分詞預處理,提高分析的效率和準確率。在此基礎上,對輿情分析關鍵詞進行檢索并通過結合上下文、挖掘詞語之間的聯系來較快定位推文所屬的范疇、解讀文本信息所包含的情感特征。從文本信息中識別出話題范疇、作者觀點情感,用戶情感態度等等。通過分詞技術和詞向量模型及其比較分析分析與誰相關、是否是輿情、是否是負面、是否具有敏感含義等。
3總結
目前的大數據環境為網絡輿情分析管理提供了創新高效的大數據技術和算法,同時也使網絡輿情分析面臨著更復雜的挑戰。在多媒體網絡輿情分析研究方面以應用無限深度神經網絡為主,其他大數據算法為輔的方式,將高維度的視頻、圖像、聲音信息轉化為低維度的文字信息進行處理,實現語義密集度由低到高的轉變,從而實現多媒體網絡輿情分析的目的。當前對于多媒體形式的輿情信息分析研究還主要集中在對于多媒體各個載體的單獨分析上,新興媒體平臺層出不窮,大數據技術對以多媒體為整體的輿情信息挖掘分析的應用還有待于進一步研究。