(川北醫學院,四川 南充 637000)
網絡輿情主要是廣大網民對于社會中的各種熱點事件提出的意見、闡述的觀點和發表的看法等。網絡輿情同時也是新時期社會輿論的全新形式,其主要以網絡作為基礎載體,主要特征包括匿名性和開放性,全面聚合廣大網民,形成一種多元多變、較高分散度和較強傾向性的網絡言論,因此擁有影響力較大、傳播力強、速度快和時間短等特征。
立足于數據分析角度層面,機器學習主要將探索人學習機制作為主要任務,傾向于科學性而非技術性,主要利用機器算法,聯系語意分析技術,實施關鍵字匹配,深入挖掘網絡輿情信息,有效還原事件原貌。
借助機器學習,對19年阿聯酋亞洲杯的網絡輿情走向和趨勢進行對比分析,例如在1月20日的1/8決賽中,泰國和中國對抗賽中,網絡輿論下PP 體育和新浪微博信息量遠遠超出傳統足球報和體育報,而其中信息量最多的便是新浪微博,同時于亞洲杯專欄中,國足得到了較高點贊量,特別是在發布比分被扳平的新聞中,轉發數和評論數呈直線上升趨勢,廣大網民形成了強烈反響。評論內容以正能量詞語居多,縱觀亞洲杯階段,網絡輿情內和國足相關的內容占據74.1%,同時占據主流輿論的是支持態度。
研究網絡輿情的主要目的便是為了能夠在短時間內快速得到具體的輿情內容,同時對整個事件的發展過程進行分析,準確預測發展趨勢和走向。在結束機器學習后,便需要詳細分析具體內容,準確發現其中的深層原因。在內容分析中融入大數據技術,可以合理設置多重關鍵詞,針對概念進行合理引申,進一步提升了內容篩選準確性,同時于編碼中還可以實時監測編碼結果。比如政府推出某項政策,網民的意見各不相同,為此需要針對政策內容和范圍進行持續細化,同時詳細劃分網民不同態度,包括完全反對、大體反對、保持中立、大體認同和完全認同五種層次,如此能夠更為清晰掌握網民想法[1]。
大數據和網絡輿情在特點層面存在對應特征。大數據涵蓋海量數據和部分的數據處理方法和技術。網絡輿情也不是網絡內直接存在直接應用的數據,而是通過挖掘、提取數據得到的信息。網絡輿情采集分析工作和大數據正好互相契合。
大數據技術是網絡輿情管理數據的基礎性內容,大數據輿情分析也是以數據挖掘和分析為基礎,網絡輿情相關數據整體價值密度較低,只有對其進行大數據詳細分析才能夠順利達到更加準確、詳細和全面的網絡輿情。大數據也為采集海量數據信息提供了基礎工具,可以選擇的數據采集技術包括全文檢索系統、社交網站信息采集、RSS(簡易信息聚合)摘要搜集等。借助上述技術能夠針對知乎、豆瓣、天涯論壇等各種知名論壇實施數據采集。
全文檢索系統是借助全文搜索引擎,通過協議接口針對某個網站內的多樣數據類型實施合理檢索和采集。以大數據技術為基礎的全文檢索系統還可以借助特定協議接口,創建動態化的全文檢索中間庫,符合非結構化數據和結構化數據檢索采集需求。在網絡中針對某個事件出現討論熱潮后,借助系統自身搜集能力,可以直接掃描、抓取和搜索網站內的文件和數據庫,促進網絡輿情實現有效的信息采集。
社交網絡信息采集,主要是面向提供社交網絡服務的媒體平臺進行信息的實時采集和抓取。比如新浪微博相關API(Application Programming Interface,應用程序編程接口)借助分布式微博爬蟲程序,能夠利用社交網絡服務API 采集信息,同時對微博中的個人評論、微博和用戶之間關系等信息數據實施爬取。進一步擴展了網民社交信息采集的廣度,提高了采集效率,為下一階段輿情分析提供有效數據來源。
RSS 摘要搜集即借助RSS 種子摘要信息針對博客類網站和新聞類網站實施數據采集工作。同時還可以針對和采集目標密切聯系的各種種子聚合,能夠全面、快速感知某個事件的發展動態。
在借助大數據技術針對海量原始數據信息實施抓取后,需要實施創建索引、轉換、過濾、去重、聚類等初步處理,同時針對采集的數據信息實施有效補充和清洗。為下一階段的數據挖掘、輿情研究分析和研究奠定良好基礎。
大數據技術下的信息處理技術主要是以HDFS(Hadoop Distributed File System,Hadoop 分布式文件系統)存儲為基礎支持,借助數據倉庫工具以及關系型分布式數據庫完成。通過創建關鍵詞匯庫和數據索引,形成輿情數據倉庫,將全部的數據信息儲存到數據庫內。大數據內涵蓋了集成技術和數據分類技術,能夠針對網絡輿情實施分類分析、聚類分析。
聚類分析針對數據集內全部數據信息根據相似性進行合理劃分,分解成多種類別過程。借助該種操作,能夠針對擁有較高相似性的數據實施有效聚集,幫助不同數據集合理劃分界限。當下的聚類方式主要包括兩種形式。過程聚類能夠呈現出網民的觀點態度和情緒變化,合理把握整個輿情變化過程,避免產生突然性的輿情危機。觀點聚類主要是聚集網絡中的同類觀點,對主體意見和態度之間的比例分布進行合理分析。分類分析則是針對聚類分析后所得的數據信息,根據事先設定好的管理指標實施科學分類。比如可以立足于當下的工作需求,針對原始數據信息實施有效篩選后進行合理分類。具體可以分成醫療衛生、教育、司法、環境保護等類型,為下一階段網絡輿情分析奠定良好基礎。
數據挖掘技術屬于大數據技術中的核心,即在隨機、零碎、殘缺和海量數據信息中,挖掘出尚未被發現的價值信息值。統計技術、人工智能和數據庫屬于數據挖掘技術中的主要組成內容,擁有關聯分析、研判、預測以及誤差分析等功能。能夠進一步提升數據利用、提取效率,從最大程度出發,分析數據中所隱含的輿情走勢,準確把握網絡輿情的最佳處理時機,提升網絡輿情處理速度。此外,還可以在以往數據信息中合理總結適合相同類型事件的發展規律,借助專業模型,對未來該種事件輿情演變進行合理把握。
數據挖掘技術和網絡輿情緊密聯合的便是意見挖掘法,該種措施通過對特定領域創建文本本體,提取其中的主題觀點。隨后通過創建極性詞典,分析關鍵詞的情感傾向,考慮多種方法,最終了解目標文本情感傾向性。大數據技術條件下,情感詞匯相關獲取工作以及極性定量分析進一步從人工判定轉化成借助語料庫計算詞匯傾向相似度。同時還可以借助語言學知識,針對詞匯構成特征實施定量分析。
預測和時序功能即在出現某個事件后,能夠快速梳理熱門話題和討論,掌握當下的民心和民意,及時發現各種不良輿情苗頭和輿情危機導火線。通過準確把握網絡輿情實時走向,對各種虛假信息進行合理封堵,避免出現二次輿情問題。促進管理工作順利從事中處置轉化為事前預警,進行快速應對。
將大數據技術融入網絡輿情報告當中,可以在傳統模式下的文字敘述基礎上,合理選擇應用其他更加直觀、生動的圖片、表現呈現出事件全貌。比如輿情走勢分析圖、熱度直方圖、分布散點圖、評論百分比餅狀圖、關系網狀圖等多樣的圖表工具。促進輿情報告和大數據技術融合,能夠全面解釋整個社會關系。為后期的研判決策處置提供較為直觀的參考信息。
從網絡輿情數據相關發送呈報層面分析,可以促進大數據和多種網絡媒體全面聯合,不但能夠提升信息安全性,同時還可以借助APP 智能推送、RSS 訂閱和郵件等方式進行呈報。準確上報整合后的輿情信息。借助大數據技術還可以提供定制輿情報送、個性化推送等服務。
綜上所述,國內的輿情環境相對而言十分復雜,借助先進的大數據技術,能夠針對網絡輿情實施科學分析與有效管理,幫助順利化解各種輿情危機,提升整體輿情控制能力,創造良好的輿情環境。