劉羽
(鄭州升達經貿管理學院,河南 鄭州 450000)
當前,互聯網輿情數據收集系統主要包含三種數據收集技術:人工收集、搜索引擎收集和第三方互聯網機構定向收集。人工收集是指通過人工瀏覽網絡平臺,通過人工監測獲取有價值的數據和信息,經匯總、分析后觀察社會輿論走勢。人工收集是當前檔案管理人員較常用的輿情數據檔案信息收集方式之一。
搜索引擎收集按其工作方式主要可分為三種,分別是全文搜索引擎收集、目錄索引類搜索引擎收集和元搜索引擎收集。搜索引擎收集的代表是360 搜索、谷歌搜索和百度搜索。以百度搜索為例,據CNNIC 發布的《2018 年中國網民搜索行為研究報告》顯示:百度日均搜索量超過50 億人次,截至2018 年12 月,搜索引擎是中國網民的最基礎應用,百度搜索滲透率為97.4%,使用率略遜于即時通信。人工收集和搜索引擎收集是當前比較常用的互聯網輿情收集技術,但是這兩種收集方式的缺點是可提取關鍵信息的文本內容都比較短,容易因為數據稀疏導致在做相關運算時出現準確率和推薦召回率不高的狀況。克服這一技術難題的方法借助第三方互聯網輿情機構定向采集,通過對核心詞的外拓實現了準確率和推薦召回率的同步提升。
第一,對文本進行預處理。文本預處理是對通過輿情采集器收集的未加工的Web 網頁進行初步處理,再對經初步處理過的網頁文本進行發現話題和數字建模,文本預處理最重要的環節是進行特征選擇和中文分詞。中文分詞對命名實體進行識別,采用 ICTCLAS 系統對所獲語料標注詞性和進行中文分詞,基于詞頻提煉出web模型的特征向量對中文分詞后的文本語料庫進行向量化分析。分詞技術是針對提交查詢的關鍵詞串進行處理,將收集到的網頁文本內容轉化為結構化向量。
第二,對話題進行檢測。對文本經過預處理后的文本語料庫形成了擴展空間向量模型VSM 向量集。利用 VSM 各向量間的相似度,對文本進行話題檢測和聚類,對文本內容分析的深度決定了聚類技術的效果,聚類技術的功能在于挖掘熱點話題。一般情況下,可提取關鍵信息的文本內容都比較短,容易因為數據稀疏導致在做相關運算時出現準確率和推薦召回率難以權衡的狀況。克服這一技術難題的方法就是引入詞擴展技術,通過對核心詞的外拓實現了準確率和推薦召回率的同步提升。詞擴展技術是指利用特定算法對原始文本向量進行處理,使原始數據中的鄰近對象形成核心明確、分布較為離散且粒度小的話題集合,將話題集合進一步劃分為多個“微簇”,利用特定算法,對“微簇”進行二次聚類,用滿足一定的閾值要求、質量較高的核心對象代表“微簇”。
第三,利用話題綜合評價標準對話題進行過濾。運用語義識別技術,對之前采集的數據信息進行更深一步的過濾識別,通過對數據信息中句子的結構、語法及部分關鍵詞的詞義進行過濾處理,從而將信息轉化為人們常用的語言,將大量復雜的信息簡單化。從進行過聚類、過濾處理后的文本中提取中心詞,將分析后的中心詞進行組合,通過結構化分析獲取中心詞組,計算中心詞組所涉及的文本數量,運算模塊根據文本參數進行加權計算,統計熱門關鍵詞組的文本數量,獲取熱門關鍵詞組的熱度值。
“趨勢與定向判斷是網絡輿情分析與分類的核心,是應對與引導的依據,根據匯總到的輿情信息,通過系統的分析,做出關于輿情發展趨勢與走向的基本判斷,這一判斷主要是在定量基礎上得出的定向判斷。”檔案管理人員應將互聯網輿情大數據檔案管理與互聯網內容治理相結合,讓數據流顯現關聯;將互聯網輿情大數據檔案管理與政府科學決策相結合,讓信息流暢通無阻;將互聯網輿情大數據檔案管理和輿情日常管理相結合,讓輿情流和諧運轉。
傳統檔案管理結構模式中公眾的參與度比較低。大數據時代為輿論的快速形成和公眾對公共事務話語權的表達提供了討論空間,由單一主體治理變為多元主體治理,多元主體治理的基本結構體現了混合的特點,多元主體治理的邊界與范圍不是簡單的信息關聯和多元混合。互聯網和大數據技術拓寬了檔案管理的內容,改變了檔案管理人員和民眾的連接與互動方式,因此需要尋求一種新的檔案管理模型和良性互動的連接機制來消解傳統檔案管理成長的困境。
警惕輿情動態在復雜的演進過程中出現的不和諧因素,準確界定輿情等級,通過級別劃分、輿情聚類、有效處置和事后評估構建輿情回應的指標體系,通過行為干預及早進行有效處置,匯編典型事件檔案庫。檔案管理人員應從追問事實到反思制度,從線上輿論和線下互動的有效對接到挖掘方法和社會洞察的有效結合,構建互聯網輿情檔案管理回應指標體系,改進和完善檔案管理中的制度性、結構性問題。