王娟,馬薇,劉一丹,白涌如
(機械工業信息中心,100043 北京)
當前,輿情信息呈幾何倍數增長,輿情發展復雜多變。面對這種形勢,行業協會作為行業的權威組織,要及時跟蹤影響行業的重大輿情事件,主動在輿論焦點問題發聲,引導輿論走向,把握輿論發展趨勢,增強行業協會的工作能力和服務水平。行業協會要從行業發展需要出發,建設網絡輿情公共服務平臺,集中輿情工作的相關資源,形成行業輿情監測分析的合力,更好地服務于行業會員企業。
行業協會開展網絡輿情工作一般采用購買云服務方式,通常采用SaaS模式,購買服務后無須部署,服務商在云端提供7×24小時的監測,自動生成各種分析報告和數據報告,及時發現相關輿情,實現自動預警。部分有實力的協會建設了網絡輿情系統,實現監測范圍可維護,用戶分組可維護,信息加工模板可維護。大部分行業協會由于在網絡輿情監測方面投入有限,采集能力不足,信息加工利用程度低。很多協會購買的僅僅是新聞搜索,不能及時甄別發現行業的重大事件以及輿情風險。
文本挖掘是指對文本進行聚類、分類、抽取摘要、情感分析等。文本挖掘也就是自然語言處理,是人工智能的一個分支,其核心目的在于讓機器理解人類語言。大數據時代,經過大量“訓練”后的計算機可以代替人類解決重復枯燥的巨量文本文檔處理任務,例如眾多行業的智能問答、機器翻譯、文本分類、文本摘要、標簽提取、情感分析、主題模型等方面。文本挖掘技術的基礎應用分為四類。第一類是抽取,指計算機識別關鍵要素,自動解析文本,從文本中提取出要素并進行結構化處理。第二類是劃分,指計算機基于相似性算法的聚類技術,自動進行歸類,可自動為該類生成主題詞,也可對典型的評論意見等各種觀點進行識別和劃分。第三類是轉換,指計算機把文本轉換成更正確的語言方式,幫助人們發現文本中的錯誤并修改。第四類是合成,指計算機按照結構化的要素組合設計,實現新的文本生成。
由于行業協會擁有較多的下級分會機構、行業大中型企業會員,因此構建基于SaaS的網絡輿情服務平臺是較為經濟的方案。SaaS平臺是互聯網軟件服務模式,相較于傳統開發專用系統的方式,優勢非常明顯。一是節約經費。協會內的下級分會機構、行業大中型企業不需要每家都投資建設單獨系統,而是集中協會內有意向的機構,一次投入、一組人馬就可以開發建設,達到資源共享、效益最佳。二是更加專業。因為行業協會具有行業屬性,其下級分會機構、行業大中型企業會員在平臺開發建設和投產應用過程中,在行業特征方面具有高度的關聯性,這有助于文本數據的處理和機器學習的加快改進,有利于平臺的能力優化。三是采用平臺方式,系統的安全性和數據的安全性都有望提高,同時也避免了應用程序的漏洞或者惡意特權用戶泄漏敏感信息。相較于云服務方式,行業協會因為下級分會機構、行業大中型企業會員用戶較多,這種情況更加適合采用SaaS方式,對所有下屬單位、分支機構的應用需求都提供充分支持,通過提供協會內部一站式服務,有效歸集本協會內的全部輿情信息采集、監測分析的人力和財力資源,實現監測范圍的共性集中、用戶需求特征的共性分組和集中管理、共性信息加工模板需求地集中處理等。
行業協會網絡輿情服務平臺設計原則有三點。一是在搜集輿情信息時盡可能關注更多的渠道,在確保信息源的權威性的同時,要重點關注與專業有關的渠道,拓寬信息搜集的廣度。只有信息來源越廣泛,掌握的事實越多,才能更加完整獲得信息。二是要特別重視關鍵詞的設置。行業一般都有眾多的專用詞匯、特定機構,要注意這些詞匯的歸納整理和使用。同時,無論是借助輿情工具來檢索,還是自主瀏覽不同平臺,都需要及時更新和納入新的關鍵詞,不斷采集更為及時有效的信息。第三是要貼近行業協會會員單位的實際需求,既要保證充分發揮出輿情監測各項技術的作用,也要充分體現出行業工作的經驗積累和共性特征,深度融合,相互促進。
行業協會網絡輿情服務平臺計劃部署在公有云,包括輿情采集服務器、數據庫服務器、輿情分析服務器和應用服務器。系統框架包括云基礎環境層、數據存儲層、技術支撐層、應用支撐層和輿情數據分析平臺。其中支撐層提供輿情數據采集、集成、治理、分析、應用的各類基礎技術支撐服務。應用層匯集行業輿情數據資源,進行加工處理,提供行業輿情數據分析服務,搭建行業輿情服務門戶以及拓展其他應用服務。
平臺建設目標是采用SaaS模式,為行業協會及其下屬專業協會、行業重點企業提供互聯網輿情監測及智能分析服務。通過調研行業協會、會員單位及行業相關機構的需求,考慮到行業特征因素,梳理輿情大數據應用業務場景,規劃業務模型。按照業務模型,明確業務數據來源、數據標準、治理規則、整合方式、計算模型、分析模型、應用模型等數據規劃。
按照數據規劃,梳理各類業務的輿情數據來源,明確來源主體、數據形式、集成方式、集成頻度、ETL規則、目標位置、可信度等信息。此外,根據調研情況,協會現有已建成在運行數據中心,數據存儲系統無須新建。
數據采集過程是先確定采集對象,其數據源可能包括“政府網站”“行業網站”“期刊雜志”“社交媒體”“相關系統”“外購數據”等。采集工具包括API、網絡爬蟲兩種。數據采集和數據治理負責將不同數據源的輿情數據進行采集、匯聚、抽取、治理,最終為監測業務提供輿情數據支撐。采集過程包括數據清洗、文件格式重定義、排量設置等預處理,由采集工具、程序編制或人工進行篩選,根據采集目的和采集對象對信息進行句義分析、風險定級和等級判斷,人工設置審核規則,再自定義關鍵詞、設置相關性排序、閱讀行為記錄,采集原始數據并發布。數據采集業務系統可劃分為統計報表管理、圖表分析管理、輿情報告管理等多個系統。
平臺支持針對非結構化文本數據的挖掘方法,包括正文提取、中英文分詞、詞性標注、實體抽取、詞頻統計、關鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉換、自動注音、文本聚類等常見文本挖掘方法,基于以上基本方法提供文本精準檢索服務、新詞發現功能、詞頻統計功能、分類過濾功能、文檔去重功能、自動摘要功能、文本聚類及熱點分析功能等。其中文本聚類是基于相似性算法的自動聚類技術,自動對大量無類別的文檔進行歸類,把內容相近的文檔歸為一類,并自動為該類生成標題和主題詞。
基于上述方法和功能,平臺面向機構用戶提供文本挖掘功能,包括:輿情檢索,指按時間軸、關注點、熱門度、點擊率、搜索量等進行多角度、多維度輿情的信息瀏覽;輿情標簽,指常用標簽和自定義標簽的分類功能,如詞云分類、地域分類、行業分類等;輿情來源,指發現網絡輿情話題的源頭;數據分析,指可視化的數據維度展現;數據報告,指數據分析結果生成報告。提供的服務功能有訂閱、推薦、熱點、線索、觀點、傾向、報警、分析、報告、詞云等。根據用戶需要,可增加“人物關注”功能,指監測跟蹤網絡輿情對行業知名專家、企業家等重要人物的關注和評論,實時掌握專家觀點、活動、相關信息。可增加“輿情評價”功能,指跟蹤監測網絡輿論對機構自身的關注和評論,掌握看法口碑等趨勢變化和負面預警,提升機構的影響力、知名度和美譽度。可增加“內參快報”功能,指面向行業高層領導,就高層領導關心的重大事件、行業突發性的重大事件、輿情系統監測中發現的突發事件進行及時分析,提供初步研判報告,向高層領導提供專報。對行業出臺的重大政策進行長期跟蹤監測,提供政策傳播率、政策知曉度、政策獲得感、政策實施效果評價等方面的信息反饋,定期向高層領導提供專報。
可適時開發移動端App,與PC端無縫連接,擴大平臺應用的時空范圍。隨著參與平臺的機構不斷增多、平臺采集信息的范圍不斷擴大、平臺的輿情成果不斷增多,借助文本技術和數據建模,平臺還可以進一步擴充應用場景。如競品分析、精準營銷、市場研究、客戶滿意度分析、事件輿情評估、新產品推廣等。