文/吳嫻 肖卓明 洪丹
近年來,傳統媒體不斷尋求融合轉型之道,拓展“媒體+”服務,為用戶創造更多價值。為構建輿論引導新格局,越來越多的傳統媒體整合品牌資源、政經資源和信息資源,切入輿情服務領域。
隨著輿情市場的不斷開拓,政務用戶和企業用戶之間、省級政務用戶與區縣基層政務用戶之間,甚至地方政府用戶和職能廳局用戶之間,對輿情產品服務呈現多樣化需求,同一用戶在不同環境下對輿情管理的需求也相當多變。當這種變量積累到一定體量,為每個用戶的定制開發成本會非常高,同時出現產品效率不高等問題。本文從南方輿情的實際業務發展出發,學習實踐阿里巴巴首提的“大中臺、小前臺”概念,引入輿情數據中臺的運轉思路,支撐產品應用多元化快速生成,打造一攬子輿情產品服務,通過“技術降本、應用提效、業務賦能”,抓住輿情市場的發展機遇。
面對復雜的輿情應用場景,突破傳統的系統架構,構建輿情數據中臺,貼近用戶多變多樣的使用需求,面臨著諸多技術難題與挑戰。
挑戰一:全域數據采集與入庫。以需求為驅動,如何實時采集和引入多渠道數據(網站、論壇、博客、APP、微博、微信公眾號、電臺電視臺)、多形態(自身業務系統、互聯網采集、第三方交換)的數據,構建多信源、海量和動態的基礎數據池存在很大的挑戰。
挑戰二:規范數據架構與研發。如何構建數據的分層與水平解耦結構,通過全域采集數據格式的規范化、交互接口的標準化實現架構的統一性、可靠性和靈活性,快速支撐上層數據應用和服務,是一個值得探討的技術難點。
挑戰三:跨域數據整合與知識沉淀。如何建立融合模型,通過不同維度的建模實現跨域輿情數據的整合,同時挖掘輿情數據從個體標簽化到全局指標化,深度萃取數據價值,實現共性應用的知識沉淀,是面向輿情業務支撐提供底座能力的關鍵。
挑戰四:數據封裝應用與服務開放。數據的規模化發展是提供服務化能力。如何按應用要求做服務的封裝,通過多元化的產品形態開放給外部服務用戶,實現數據價值的快速分享,打通服務用戶的最后一公里,是建設輿情數據中臺的最終目的。
數據中臺的概念首先由阿里巴巴提出,“構建規范定義的、全域可連接萃取的、智慧的數據處理平臺”,其建設目標是高效滿足前臺數據分析和應用的需求。為應對輿情服務需求的復雜多變性,南方輿情從實際業務出發,設計和搭建了輿情數據中臺,以期實現產品定制化、服務個性化的快速部署。總體架構和關鍵技術描述如圖1所示。
全域數據智能化采集平臺主要對接的數據形態包括互聯網數據采集、合作互補數據、媒體獨家線下信源、自身采編業務數據。互聯網數據通過分布式爬蟲、智能采集調度、自適應采集策略、數據采集代理、自動登錄驗證等技術,靈活配置采集規則、抓取深度、掃描頻率等采集策略,實現各渠道數據源的統一采集管理。依托分布式架構、多點負載均衡和自適應帶寬設計,確保實時采集效率、采集穩定性和采集數據完整性。
以分布式計算架構實現對大規模數據的快速識別與信息抓取,對不同的信息使用不同的抓取策略,實現互聯網信息抓取的自動化。采用分布式多線程并發指令執行體系結構、增量實時索引、智能分詞等技術,采集和數據管理效率高。實現多個網站同時并發抓取、一個任務分布式并發多點處理、多點負載均衡的效果,可以防止短時間內向同一個網站發送過多的訪問請求,提高大數據采集的效率和性能。運用IP代理池以及API模仿機制,對高頻更新的數據進行IP輪詢采集,能有效防止站點對系統IP的限制,同時系統能智能主動降低采集頻率,降低IP被封的可能性。分布式采集的智能化調度,能有效提高數據采集的穩定性。
自采的互聯網數據、合作互補數據、線下信源數據、采編業務數據經過標準化數據接口統一格式后進入數據分析層,打通數據孤島,解決輿情數據的多源異構問題,減少煙囪式協作,確保輿情數據的多元性和完整性。

圖1 輿情數據中臺的技術架構
對采集到的信息進行垃圾識別過濾,自動清洗廣告、無關圖片、超鏈接、動態Flash等無用信息,利用智能解析,自動抽取標題、時間、來源、作者、正文等有效信息要素,通過內容判重引擎,根據數據內容分析語義對數據進行去重與歸并,自動判斷重復文章,實現自動去重與合并。采用分布式存儲集群對加工后的標準化輿情數據、快照、索引進行存儲,實現結構化、非結構化數據資源的融合管理。分析處理后的標準規范化輿情數據,為輿情服務應用提供調用基礎,通過服務接口響應輿情業務的基本需求。
對海量輿情數據進行深入挖掘,利用關鍵詞正則表達式智能解析匹配提取事件關聯信息,并針對熱點事件信息進行多維度分析。對事件信息進行分詞、情感分析、熱度分析、高頻詞提取、關聯分析、數據統計等處理,結合自動摘要、分類、聚類等智能化運算,從而分析得出事件的發展趨勢、敏感指數、地域分布、傳播路徑、關鍵人物、正負面傾向、網民觀點等,深入分析事件的本質原因,形成建模基礎數據。
以智能化標簽的方式對數據信源進行歸類,在邏輯上將數據信源自由組合成任意不同的虛擬數據信源包。在數據檢索時,既可以在全局數據信源里進行匹配,也可以根據不同用戶的不同需求,在虛擬數據信源包里進行數據匹配,縮小數據檢索范圍,提高數據檢索精度,同時提高數據檢索效率,實現輿情數據檢索的靈活部署,快速響應業務環境的變化對業務流程優化提出的要求,為個性化、定制化的輿情產品提供基本支撐。
利用與(+)、或(|)、非(-)無限層級優先級嵌套匹配規則,基于高效索引和排序算法的多維度檢索實現關鍵字解析體系,支持多種索引條件的復雜組合,最大程度滿足各種數據應用的封裝需求。通過自動推送腳本將檢索結果進行智能推送,便于輿情數據的高效共享,為進一步的輿情業務和其他輿情擴展業務發展提供強大的數據支撐,實現了一次跟蹤,多端使用。推送使用XML Schema規范作為數據交換的標準格式,屏蔽了異構數據源之間的差異;數據格式采用XML/JSON,方便調用, 適配性強。
在輿情數據建模的基礎上,通過虛擬數據信源包與關鍵詞解析體系,對數據進行封裝,結合智能推送開發多種輿情服務應用,譬如即時預警、周期報告、專題分析、輿情會商、輿情研判等,利用PC端、APP、大屏、微信、短信等多種發布渠道,形成輿情服務應用矩陣,滿足全方位的輿情服務開放。
南方輿情通過應用創新和技術創新,基于輿情數據中臺構建產品快速生成的服務體系,以下簡要闡述輿情數據中臺實現業務賦能的落地應用案例。
社情風險指數是南方輿情基于“數據沉淀、業務下沉”的特色產品應用。該產品生成邏輯和技術實現步驟如下:
第一,采集匯總歷史風險事件,形成以業務核心對象為中心的連接和標簽體系,并對風險事件性質、等級及傳播范圍提取要素,并對各要素進行賦值定義,建立社情風險指數計算模型;第二,一定周期內(日、周、月、年),增量輿情數據與離線歷史數據同步共享,基于數據標準和標簽模型開展數據萃取,反哺輿情數據中臺,在線量化形成社情風險指數;第三,推出社情風險指數榜單產品,靈活對時間、地域、屬性等維度的社情狀況綜合評估評判。
輿情多維交叉比對與可視化是南方輿情“數據組裝化、應用服務化”的應用案例。系統操作界面如圖2,它的生成邏輯和技術實現步驟如圖2所示。

圖2 輿情多維交叉比對
第一,整合全域數據,統一數據出口和查詢邏輯,建立輿情態勢感知體系,既能對廣東地域內開展全面輿情巡查,又能快速發現和展示服務用戶以及突發事件的演變趨勢;第二,通過復用公共定量指標、加工個性變量指標的方式,既提取領導力、發展力、執行力、創新力等方向指標,又深入到媒體關注、社會維穩、營商環境等細化指標,建立用戶坐標系,通過算法模型匹配,迅速清晰地進行用戶畫像;第三,通過業務應用操作,及時響應和可視化輸出數據采集分析和指標模型效果(適應不同呈現載體),通過不同指標數值的閾值設置實現自動預警,快速完成面向用戶需求的數據封裝和應用服務。
輿情數據中臺的核心是數據模型、算法服務和數據產品等能力,通過搭建靈活快速應對變化的架構,更快實現前端產品需求。一方面避免業務高度復用的功能重復建設,另一方面所有業務觸點信息均可流向中臺,解決數據孤島,形成信息共享。借助中臺的沉淀能力,研發更靈活、業務更敏捷。下一步,輿情數據中臺也將階段性演進,不斷形成“技術平臺+建設方法論+數據產品+運營服務”解決方案的整體輸出,快速調整應對未來的市場變化。