李網燦 趙 勇
中國電信股份有限公司江蘇分公司
互聯網信息技術和移動通信技術的發展,使網絡媒體進入人們的日常生活,每個人都可能是信息的提供者、傳播者和閱讀者。與此同時,網絡輿論也隨之產生,人們通過微博、論壇、博客等發表著自己的看法、轉發自己關注的消息、關注熱點及自己關心的內容。輿情已成為當前社會和諧度和穩定度的標志,成為社會各界的關注焦點。互聯網輿情監測以及相關的大數據分析已經成為各級政府與大型品牌企業的一項基本工作。由開始的人工搜索、自建系統到購買相關輿情公司的云服務,這些都為政府和企業提供決策輔助。當然,無論是自建系統或是輿情公司建設的輿情云服務平臺,傳統購買服務器方式使系統的建設與運維成本越來越高。
中國電信天翼云從數據層、中間層、Web 層、服務層、安全與監測層、彈性負載層幾個方面提供全方位的服務,能夠大大降低輿情大數據系統的建設成本。如何利用天翼云建設一套高效、先進的輿情大數據分析系統是本文研究的內容。
當前各級政府和企業對互聯網輿情的監測,基本采用自己投資建設,或向專業輿情服務商購買類似江蘇電信輿情云這樣的云服務。這些自建系統或輿情服務商在進行系統建設中,往往采用購買物理機或租用普通云主機的形式。隨著互聯網應用的日新月異以及大數據分析的需要,系統在建設和運維過程中,采集系統、存儲系統、分析系統以及應用系統,都需要不斷進行硬件擴充和各類支撐服務系統的建設,造成運營成本越來越高,開發效率日益低下。
中國電信天翼云提供云主機,是一種可實時獲取、彈性可擴展的計算服務。天翼云采用BS 三層架構,能夠有效降低建設和維護成本,同時也簡化了系統的運維和管理。對于像輿情大數據分析系統這類大規模和復雜的應用系統部署,能夠快速、低廉、安全的部署與實施。
本文根據江蘇電信輿情云系統建設經驗,結合中國電信天翼云的服務,對互聯網輿情大數據系統框架進行了重新研究與定義,研究如何利用天翼云提供數據層、服務層、中間層Web層、彈性負載層、安全與監測層,對采集子系統、存儲子系統、大數據子系統以及應用子系統進行重構與設計。
從輿情系統的整個業務流程來分析,網絡輿情系統需要從互聯網上進行海量數據抓取,進行分析打簽并入庫,再根據用戶及業務需求,對數據進行加工分析,通過應用系統進行展示。在系統設計與實現時,可以把一個輿情系統功能模塊分為采集子系統、存儲子系統、大數據分析子系統、應用系統,該系統業務功能如下圖所示。

圖1 輿情云系統功能圖
采集子系統是整個輿情系統的基石,為后面大數據分析提供數據來源。基于輿情業務的特點,該子系統要求能夠實現數據的全面性與實時性。數據全面性取決于站點的覆蓋面,實時性則取決于采集子系統資源的快速與動態擴展性。江蘇電信輿情云系統數據采集方式主要通過兩種方式實現。
2.2.1 元搜索技術
一種是根據用戶指定的關鍵字在互聯網引擎服務提供商所提供的搜索引擎上進行搜索,并自動采集搜索到的目標網頁內容數據。
2.2.2 Spider 技術
再有是通過各種Web 協議對站點庫中各站點進行輪詢全站采集、入庫,大數據子系統再根據用戶需求,將用戶需要數據進行分析并推送展現給用戶。
采集資源使用部署在全國各地的天翼云主機,能夠快速地采集各網站數據,并根據目標網站的更新頻率智能調整采集策略。高速的帶寬、可靠的環境、智能的策略共同保證數據的及時性。
2.2.3 站點庫的自我完善
采集子系統以元搜索為基礎起點,通過元搜索獲取數據及站點,并將站點存入站點數據庫。同時Spider 模塊對站點上超鏈接進行分析,發現目標信息URL 時均可識別之前未納入監測系統的新網站,二者互補即可完成新站點的添加,保證站點庫自我補充與完善。該系統流程如圖2 所示。

圖2 采集子系統站點庫自我完善流程圖
2.2.4 采集子系統的部署
部署實施中,系統對資源的需求是一個動態擴展過程,這些資源包括CPU、內存、存儲、IP 歸屬等資源的彈性擴展。
(1)傳統部署方式
若采用傳統物理機方式進行部署,前期需要預估系統最大峰值資源需求,當資源沒有達到峰值時,資源處于浪費狀態;再有,后期服務器運維也需要投入大量成本。當出現超出預估資源需求時,從采購到部署周期較長。采用傳統云主機方式,雖然可以臨時進行資源動態擴充,但其部署與運維成本也較大。
(2)天翼云部署方式
江蘇電信輿情云,如圖3 所示,通過部署在全國各地的中國電信天翼云,提供彈性云主機,它由CPU、內存、鏡像、云硬盤等組成,根據采集子系統業務使用量配置和策略,在滿足業務需求的前提下,減少資源投入。

圖3 天翼云主機彈性擴充示意圖
通過為采集子系統提供全國不同區域的IP 資源,基于不同類型站點Spider 采集模塊,可以配置私有ECS 實例上的OS選擇和應用系統配置,私有鏡像創建云主機,將原來部署單臺采集模板主機需要花費的時間從數小時縮短到幾分鐘。
該子系統在處理互聯網上海量非結構化數據時,通過數據分析、數據挖掘,將海量非結構化數據轉化為用戶需要的結構化數據,并提供原始鏈接,保存內容摘要。同時需要根據輿情系統業務特點,設計與搭建一套分布式數據存儲系統,使該系統具有冗余與備份功能。
為提高用戶體驗,以索引查詢服務的方式對信息進行高效查詢,同時為應對海量信息,本系統需要設計與搭建分布式索引服務器。
(1)傳統部署方式
為實現以上功能,傳統系統除了硬件投資外,還需要大量技術人員的投入,需搭建分布式索引系統、異地數據備份與同步等設計與部署,而在系統部署后,需要投入大量運維資源。
(2)天翼云部署方式
天翼云提供如下圖的一系列PaaS 服務,只需直接使用分布式存儲、異地備份、分布式索引等服務,還可以按需動態調整。

圖4 天翼云PaaS 服務示意圖
大數據子系統是輿情系統的核心部分,它是在采集子系統采集數據的基礎上,對存儲數據進行分類與分析。系統采用的是分布式實時計算框架Storm,Storm 是目前流行的分布式實時流計算框架之一,它提供了可容錯分布式計算所要求的基本需求和保障機制,可以滿足高吞吐,實時滿足關鍵業務應用的需求。該技術對計算資源的彈性要求較高,要能夠支持分布式計算系統,同時支持快速進行資源調整。
基于自然語言AI 的機器學習系統的搭建,可用于實現輿情數據正負面信息的學習判斷。采用數據建模和數據挖掘技術和“數據清洗=>特征,標注數據生成=>模型學習=>模型應用”的步驟,基于數據倉庫模型對數據進行分類,清洗掉無用數據,推送真正有用、準確的數據。
(1)傳統部署方式
以上技術在實施時,對資源的需求是動態的,特別是情感分析模型訓練完成之后,需要對云計算資源進行回收,傳統方式需要購置大量云主機,在完成這些計算后相當長一段時間內會造成資源閑置與浪費。除此之外,還需設計計算資源的調度系統,增加系統成本和系統故障點。
(2)天翼云部署方式
天翼云提供彈性伸縮(CT-EAS ,Elastic Auto Scaling)服務,能夠自行定義業務使用量配置和策略,靈活進行下發和配置,并且按需調用資源。如圖5 所示。

圖5 彈性伸縮服務任務下發示意圖
應用子系統直接面向用戶層,這里的用戶不僅包括輿情系統的最終使用人員,也包括系統運維人員。輿情系統展現給最終用戶的內容包括信息展示模塊、圖表分析模塊、移動服務模塊。系統運維人員需要對系統進行管理,進行軟硬件性能監測、系統安全防護以及其他增值服務的接口管理等。
(1)傳統部署方式
運維人員在搭建和部署業務系統時,傳統方式和天翼云方式差別不大,但在實施系統監測、安全防護等工作時,傳統方式需要投入昂貴的軟件和硬件系統。
(2)天翼云部署方式
天翼提供的云監測(CT-CW, CloudWatch)服務,針對用戶各種虛擬化資源,從不同維度不同指標項的數值進行收集聚合,幫助用戶實時監測其資源的動態,包括彈性云主機、云硬盤、彈性負載均衡、虛擬私有云、RDS、彈性伸縮組等相關指標。天翼云為用戶提供安全檢測、DDoS 防護服務,使得運維人員可以完全從系統安全的防護中解脫出來,通過這些增值服務不僅提高了輿情系統的安全防護能力,還能節省人員和設備的投資。
本文從輿情大數據系統的整體架構設計,結合中國電信天翼云的服務內容、江蘇電信輿情云系統的建設經驗,分別從輿情采集子系統、存儲子系統、大數據子系統、應用子系統幾個方面,提出如何利用中國電信天翼云進行系統建設。
目前該研究成果正在江蘇電信輿情云系統實施,初步測試結果證明,搭建在中國電信天翼云上的輿情系統與傳統私有部署方式有以下優勢:
(1)直接投資成本低。由于采用彈性云計算,使得系統建設不需要一次性投資,后期根據業務拓展動態投資,大大提高了資金利用率。初期能夠節省60%左右的投資,到中期預計也將節省35%的投資,資金利用率達到95%以上。
(2)研發運維成本降低。基于天翼云提供的多類數據層及中間層服務,使得輿情云研發團隊不需要投入相應的研發人員進行系統開發,后期維護人員的數量、技術要求也大大降低。
(3)可靠性安全性更強。基于運營商級的硬件和安全防護,其穩定性、防護能力與性價比是傳統模式所無法比擬的。
(4)分析效率更高。基于自然語言AI 情感分析模型的訓練不定時地需要海量計算資源,天翼云靈活地彈性計算能力快速擴展,使得分析效率和準確性也不斷提高。基于天翼云強大靈活的計算能力,江蘇電信輿情云針對政府行業敏感類數據判斷準確率在85%以上,非敏感判斷準確率在95%以上,目前在業界處于領先位置。