袁立 孟彩霞 西安郵電大學計算機學院
隨著信息技術的迅猛發展和普及應用,信息系統規模不斷擴大,并且產生了海量的數據,2012年2月《紐約時報》發表專欄文章,宣告了大數據時代的降臨。大數據時代的到來,改變著社會的方方面面,給企業帶來了較大的機遇和挑戰:一方面,以大數據分析挖掘為基礎,企業可以實現客戶分群、精準營銷、事件預測、資源優化、商機挖掘等功能,從而帶來巨大的商業價值,實現各種高附加值的增值服務,進一步提升企業的經濟效益和社會效益;另一方面,企業的商業模式、業務策略、決策依據等都將日益基于大數據分析而非基于經驗和直覺,這對企業的業務運營支撐體系,主要是信息化體系的建設以及發展戰略帶來了巨大挑戰。
匯總層的數據和應用層的數據按照業務邏輯進行歸類,分為:客戶類、渠道類、產品類、收入類、行為類、資源類。
大數據HADOOP平臺架構包括數據采集層、數據存儲和計算層、數據服務接口層及平臺自運行能力層。要求能夠處理結構化和非結構化數據,具備實時計算、流數據處理、準實時采集生產系統源數據的能力。大數據平臺要具備數據安全保障能力,滿足省級數據安全的相關管理要求。
(1)數據采集層:實現對數據源的數據的采集和裝載,并經過加工、清洗,提供到大數據存儲層完成數據存儲。
(2)數據存儲與計算層:采用混合結構搭建,實現數據的存儲和計算。存儲層采用HDFS存儲架構;計算層包括HIVE、HBASE包括數據獲取、離線批處理、實時處理、異構數據同步等功能。其中離線批處理以MapReduce為基礎并提供Hive、Mahout等處理組件,實時處理包括Storm流式實時計算框架。
(3)數據服務層:通過數據存儲和計算層的挖據和分析,將海量數據處理結果通過封裝、開放,根據不同業務部門的使用需求,通過數據共享發布及應用提供給外部使用。
平臺ETL性能要同時滿足今后數據準實時抽取和批量采集兩種方式的要求,要求能夠在滿足規定的時限內完成每日數據加載工作。ETL過程支持并行處理,且必須具備統一自動調度、日志監控和運營管理的功能。
平臺支持結構化數據庫及非結構化數據,包括文本、語音、圖片等文件格式。

(1)數據本身安全;
(2)數據存儲安全;
(3)數據訪問安全;
(4)數據展示安全;
(5)數據導出安全;
(6)數據權限安全;
(7)數據脫敏安全。
基于有數據業務分析系統、用戶行為分析系統、BOSS系統等業務域分析系統,能夠將現有業務域各分析系統及業務域各類數據、資源融入大數據平臺,并將各類數據、資源、計算結果由大數據平臺發布共享。并產生新的專題分析數據。
平臺數據處理能力通過能力封裝形式實現,業務處理流程通過可視化平臺界面進行配置,全能力數據流處理狀態可視化,數據接入系統后,為方便應用程序使用,需具備統一格式轉換功能,消息協議轉換功能。
對于消息接口,接收特定協議格式后,為方便后續程序處理,需具備常見轉換為常見消息格式功能,包括:StringJSONXML等,并具備自定義消息格式功能。
面向內外部應用,提供大數據整合和基礎數據處理能力。
外部數據源的各類數據,負責對外部來源系統的數據進行統一過濾、存儲和沉淀,實現數據準確性、完整性、一致性。
大數據平臺采用GBase 8a MPP數據庫的MPP數據庫。
GBase 8a MPP數據庫,是在GBase 8a列存儲數據庫基礎上開發的,基于現代云計算理念和shared nothing架構的并行數據庫集群,可支持TB到PB級別結構化數據存儲查詢,高性能、高可用、高擴展的分布式、并行的數據庫系統。以其獨特的扁平架構,高可用性和動態擴展能力,為超大型數據管理提供一個高性價比的通用平臺。
通過大數據平臺使多種業務數據匯聚融合,形成支撐對有線電視用戶的使用行為深層洞察能力,最終支撐用戶行為分析的應用展示。用戶行為分析 從總量、欄目、節目逐級剖析、支撐月、日、小時級的監控分析,實現了數據的多維度、多時段及準實時監控。

對客戶進行精準營銷,首先要對客戶特點和客戶需求特點進行深入了解,然后根據這些特點對客戶進行特定的業務推薦或者維系策略,這樣才可以最大限度提升客戶的滿意度,在改善用戶體驗的同時,適時的增加廣告精準投放業務,深耕市場提升營業利潤。
[1]白冰.數據挖掘在電視節目收視率中的應用研究[D].江蘇科技大學, 2008.
[2]裴蕾.基于Web數據挖掘的電子商務推薦系統研究[D].同濟大學,2006.
[3]瞿華禮.數據挖掘技術在電視用戶滿意度分析中的應用研究[D].安徽大學, 2011.
[4]王鑫.數據挖掘中聚類分析算法的研究[D].山東師范大學, 2006.
[5] 謝曉燕.基于陣列處理器的去塊濾波算法并行化設計[N].西安郵電大學學報 2017. P67-72