吳怡 陸圣師
摘 ? 要:隨著無線通信技術和移動互聯網的快速發展,用戶的需求逐漸呈現多樣化和個性化,電信行業數據也出現了爆發式增長,能否有效分析和利用這些數據,成為市場競爭的關鍵。本文主要以中國移動海南公司搭建的大數據公共服務平臺為切入點,基于網絡運營數據,介紹了平臺框架和相關技術,最后闡述了電信運營商大數據在交通、旅游、治安、教育、海洋等方面的應用。
關鍵詞:電信 ?大數據 ?運營 ?數據分析
中圖分類號:TP302 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2019)08(a)-0144-04
Abstract: With the rapid development of wireless communication technology and Internet, the diversification and individualization of user demands has led to the explosive growth of data in the telecommunications industry. Whether these data can be effectively utilized and analyzed becomes the key to market competition. Based on network operational data, the paper takes the big data public service platform to produce platform framework and related technologies in China Mobile Hainan. Finally, the paper introduces the applications of telecom big data in the transportation, tourism, public security, education, oceans etc.
Key Words: Telecom; Big data; Operation; Data analysis
隨著無線通信技術、互聯網技術、以及物聯網技術的不斷發展,智能終端也變得越來越普及,智能化和信息化的溝通、娛樂、辦公方式促使了大數據時代的來臨[1]。在這個信息為王的時代,電信運營商自身以其獨特的天然優勢,擁有著海量的用戶數據,這些數據資源可以為運營商在市場營銷、業務管理、需求分析等方面提供科學的判斷依據。因此,誰能夠在這個新環境下有效地利用這些數據,就能在市場中把握先機。電信數據雖然在質量上面還存在一些缺陷,但是相對于其他數據,電信大數據仍然具有其自身獨特的優勢和發展潛力[2]。電信大數據的優勢可以體現在以下三個方面:(1)大體量:極高的用戶覆蓋率、大規模的用戶量、以及全面的業務類型、日均數據量可達到T級別;(2)多樣性:數據維度多樣,以不同的事件參數或周期來記錄用戶行為,刻畫更加立體和全面;(3)時效性:在很小的時間粒度下,快速處理、采集、記錄用戶行為,并實時進行統計運算和分析。因此,運營商可以通過對海量電信數據的全量采集、實時監測、安全管控、多元分析,打造新洞察能力,并融合現有的交通、電力、教育、旅游等行業數據,從而提供網絡大數據公共服務。
本文的結構如下:第2節,描述大數據公共服務平臺架構;第3節,在平臺架構的基礎上,介紹了大數據公共服務平臺關鍵技術;第4節,給出了大數據公共服務平臺應用舉例;最后,總結全文。
1 ?大數據公共服務平臺架構
本文以中國移動海南公司搭建的大數據公共服務平臺為例,以功能模塊的形式來分析該平臺的主要架構。該大數據服務平臺主要可以分為三個模塊:數據管理模塊、算法分析模塊、以及公眾服務模塊,如圖1所示。
1.1 數據管理模塊
數據管理模塊不但需要對移動通信領域的各類用戶和業務數據進行采集、處理、以及整合,還需要提供各類數據的接入和分析的接口,為上層的算法分析模塊做準備。此外,該模塊還必須兼備數據存儲、維護和管理的工作。
1.1.1 數據采集
數據采集的首要工作是根據大數據服務的需求來確定目標客戶、數據范圍、采集目標、以及調度安排[3]。其次,該模塊需要負責將不同平臺采集的各類數據進行提取、分解、轉換等操作,并匯總到數據處理模塊中。本平臺數據采集主要分為兩個方面,一是中國移動海南公司自身的平臺優勢,直接從集中性能平臺接入和采集2/3/4G信令、MRO、GPRS、網管數據、交易數據等原始數據;二是根據不同的公眾服務,與相關行業進行合作來獲取用戶和行業數據,例如交通、電力、教育、旅游、治安、海洋等業務數據。為了滿足不同的數據需求,數據采集主要是通過DPI識別技術、智能爬蟲技術、實時采集、人工測量等方式。
1.1.2 數據處理
經過不同接口機輸入的數據,由于采集的海量數據具有不同的格式、特征、粒度、來源等,因此數據處理模塊首先必須具有存儲和處理不同類型數據的能力。首先,本服務平臺使用Hadoop實現分布式的數據云計算和共享服務[4]。其次,使用HDFS、Hive、Zookeeper、HBase、Sqoop、Spark等數據庫來處理和分析不同類型、規模和來源的用戶數據,如LTE、MC、CSFB、Volte、DPI、GN等數據。最后,根據數據處理場景的特點,使用Kafka和Strom等組件實現數據的批處理和流處理。
數據處理模塊還需要根據具體的需求,進行不同維度的數據整合,如時間、業務場景、粒度等。數據整合主要的操作步驟可以分為:數據清洗、數據關聯、數據計算、以及數據的標準化等操作。數據清洗可以濾除不完整和錯誤數據;數據關聯可以將不同來源和種類的數據通過相同的標簽進行捆綁分析;數據標準化可以實現多種數據之間的比較和計算,為數據挖掘做準備。
1.2 算法分析模塊
算法分析模塊主要是根據數據處理模塊輸入的數據從不同維度、層次、以及內容上進行挖掘,從而對客戶行為進行分析,為上層應用提供科學的支撐和服務。
數據挖掘是依賴現有的用戶數據,對用戶的已有行為進行分析,從而預測用戶下一步行為和隱藏的需求。本平臺主要挖掘和分析用戶屬性數據、通信數據、位置信息數據、時間特征數據、以及頻率統計、上網數據等來分析用戶的通信行為、上網行為、用戶偏好等[5]。基于基礎數據,本平臺利用聚類分析[6]、決策樹、回歸分析、統計分析[7]等數據分析方法來發現數據規律和現象,從而提供決策的量化依據。例如,本平臺根據用戶的小區信息以及接收的信號強度計算出用戶位置,并持續觀察和統計大量的用戶位置信息?;诖髷祿畔ⅲ镁垲惙治鏊惴ǖ玫饺肆鞯牧晳T路線,并結合數據庫中的道路規劃數據,實現智能交通管控。
1.3 公眾服務模塊
數據通過算法分析模塊之后,公眾服務模塊需要將客戶所關心的分析結果通過一站式的WEB服務展示出來。由于公眾服務模塊與用戶直接接觸,因此界面必須實現直接、簡潔、美觀、友好。本平臺中公眾服務模塊主要包括的服務有公共交通、社會治安、海南旅游、社會民生、海洋漁業、以及國漫分析,因此可以對公共事業管理提供更深層次的支撐。
2 ?大數據公共服務平臺關鍵技術
在大數據公共服務平臺的功能模塊的基礎上,該平臺主要涉及的關鍵技術有智能化網絡爬蟲技術、數據處理存儲技術、數據挖掘技術。
2.1 智能網絡爬蟲技術
中國移動海南公司獨立研發的智能網絡爬蟲技術,可以達到實時與全面進行兼顧的目的,全方位監控全網,重點網站15min發現輿情并上報。本平臺使用分布式爬蟲服務器集群,并結合Kafka來實現任務隊列的對接,平臺可以實現對人工定義的20萬重點站點中的新聞、論壇、博客 、微博、微信等信息以及全國主要平面媒體電子版的快速全面的抓取。其次,平臺根據抓取的頁面信息,結合深度學習算法去智能化地提取網頁價值信息[8],如標題、時間等,無需再手動規定規則。雖然智能化解析會存在一定的差錯,但是卻可以大大地提高工作效率,這對于體量如此之大的電信數據來說是非常重要的。此外,該爬蟲技術還支持多編碼(如GBK 、UTF-8、BIG等)和多語言,并能抓取境外網站信息、封閉系統等信息。
2.2 數據處理存儲技術
由于電信數據的來源和種類都非常豐富,因此數據挖掘的過程中常常面臨上百TB甚至PB的異構數據[9],因此需要一套完善的數據處理和存儲機制來保證數據挖掘的正確性。本平臺主要分為流處理(實時數據)和批處理(統計數據),從而實現不同數據需求。
流處理:數據接口機接入數據采集模塊發送過來的數據,經過SendKafka服務將數據發送到Kafka集群,并根據數據類型做數據分區及負載均衡,最后Storm集群主動拉取Kafka中的數據,從而實現實時數據的獲取。
批處理:數據接口機接入數據采集模塊發送過來的數據,經過HDFS分布式文件系統分別發送到MapReduce、HIVE\TEZ、以及Spark存儲系統中。由于MapReduce適用于大規模的數據分析和運算,因此MapReduce將數據進行大批量的計算后,加載到適合毫秒級查詢的Hbase中,這里主要用來存取爬蟲數據。經過HIVE\TEZ和Spark處理后的數據共同傳送到Sqoop數據庫,最后Sqoop把需要展示的指標數據同步到傳統數據庫中。
2.3 數據挖掘技術
本平臺涉及到的聚類算法有聚類分析、神經網絡、統計分析、關聯規則、回歸分析等。
聚類分析可以根據指定的維度,對不同的觀察對象按照相似度進行群組劃分,被分為同一群組的對象認為具有較高的相似性,不在同一組的對象則認為具有很高的相異度[10]。在本平臺中,聚類分析常常用來分析人流的聚集情況,用戶的異常行為,常住人口的變化情況等。
神經網絡算法具有大規模批量處理的特點,具有良好的容錯性、自適應性,只要輸入的數據夠多,它就可以給出足夠精確的分析結果。例如,在本大數據平臺上,可以使用神經網絡針對用戶的上網行為和通話行為對用戶進行分類,不同標簽的用戶代表對運營商的忠誠度。此算法不但可以預測潛在的流失用戶,還可以根據用戶的不同標簽準確地評價用戶流失的原因。
在本平臺中,統計分析主要指的是展示數據信息,統計數據的特征值(平均值、眾數等),對比數據變化程度,異常值報警等。通過對網絡核心數據的實時跟蹤,網管人員可以隨時了解網絡運行情況,并對突發情況做出及時反應。
3 ?大數據公共服務平臺應用舉例
基于大數據公共服務平臺目前已經投入使用,并對用戶面數據、信令面數據、以及軟測數據等進行了深入的挖掘和分析。目前該大數據公共服務平臺已經服務于交通、電力、教育、旅游、治安、海洋等行業,本文以交通和治安為例進行分析。
在交通行業方面,數據分析的主要來源是道路規劃數據,人流習慣線路,以及出行習慣方式。其中,人流習慣線路是對用戶的位置信息進行數據挖掘得到,出行習慣方式和道路規劃數據是通過相關資料和調查得到。在平臺中,交通擁堵重點防治地區,主要防治線路人流擁堵情況都可以通過GIS直觀展現,可以實現分鐘級的道路擁堵預警,如圖2所示。此外,該平臺還可以實現交通肇事路段實時呈現、交通事故發生路段擁堵示警、交通事故頻發路段預警、上下班高峰路線預警、公共交通熱度實時在線呈現、公共交通集中路段、時段示警、叫車行為熱度實時在線呈現、叫車集中路段、時段示警等功能。
在治安方面,主要從騷擾電話、聚眾突發事件、以及治安案件三方面對社會治安進行維護。該平臺已經實現了準實時呈現人群快速聚集區域,并對30min以內驟增100人以上的區域進行告警呈現,對聚眾鬧事等突發治安事件提供預警支撐,人群驟增區域預警如圖3所示。該平臺還可以實現地圖上直觀展現歷史報案頻發區域,重點區域人流變化預警染色,展現歷史消防敏感區域,騷擾電話統計等。
目前該大數據平臺主要還是側重于服務客戶方面,因此該平臺的服務可以從深度和廣度方面進行完善。運營商憑借自身的優勢,可以獲得用戶多維度的數據,因此大數據服務平臺可以提供的服務也不止于此,不但還可以延伸到醫療、金融、社交等行業,還可以根據客戶特點推出相關周邊產品和增值業務,實現精準營銷。就深度而言,大數據平臺還可以對數據進行深入挖掘,這就不僅需要對單維數據進行分析,還需要對不同維度之間的關聯性進行挖掘,更加精準地預測用戶行為和特征,有利于提高用戶體驗,增加客戶粘性。
4 ?結語
隨著數字化和智能化時代的到來,傳統的運營商也面臨了前所未有的挑戰。在這個數據爆炸的社會,運營商憑借自身優勢管理著大量的用戶數據和業務數據。中國移動海南公司利用電信大數據搭建了一套完整的大數據公共服務平臺,該平臺主要分為數據管理模塊、算法分析模塊以及公眾服務模塊。該平臺利用大量的大數據采集、數據處理技術以及數據挖掘技術,為海南公共交通、社會治安、海南旅游、社會民生、海洋漁業等方面提供了智能化的管理方法,助力政府實現數字化、智能化、智慧化管理。
參考文獻
[1] 王文學,陳天池,徐海燕.大數據在電信行業的應用研究[J].信息通信,2019(3):241-243.
[2] 韓玉輝,高潔,成晨.電信大數據在交通行業的應用探討[J].郵電設計技術,2018(10):15-19.
[3] 李冰,孫鵬.電信行業大數據應用分析及實例展示[J].山東通信技術,2017,37(2):35-36.
[4] 劉曉波.通信運營企業大數據平臺的建設探究[J].通訊世界,2019,26(5):111-112.
[5] 周彬.數據挖掘在天津聯通內部審計中的應用研究[D].天津大學,2017.
[6] 姚黎強.大數據在運營商中的應用[J].電信工程技術與標準化,2018,31(9):56-59.
[7] 葉倩.大數據技術及其在通信領域的應用[J].中國新通信,2019,21(7):38.
[8] 楊心紅.移動互聯網時代運營商大數據IT支撐企業發展策略研究[D].北京郵電大學,2018.
[9] 鄭吉妮,曾長江.節假日通信保障移動網絡大數據分析建模[J].中國新通信,2019,21(6):42-43.
[10]劉昭,張海峰,李瑋,等.運營商發展大數據技術及建設模式展望[J].電信工程技術與標準化,2015,28(3):12-16.