郭 軍
(61932 部隊,北京 100071)
大數據時代的到來,改變了人類生活的方方面面,人們的生活在因為大數據的到來而受益良多,比如人們的生活中支付的方式從現金支付逐漸轉變成手機支付,人們的生活物品的超市購買也逐漸實現網絡購買、送貨上門等,這些改變給人們的日常工作和生活帶來了更多的便利。但同時值得指出的是,大數據時代的到來同樣也帶來了一定的影響,因此需要對大數據的采集和存儲投入更多的關注,以便更好的利用通信運營信息大數據。
在通信運營信息下的大數據主要是為了進行數據的采集、處理以及存儲,將這些大數據進行處理可以更好的對這個時代的大數據的變化動向予以及時的把握,從而制定更好的發展方向和前景。而大數據對信息的收集主要把包括三個方面,對用戶信息的收集、對網絡信息的收集、對管理系統與用戶的關系進行收集。
數據源層:在我國有三大通信運營商,他們各自都有著大量的數據量,而數據的寬度和廣度都很大,這也以此為通信運營的大數據網絡提供了豐富的數據,而通信運營大數據平臺主要由數據源層、數據采集層、數據存儲層、數據分析層、數據匯聚層、數據服務層、用戶應用層、平臺管理系統構成。
數據采集層:ETL 利用第三方數據和業務系統數據,結合業務數據庫終端接口、移動DPI 信息、FTP 文件傳輸協議等對數據進行處理,并通過提取、轉換、加載等方式傳輸到數據平臺存儲層。數據收集使用多種格式的數據源來完全覆蓋結構化和非結構化數據信息。該方法能夠周期性的進行數據收集,實現數據的穩定來源。
數據存儲層:在數據的存儲之中主要采用的是分布式的方式,將各種數據進行有條理性的存儲在服務平臺中,而數據存儲對數據會進行更加科學的分析,在分析之后在進行更加合理的分配和存儲。
數據分析處理層:對于大數據處理,為了提高海量信息處理的效率,平臺對信息流的實時處理和計算主要通過離線和分布式處理方式來完成。MapReduce 因為具備較強的靈活性而被用來來完成離線處理的工作,Srorm 則主要來進行分布式的處理工作。在當今時代中,數據的基礎含量也隨著社會的不斷進步而逐漸增加,這就對數據分析處理提出了更高的要求,所以在在數據的分析和處理的過程中更需要對相關的數據進行更加全面的分析和處理,從而有效的保障數據的有效利用率。
數據匯聚層:在數據的匯聚層中,主要通過Hbase 來對數據庫中的數據進行存儲和查詢,這種方式能夠使數據的查詢更加的方便快捷,同時也能夠減少數據的數據查詢的繁瑣性。
數據服務層:數據服務層主要是為第三方提供數據查詢、分析、可視化的服務,讓第三方能夠及時的從信息數據服務平臺及時的獲得相關的數據,以為第三方的發展提供服務。
用戶應用層:主要是指為用戶提供短信推送、日志推送以及服務項目退漿等功能,讓用戶能夠及時的對相關產品進行了解和使用。
平臺管理系統:平臺管理系統主要是指對通信運營胸大數據平臺進行管理的系統,包括安全系統、維護系統以及數據采集系統等。
在通信運營大數據平臺中,大數據數據采集的方法主要有三種,分別是系統日志采集方法、網絡數據采集方法、其他數據采集方法。而系統日志采集方法主要有三,分別是Facebook 的Scribe、Hadhoop 的Chukwa 以及Cloudra 的Flume,這三種是最常用的系統日志數據采集方法,而且基本上每一個通信運營商都有著屬于自己獨特的系統日志數據采集方式。而網絡數據采集方式則是通過網絡的方式來完成數據的采集,首先需要將需要在某些網站上采集信息的網站數據列入到數據采集的行列中,這樣才能將訪問該網頁的用戶的信息進行收集,然后相關的爬蟲會將所收集到的數據寫入到數據庫中。而其他的一些數據采集方法則是通過與企業活研究機構進行合作,使用一些特定的數據采集方式進行數據的采集。
在通信運營大數據的存儲之中,通常采用虛擬存儲技術、高性能的I/O 技術以及網格存儲技術,這三種技術能夠很好的實現大數據的存儲,能夠很好的保障數據的安全性,同時也能夠更好的方便數據的搜索和查找。虛擬存儲技術主要是能夠提供虛擬磁盤等,可以很好的實現數據的合理應用,而且還能夠很好的降低成本,優化存儲方式。而網格式的存儲方式也能夠對數據進行很好的存儲,同時也更加的富有條理性。
當今時代是一個大數據時代,大數據對人類的生活、工作和學習產生很大的影響,因此需要對大數據的收集和存儲投入更多的注意力以保證收集到大量的數據,同時也需要保證數據存儲的安全性和有效性,提升數據的有效利用率。