王若倪

摘要:指出大數據發展的趨勢:混合數據存儲是大數據技術的基礎;融合數據庫架構是大數據發展的趨勢;異構數據關聯是大數據平臺的關鍵;行業知識庫是產業互聯網應用發展的要素;深度標簽是大數據挖掘的核心技術之一。介紹了中國電信燈塔大數據行業應用平臺的架構,及所采用的關鍵技術和行業應用,認為該平臺的使用可以充分發揮運營商數據與外部數據相結合的優勢,加速產業升級和商業模式創新。
關鍵詞: 大數據;趨勢;燈塔;應用
Abstract: In this paper, trends in big data technology are discussed. Mixed data storage is the foundation of big data technology; database schema integration is the trend of the development of big data; heterogeneous data association is key to big data platform; industry knowledge database is the key elements of the application and development of the Internet industry; depth labels is one of the core technologies of data mining. Then, the Dengta big data industry application platform of China Telecom is introduced. This platform can be fully combined with operator data and external data in order to accelerate industrial upgrading and innovation of business model.
big data; trend; Dengta; application
大數據是信息時代技術創新的產物,大數據與云計算、物聯網等新技術相結合,正日益深刻地改變著人們的生產生活方式。大數據產業的出現和發展是現代信息技術與互聯網時代海量信息發展到一定階段的必然結果,必將對當今社會的信息技術、商業模式和相關的法律法規產生深刻影響。大數據經歷了基礎理論研究和產業應用探索,與行業應用結合已成為大數據發展的新機遇。
1 大數據技術發展趨勢
(1)混合數據存儲是大數據技術的基礎
在大數據環境下,數據量達到了PB級甚至EB級。大數據存儲一方面需要提供超大容量的存儲空間,另一方面需要支持對海量數據的智能檢索和分析。為了兼容各種類型的大數據應用,大數據存儲需要提供混合的數據存儲模型,支持文件、對象、鍵值、塊等多種訪問接口,作為大數據技術的基礎[1-2]。
(2)融合數據庫架構是大數據發展的趨勢
隨著大數據業務的發展,除了面向強關系型的結構化查詢語言(SQL)數據庫之外,面向各類應用的接口靈活、功能豐富且高效的NoSQL數據庫也得到了蓬勃發展。在應用類型多樣、數據種類繁多的大數據平臺中,融合關系型數據庫、列數據庫、內存數據庫、圖數據庫等多種數據庫的混合數據庫架構,能夠滿足多種場景下的數據處理需求,是大數據發展的必然趨勢。
(3)異構數據關聯是大數據平臺的關鍵
當前,各行業、企業、系統、平臺都累積了海量的數據,這些數據結構不同且相對獨立,在沒有建立起關聯關系的情況下,難以展現出數據的優勢。將這些多源異構數據進行關聯和融合,挖掘數據之間的相關性,能夠為數據分析奠定堅實的基礎,最大限度地發揮數據價值,是大數據平臺的關鍵所在。
(4)行業知識庫是產業互聯網發展的要素
隨著“互聯網+”戰略的實施,各產業尤其是傳統產業,紛紛進行互聯網化轉型。在“互聯網+”的浪潮下,面向多個行業,深挖行業知識詳情,構建行業知識庫,形成完整的行業知識體系,能有效推動數據應用與價值落地,是產業互聯網發展的關鍵。
(5)深度標簽是大數據挖掘的核心技術之一
數據挖掘越來越多地應用到各個行業應用領域,使用數據挖掘技術而打造用戶深度標簽,已經逐漸成為大數據挖掘的熱點。通過針對大數據場景的數據挖掘,深入分析用戶行為,打造多層次、多角度的用戶深度標簽。深度標簽是大數據挖掘的核心技術之一,它使得大數據應用更加精準,業務能夠更加貼近用戶,更好地滿足用戶的需求[3]。
2 燈塔大數據行業應用平臺
總體架構
在大數據的發展浪潮下,中國電信股份有限公司北京研究院通過大數據技術創新,自主研發了業內領先的燈塔大數據行業應用平臺。燈塔大數據行業應用平臺深入研究大數據平臺技術和應用技術,為滿足頂層大數據應用需求,自主開發大數據能力,實現電信數據與外部數據相融合的大數據分析挖掘,打造了ID關聯模型、用戶深度標簽、行業知識庫、分布式爬蟲、數據可視化等平臺即服務(PaaS)層能力,并以標準化應用程序編程接口(API)的形式支持頂層數據的相關應用,打造了市場研究、泛義征信、地理洞察等三大領域的6款大數據應用。
燈塔大數據行業應用平臺技術架構如圖1所示,其底層平臺基于開源技術搭建,融合了離線批處理、內存計算、流計算等多種計算模型,以及關系型數據庫、列數據庫、內存數據庫、圖數據庫等多種數據庫模型,向上提供計算和存儲能力;在大數據開放能力層,研發了ID圖譜、用戶標簽等多種大數據分析挖掘技術,并結合第三方的地理信息系統(GIS)等能力,面向多個行業領域,向應用層以API的形式提供多種數據服務。
3 燈塔大數據行業應用平臺
關鍵技術
燈塔大數據行業應用平臺主要研發了混合數據庫、ID關聯模型、用戶深度標簽、行業知識庫、統一數據采集與存儲等幾項關鍵技術。
3.1 混合數據庫
融合關系型數據庫、列數據庫、內存數據庫、圖數據庫,并提出面向不同存儲過程和計算需求的混合數據庫模型,可以滿足多種場景下的數據處理需求,解決單一數據庫模型無法滿足大規模數據訓練、高頻高實時性計算、網狀結構計算等不同場景下的數據處理問題。
如圖2所示,海量數據計算使用非關系型數據庫(NoSQL)來支持;網狀結構數據的機器學習訓練依靠圖數據庫(Neo4j)來支持;高頻高實時性計算對接內存數據庫(Redis);小規模頂層數據查詢與展現對接關系型數據庫(SQL)。具體來說,包含4點內容:
(1)能夠實現有一定實時性需求的、傳統千萬級及以下的數據查詢與展現業務,并基于傳統關系型數據庫MySQL來構建。通過加載數據預讀取算法,MySQL的單機處理能力可以達到秒級訪問5 000萬條多維數據的水平,能夠滿足一般的數據查詢業務需求。
(2)對于千萬級以上的數據查詢業務,已超出單臺MySQL的支持水平,更適宜轉化成離線查詢業務,直接使用非關系型數據庫HBase來支持。此時數據查詢的范圍可擴展至數十億甚至上百億,系統仍可平穩輸出查詢結果,前提是付出分布式離線計算的延時代價。
(3)對于在深度包檢測技術(DPI)數據的K-V查詢過程中需同步完成標簽數據在燈塔本地服務器的ETL工作的場景,任何傳統磁盤輸入輸出(IO)基本都無法支持該高頻數據存取操作,則借助內存數據庫Redis來完成。Redis可在典型的單臺計算資源下支持100毫秒級的數據ETL操作,并且可以與K-V查詢進行無縫銜接,輕松應對每日2億條標簽數據入庫。
(4)對于圖狀數據結構,如燈塔平臺中典型的ID知識體系,則適合從邊和節點的角度進行數據存儲、表達和計算,無論行數據庫還是列數據庫都不再適合,因此采用圖數據庫Neo4j來支持。
目前,燈塔大數據行業應用平臺支持1 000萬級多維數據的秒級查詢展現,10億級多維數據的24 h內基礎演算,100毫秒級的數據流處理,并可秒級完成10億級邊、1 000萬級節點的子圖查詢運算。
3.2 ID關聯模型
基于圖計算技術構建ID關聯模型,采用圖數據庫進行數據存儲和模型計算,實現DPI數據內的多種用戶ID關聯,解決了電信數據與外部數據有效關聯和拼接的問題。ID關聯模型建立設備標識—場景的圖模型,通過圖數據庫、圖計算得到隱性變量用戶唯一標識,打通用戶各個設備,實現全面的用戶畫像。
ID關聯模型對內實現數據融合,將DPI數據內的多種用戶ID關聯,實現多場景、多屏幕信息打通,從而實現更全面和精準的用戶描述;對外實現數據開放,借助從DPI中挖掘出的外部ID,實現運營商數據與外部數據的打通,從而打破了電信數據開放的壁壘。
目前,燈塔大數據行業應用平臺已積累超過100類ID數據,ID總量超5 000萬。
3.3 用戶深度標簽
根據用戶上網行為、使用機器學習和模式識別等算法,如樹狀增強型樸素貝葉斯(TAN)分類算法等,推斷用戶的性別、年齡等基礎人口屬性,并打造消費偏好、消費能力等其他深度標簽,用于支持用戶行為分析的大數據應用。
目前,燈塔大數據行業應用平臺已構建超過10個行業的總計6 000余類用戶深度標簽。
3.4 行業知識庫
通過整合數據采集、數據存儲、數據形式化、數據表達等環節,打造完善的行業知識庫,為運營商網絡大數據的解析提供必要的支持。其中,行業知識庫的構建包含以下環節:
(1)基于分布式爬蟲進行數據采集。如圖3所示,分布式爬蟲DTSpider基于開源技術WebMagic與內存數據庫技術Redis而研發,搭建在云主機上,提供行業知識庫數據采集解決方案。
(2)面向垂直行業構建知識體系。如圖4所示,行業知識庫面向如電商、新聞、影視等不同的垂直行業,分別構建樹狀知識體系,能夠直接對接標簽能力應用。例如,電商行業的樹狀知識體系,可按照商品類別進行構建,如圖書、服飾、運動健康等。
(3)深挖垂直行業知識詳情。基于從頁面抓取的標題和正文,經自然語言處理得到知識詳情,例如電商庫存量單位(SKU)名稱、價格、參數、評論等。
目前,燈塔大數據行業應用平臺的行業知識庫整體字典規模超過2億,其中電商和視頻分別占1.2億和6 000萬。
3.5 統一數據采集與存儲
面向電信管道數據、互聯網公開數據和企業自有數據等多種數據類型,分別構建數據采集能力,并定義了統一的數據采集接口與存儲接口,解決了多源異構數據的采集與存儲的相關問題。
(1)電信網絡大數據采集
電信網絡大數據采集包含以下環節:DPI分光采集、數據清洗、數據脫敏、規則匹配預處理、業務數據傳輸、數據入庫等環節,如圖5所示。在基層分局進行一次采集與清洗,在業務平臺進行二次采集與存儲。具體來說,在基層分局分光設備采集(一次采集)得到固網/移動DPI數據,然后采用通用清洗規則與白名單規則相結合的方式,過濾掉DPI數據中無效及重復請求,并保證各類業務的數據需求。經過規則匹配預處理,從DPI中抽離并編碼得到業務所需的數據,以標簽形式傳輸(二次采集)并入庫至業務平臺,提供給PaaS層的生成數據能力,最終對接軟件即服務(SaaS)層的數據應用。
根據生產平臺數據接口差異以及頂層業務類型差異,電信網絡大數據的二次采集可采用實時或離線模式。如圖6所示,實時流處理模式是通過K-V查詢接口,以流處理模式,逐條傳輸、ETL、融合并入庫至業務平臺。離線批處理模式是通過安全文件傳送協議(SFTP)傳輸接口,將數據離線批量采集至業務平臺緩存中,再進行批量抽取、加載、轉換(ETL)、融合并入庫至業務平臺。
(2)互聯網大數據采集
互聯網大數據采集通過分布式爬蟲DTSpider進行。DTSpider支持節點動態接入,有效提升爬取效率,避免IP封鎖,具有良好的穩定性和可擴展性。
(3)企業自有數據接入
基于ID圖譜,可對企業的客戶管理系統(CRM)數據進行導入與融合。訂單及其他業務數據,也可導入并可對接燈塔平臺主體數據,支持大數據分析。
目前,燈塔大數據行業應用平臺已采集并匯聚電信數據600多億條,外部數據5億條。
4 燈塔大數據的行業應用
在混合數據庫、ID關聯模型、用戶深度標簽、行業知識庫、統一數據采集與存儲等幾項關鍵技術的支持之上,燈塔大數據行業應用平臺打造了市場研究、泛義征信、地理洞察等三大領域的6款大數據應用,實現了數據產品及服務的規范化、流程化,探索出大數據價值落地的商業模式。其中,在市場研究領域,基于燈塔平臺行業知識庫、深度標簽等數據能力,我們研發了零售研究、消費者研究、決策路徑分析等方面的大數據應用;在泛義征信領域,基于燈塔平臺ID圖譜、深度標簽等數據能力,我們研發了用戶畫像等技術,應用于人力資源、企業征信等場合;在地理洞察領域,基于燈塔平臺ID圖譜、深度標簽等數據能力,結合第三方GIS能力,我們打造了人群流量監測、遷徙分析、店鋪選址等應用。
(1)燈塔在線零研
燈塔在線零研基于電信管道數據,打造電商分析能力,提供在線零售研究業務,數據更新頻率最快可達T+1,支持聯機分析處理(OLAP)查詢,分析維度多達20個。
(2)燈塔消費者洞察
與合作伙伴共同研發的燈塔消費者洞察應用,可以實現電商內容監測、論壇內容監測、用戶多維畫像等功能,支持基礎人口屬性和互聯網行為畫像。
(3)燈塔大數據招聘
與在線人力資源行業相結合,提供求職人員的個人畫像新型簡歷,包括量化的行為偏好、性格特征、個人優勢數據,覆蓋消費能力、學習指數、作息指數、勤奮程度、運動指數等多種維度,從而基于用戶的互聯網行為為企業提供客觀的招聘參考
(4)燈塔背景調查
將網絡行為報告與第三方個人數據相結合,研發并上線新型在線背景調查產品,打造更加高效、完善的背景調查體系。
(5)燈塔在線人口普查
燈塔在線人口普查基于地理位置及互聯網行為數據,為客戶提供基礎人口普查、人口遷徙分析和互聯網偏好分析等服務。
(6)燈塔慧選址
燈塔慧選址結合燈塔標簽數據和線下位置數據,能夠為客戶提供在線選址、運營分析等功能。
除了以上6種應用之外,燈塔大數據行業應用平臺還緊跟市場趨勢及熱點事件,產出10多份高質量數據分析報告,例如“2015年一季度奶粉市場研究報告”、“2015抗戰勝利日大閱兵互聯網分析”、“2015雙十一未消費人群報告”等,并通過移動互聯網進行傳播,覆蓋近萬互聯網受眾,吸引了大數據行業關注。
5 結束語
作為快速發展的新興產業,大數據已經上升到國家戰略層面,成為整個社會最有價值的資產。大數據已經滲透到各個行業領域,其行業應用具有廣闊的發展空間。
燈塔大數據行業應用平臺立足自主研發,深入研究大數據底層平臺能力及數據分析挖掘能力,充分發揮運營商數據與外部數據相結合的優勢,加速產業升級和商業模式創新。燈塔大數據旨在充分發揮數據價值,通過技術創新和應用創新共同驅動,與行業合作伙伴共同打造大數據行業應用生態圈。未來,燈塔大數據平臺將面向房地產、汽車、金融等行業領域打造更多的行業應用產品并提供服務。
參考文獻
[1] 趙慧玲, 楊明川, 孫靜博. 大數據技術發展及其應用[J]. 中國電信建設, 2015, 27(4):36-38
[2] 張引, 陳敏, 廖小飛. 大數據應用的現狀與展現[J]. 計算機研究與發展, 2013(S2): 216-233
[3] ZHAO H L, XIE Y P, SHI F. Network Function Virtualization Technology: Progress and Standardization [J]. ZTE Communications, 2014, 12(2): 03-07. DOI: 10.3969/j.issn.1673-5188.2014.02.001