黃先果(重慶日報報業集團 技術設備中心,重慶. 400010)
利用大數據為企業的發展服務
黃先果
(重慶日報報業集團 技術設備中心,重慶. 400010)
摘 要:現代互聯網的應用引發了對大規模數據進行快速處理的需求。在很多互聯網應用中,數據呈現規律性,這給并行處理技術提供了機會。例如,Web網頁按特性排序;社交網上朋友關系在網絡中搜索,這個網絡圖結構有上億個節點和幾十億條邊,這樣的存儲單位比傳統操作系統中的存儲塊大很多,用傳統的數據冗余來防止分布在數據上千塊的磁盤上時頻發媒介故障,還有云計算、智能終端、社交網絡、物聯網等廣泛應用,從而產生了大數據。
關鍵詞:互聯網;企業;發展
什么是大數據?我查到的大數據就是:數據量大(Volume)、數據種類多樣(Variety)、要求速度快(Velocity)、蘊藏的商業價值大(Value),也就是大數據的4V特性。符合這些特性的,叫大數據。
第一是數據量大。大致有多大,就是大到PB級別,1PB等于一百多G,和傳統的單個網站數據庫存儲的數據相比,已經是它的上百倍還多,而只有數據體量達到了PB級別以上,才能被稱為大數據。
第二是數據種類多樣性。如果只有單一的數據,那么這些數據就沒有了價值,比如只有一個人數據,或者一個客戶提交數據,這些數據就不能稱為大數據,所以說大數據還需要是多樣性的。例如,當前的上網用戶中,年齡、學歷、愛好、需求等等每個人的特征都不一樣,這就是大數據的多樣性,如果擴展到全國,那么數據的多樣性會更強,每個地區、每個時間段都會存在各種各樣的數據多樣性。
第三是速度快。就是通過算法對數據的邏輯處理速度非常快,以每秒計,可從各種類型的數據中快速獲得高價值的信息,這一點也是和傳統的數據挖掘技術有著本質的不同。
第四是價值大。如果有1PB以上的全國所有20~35歲的年輕人的上網數據,那么它就有了商業價值,通過分析這些數據,我們就知道這些人的需求,進而指引產品的發展方向等等。這就是大數據的價值所在。
為什么要關注大數據?關注大數據的一個原因就是它的高價值,目前大數據在互聯網行業特別是電商應用比較深入,也產生了可觀的價值。如eBay,建立的大數據分析平臺可以準確分析用戶的購物行為。通過對顧客的行為進行跟蹤、對搜索關鍵字廣告的投入產出進行衡量,優化后,eBay產品銷售的廣告費降低了99%,頂級賣家占總銷售額的百分比卻上升至32%。
對于現代企業而言,大數據已不是可選項,而是必選項,誰的數據越多,分析結果越好,誰就越有可能立于不敗之地。例如,重報集團也擁有大量數據:新聞數據、經營數據、發行數據、印刷數據等,把它們的價值鏈數據整合起來,精確關聯,進行大數據的精準分析,挖掘出價值數據,促進集團向前發展。
龐大而復雜的數據給管理帶來困擾,這樣就有了處理大數據的一些技術。例如,Hadoop,Hadoop是一個開發和運行處理大規模數據的軟件平臺,是Apache的一個用java語言實現的開源軟件框架,實現在大量計算機組成的集群中對海量數據進行分布式計算。像百度做搜索,就用Hadoop管理數據。
大數據解決什么問題?其實大數據不解決什么問題,應該是處理大數據的技術解決什么問題。管理大規模的復雜數據需要用到大數據的技術,通過大數據的技術把這些大數據管理分析好了,可以使企業領導對各方面有更明確的認識,做出更好的決策。
各行業的數據都越來越多,在大數據情況下,如何保障業務的順暢,有效地管理分析數據,能讓領導層做出最有利的決策,這就是要使用大數據的原因,也是大數據技術能解決的問題。
最近媒體對馬航MH370航班的報道中,我們不難找到新聞大數據的影子。其中有兩條報道很明顯是從大數據中挖掘而來。一條是歷年來失聯航班的新聞,如法航空客A330失事、洛克比空難等。一條是波音777客機歷年來的故障、遇險新聞。新浪網甚至挖掘出了“世界近年主要空難”、“空難逃生技術”、“世界空難史”等素材,這些都體現了大數據使用的價值。
重報集團的大數據主要是新聞大數據和經營大數據。新聞大數據包括60多年來本集團見報和未見報的所有新聞稿、圖片;包括歷年來沉淀下來的所有新華社圖片、稿件;還包括華龍網成立以來各種發表或未發表的文稿、圖片、視頻乃至論壇精華等。如果有條件,還應該包括國內外主流媒體以及網站的重要文稿、圖片、音頻、視頻等。
重報集團對新聞大數據的建設,算是剛剛起步。雖然已對60多年的重慶日報歷史報紙做了數字化存儲,但各報各網站的所有數據并未有統一的歸檔、備份和檢索,花錢購買的新華社文稿和圖片也沒有很好保存。另外還缺少一套對所有新聞數據進行管理、挖掘、檢索的管理系統。這些新聞數據光存儲下來是沒有用的,還必須能高效地被檢索、被整理出來才能產生效益。這是一個龐大的系統工程。這些問題的解決可能更多的是要和方正公司合作,向他們提出我們的需求。
經營大數據則包括集團生產經營的各項數據,現階段主要有以下幾部分:采編數據;廣告、發行的經營數據;集團財務數據;集團人事數據;EIP辦公數據等。這塊大數據要產生效益比新聞大數據要難得多,必須對數據進行深度挖掘、再挖掘。
對于現階段的重報集團來說,建立經營大數據的工作還沒有開始,各系統現在仍是分割條塊狀態,還未開始融合。
在未來,處理好經營大數據,其中一條道路就是建立一套綜合各個應用系統的、供領導查詢分析的決策系統。這是一個相當龐大復雜的系統,涵蓋了報業集團的所有應用。財務、人事、發行、廣告、采編、辦公、出版甚至安保等系統的數據庫都是其工作對象。我們原先提出的統一編碼,可以成為這一龐大系統的基礎組成部分。我們可以由統一編碼起步,一步步建立起一個完善的綜合查詢分析決策系統。
這里復述一下編碼系統的初步需求:首先,我們要先提煉出一些整個集團通用的元素,然后對這些元素進行編碼。我想出來三個:人員、部門、客戶。這些元素是凌駕于各系統之上的,只要有相同的物件存在于不同系統中,我們都可以把它們提煉出來編碼。這樣一來,不同系統中間相同編碼的元素之間就產生了一種聯系,我們把這種聯系記錄入單獨的數據庫。這個數據庫不單單記錄這些聯系,還要記錄這些元素在不同系統數據庫當中的相關記錄的信息。當我們使用這些通用元素在這個關系數據庫中查詢時,我們就可以查詢到各系統間相關聯的其他元素。舉例來說,我們把張三這個人編碼以后,就可以查詢到這個人是發行的客戶,也是廣告的客戶,或許還是生意伙伴。這是因為在發行、廣告等系統中張三的編碼是一樣的。我們還可以通過張三所在系統數據的詳細信息查到其他的元素編碼(例如:合同編號),從而展開新的查詢。那么如何界定發行系統中的張三和廣告系統中的張三是同一個人呢?我想出來的辦法是為每個通用元素建立一張標準表。第一次錄入數據的時候要首先檢索這張標準表,找到了相同記錄就不用再次錄入,直接選取就可以了(如標準表里面有張三,則不論在哪個系統錄入張三的時候,只需要鼠標選取標準表中的張三就可以)。如果標準表中沒有相應記錄則應先錄入標準表,再從標準表選取進行錄入。這或許要牽涉修改原系統代碼的問題。如果今后集團的應用都采取B/S模式,那么修改的難度會減少很多,只需要修改一個錄入界面。甚至,在了解整個系統的數據庫結構的基礎上,我們可以重寫一個錄入頁面來代替原有的頁面,而原系統代碼只需要作很小的修改。總之,如果完成了這個編碼數據庫,就能夠實現“找到一個點,帶出一大片”的效果。
因此,要開發這個編碼系統,首先,要了解原有系統的整個數據庫結構和字段含義。其次,原有應用系統必須采用B/S模式。再次,一定要找一家有強大開發能力的公司合作,這個系統可不簡單。
要建好經營大數據,另一條道路是和大軟件公司合作。例如,重報集團和Oracle公司合作,利用Oracle公司的各種中間件工具建立一套決策查詢系統。我們所有的應用系統都以Oracle數據庫為后臺。同時我們還要了解所有數據庫的詳細架構和字段含義。
綜上所述,我們今后建立新的應用系統時,應該要注意三點:一是要使用Oracle數據庫。二是在需要時向我們提供所需數據庫的詳細架構和表的字段含義。三是采用B/S模式。
當今的大數據時代,讓商業生態環境發生了巨大變化,智能終端隨處可見,社交網絡隨時在線互動,讓信息傳播方式發生了革命性的變化。大數據的時代已經到來,讓我們和大數據一起發展!
中圖分類號:G20066..22...........
文獻標志碼:AA......
文章編號:11667744--88888833(22001155)1166--00229955--0022