李廣乾
(國務院發展研究中心 信息中心, 北京 100010)
大數據是當下一個熱得發燙的概念。自從2012年美國政府發布《大數據研究和發展計劃》之后,大數據就開始受到世界各主要國家的高度重視,一些國家和地區都先后發布了有關大數據發展的戰略和規劃。例如,歐盟委員會先后于 2014年、2017年發布了《數據驅動經濟戰略》和《打造歐洲數據經濟》報告,強調大數據是經濟增長、就業和社會進步的重要資源。我國也加快了大數據的發展步伐,近年來中央、地方陸續出臺了160多份大數據相關政策文件,20 個省級單位設立了大數據專門機構[注]相關數據引自工信部信息化與軟件服務業司副司長李冠宇于2018 年6月27日在江蘇省經濟和信息化委員會主辦的江蘇省大數據和新一代軟件產業發展推進會上的發言。資料來源:http://bigdata.huanqiu.com/information/2018-06/12356490.html。。近年來,我國大數據產業發展迅速、規模日益龐大,2015年、2016年、2017年分別達到 2 800、3 600、4 700億元[1]。在這種情況下,人們自然就會問:那么,小數據又在哪里?小數據究竟又有什么價值?
遺憾的是,盡管人們這么好奇小數據,但卻不知道小數據到底是什么,至今也沒對小數據形成一個統一權威的定義。從現有的材料來看,人們對于小數據的說法是多種多樣的:一是認為小數據泛指零星的弱信號,往往被當作沒有規范、看似隨機的偏差或噪音;二是認為結構化的采樣數據就是小數據;三是認為小數據是指信息項目和數據規模較小的數據庫[注]關于這種說法,網易科技2017年10月19日所刊登的一篇《“大數據”這詞不火了是不是因為沒當年說的那么好》的文章就認為,小數據是指簡單到可以直接由人來分析和解讀、不需要求助于超級計算機或者 Hadoop 作業的數據集。資料來源:http://tech.163.com/17/1019/07/D13GJPSS00097U7T.html。;等等。根據這些說法,我們發現人們對于小數據的屬性界定是根本不同的:第一種說法將小數據看作是小概率事件的數據,第二種說法從數據結構類型去認識小數據,第三種說法則簡單地從數據量的多少去界定,顯然是太不著邊際了。由此可見,目前人們對于小數據的認識和理解還是很混亂的。
不過,在正式厘清小數據的概念之前,有必要明確以下3個基本問題:
(1)人們采集、加工處理海量數據,通常都是某種具有特定目的的理性行為。因此,盡管大數據的容量很大、涉及的對象很多,但是人們通常會根據業務類型對這些海量數據進行分類處理。
(2)要體現出某種價值,“數據”本身必須能夠表述一個完整的“信息”。無論是大數據中的“數據”還是小數據中的“數據”,都只是一個抽象的概念。單個的數據本身無法反映什么內容,必須是若干條“數據”綜合在一起去反映某種“信息”[注]這分兩種情況:一種是某數據與其他類型數據組合在一起表達某個具體含義(信息);另一種是眾多的某類數據經過一定的算法處理后,可以揭示某種具體的問題。。而且,從邏輯上來看,通常存在著如圖1所示的層次遞進關系(圖1也被稱為 DIKW模型)。

資料來源:筆者根據相關材料整理圖1 數據、信息、知識與智慧之間的關系
(3)一條完整的信息應該包含一個明確的主體、客體和行為。通常情況下,主體和客體一般都與具體的現實對象(實體)關聯在一起。
上述3個基本問題為我們界定小數據的內涵提供了基本思路,我們可以據此去明確那些界定小數據的基本屬性:
(1)小數據應該與數據容量無關。我們不應該說 20KB 的數據才是小數據,而20MB的則不是小數據。
(2)小數據自身應該包含特定意義。與大數據中的那些不能反映趨勢性價值判斷的零星數據不同,小數據應該是那些自身包含特定意義的數據,特別是能夠反應大數據的某種基本屬性。
(3)小數據應該是一種結構化數據。從前面兩條原則可以確定小數據應該就是一種結構化數據,小數據的最大價值應該是既能夠界定其他結構化數據的屬性及結構,同時也應該能夠被用于界定部分非結構化的數據。
(4)小數據應該是對于大數據(無論是結構化的還是非結構化的)的數據之間關系的宏觀描述。“以小博大”(或者說“統籌大數據”)應該是小數據之于大數據的價值所在。這包含兩個方面的內容:一是對于大數據的基本屬性的描述,具體又包括兩個方面,一方面是對于特定業務類型大數據的屬性的描述,另一方面是大數據中的主體行為特征的描述。二是對于大數據中所包含的主體、客體的基本特征的管理數據。
(5)小數據與大數據形影相隨。與大數據相比,小數據的4V(volume、 velocity、variety、value)發生了不少變化:小數據的數據容量(volume)肯定無法和大數據相比,數據類型(variety)以結構化數據為主;與大數據的時刻變化(velocity)相比,小數據的屬性相對穩定;就等容量的數據而言,小數據的價值(value)要比大數據的大得多且明確得多。
上述五個方面初步概括了小數據的基本內涵及其與大數據的關系。根據這些界定,我們可以嘗試為小數據進行一次具體的定義:所謂小數據就是描述并管理大數據的數據屬性的數據。基于上述分析,我們可以根據這個定義劃分3類小數據(如圖2所示)。

圖2 小數據的分類
第一類:關于特定類型的大數據的數據屬性的數據。其中的“數據屬性”的“屬性”,是包含該數據庫的定義、結構、類型、操作、管理等各個方面內容的一般化的描述。
第二類:描述大數據中所包含的主體、客體的基本特征的管理數據。這包括兩個方面的內容,一是對于大數據中所包含的主體、客體的一般屬性的規定,二是滿足某類主(客)體屬性的所有對象。
第三類:描述大數據中的行為、過程等的數據。這類數據主要是從海量數據中概括、分析、提取的某種“行業知識”、業務框架和發展模型。這是對于行業業務內容的描述分析。
根據上述有關小數據類型的分析,我們發現,小數據本身并不是什么新創的數據類型,而應該是對于大數據中一些特定數據的概括、總結和歸類。而且,這些特定的小數據類型都可以運用現有的專業數據語言(例如元數據、主數據等)來表述。實際上,第一、三類小數據都可以被稱為某種元數據;第二類的第一個方面也是一種元數據,而第二類的第二個方面則應該被稱為某種主數據(如圖3所示)。無論是元數據還是主數據管理,都是在數據庫處理領域得到廣泛應用的基礎性技術。因此,認識和理解元數據和主數據,有助于我們正確地認識和深刻地理解小數據的科學內涵及其本質特征。

圖3 小數據分類與元數據、小數據
“元數據”最初是指網絡資源的描述數據,后來逐步擴展到各種用于描述電子化信息資源屬性的數據。目前,“元數據”這一術語廣泛地應用于各類信息資源的描述記錄。
元數據通常被定義為數據的數據,是用于描述某種數據資源的基本信息的結構化數據。具體地說,元數據是有關一個企業所使用的物理數據、技術和業務流程、數據規則和約束,以及數據的物理與邏輯結構的信息[2],其目的在于:識別資源,評價資源,追蹤資源在使用過程中的變化,實現簡單高效地管理大量網絡化數據,實現信息資源的有效發現、查找、一體化組織與管理[3]。元數據主要包括以下 16 個潛在主題領域(如表1所示)和4種類型(如表2所示),幾乎涵蓋信息系統建設的各個方面。

表1 元數據可能包含的潛在主題領域
注:筆者根據參考文獻[2]整理

表2 元數據類型、屬性與內容
注:筆者根據參考文獻[2]整理
面對種類繁多的元數據,需要實施有效的元數據管理。為此需要建立合理的元數據戰略,并通過開展一系列的元數據管理活動貫徹實施該戰略。這些元數據管理活動主要包括理解元數據需求、定義元數據架構、開發和維護元數據標準、構建合理的元數據評估標準等。此外,針對業務元數據構建各種本體,有利于加強元數據管理效能;構建合理的元數據管理成熟度模型,有利于促進元數據管理持續深入的展開[注]本文有關元數據管理的觀點,綜合參考了《DAMA 數據管理知識體系指南》[2]和 IBM 公司有關元數據產品的相關論述。。
當前,主數據已經被越來越多的 IT 企業應用于其數據管理產品或解決方案中,但是盡管如此,人們對主數據仍然缺乏一個權威的定義。IBM公司發布的有關主數據管理的紅皮書MasterDataManangement:RapidDeploymentPackageforMDM認為,所謂主數據是有關客戶、供應商、產品和賬戶的企業關鍵信息;有人將主數據定義為“表示‘跟蹤事物狀態’的數據”;也有人認為,企業主數據是用來描述企業核心業務實體的數據,比如客戶、合作伙伴、員工、產品、物料單、賬戶等,是具有高業務價值的、可以在企業內跨越各個業務部門被重復使用的數據,并且存在于多個異構的應用系統中;等等。國際數據管理協會(DAMA)認為,主數據是關于關鍵業務實體的權威的、最準確的數據,可用于建立交易數據的關聯環境[1]。

圖4 主數據與其他數據之間的關系
這些定義分別從各自不同角度對主數據進行了界定,我們根據這些不同定義做一個比較全面的概括:所謂主數據是指滿足跨部門業務協同需要的、反映核心業務實體狀態屬性的企業(組織機構)的基礎信息。就企業數據管理來講,主數據主要涉及四大主題領域:當事人主數據、財務主數據、產品主數據、位置主數據[1]。
綜合主數據的各種概念,我們構建一個業務信息系統中有關主數據與其他各類數據之間的邏輯關系,如圖4所示。在圖4中,“業務數據”被分解為“主數據”和“交易數據”。在這里,所謂業務數據是指業務實體完成一項具體行為過程的完整的數據,所謂交易數據是業務實體基于業務行為規則而發生的具體行為過程數據。對于業務數據而言,主數據是相對不變的,而交易數據是每次都會變化的。
由于主數據涉及眾多主數據的產生與應用部門,因此為了協調和管理與核心業務實體相關的系統記錄和系統登錄中的數據和元數據,需要加強主數據管理,為此需要構建一整套用于生成和維護企業主數據的規范、技術和方案,以保證主數據的完整性、一致性和準確性。
元數據和主數據之間有著密切的關系。從概念和邏輯上講,主數據(結構)屬于元數據的一個子集,是一種特定類型的元數據。但是,從產品上講,主數據和元數據是兩個完全不同的概念:元數據是指表示數據的經過抽象的相關信息,比如數據定義等;主數據是指實例數據,比如產品目錄信息等。由于主數據對于業務系統建設具有獨特地位,因而人們往往將其獨立出來并單獨建設、維護,例如客戶關系管理系統(CRM)等。另外,無論是主數據還是元數據,都不是系統自行產生的數據,而是在規劃建設信息系統時從加強業務系統管理角度出發所構建的數據(庫)。
就常規的大數據信息系統建設而言,小數據(元數據、主數據)為我們認識大數據的核心屬性提供了一種有效手段。雖然大數據容量可能很大,但經過初步分析,我們仍然可以從中挖掘、提煉出相關的小數據(元數據、主數據)來。 反過來說,小數據雖然數據容量較小,但人們卻可以通過小數據去認識大數據系統中的海量數據的基本特征。
當前,以元數據、主數據為主要內容的小數據仍然沒有受到人們的重視,小數據對大數據產業發展所具有的積極作用沒有得到應有的發揮、體現。為此,今后應該采取以下措施:
首先,加強研究,深化認識。
人們對于小數據尚缺乏深入研究和深刻認識,今后應該將小數據作為數據科學的重要內容,從數據屬性、知識管理、數據架構等方面對小數據進行專題研究。從促進大數據產業發展來看,當前有必要基于元數據和主數據去深化對小數據的科學屬性的認識。
其次,加強宣傳普及,消除認識誤區。
近年來,大數據產業的爆發式增長掩蓋了人們對于傳統數據庫技術特別是結構化數據管理的關注,并給人造成一種假象,認為大數據技術本身就可以解決數據處理的一切問題。這種錯誤的假象也使得人們在認識小數據方面出現了上述諸多的混亂。實際上,盡管非結構化數據在大數據發展中占據日益重要的分量,但是作為結構化數據(的產物),元數據和主數據對于日益增長的大數據仍然發揮著重要的作用,在大數據系統建設中仍然占據重要地位。
元數據和主數據要遠比其他所謂的大數據的屬性(如小概率事件、隨機偏差、噪音或小容量數據等)更加科學、合理,也有助于人們深刻認識大數據的基本特征。從技術上講,從 ISO8000 以及DAMA 數據管理知識體系的構建來看,元數據和主數據都占據最重要的位置;而從有關大數據處理系統如 Hadoop 等的架構設計來看,建立數據來源的元數據、通過數據清洗等流程保障大數據質量,仍然是必不可少的[4]。
為此,為消除人們的認識假象,今后應該在有關大數據產業發展的政策文件、論壇活動等方面,突出小數據發展議題;在大數據產業發展政策、規劃和重要的信息系統建設中設立小數據發展專項。
第三,基于小數據建立完善我國的數據管理體系,促進我國大數據產業健康發展。
近年來我國各級政府發布了大量促進大數據產業發展的政策文件。但是,這些政策文件著力解決的是如何促進大數據產業發展,而對如何構建數據管理體系著墨不多。由于沒有建立完善的數據管理體系,我國大數據產業普遍存在著數據質量不高、價值無法得到高效發揮等諸多問題。隨著我國大數據產業的深入發展,這些問題勢必不斷加劇并嚴重阻礙我國大數據產業的健康發展。因此,建立和完善國家數據管理體系迫在眉睫。
根據《DAMA 數據管理知識體系指南》,數據管理體系主要包括數據治理、數據架構管理、數據開發、數據操作管理、數據安全管理、參考數據和主數據管理、數據倉庫和商務智能管理、文檔和內容管理、元數據管理、數據質量管理等10個數據管理職能,其中元數據和主數據都各自成為一個獨立的組成部分,可見小數據對于數據管理體系建設的極端重要性。
建立和完善數據管理體系,是保障我國大數據產業健康發展的基礎條件,但這也是一項長期艱巨的任務。從工作需要出發,當前應該基于元數據和主數據管理的理論和方法,構建我國電子政務領域的小數據管理體系。具體工作包括:應用元數據(本體)管理的理論方法,從法律法規和我國行政管理實踐出發,構建我國的(電子)政務管理知識體系;應用主數據管理的理論方法,構建我國的自然資源、微觀與宏觀經濟運行管理的基礎數據資源管理體系,特別是要以主數據管理理論和方法,規范和完善我國電子政務基礎數據庫建設。