陳世敏
中國科學院計算技術研究所,北京 100190
大數據產業是全球高科技競爭的前沿領域。大數據技術的推廣應用對國家經濟、政治、法治、科技、文化、教育、民生、社會、生態文明、國家安全等方面,都會產生深遠的影響。傳統的關系數據模型從20世紀70年代出現至今,在商用數據處理方面得到了廣泛的應用。但是,關系模型的簡單、扁平的二維表結構無法滿足各行各業(如社交網絡、物聯網、醫療生物、金融等)日益豐富的大數據表達和處理的需求。于是,實踐中涌現了多種非傳統的大數據類型,出現了一批支持非傳統數據類型的大數據系統,被統稱為NoSQL數據庫系統。其中,應用最廣泛的是鍵值對(keyvalue)數據類型、圖(graph)數據類型和以JSON(JavaScript object notation)等為代表的樹狀結構數據類型(treestructured data type)。
樹狀結構數據類型可直觀地表達高級程序設計語言中類(class)、結構(struct)等豐富的結構,能夠簡潔地支持嵌套、多值和缺值,已被廣泛應用于社交網絡數據服務、Web服務、數據交換格式、分布式系統協議、物聯網等,是一種重要的大數據類型。實踐中常見的樹狀結構數據類型有JSON、Protocol Buffers等。JSON是JavaScript語言標準的一個子集,常常作為數據輸出和數據交換的類型。Protocol Buffers是Google公司推出的一種數據類型,是實現分布式系統內部通信協議的數據格式,也是Google公司的Dremel[1]和BigQuery[2]等大數據系統的數據類型。
本文將對以JSON為代表的樹狀結構大數據類型進行深入介紹,首先舉例說明樹狀結構大數據的含義,然后從多個角度說明樹狀結構大數據的價值和意義,最后結合筆者近期的研究工作,說明樹狀結構大數據類型的處理和支持?!?br>