大數據環境下的領域數據體系設計方法研究

2015-05-12 13:23:52張婷夏宏雷

卷宗 2015年4期

張婷　夏宏雷

1 引言

隨著我國各類大型集團企業信息化改革的不斷深入，各大型集團企業迫切要求提升企業管控水平。而企業管控能力的提升，需要對大量的業務數據進行綜合處理與分析，為管控決策提供支撐。因此，對這類大型集團企業范圍內的領域級數據進行深入整合、存儲、發布和管理是進行高效數據利用的前提，也是提升企業管控水平的基礎。同時，隨著大數據、云計算等新技術的快速發展和應用，各類大型集團企業也需要制定自身的數據體系構建策略和數據標準。

2 大數據環境下的領域數據體系設計方法

大數據環境下的領域數據體系設計方法的主要思想是：在大數據環境下，以數據體系需求分析階段得到的數據資源為基礎，參考具體領域的數據標準（若有），利用已有系統的數據資源，分別對結構化數據和非結構化數據的數據關系進行梳理，獲得數據分類和編碼。然后根據數據模型定義數據存取格式，最后結合SOA技術和云計算技術，將數據資源服務化，建立領域統一的數據概念定義、分類體系、編碼規則與數據模型，并進一步構建大數據環境下的數據服務資源集，實現數據的可視、可用、可管理和可信任。其技術方案如圖1所示。

2.1 大數據環境下的數據關系梳理

針對領域數據類型多樣性和異構性，分別對結構化數據和非結構化數據進行數據關系的梳理。對于結構化數據，首先進行基于形式化本體的領域數據概念分類，然后根據分類進行領域數據的層次編碼與代碼設計，接著分析數據關系，構建數據邏輯模型。對于非結構化數據，首先進行實體的識別，然后進行實體關系抽取。這個階段主要在梳理數據關系的基礎上產生數據分類和編碼。

2.1.1 結構化數據的關系梳理

（1）基于形式化本體的數據分類

基于形式化本體的數據分類步驟如下：

步驟一：在概念分類的基礎上構建數據概念庫。

步驟二：建立數據概念庫，根據漢語詞語的特點，結合數據概念的特點，將數據信息概念分為元概念和復合概念兩大類。

步驟三：領域數據概念的基本特性，引入數據元屬性，主要包括抽象性、存在性、統一性、依賴性和拆分性。

步驟四：對元屬性進行約束和假設。

步驟五：分析元屬性之間的組合，不同的組合方案對應于數據分類中不同的分類層次，完成數據概念的形式化分類。

步驟六：設定復合概念約束條件，實現分類中數據復合概念的選取問題。

步驟七：確定概念之間的同義、上下位、整體部分、屬性-宿主和實例等關系。

（2）數據的層次編碼

層次碼能反映編碼對象間的隸屬關系。層次碼編碼方法以編碼對象集合中的層級分類為基礎，將編碼對象編碼成為連續且遞增的組（類）。位于較高層級上得每一個組（類）都包含并且只能包含它下面較低層級全部的組（類）。每個層級上特性必須互不相容。

2.1.2 非結構化數據的梳理

（1）實體的識別

實體識別技術在處理分析非結構化數據時，處理分析的實體主要有名稱、地址、機構名、時間、數量詞等五大類信息。但是對于結構比較隨意、內容復雜多變、長度變幻不定的信息進行識別時，則要通過搜集大量的指示詞和特征詞，根據上下文進行初始判斷。然后通過統計詞出現的頻率來進行最終的實體結果判定。

（2）關系抽取

關系抽取的目標是發現海量數據中實體間的語義關系。考慮針對不同形式的數據文件設計不同的實體關系抽取任務。同時也可根據領域的特點定義具體的關系模型。在定義關系模型之前，可以事先分析部分特定語料，由此定義了最有可能出現在這種語料中的基礎關系類型，然后逐步完善使實體類型與關系類型的定義通用化。

2.2 大數據環境下的數據描述定義

針對大數據環境下領域數據類型多樣性和異構性，分別對結構化數據和非結構化數據進行數據描述定義。對于結構化數據，依據數據分類和編碼整理數據目錄，構建數據字典、定義元數據。對于非結構化數據，依據實體和識別出的關系整理出非結構化數據的目錄，并使用鍵值型數據、文檔型數據、列式型數據或圖形型數據模型對非結構化數據進行建模。

2.3 大數據環境下的數據存儲格式定義

根據在大數據環境下的數據描述定義，先對數據的存儲格式進行定義，然后基于結構化和非結構化數據的不同類型，分別選擇不同的存儲數據庫。最后定義數據交換格式，用于規范不同的數據庫之間數據的交換。

在對存儲格式進行定義時主要使用分布式存儲技術，將數據文件分塊，然后分別存儲在多臺主機上，以提高數據訪問速度和讀寫的效率。利用Hadoop框架中的HDFS文件系統中所使用的分布存儲技術存儲MB、GB甚至TB級別的超大文件；實現最高效的訪問模式，即一次寫入、多次讀取。

完成數據存儲格式定義后，進行存儲數據庫的選擇。使用鍵值型數據庫、文檔型數據庫、列式數據庫或圖形數據庫以及XML對非結構化數據進行存儲，使用關系型數據庫（RDB）對結構化數據進行存儲。

對于不同的數據存儲形式，需要構建數據交換格式和規范，對領域數據中數據元素要制定相關規范，用于數據交換。

2.4 大數據環境下的數據資源服務化

在大數據環境下，梳理數據所需要的資源和服務，通過建立服務數據模型，對Web服務進行封裝，然后對數據服務資源進行發布，基于SOA技術和云計算技術，設計面向大數據的數據資源的服務化方法和領域數據資源服務化的架構，將數據資源服務化，確保用戶對領域數據使用的一致性。

（1）數據資源服務化方法

數據資源服務化是將各種數據資源構建形成一個服務系統。其核心是通過數據資源服務化封裝將數據資源虛擬化，形成一個邏輯資源服務，并將服務注冊到數據資源注冊中心，數據資源用戶可以通過服務發現/查找獲得所需要的數據資源信息，綁定相關服務，通過服務調用實現對數據資源的訪問。數據資源用戶可以通過對不同的數據資源服務的組合、服務流程的編排實現復雜的數據集成。

（2）領域數據資源服務化的架構設計

領域數據資源服務化針對各種異構數據資源，統一了數據訪問接口和數據表現形式，形成一個統一的、跨平臺的數據訪問模式，實現了異構數據資源的統一訪問。而數據資源提供者可以將可共享的數據以服務接口的形式暴露出來，通過標準的服務描述語言WSDL加以描述，實現了數據資源集成的可擴展性以及數據資源的動態集成。

3 結語

在大數據時代來臨的今天，如何使數據體系和標準設計能夠滿足業務發展和技術變革的要求，結合新技術的發展使積累的數據具有更高的價值，是大型集團企業信息管理部門所面臨的挑戰和機遇。本文從領域級數據體系設計方面對當前和未來信息資源管理和應用的技術架構進行了研究探討。根據數據生命周期的規律和特點，提出了一種領域數據體系設計方法，希望該方法能給各集團企業數據資產的管理和應用提供一種可靠和行之有效的方法。