999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據環境下的領域數據體系設計方法研究

2015-05-12 13:23:52張婷夏宏雷
卷宗 2015年4期
關鍵詞:定義概念分類

張婷 夏宏雷

1 引言

隨著我國各類大型集團企業信息化改革的不斷深入,各大型集團企業迫切要求提升企業管控水平。而企業管控能力的提升,需要對大量的業務數據進行綜合處理與分析,為管控決策提供支撐。因此,對這類大型集團企業范圍內的領域級數據進行深入整合、存儲、發布和管理是進行高效數據利用的前提,也是提升企業管控水平的基礎。同時,隨著大數據、云計算等新技術的快速發展和應用,各類大型集團企業也需要制定自身的數據體系構建策略和數據標準。

2 大數據環境下的領域數據體系設計方法

大數據環境下的領域數據體系設計方法的主要思想是:在大數據環境下,以數據體系需求分析階段得到的數據資源為基礎,參考具體領域的數據標準(若有),利用已有系統的數據資源,分別對結構化數據和非結構化數據的數據關系進行梳理,獲得數據分類和編碼。然后根據數據模型定義數據存取格式,最后結合SOA技術和云計算技術,將數據資源服務化,建立領域統一的數據概念定義、分類體系、編碼規則與數據模型,并進一步構建大數據環境下的數據服務資源集,實現數據的可視、可用、可管理和可信任。其技術方案如圖1所示。

2.1 大數據環境下的數據關系梳理

針對領域數據類型多樣性和異構性,分別對結構化數據和非結構化數據進行數據關系的梳理。對于結構化數據,首先進行基于形式化本體的領域數據概念分類,然后根據分類進行領域數據的層次編碼與代碼設計,接著分析數據關系,構建數據邏輯模型。對于非結構化數據,首先進行實體的識別,然后進行實體關系抽取。這個階段主要在梳理數據關系的基礎上產生數據分類和編碼。

2.1.1 結構化數據的關系梳理

(1)基于形式化本體的數據分類

基于形式化本體的數據分類步驟如下:

步驟一:在概念分類的基礎上構建數據概念庫。

步驟二:建立數據概念庫,根據漢語詞語的特點,結合數據概念的特點,將數據信息概念分為元概念和復合概念兩大類。

步驟三:領域數據概念的基本特性,引入數據元屬性,主要包括抽象性、存在性、統一性、依賴性和拆分性。

步驟四:對元屬性進行約束和假設。

步驟五:分析元屬性之間的組合,不同的組合方案對應于數據分類中不同的分類層次,完成數據概念的形式化分類。

步驟六:設定復合概念約束條件,實現分類中數據復合概念的選取問題。

步驟七:確定概念之間的同義、上下位、整體部分、屬性-宿主和實例等關系。

(2)數據的層次編碼

層次碼能反映編碼對象間的隸屬關系。層次碼編碼方法以編碼對象集合中的層級分類為基礎,將編碼對象編碼成為連續且遞增的組(類)。位于較高層級上得每一個組(類)都包含并且只能包含它下面較低層級全部的組(類)。每個層級上特性必須互不相容。

2.1.2 非結構化數據的梳理

(1)實體的識別

實體識別技術在處理分析非結構化數據時,處理分析的實體主要有名稱、地址、機構名、時間、數量詞等五大類信息。但是對于結構比較隨意、內容復雜多變、長度變幻不定的信息進行識別時,則要通過搜集大量的指示詞和特征詞,根據上下文進行初始判斷。然后通過統計詞出現的頻率來進行最終的實體結果判定。

(2)關系抽取

關系抽取的目標是發現海量數據中實體間的語義關系。考慮針對不同形式的數據文件設計不同的實體關系抽取任務。同時也可根據領域的特點定義具體的關系模型。在定義關系模型之前,可以事先分析部分特定語料,由此定義了最有可能出現在這種語料中的基礎關系類型,然后逐步完善使實體類型與關系類型的定義通用化。

2.2 大數據環境下的數據描述定義

針對大數據環境下領域數據類型多樣性和異構性,分別對結構化數據和非結構化數據進行數據描述定義。對于結構化數據,依據數據分類和編碼整理數據目錄,構建數據字典、定義元數據。對于非結構化數據,依據實體和識別出的關系整理出非結構化數據的目錄,并使用鍵值型數據、文檔型數據、列式型數據或圖形型數據模型對非結構化數據進行建模。

2.3 大數據環境下的數據存儲格式定義

根據在大數據環境下的數據描述定義,先對數據的存儲格式進行定義,然后基于結構化和非結構化數據的不同類型,分別選擇不同的存儲數據庫。最后定義數據交換格式,用于規范不同的數據庫之間數據的交換。

在對存儲格式進行定義時主要使用分布式存儲技術,將數據文件分塊,然后分別存儲在多臺主機上,以提高數據訪問速度和讀寫的效率。利用Hadoop框架中的HDFS文件系統中所使用的分布存儲技術存儲MB、GB甚至TB級別的超大文件;實現最高效的訪問模式,即一次寫入、多次讀取。

完成數據存儲格式定義后,進行存儲數據庫的選擇。使用鍵值型數據庫、文檔型數據庫、列式數據庫或圖形數據庫以及XML對非結構化數據進行存儲,使用關系型數據庫(RDB)對結構化數據進行存儲。

對于不同的數據存儲形式,需要構建數據交換格式和規范,對領域數據中數據元素要制定相關規范,用于數據交換。

2.4 大數據環境下的數據資源服務化

在大數據環境下,梳理數據所需要的資源和服務,通過建立服務數據模型,對Web服務進行封裝,然后對數據服務資源進行發布,基于SOA技術和云計算技術,設計面向大數據的數據資源的服務化方法和領域數據資源服務化的架構,將數據資源服務化,確保用戶對領域數據使用的一致性。

(1)數據資源服務化方法

數據資源服務化是將各種數據資源構建形成一個服務系統。其核心是通過數據資源服務化封裝將數據資源虛擬化,形成一個邏輯資源服務,并將服務注冊到數據資源注冊中心,數據資源用戶可以通過服務發現/查找獲得所需要的數據資源信息,綁定相關服務,通過服務調用實現對數據資源的訪問。數據資源用戶可以通過對不同的數據資源服務的組合、服務流程的編排實現復雜的數據集成。

(2)領域數據資源服務化的架構設計

領域數據資源服務化針對各種異構數據資源,統一了數據訪問接口和數據表現形式,形成一個統一的、跨平臺的數據訪問模式,實現了異構數據資源的統一訪問。而數據資源提供者可以將可共享的數據以服務接口的形式暴露出來,通過標準的服務描述語言WSDL加以描述,實現了數據資源集成的可擴展性以及數據資源的動態集成。

3 結語

在大數據時代來臨的今天,如何使數據體系和標準設計能夠滿足業務發展和技術變革的要求,結合新技術的發展使積累的數據具有更高的價值,是大型集團企業信息管理部門所面臨的挑戰和機遇。本文從領域級數據體系設計方面對當前和未來信息資源管理和應用的技術架構進行了研究探討。根據數據生命周期的規律和特點,提出了一種領域數據體系設計方法,希望該方法能給各集團企業數據資產的管理和應用提供一種可靠和行之有效的方法。

猜你喜歡
定義概念分類
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
分類算一算
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
分類討論求坐標
學習集合概念『四步走』
數據分析中的分類討論
聚焦集合的概念及應用
教你一招:數的分類
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
主站蜘蛛池模板: 久久青草视频| 9久久伊人精品综合| 国产激情在线视频| Aⅴ无码专区在线观看| 亚洲伊人久久精品影院| 日韩黄色精品| 无码日韩视频| 国禁国产you女视频网站| 欧美不卡二区| 亚洲国产天堂久久九九九| 国产色婷婷视频在线观看| 午夜不卡视频| 最新国产精品鲁鲁免费视频| 亚洲精品在线观看91| 久久久受www免费人成| 狼友视频一区二区三区| 欧美国产综合视频| 2021国产精品自拍| 国产特级毛片aaaaaaa高清| 九九热精品视频在线| 亚洲一区毛片| 自拍欧美亚洲| 2020亚洲精品无码| 91小视频在线观看免费版高清| 亚洲精品天堂自在久久77| 天天综合亚洲| 日本一区中文字幕最新在线| 亚洲视频免费播放| 国产精品福利社| 国产91小视频| 久久久久中文字幕精品视频| 伊人色婷婷| 中文字幕永久视频| 91成人在线观看| 超碰aⅴ人人做人人爽欧美| 91色在线观看| 亚洲高清无码久久久| 毛片a级毛片免费观看免下载| 日韩A级毛片一区二区三区| 成人午夜视频网站| 日韩精品免费在线视频| 午夜啪啪网| 嫩草在线视频| 高清大学生毛片一级| 午夜国产理论| 一级毛片在线播放| 国产真实乱了在线播放| 91精品啪在线观看国产91| 国产成人超碰无码| 一本色道久久88亚洲综合| 国产三级国产精品国产普男人| 在线a视频免费观看| 国内精品一区二区在线观看| 伊人激情综合网| 国产麻豆另类AV| 亚洲午夜国产片在线观看| 欧美午夜在线观看| 久久综合国产乱子免费| 国产迷奸在线看| 亚洲欧洲AV一区二区三区| 国产精品所毛片视频| 亚洲日本www| 人妻精品久久无码区| 一区二区无码在线视频| 日韩中文精品亚洲第三区| 香蕉视频在线观看www| 国产精品亚洲五月天高清| 狠狠v日韩v欧美v| 五月丁香在线视频| 国产亚洲精品资源在线26u| 欧美日韩精品一区二区在线线| 欧美黄色网站在线看| 国产9191精品免费观看| 激情乱人伦| 亚洲91精品视频| 久久久久中文字幕精品视频| 亚洲欧美在线综合一区二区三区| 欧美一级在线看| 亚洲成a人片| 99精品久久精品| 国产成人亚洲精品无码电影| 国产精品区视频中文字幕|