王月龍 王梅 高雅田 孫鶯萁

【 摘 要 】 大數據是現代信息技術的重要發展方向之一,實現大數據的共享和分析將帶來不可估量的經濟價值,同時也對社會產生巨大的推動作用。但是由于應用數據缺乏解析的標準而無法很好地實現信息共享。論文介紹了通過自標準數據解決數據共享的問題,利用自定義數據標準的方式實現數據的解析和共享,通過建立自標準數據模式、開發自定義標準支撐模型、研究自標準數據的定義過程、為應用端預留的功能來解決數據共享的難題。
【 關鍵詞 】 大數據;自標準;一體化;數據共享
【 中圖分類號 】 P208 【 文獻標識碼 】 A
【 Abstract 】 Big data has been an important development direction of modern information technology. It will bring immeasurable economic value with analyzing and sharing the data, and it also have a huge boost to society.However the data can not be shared very well because of the using of data is a lack of analysable standard.In order to solve the problem of data sharing, we create the model of the sef-standard of data definition and develop the model support of the custom standard of data definition and study the process of the definition about data.Eventually we reserved some functionality for application.
【 Keywords 】 big data; sef-standard;integration; data sharing
1 引言
經過多年的信息化建設,在社會各個領域已經建成十分龐大的數據體系和應用體系,然而由于建設初期往往缺乏長遠的數據規劃和應用規劃,數據和應用的“孤島問題”日趨嚴重。現階段隨著大數據、分布式應用的蓬勃發展,已經來臨的“智能”時代的主題和重點,將不再是信息系統建設本身,而是“數據”的全面整合升級,更是數據應用質量和效率的大幅提升。重點就是解決數據的共享問題,難點就是整合邏輯上歸屬于已建各個應用系統的數據。
采用何種方法解決共享問題,進行數據集成,很多學者對多源數據進行分析,如王榮等人提出數字化油田多元數據一體化應用技術,通過集成數據管理實現油田數據的規范和統一性。劉文龍等人基于地理信息系統建設思想對測井數據管理系統進行了設計,實現了對測井多源數據管理。化柏林等提出多源信息融合方法,多源信息融合方法包括統一標識、數據比對、異構加權等一系列過程以及多種分析建模方法。徐為雄和于江等設計并實現了多源空間數據的集成管理平臺,解決異構數據的集成問題。袁滿等提出“自1標準”思想,通過自標準與標準結合,滿足復雜的數據共享需求。同時,受航運物流業務的啟示,提出了數據港口的思想,通過自標準數據與數據港口技術架構可以實現對自標準數據的有效交換與共享。給出了自標準數據的定義、產生的背景,并且定義了利用自標準數據與數據港口實現數據共享管理及應用的技術架構,認為自標準數據具有自治性、自描述性、自組織性以及進化性等,它是公共數據交換標準的一個重要補充。
由于信息系統建設初期,統一標準往往沒有建立,提供者按照統一標準重新定義數據造成巨大的工作量,并且所描述數據往往又不符合應用者的需求。因此,提出應用元模型技術讓提供者按照自己的格式提供數據,還要包含這些數據的格式。這樣,這些數據就成為了“自標準數據”。將數據應用實體從傳統繁瑣的數據標準中解放出來。通過建立一種數據自建標準的機制解決這些數據的順暢交互問題,也就解決了整個信息巨系統中的孤島問題。通過自定義數據標準可以很好的解決這個問題。
2 自標準數據模式
自標準數據模式是是業務數據建立的規范和準則,對于自標準數據模式的研究主要涉及自定義標準框架、表達形式、管理方式三個方面。
自定義標準框架中包括數據類型、數據類別、數據表現形式、數據關系以及數據取值類型。數據的存儲方式多種多樣,可以是數據庫類型的存儲方式,也可以是數據文件的方式。自標準數據可以描述任何一個行業的數據,不同行業的數據有不同的特點,因此需要根據行業的數據特點來描述數據,不同類型的數據所表現內容的方式不同。數據主體之間的關系具有很大的多樣性與復雜性。不同的數據源有各自描述數據取值類型的方式。
數據自定義標準的表達形式的研究主要完成框架中主要建模元素和元素直接的關系的描述問題。首先,需要考慮的是框架內容的形式化表達工作;其次,在形式化表達的基礎上,實現能夠支持并且方便信息計算的表達模型。現階段,XML技術成為各種標準的流行定義語言,可以作為框架元素的定義工具。將XML作為基本的工具,建立自標準數據的固有表達體系,研究建模元素和各個元素之間的關系,是表達形式的研究重點。
自標準數據包括數據本身和數據自定義的標準,數據自定義標準的創建、存儲、刪除、修改等過程是在自定義數據標準基礎上的完整操作過程。但為了完成自定義數據標準工作,需要采用計算機技術來解決數據標準的創建和維護。因此,可以采用建立管理元模型的方法來實現自定義標準的管理工作。
3 自定義標準的支撐模型
自定義標準的支撐模型完成自定義標準數據與數據應用方的交互。支撐模型的研究包括自定義標準數據的解析機制、自定義標準數據的交互方式、自定義標準數據適配器的研究、自標準數據的運行邊界等幾方面。
對于自標準數據的解析工作無非就是完成數據之間的轉換,對于任何數據轉換操作來說解析機制都可以分為讀取數據交換的標準信息、讀取源數據、建立目標數據的中間存儲結構及由中間存儲結構向目標數據轉移等四個步驟。
自標準很好的描述了自治數據,但是數據應用方需要了解自標準的設計內容。數據提供方需要對自標準數據提供相應的描述,以契約的方式將數據的信息進行公布,包括數據的自身結構、數據的類型、數據的特點和數據解讀的標準等信息。數據應用方通過對數據契約的解讀來充分了解數據的特點,從而達到自標準數據對于數據應用方的很好適用。
由于應用數據的多樣性,自標準數據為數據的解析預留了應用輸出類型的接口,通過不同的數據交換標準信息可以開發不同的數據適配組件,在實現的過程中如果有未考慮到的數據管理技術可以通過后期開發相應的數據適配組件來完成適配。
從數據安全與操作安全角度考慮,在自定義標準數據的解析過程中,不允許應用端直接與自定義標準數據進行交互,即使應用終端與自定義標準數據在同一臺機器工作也不可以直接交互。應用終端必須通過數據交換標準信息體現自己對于數據的需求,并且通過數據操作代理訪問自定義標準數據,即數據操作代理持有和自定義標準數據相同的數據結構,代理公開的數據結構與自定義標準數據相同,并且可以獲知應用需求的數據結構。
4 自標準數據定義的標準過程
為了實現完整、可理解的數據自標準定義,自標準數據的定義必須要遵守標準化過程。在完善自定義標準工作的過程研究基礎上,建立過程元模型、表達自定義數據標準的標準過程。自標準數據主要是完成由源數據向目標數據遷移的過程,無論源數據與目標數據有著怎樣的差別,最終都可以通過幾項規范化的步驟來完成。
(1)定義數據類型(數據庫的數據表、數據文件);
(2)定義數據類別(三次采油數據、勘探數據、掃描信息數據);
(3)定義數據描述的內容(生產狀況、井壁取芯、巖心圖形外表面、三次采油量);
(4)定義數據特征(井號、井別、井字、含油率、含水率);
(5)每個特征賦予其取值類型(數值型、日期型、大字段);
(6)定義源數據與目標數據的標準關系(一對一、一對多)。
自標準數據的最終目標是應用,因此,自標準體系的建立需要為應用段預留一系列協議族,實現支持相應協議的部件可以自動加入自標準數據的應用處理過程。由于對于不同的應用端來說,對于數據的處理要求并不是完全相同的,因此,為不同的應用端預留出相應的功能就變得十分必要了。在實際應用中,預留功能往往是通過預留相應的接口來提供相應特殊功能的使用。
對于自標準數據的最終應用需要通過數據容器來完成,應用方和提供方的交互是通過數據容器來完成的。數據容器中包括四大部分,數據入口、通道管理、數據定位、I/O管理,如圖1所示。數據提供著將自標準數據通過數據入口送入數據容器,數據根據相應的信息定位到數據存放的位置,數據應用方通過通道和I/0處理的方式獲取數據并根據數據自帶的標準信息進行解析和使用。
5 結束語
大數據是現代信息技術的重要發展方向之一,實現大數據的共享和分析將帶來不可估量的經濟價值,同時也對社會產生巨大的推動作用。在大數據時代,對大數據進行統一表示,實現大數據處理、查詢、分析和可視化是亟需解決的關鍵問題。但是由于數據往往缺乏一種很好的定義和解析的標準使得數據共享變得十分困難,通過自定義數據標準可以很好的解決這種問題。目前,自標準數據還只是一個定義,還沒有得到更廣泛的應用,技術上可能還需要繼續探索。通過本文的介紹可以清晰的認識到自標準數據在應用上的好處,通過這種手段可以很好的解決目前的數據共享上的難題。
參考文獻
[1] 王榮,張紅.數字化油田中多源數據的一體化應用[J].儀表電信. 2015,34(2):30-31.
[2] 劉文龍,陳園園.石油測井多源數據管理平臺設計與系統實現[J]. 測繪,2014,37(2):72-76.
[3] 化柏林,李廣建.大數據環境下多源信息融合的理論與應用探討[J]. 圖書情報工作,2015,59(16):5-10
[4] 徐為雄,佘江峰,陳景廣.基于元數據的多源空間數據集成平臺研究與設計[J].江西農業學報,2012,24(7):136-139
[5] 于江. 多源分布式數據集成一體化更新策略研究[J].科技技術應用.
[6] 袁滿,王權,夏艷波,張彥國,黃剛.自標準數據研究及其在數據交換中的應用[J].吉林大學學報,2016,46(1):277-283.
[7] 袁滿,王丹丹,翟紅翠.基于自標準數據和數據港口架構的數據共享技術[J].東北石油大學學報,2015,39(4):103-109.
基金項目:
黑龍江省大學生創新創業訓練計劃項目(201510220047)。
作者簡介:
王月龍(1990-),男,漢族,黑龍江哈爾濱人,畢業于東北石油大學,本科;主要研究方向和關注領域:數據集成。
王梅(1976-),女,漢族,河北安國人,畢業于天津大學,博士,碩士導師,副教授;主要研究方向和關注領域:機器學習。
高雅田(1979-),女,漢族,黑龍江大慶人,畢業于東北石油大學,博士,講師;主要研究方向和關注領域:數據挖掘。
孫鶯萁(1991-),女,黑龍江大慶人,畢業于東北石油大學,碩士;主要研究方向和關注領域:數據挖掘。