999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向領域的大數據分析流程模型轉換方法*

2022-05-10 07:28:26文必龍李艷春
計算機與數字工程 2022年4期
關鍵詞:定義分析模型

文必龍 李艷春

(東北石油大學計算機與信息技術學院 大慶 163318)

1 引言

現階段科學研究發展到被廣泛稱為“第四范式”的科學大數據階段[1],科學大數據具有數據密集型范式的特點,它具有數據的不可重復性、數據的高度不確定性、數據的高維特性、數據分析的高度計算復雜性等特征[2]。從數據內容來講,科學大數據一般表征自然客觀對象和變化過程;從數據體量來講,科學大數據在不同學科中存在較大的差異;從數據增長速率來講,科學大數據依學科不同其數據增長速率也變化較大;從數據獲取手段來講,科學大數據一般來自觀測和實驗的記錄以及后續加工;從數據分析手段來講,科學大數據的知識發現一般需要借助科學原理模型。因此,當前大數據分析還面臨幾方面挑戰。

1)分析流程復用性差

同一領域內同類問題反復出現,大數據分析建模過程中要依靠領域知識與專家經驗反復迭代試錯,但是這類模型卻很難被重用,加大了開發成本。

2)分析流程設計復雜

面對不同領域在大數據全生命周期處理的多樣化需求,完全依賴數據分析,拋開科學原理模型和領域方法指導很難實現。

3)分析流程執行低效

科學大數據本身固有海量高緯度數據特征,使得通用處理器和單一體系結構的傳統分析過程執行效率低下,限制了大數據分析對數據價值的快速獲取。

隨著大數據分析技術成為當今許多領域進行價值獲取的主流方法,如何為大數據分析快捷構建和高效運行提供方法,以及如何建立面向領域的可復用性、結構良好、易于用戶使用的大數據分析模型,這己成為當前實現大數據分析方法重用和易用的關鍵問題。

2 相關工作

傳統的數據分析是圍繞關系數據庫管理系統,衍生出了相關數據分析工具[3]。例如,SPSS Modeler[4]、Matlab Spider[5]、SQL Server Analysis Services[6]、weka[7]和R等都提供了此類工具。它們以關系數據庫作為核心數據引擎,提供了計算框架與算法庫,但是這類傳統的數據分析無法滿足科學大數據固有的高維數據特征。首先,面對海量、非結構化或半結構化數據,關系數據庫無法高效地存儲管理;其次,數據分析工具與數據存儲位置的分離使得數據噪聲增多,以及數據遷移會消耗過多的時間;最后,傳統的數據分析工具在進行大數據分析時,往往采用數據抽樣的方式縮減數據體量,數據的抽樣通常會導致數據信息量的丟失。

以互聯網為媒介的云計算模式和分布式高性能數據處理模式的出現,解決了以數據庫為中心的數據分析系統存在的問題。Google提出的分布式文件系統GFS[8]和MapReduce[9]框架為大規模并行數據計算與分析提供了重要的參考。Hadoop通過MapReduce框架和HDFS分布式文件系統使得在成本可控的情況下海量數據分析成為可能。隨著Hadoop的出現一系列工具也隨之在業界涌現,如文獻[10~13]等開展研究的工具擴展了Hadoop的運用場景和應用領域。但是其對數據分析、數據挖掘算法以及可視化支持方面缺乏,使用戶在進行大數據分析過程中出現效率低下、大部分時間都花費在重復開發等問題。并且,科學大數據除了數據體量增大帶來的分析效率要求的提高外,更重要的是與科學數據分析相伴隨的原理模型的復雜性,它導致了科學數據處理分析的計算復雜性,甚至對大數據分析能否提供量化、合理、可行、有價值的信息至關重要[14]。這使得完全依賴數據分析,拋開科學原理與領域方法進行大數據分析是不可行的。

綜上所述,大數據分析中除考慮用戶構建易用性與執行高效性外,其應用領域是不可忽視的,但目前尚未有行之有效的面向領域的科學大數據分析方法。因此,本文提出一種大數據分析流程建模及實施方法,設計并構建以領域業務為中心、多模型協同的面向領域分析框架,遵循層級建模與模型驅動的思想,降低大數據分析技術在各行各業應用普及的門檻,為面向領域的大數據應用系統的快捷開發和高效運行提供方法支撐。

3 領域業務驅動的大數據分析流程構建

基于大數據分析的解決領域復雜性和執行高效性的需求,提出領域業務驅動的大數據分析流程建模,將大數據分析流程劃分為面向領域和面向平臺的雙層模型,其中面向領域的分析模型是一個邏輯模型,從領域業務角度進行定義,與實現平臺無關;面向平臺的分析模型是一個物理模型,從計算和執行的角度來定義,與具體實現平臺、適合應用的算法和計算模型相關。邏輯模型只有在轉變為物理模型后才能執行。

基于面向領域和面向平臺的雙層模型,大數據分析流程的可結合采用自上而下目標分解的建立方式,分析業務問題的交互與組合關系建立面向領域的分析模型,根據模型映射自動轉換為依靠分析模塊庫和數據資源的面向平臺的分析流程實例,大數據分析流程處理框架如圖1所示,整體過程以面向用戶的角度來講分為三個階段,用戶層、處理層和執行層,分別對應大數據分析流程的構建階段、映射階段和運行階段。

圖1 大數據分析流程處理框架

1)在大數據分析流程的構建階段,通過用戶層分析流程編輯器中提供的分析模塊,用戶根據領域業務定義特定的面向領域的大數據分析流程,本文定義完整分析過程中的子任務為分析模塊,大數據分析流程就是大數據分析過程的流程化描述,分析模塊是大數據分析流程建模過程中典型流程或算法的抽象描述。

2)在大數據分析流程的映射階段,將面向領域的大數據分析流程轉換為面向平臺的的數據分析流程,即根據用戶層分析模塊和處理層的算法、分析模型以及分析流程的一致性對應關系,將大數據分析流程從業務處理過程轉換為數據處理的過程。

3)在大數據分析流程的運行階段,根據分析模塊庫中的算法、分析模型以及分析流程的實體,以及各節點接受的輸入輸出模式信息和參數信息,將大數據分析流程實例化為符合執行平臺的流程實例,結合集群資源和工具集進行執行。

在大數據分析流程建模中,流程設計過程簡明易懂,能讓用戶容易理解和使用是一個重要的原則,因此大數據分析流程選用有向圖的建模方式,以此給出大數據分析流程模型的定義如下。

定義1(模型節點v):節點v是大數據分析流程模型的最小單位。

定義2(模型的節點集V):大數據分析流程模型的節點集V={vn}是模型節點的有限非空集合。

定義3(模型有向邊e):有向邊e表示兩個模型節點的依賴關系,如有向邊e=(vi,vj)中,vi為有向邊e的起點,vj為e的終點,vi為vj前驅節點。

定義4(模型有向邊集E):大數據分析流程模型的有向邊集E={em}是模型邊的有限非空集合。

定義5(模型M):一個大數據分析流程模型表示為二元組,即M=(V,E),V是大數據分析流程模型的節點集,E是大數據分析流程模型中有向邊集合。

根據前文提出的面向領域和面向平臺的大數據分析流程雙層描述M=MDS∪MPS,其中MDS表示面向領域大數據分析流程,從領域業務角度進行定義,屏蔽臺相關的編程與底層維護細節;MPS表示面向平臺的大數據分析流程,從計算和執行的角度來定義,充分與平臺適合應用的算法和計算模型相結合,下面分別對二者進行詳細的介紹。

4 面向領域業務的大數據分析模型

面向領域的大數據分析伴隨著領域相關的多樣性及價值獨創性。從領域知識融合的角度來看,需要滿足領域共性和可變性需求,支持開源分析框架交互性和易用性需求,降低領域分析人員使用門檻;從領域知識復用的角度來看,實現對領域專家反復迭代試錯得到的模型的重用,及數據分析算法的擴展;從領域大數據處理角度來看,形成面向領域技術人員的數據集成、數據清理和分析方法,免除重復編寫通用代碼。

在面向領域的大數據分析模型MDS中,V是面向領域業務的大數據分析流程中所有任務的集合,E是大數據分析流程中任務執行的順序。v∈V為面向領域業務的大數據分析流程中的最小子任務,它可以表示為一個四元組v={NDS,IInfo,OInfo,P},其中:NDS={ID,Name,Category,Description},為節點元信息集合,它對分析任務的基本信息進行定義。ID為分析任務的唯一標識;Name為分析任務名稱;Category為分析任務類型,表示分析任務在流程中的作用;Description為分析任務的描述。

IInfo為節點輸入信息集合,表示該分析任務的輸入記錄的規則;

OInfo為節點輸出信息集合,表示分析任務的輸出記錄的規則;

P為節點基本配置參數集合,表示該分析任務操作的邏輯語義,為該節點需要用戶提供的邏輯操作參數的集合,如實現該節點的分析模塊,過濾條件等。

5 面向平臺的大數據分析模型

面向平臺的大數據分析模型需要充分與平臺中的算法以及數據資源相結合。從操作環境角度來看,既要支持對單一類型資源的需求定義,也要支持多種類型資源配套需求的表達;從操作對象角度來看,既要支持輸入數據、輸出數據的明確定義,又要支持中間臨時數據的表達;從操作步驟角度來看,支持配置任務的運行參數信息和任務依賴關系;從操作流程角度來看,既要支持操作步驟間常見的順序基本次序關系的表達,還要支持并行流結構的表達。

因此,面向平臺的大數據分析模型是一個數據相關的物理模型,數據流連接將各個操作之間的依賴關系分為三種:

1)線性關系:按線性先后順序執行的操作序列。

2)多分支聚合關系:某個操作接收多個操作的處理結果進行處理。

3)多分支并發關系:某個操作的處理結果被分為多個分支并發處理。

面向平臺的大數據分析模型MPS中,V是面向平臺的大數據分析流程中所有數據處理操作的集合,E是大數據分析流程中操作間的數據流向。v∈V為一個具體的數據處理操作,它可以表示為一個五元組v={NPS,Idata,Odata,E,C},其中:

NPS={ID,Name,Type,Phase,Description,Parallel},為節點元信息集合,對數據處理操作的基本信息進行定義,ID為數據處理操作的唯一標識;Name為分析算法的名稱;Type為分析算法的類型,表示分析算法所依托的執行引擎,如普通java類型,Mapreduce等;Phase分析算法所屬的數據處理的階段;Parallel為并行信息。

Idata為節點輸入數據集合,表示該數據處理的輸入進行描述,如輸入個數,數據類型等;

Odata為節點輸出數據集合,表示該數據處理的輸出進行描述,如輸出個數,數據類型等;

E為節點對應數據處理的實體,表示數據處理的具體實現過程,如算法、分析模型以及分析子流程;

C節點基本配置參數集合,表示該數據處理操作中相關參數集合,其中參數包含兩部分,一部分為數據處理算法中設計的參數,一部分為數據算法依靠的執行平臺進行資源分配控制的參數。

6 基于模型驅動的分析模型映射

面向領域的大數據分析流程模型從業務處理過程的角度對大數據分析流程的抽象描述,通過面向領域的大數據分析流程模型中節點的輸入輸出信息、用戶配置參數、節點對應的數據分析模塊的元信息等,可以實現向面向平臺的發數據分析流程模型的轉化,面向領域的分析模型與具體實現技術無關,轉化為面向平臺的分析模型后才能最終得到可運行的流程實例。

6.1 分析模塊模型

為了解決用戶易用性問題,使用面向領域業務的建模思想,將領域專家、數據分析專家的數據分析模型以及模型中的算法按照邏輯結構對其封裝為分析模塊。實現對領域相關的數據處理操作進行抽象描述,由此給出一種封裝業務流程數據的方法。下面給出通用分析模塊多元組定義{ID,Name,C,B,P,E,D}。

ID是分析模塊唯一性標記,在其后的分析模塊解釋、流程模型映射起關鍵性作用。

Name是分析模塊的名稱,是分析模塊對外展示的主要特征之一。

C是分析模塊的類別,用以分析模塊的歸并分類管理和使用。

B是分析模塊的基本描述,分析模塊的功能簡介和主要輸入輸出介紹等。

P是分析模塊的擴展描述,分析模塊的詳盡描述,包括輸入輸出個數、格式和要求;參數個數、格式和要求;以及其他特別要求等。

E是分析模塊的實體,分析模塊解釋和調度執行的主體對象。

D是分析模塊的使用域,分析模塊解釋和調度執行的標識指標,描述適用的執行引擎相關信息。

分析模塊使分析任務成為面向領域的大數據分析流程中的一個節點,僅提供功能描述和配置接口,以供一般用戶在進行面向領域大數據分析流程設計時自由組合使用或直接調用。而對于開發層面來說,通過依據分析模塊模型可以對分析模塊進行擴展,在設計分析模塊時,既要定義分析模塊的描述及配置接口,又要設計可執行代碼和可調用接口。通過分析模塊使用戶在探索解決某一領域數據分析的復雜問題時,專注于數據分析邏輯本身,不過多的關心特定算法的實現細節,從而可以方便地在大數據流程設計過程中對流程進行修改和擴展。

6.2 模型轉換原理

為了保證面向領域業務的大數據分析模型向面向平臺的大數據分析模型進行自動轉換,須對模型轉換方法有嚴格地形式定義,元模型定義了建模者使用的大數據分析流程模型元素,并為這些模型元素在語法和語義上提供了一致、通用的定義說明,使開發者在語義上取得一致[15]。因此,采用基于模型驅動的模型轉換技術,根據面向領域和面向平臺的大數據分析流程元模型建立映射規則,最終實現自動轉換,原理圖如圖2所示。

圖2 模型轉換框架

依據上圖所示,根據面向領域與面向平臺的大數據分析流程元模型提取出模型轉換規則,建立模型轉換框架。其中,MMDS代表面向領域的大數據分析元模型;MMPS代表面向平臺的大數據分析元模型。FMDS為MMDS的一個實例,是用戶建立的面向領域的大數據分析流程模型;FMPS為MMPS的一個實例,是基于平臺的的數據分析流程模型。RuleSet是由依據MMDS和MMPS構建的映射規則構成的集合,TE是轉換引擎,使用RuleSet中的相關規則,把FMDS轉換為FMPS。

6.3 基于元模型映射及映射規則

面向領域的大數據分析流程元模型描述了如何通過分析模塊進行業務流程的編排與交互。根據前文分析模塊的定義,它是大數據分析流程模型的最小單元,可劃分為資源相關節點(Resource)和計算相關節點(Calculation)兩類,資源相關節點表示進行分析過程數據資源相關的邏輯操作,計算相關節點表示數據分析任務相關的邏輯操作,面向領域的大數據分析流程元模型中包含了代表資源相關節點(Resource)和計算相關節點(Calculation)兩類的元模型元素,語義詳見表1。

表1 大數據分析流程模型節點類別

本文選用Hadoop分布式集群為底層執行平臺,因此以Hadoop工作流元模型對面向平臺的大數據分析流程元模型進行說明。Hadoop的執行引擎Oozie支持兩類節點:動作節點(Action)和流程控制節點(Control),如圖3所示。

圖3 Hadoop工作流模型圖

流程控制節點負責根據預設條件或作業狀態改變工作流執行走向,主要包括start,end,decision,fork,join,kil等。動作節點負責具體的作業執行,其支持的作業類型既有Hadoop類型作業如MapReduce,Hive等,也有非Hadoop類作業如運行Java程序,HDFS操作等[16],Hadoop工作流元模型由動作節點和控制節點的元模型元素共同組成,語義詳見表2。

表2 Hadoop工作流模型的節點列表

因此,兩個模型節點類型對比如表3所示。大數據分析流程模型的計算節點類型可以與基于Oozie大數據可執行模型的動作節點類型進行對應,而大數據分析流程模型的的數據節點在大數據可執行模型下不存在,大數據可執行模型的控制節點在大數據分析流程模型中也沒有定義,這些不存在對應的節點類型需要進行特殊處理。

表3 大數據分析流程模型與基于Hadoop工作流模型

模型轉換引擎TE采用自頂向下的轉換策略,輸入的是面向領域的大數據分析流程對象,輸出為Hadoop工作流對象。通過分析模塊的類型把大數據分析流程模型分解為一組相互獨立的節點對象,逐個提取節點對象進行映射。通過對節點對象的類型和結構進行分析,若是計算節點則根據類型將其直接映射成最基本的動作節點;若是資源節點則先保留節點中的參數配置,然后根據資源節點的類型,將其參數配置傳遞給附近的計算節點,再映射為不同的動作節點。重復上述過程,大數據分析流程模型中所有節點對象映射結束,并通過分析分析模塊的依賴關系,對應添加控制節點,最終得到目標模型,轉換規則如表4所示。

表4 模型轉換框架的轉換規則表

7 結語

本文提出面向領域和面向平臺的大數據將分析流程雙層模型,以可復用的數據分析模塊為基礎,使用戶在分析在流程設計階段以一種用戶友好的、能描述業務需求的方式建立面向領域的大數據分析流程,在探索解決某一領域數據分析的復雜問題時,專注于數據分析邏輯本身,不過多的關心特定算法的實現細節,滿足領域數據的復雜性和復用性。在流程執行階段,通過使用基于模型驅動的模型映射方法完成模型轉換,將面向領域的大數據分析流程轉化為面向平臺的大數據的分析流程,可以任意選用合適的執行引擎作為底層支持,基于元模型提取出模型轉換規則,將大數據析流程轉換對應執行引擎的可執行流程實例,為面向領域的大數據分析流程建模及實施提供方法支撐。最后本文中采用Hadoop作為底層為例進行說明,建立了在大數據分析流程元模型和基于Oozie的可執行流程元模型之間的映射關系。

猜你喜歡
定義分析模型
一半模型
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
山的定義
公務員文萃(2013年5期)2013-03-11 16:08:37
主站蜘蛛池模板: 色屁屁一区二区三区视频国产| 无码视频国产精品一区二区| 婷婷亚洲最大| 美女啪啪无遮挡| 国产xx在线观看| 色悠久久综合| 亚洲一级毛片在线播放| jizz在线观看| 97青草最新免费精品视频| 成人亚洲天堂| 国产杨幂丝袜av在线播放| 亚洲天堂久久久| 亚洲国产成熟视频在线多多| 激情无码字幕综合| 91精品伊人久久大香线蕉| 亚洲大尺码专区影院| 亚洲精品视频免费| a级毛片毛片免费观看久潮| 五月天久久婷婷| 最新国语自产精品视频在| 亚洲成人动漫在线| 亚洲性日韩精品一区二区| 日本亚洲成高清一区二区三区| 亚洲中文久久精品无玛| 亚洲水蜜桃久久综合网站| 欧美特黄一免在线观看| 热99re99首页精品亚洲五月天| 国产欧美日韩精品综合在线| 国产欧美一区二区三区视频在线观看| 国产精品性| 四虎成人精品在永久免费| 亚洲成a人片7777| 97久久人人超碰国产精品| 极品av一区二区| 亚洲全网成人资源在线观看| 国产精品久久自在自2021| 国产精品男人的天堂| 99这里只有精品免费视频| a毛片基地免费大全| 欧美亚洲一区二区三区在线| 日本三级欧美三级| 免费在线国产一区二区三区精品| 欧美三级不卡在线观看视频| 欧美国产在线看| 国产精品毛片一区| 亚洲欧美激情小说另类| 中文字幕日韩欧美| 影音先锋丝袜制服| 国产人妖视频一区在线观看| 亚洲高清在线天堂精品| 九九热精品在线视频| 尤物特级无码毛片免费| 午夜性爽视频男人的天堂| 国产又爽又黄无遮挡免费观看 | 九色在线视频导航91| 亚洲性日韩精品一区二区| 99免费视频观看| 毛片在线播放a| 亚洲无码高清视频在线观看| 在线看国产精品| 国产AV无码专区亚洲精品网站| 激情综合网激情综合| 超碰aⅴ人人做人人爽欧美| 40岁成熟女人牲交片免费| 国产毛片基地| 婷婷综合在线观看丁香| 国产门事件在线| 国产激情在线视频| 国产正在播放| 亚洲毛片一级带毛片基地| 91精品啪在线观看国产91| 国产成人精彩在线视频50| 欧美日韩精品综合在线一区| 亚洲h视频在线| 欧美专区在线观看| 国产成人福利在线| 欧美中日韩在线| 最新痴汉在线无码AV| 又粗又大又爽又紧免费视频| 亚洲天堂日本| 久久99热66这里只有精品一 | 亚洲一欧洲中文字幕在线|