999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

BKR 體系下的數據血緣指標分析

2022-07-08 03:04:34王樹明吳濟勝鄧夢航
電子技術與軟件工程 2022年1期
關鍵詞:體系

王樹明 吳濟勝 鄧夢航

(1.中國煙草總公司湖北省煙草專賣局信息中心 湖北省武漢市 430030)

(2.武漢楚煙信息技術有限公司 湖北省武漢市 430030)

黨的十九大報告提出要“推動互聯網、大數據、人工智能和實體經濟深度融合”[1]。數據成為企業數字化時代的重要資源,它以產品或服務的形態為企業創造價值,為企業轉型升級發揮重要作用[2]。數據不是孤立存在的,數據從產生、處理、加工、融合、流轉,到最終消亡,會形成一種關系鏈路,這就是數據血緣[3]。數據血緣分析就是在溯源過程中找到相關數據之間的聯系,比如,當數據發生異常,需要能追蹤到異常發生的原因,把風險控制在適當的水平[4]。數據血緣分析能幫助我們追蹤數據的來源、處理的過程,這對于數據質量的監控、數據處理性能的調優和數據資產價值的評估等,都有非常重要的作用。

湖北煙草已經構建了一套覆蓋全業務鏈條的完整數據中心[5],包括一體化數據存儲、一體化數據管理和一體化數據分析三部分內容。然而,由于歷史、管理等多方面原因,數據中心依然面臨數據加工無序、數據獲取與開發不規范等現象,血緣分析是規范化數據治理的一個有效工具[6]。

1 數據中心分層現狀

傳統數據中心的構建包括下面六個層次:最底層是部門的業務數據庫(DB),數據經過抽取轉換層(ETL)[7]進入操作性數據層(ODS)[8],然后經過明細數據層(DWD)[9],再進入輕度匯總層(DWA)[10],最后進入數據集市(DM)[11]。其中,每層的具體任務如表1 所示。

表1:數據中心層次結構

這種層次結構定義了不同模塊的職能劃分,有利于數據規范化的管理。但是這種劃分形式也存在部分功能重疊的問題,并且過于精細的劃分不利于系統的物理實現。湖北煙草數據中心則從項目實施的角度對系統按照操作方式進行了三層劃分,即針對傳統數據中心的頂上四層,按照BKR 體系進行重新分層和命名。BKR 體系是描述數據加工、分級存儲的體系。其中,B 層(Base)是基礎業務數據層,K 層(KPI,Key Performance Indicators)是關鍵指標層,R 層(Reports)是靈活運用層。BKR 體系有著嚴格的轉換規則,以確保數據分層的合理性:K 可由B、K 加工而成;R 可由B、K 加工而成;R 不能生成R,如圖1 所示。

圖1:BKR 分層規范

BKR 體系有著一套嚴格的命名規范:B 表命名相對簡單,業務數據接口表入庫后,命名為B 表;R 表命名業務含義明顯;K 表共享程度高,業務含義也豐富。對數據加工的治理,就是監督和檢查BKR 是否嚴格按照規則轉換。基于命名規范,機器能夠快速甄別出不合理的結構設計。

2 基于BKR的血緣分析

數據血緣(Lineage, Provenance, Pedigree, Consanguinity)亦可譯為(血統、起源、世系、譜系)[12],是近幾年隨著數據庫和網絡普及而發展起來的一個研究領域。大數據時代,數據爆發性增長,海量的、各種類型的數據在快速產生,這些龐大復雜的數據信息,通過聯姻融合、轉換變換、流轉流通,又生成新的數據,匯聚成數據的海洋。數據的產生、加工融合、流轉流通,到最終消亡,數據之間自然會形成一種關系,即數據的血緣關系。與人類社會中的血緣關系不同,數據的血緣關系還包含了一些特有的特征[13]:

(1)歸屬性:特定的數據歸屬特定的組織或者個人。

(2)多源性:數據可以有多個來源,即由多個源頭經過加工而成。

(3)追溯性:在數據的生命周期內,即從產生到消亡的整個過程中,具備可追溯性。

(4)層次性:是血緣分析細膩程度的一個指標,由粗到細分別為:所有者、數據庫/文件服務器、表/文件目錄、字段/文件。

本文是在BKR 體系下,針對“表”這個層次的約束關系進行血緣分析。

2.1 出度與入度

數據血緣存在多種分析層級,其中“表”這一級的粒度大小適中,被廣泛采用,本文就是針對“表”這個級別進行研究的。本文提到的“數據”就是指BKR 體系中的“表”。向數據的上游追溯,查看哪些數據在提供信源,是一種共享性的探查[14]。同時,向數據的下游追溯,查看哪些數據在匯集信息,是一種依賴性的評價。為了定量的描述這兩種特性,我們在數據之間增加有向邊,即以自身為起點,指向外鍵所代表的表,如圖2 所示。表的外鍵是追溯上游數據的線索,意味著每條線段指向的表,是分享信息的,因此被越多外鍵指向,即表的入度越大,其共享性也越大。從邊的反方向來看,表的外鍵意味數據依賴于另外一張表,表的外鍵越多,即表的出度越大,其依賴性也越大。因此,可以用入度來衡量一個數據的共享程度,用出度來衡量一個數據的依賴程度。

圖2:BKR 體系的PageRank 模型

本研究的設計理念是“高內聚、松耦合”[15],即高共享、低依賴。入度大,意味著數據被更多的表利用,說明數據的共享性好,具有較高的使用價值。出度小,意味著數據來源單純,依賴性小,易于維護。為了從血緣的角度來評估BKR 體系設計的優劣,需要為每一張表建立全局性的指標,來表明其共享程度和依賴程度,為后續系統的迭代和優化提供指導依據。

2.2 共享指標模型

雖然表的共享程度與表的入度正相關,但是直接用入度來代表共享度,只能反應局部屬性,因為一張表不僅有前驅數據,還有后續數據,他們都會對這張表在系統中的地位產生影響,所以要想客觀的表達當前表格的共享程度,應該從全局的角度來考慮。

將BKR 系統看成一個有向圖,如圖2 所示,這與網頁跳轉圖的形式非常接近,因此本研究將在經典的網頁排名算法PageRank[16]的基礎上,計算全局共享指標。

PageRank 是利用網頁的超鏈接來調整網頁的權重,從而給網頁進行排名的一種算法。 該算法被Google 首次引入搜索引擎,用它來計算網頁的相關性和重要性,并取得了卓有成效的效果。PageRank 的思想是模擬上網者隨機打開一個網頁,然后通過超鏈接跳轉其他網頁的過程,通過計算每個網頁的被訪問概率來代表網頁的重要程度。將圖2 看作簡單的PageRank 模型,每張表類似一個網頁結點。表1 的出度為2,如果以平均概率計算,表1 各有1/2 的概率到達表2 和表3,同理分析表2、表3、表4,得到狀態轉移矩陣M,其中每一列表示該列所代表的結點到其它結點(行代表的結點)的概率分布。

同時,還規定每個結點的訪問概率是由指向它的結點的訪問概率的累加和,比如:

假設每個結點的初始概率都相同,即1/N,N 為結點的總數,則每個結點的新概率值就是狀態轉移矩陣M 乘以當前結點的概率向量,向量V0是所有結點的初始概率,向量V1是所有結點的第一次迭代后的概率。

每次結點更新后的概率只與上一次的概率有關,這個迭代過程是一個馬爾科夫過程[17],該過程被證明具有收斂性。經過若干次迭代后,圖2 中的結點概率就穩定在[0.31, 0.15,0.23, 0.31]附近。該數值表明,表1 與表4 的共享度最高,表3 次之,表2 最低。這些穩定值并不直接與入度相關,而是一個全局評估后的結果。

馬爾科夫過程的收斂條件要求跳轉關系是強聯通圖,即從圖中任意結點起始,能夠到達所有其它結點,如果不滿足這個條件,則不能正常收斂[18],圖3 展示了不能正常收斂的情況。

圖3:非收斂的情況

2.2.1 純輸出結點

當網絡中出現純輸出點,如圖3 中的表1 所示,表1 的入度為0,意味表1 只有跳出,沒有任何跳入,則表1 最終的概率只會是0。

2.2.2 純輸入結點

當網絡中出現純輸入結點,如圖3 中的表4 所示,表4出度為0,意味著所有的跳轉概率都會匯聚到表4,并且不再跳出,則其他表的概率都收斂到0,進而造成表4 的概率也收斂到0。

上述這幾種情況在BKR 體系中會經常出現,為了解決這些特殊情況,PageRank 算法的改進思路是將狀態轉移方程用兩部分組成,如公式(1)所示。第一部的主體是原狀態矩陣計算結果,第二部分的主體表示每個結點以平均概率的方式訪問其它結點。兩個部分被分別乘以系數α 和(1-α),表示狀態轉移的總體概率是由兩個部分加權求和組成。一般α 取值0.8。

雖然這次改進解決了收斂到0 的不正常情況,但是所有結點的概率的累加和并沒有收斂到1,究其原因還是因為表4 的出度為0。為了解決這個特殊情況,我們提出再次改進的思路,即為出度為0 的結點添加一個指向自己的邊,如圖4 中表4 所示。

圖4:給出度為0 的結點添加指向自己的邊

這樣概率迭代公式就變為:

通過分析新的穩定值,我們發現表4 處于共享鏈條的最頂斷,為下游所有結點提供信息,因此共享度最大,而表1則處在共享鏈條的最低層,不為任何其他結點提供數據,因此共享度最小。同時,表3 有兩條共享鏈,分別為表1 和表2 提供信息,所以比只有1 條共享鏈的表2 的共享度大。每個結點都收斂到一個有意義的值,并且收斂值之和為1。至此,通過改進后的算法,我們得到了每張表的基于全局的共享指標。

2.3 依賴指標模型

在BKR 體系的血緣分析中,還有一個重要的指標——依賴度。對于圖3 來說,依賴度與出度正相關。但是與全局共享指標一樣,一張表的全局依賴度也受到前驅數據和后續數據的影響。通過分析圖3 的出度與入度,我們發現“共享”與“依賴”互為對偶關系,因此對圖3 中共享模型稍作修改,如圖5 所示,就可以直接套用計算共享指標的方法來計算依賴指標。

圖5:依賴模型轉換為共享模型

圖3 是從外鍵的視角對表添加有向邊,如果從主鍵的視角添加有向邊,則圖3 可以轉換為圖5(a),其中表2 的主鍵被表1 引用,即繪制從表2 到表1 的有向邊,表示表1 對表2 有依賴。對其他結點進行類似操作可以發現,將圖3 中的所有邊進行反向,即得到圖5(a),此時結點的入度就與依賴度正相關了。為了能夠順利地計算收斂值,將圖5(a)中出度為0 的表1 也添加一個指向自己的邊,得到圖5(b),接著就可以按照公式(1)來計算全局依賴度了。圖5(b)的狀態轉移矩陣為:

經過若干次迭代,圖5(b)中的結點概率穩定在[0.782,0.098, 0.070, 0.050]附近,其中表1 的依賴度最大,這符合表1 是依賴鏈關系的起始端的本質。同時,表4 的依賴度最小,這也符合表4 是依賴關系的末端的本質。

3 案例分析

針對煙草物流領域中的配送業務,進行全局共享度和依賴度的分析。該業務模塊包含,倉庫信息、貨物明細、配送清單、送貨車輛、送貨任務、送貨班組、員工信息、日志記錄等19 張表格。將該業務數據以外鍵的視角添加有向邊,形成共享鏈條,用入度表示共享性、出度表示依賴性,通過公式(1)計算得到所有表的依賴指標和共享指標,如圖6所示。

圖6:配送業務指標模型

通過觀察圖6 中各表的指標數可以發現,共享值較大的表,主要集中在數據流的主干上,并且越靠近數據流的末尾,共享值越大,如表3、表4、表8、表11、表17、表18,其中表3 和表18 的共享值更突出一些,因為它倆是數據流的末端。同理,依賴值較大的表分布在數據流的外圍,如表0、表1、表2、表6、表9、表10、表12 等,就像樹冠上的葉片一樣,需要主干為其提供更多的支撐。

共享指標和依賴指標可以代表每張表在BKR 體系中的血緣地位。這兩個指標可以作為血緣分析的一個可視化元素[19],給用戶提供一個全局的視野來審視整個系統的重心分布,也可以作為系統更新和優化時的一個參考指標,比較更新前后,數據的血緣地位在系統中的升降變化。

4 結語

本研究從優化湖北煙草數據中心項目建設的實際需求出發,將數據倉庫從基于業務邏輯劃分過渡到基于操作劃分,并規范了一套更加簡潔的BKR 體系。圍繞BKR 體系,我們提出了共享指標和依賴指標的概念,并借鑒PageRank 算法在“表”這個級別上計算全局性指標。經過實例分析,該算法可以為系統設計、系統優化提供一個全局性的視野和具有明確含義的兩個指標,同時也為血緣分析可視化提供了兩個有意義的顯示屬性。下一步,我們的研究是在“表”這一級的基礎進一步細化分析,爭取從字段級[20]、甚至記錄級的層次上制定更加精確的血緣指標評估模型。

猜你喜歡
體系
TODGA-TBP-OK體系對Sr、Ba、Eu的萃取/反萃行為研究
“三個體系”助力交通安全百日攻堅戰
杭州(2020年23期)2021-01-11 00:54:42
構建體系,舉一反三
探索自由貿易賬戶體系創新應用
中國外匯(2019年17期)2019-11-16 09:31:14
常熟:構建新型分級診療體系
中國衛生(2015年12期)2015-11-10 05:13:40
如何建立長期有效的培訓體系
現代企業(2015年1期)2015-02-28 18:43:18
E-MA-GMA改善PC/PBT共混體系相容性的研究
汽車零部件(2014年5期)2014-11-11 12:24:28
“曲線運動”知識體系和方法指導
加強立法工作 完善治理體系
浙江人大(2014年1期)2014-03-20 16:19:53
日本終身學習體系構建的保障及其啟示
主站蜘蛛池模板: 伊人成色综合网| 日韩欧美高清视频| 国产精品成| 国产精品性| 日韩毛片基地| 一级不卡毛片| 在线播放91| 好吊色国产欧美日韩免费观看| 高清国产在线| 久久一色本道亚洲| 国产精品粉嫩| 国产a v无码专区亚洲av| 国产在线观看99| 午夜精品一区二区蜜桃| 亚洲国产一成久久精品国产成人综合| 日韩美一区二区| 亚洲人成网站在线播放2019| 高清精品美女在线播放| 喷潮白浆直流在线播放| 久久毛片网| 久久无码av一区二区三区| 丝袜无码一区二区三区| 青青久久91| 亚洲区视频在线观看| 精品少妇人妻av无码久久| 97青草最新免费精品视频| 精品無碼一區在線觀看 | 99re在线视频观看| 一本视频精品中文字幕| 色综合成人| 国内丰满少妇猛烈精品播| 免费看美女自慰的网站| 亚洲第一天堂无码专区| 亚洲男人的天堂久久香蕉网| 欧美三级视频在线播放| 免费激情网站| 国产精品亚洲一区二区三区在线观看 | 9966国产精品视频| 成人综合网址| 亚洲精品国产首次亮相| 亚洲国产天堂久久综合226114| 国产女人18水真多毛片18精品 | 91无码网站| 亚洲天堂免费观看| 久久国产精品国产自线拍| 99久久精彩视频| 久草视频精品| 永久免费精品视频| 亚洲视频一区| 老司机午夜精品视频你懂的| 亚洲欧洲一区二区三区| 国产亚洲欧美在线专区| 在线观看91精品国产剧情免费| 国产在线观看91精品亚瑟| 欧美人人干| 国内精品自在欧美一区| 国产91色在线| 中文字幕亚洲综久久2021| 91系列在线观看| 国产精品中文免费福利| 中文字幕在线永久在线视频2020| 婷婷久久综合九色综合88| 中文字幕在线观看日本| 国产主播喷水| 国产日韩欧美一区二区三区在线| 国产一区二区三区视频| 国产在线精品美女观看| 制服丝袜 91视频| 国产99精品久久| 国产99在线| 国产免费精彩视频| 亚洲午夜片| 亚洲国模精品一区| 亚洲AV无码不卡无码| 美美女高清毛片视频免费观看| 亚洲日韩AV无码精品| 国产久草视频| 国产18页| 精品人妻AV区| 一边摸一边做爽的视频17国产 | 国产青榴视频| 免费a级毛片视频|