夏榮 趙捷



摘要:隨著企業信息化的發展,數據質量的好壞,直接影響到信息的準確程度,關系到企業管理層基于信息做出的判斷與決策。在主數據管理中,解決系統集成時異構系統性能異常所導致的數據差異問題,是企業競相追求的目標,但是單憑相應人員的手動調整,成本不低,因此建立一種自動化的數據質量調節機制勢在必行。文章結合STEP主數據管理平臺,提出一種數據差異的負反饋調節機制,全面提高企業信息化系統中的數據質量,通過真實的案例對比,證實了數據質量得到極大的提升。
關鍵詞:數據質量;企業信息化;負反饋;主數據管理;系統集成
中圖分類號:TP39? ? ? 文獻標識碼:A 文章編號:2096-4706(2021)07-0123-04
Application and Implementation of Negative Feedback Regulation Mechanism in Data Quality Management
XIA Rong,ZHAO Jie
(Information Center of Zhuzhou CRRC Times Electric Co.,Ltd.,Zhuzhou? 412001,China)
Abstract:With the development of enterprise informatization,the quality of data directly affects the accuracy of information and the judgment and decision-making made by enterprise management based on information. In master data management,it is the goal of enterprises to solve the data difference caused by abnormal performance of heterogeneous systems during system integration. However,the cost is not low only by the manual adjustment of corresponding personnel. Therefore,it is necessary to establish an automatic data quality adjustment mechanism. Combined with the STEP master data management platform,this paper proposes a negative feedback adjustment mechanism of data difference,which can comprehensively improve the data quality in the enterprise informatization system. Through the comparison of real cases,it is confirmed that the data quality has been greatly improved.
Keywords:data quality;enterprise informatization;negative feedback;master data management;system integration
收稿日期:2021-03-18
0? 引? 言
在大數據時代,數據的商業價值日益凸顯,而數據質量的好壞則是重中之重,為提高數據質量,國內外眾多學者紛紛進行了深入的研究,文獻[1,2]對數據質量和系統理論進行了深入說明,文獻[3,4]對數據質量評估方法進行了研究,文獻[5,6]分別介紹了國內外信息化數據質量管理方法,文獻[7]介紹了企業報表的數據質量管理,文獻[8]從電力企業的實際業務出發,分析了全面實施數據質量管理的方案和意義,文獻[9]分析了企業數據質量的監控與提升方案,文獻[10]對企業信息化中統計數據的質量因素進行了分析,文獻[11-19]分別對企業信息化中數據質量差異的現狀和影響因素,提升與優化方案進行了探討。縱觀之前的研究成果,對數據質量的自動化調節尚未深入實踐研究。本人在中國中車下一級子公司中車株洲所負責主數據管理系統的運維,每天面對幾萬條數據在系統中交互,業務繁忙時有幾十萬條數據在主數據管理系統中完成數據的集中存儲分發,通過企業服務總線監控,發現每一天在主數據經企業服務總線分發到下游系統的過程中,都會出現數以萬計的服務異常,高并發時則更嚴重,如若僅憑人為干預去調節這種異常,工作量之大可想而知。為此本人創造性地提出一種數據質量自動調節機制,通過在下游系統和主數據之間建立增量負反饋調節下發機制,有效解決了企業數據質量不佳的問題,極大地降低了企業數據質量管理的運維成本。
1? 數據質量定義及其評價指標
數據質量,顧名思義就是數據的質量,也包括數據值的質量、數據模型設計的質量、數據管理流程的質量。數據質量指標(Data Quality Index,DQI),是基于最小化“數據缺陷(錯誤)率”,通過持續不斷的數據質量驗證進行管理的評測指標,主要包括數據的完整性、唯一性、有效性、一致性、準確性、及時性。
1.1? 數據的有效性
數據的有效性(Validity)是指數據項必須滿足所定義的數據有效范圍以及域條件,在確保數據的一致性、唯一性、準確性、及時性、完整性的前提下,需要考慮數據的有效性。
1.2? 數據的準確性
數據的準確性(Accuracy)是指現實世界中存在的對象表示值,必須準確地反映出來。有了可靠的原始數據,才能加工出準確的信息,并保證決策者做出正確的判斷。
1.3? 數據的及時性
數據的及時性(Timeless)是指數據產生的時間須滿足業務分析的時間要求,一個好的應用系統在使用數據時,不僅要求數據的適用性,還必須考慮數據的及時性。
1.4? 數據的完整性
數據的完整性(Completeness),其重要性遠不及數據的準確性和及時性,但其作用也不容小覷。數據的完整性就是我們日常所說的“數據齊、全、準”當中的“全”,必需的數據項,不得遺漏。
1.5? 數據的唯一性
數據的唯一性(Uniqueness),即表示數據項必須唯一,不得重復。包括單獨唯一性和條件唯一性,單獨唯一性是指字段必須為唯一值,比如客戶的ID必須唯一;條件唯一性是指根據業務條件字段值必須唯一,例如教育課程的安排、課程日期和開設地點必須唯一。
1.6? 數據的一致性
數據的一致性(Consistency)是指數據所要遵循的結構和值,表現為數據的形態必須始終一貫、一致。體現在四個方面,分別為指標代碼一致性、參照一致性、數據流一致性、字段連貫性。
數據除具有上述質量特性之外,還具有可取得性、可銜接性、可解釋性、客觀性、專業性、可比性等非質量特性,這些特性對數據的質量控制不會產生較大影響,因此不做過多的討論。
數據質量度量可以幫助企業建立全面的數據質量監控體系,企業的數據質量管理員,根據數據的不同性質綜合運用數據質量度量,實現對企業數據質量的監控有重點、不遺漏。例如,對于數據倉庫基礎庫表,側重于完整性、唯一性、一致性的監控;對于報表、指標等最終輸出數據,側重于準確性、及時性、合法性的監控。
數據質量的完整性、唯一性、準確性等需要前臺的校驗規則去規避,設定好規則,錄入數據的這幾項指標就能得以提高,及時性、有效性主要是通過流程設計合理和接口邏輯嚴謹把控的,本文主要在主數據系統(Stibo System)中,從一致性方面考慮,通過定性分析和定量計算,探究反饋調節機制在數據質量管理中的應用。
在應用系統中,各個系統中的接口調用異常時有發生,網絡的波動,下游系統的性能不佳,高并發時的接口不足,均會導致數據傳遞異常,這方面的問題不屬于錯誤,往往可以通過重新同步得以解決,比如在系統性能穩定或網絡條件好時即可恢復,但是不定期大量數據的手動重復調用是一個很煩瑣的工作。本文所探討的反饋調節方式——一種自適應數據調節下發機制,可有效提升數據質量。
2? 反饋的基本概念
反饋又稱回饋,是控制論的基本概念,是指將系統的輸出返回到輸入端并以某種方式改變輸入,進而影響系統功能的過程。反饋可分為負反饋和正反饋。前者起到使輸出與輸入相反的作用,使系統輸出與系統目標的誤差減小,系統趨于穩定;后者起到使輸出與輸入相似的作用,使系統偏差不斷增大,使系統振蕩,可以放大控制作用。對負反饋的研究是控制論的核心所在。
3? 負反饋調節機制在主數據管理中的應用
STEP主數據管理系統中數據的進入由Inbound集成端點控制,數據下發由Outbound集成端點控制,數據的運算由EventProcessor控制,除了Inbound,Outbound和EventProcessor都可以受監聽觸發,三者均可以根據規則去運算處理,STEP主數據管理系統客戶端界面如圖1所示。
以物料主數據下發ERP為例,實驗步驟為:
(1)在客戶端上建立一個EventPorcessor(事件處理器),并設置監聽字段為erp_matl_check_status(ERP物料數據差異質檢狀態);該字段初始值為空。
(2)在Inbound中加入規則,規則邏輯為與ERP傳輸過來的字段數值作對比,多個字段差異按照字符串拼接,并把差異描述信息更新為這個字段的值,數據每次反饋進入主數據均會更新這個字段的狀態。
(3)我們利用事件處理機制的API來編寫業務規則Queue.republish(node),當所監聽字段觸發變動時,通過EventProcessor運算這個規則,將產生的事件發送到下發ERP的隊列(crrc_matl_outboundALL)。
(4)ERP產生增量數據后定時傳送到主數據Inbounnd所存儲目錄,如此形成閉環,當數據無差異時,EventProcessor不會受監聽觸發,整個過程達到收斂。
圖2為主數據負反饋調節數據完整架構圖,數據由上游系統錄入,在主數據管理系統中完成集中存儲分發,數據分別流向下游系統。為保證下游系統的數據質量,我們在每個下游系統和主數據系統之間建立增量反饋通道,細節如圖3(負反饋調節原理圖)所示。假設設定某一數據類型,下游系統反饋到主數據的數據量為增量a,上游系統傳入主數據產生的增量為b,b可以大于a,小于a,或者等于a,b大于a的情況我們不予考慮,這種情況在實際中也會存在,一般是系統出現大故障之后的數據狀態,因此當a=b時,數據進入主數據之后,進行差異比對,利用主數據內部觸發機制,將差異數據再次下發進入下游系統,如果a
除了這個流程架構以外,主數據內部觸發機制也是此次討論的重點。縱觀市面上各種數據管理產品,字段監聽、觸發下發都是采用這樣的實現機制,在主數據差異字段被監聽之后,通過編寫一定邏輯的業務規則,EventProcessor數據事件處理器將對應事件發送到對應的系統下發隊列,進行數據重新發送。
為了比較數據一致性,我們設向量A={a1,a2,a3,…,an},B={b1,b2,b3,…,bn}分別表示在兩個系統中主鍵相同的兩條數據,其中a1,b1抽象表征對應屬性值,在這里我們只比對是否相等,記相等為0,不相等為1,則兩個系統數據差異可以通過式(1)確定:
(1)
通過式(1)可以得出結論,當S為1時,數據完全差異,當S為0時,兩個數據無差異,當S≠0時,即可斷定這條數據不一致。現在將m條數據分別計算S值,并取平均值,即可得δ值,此參數表征兩個系統中同一種數據的平均差異情況,δ越大,差異越大,反之δ越小,差異越小。
(2)
以系統中特定工廠的564 513條物料數據為例,核心屬性(45個),將數據全部下發,經過一定時間傳輸后,分別計算統計引入負反饋調節機制和無反饋調節的數據差異情況,相同的系統條件下,登記并計算δ,結果如表1所示。通過在實際的業務中增加反饋調節機制,從表1中可以看出主數據與下游系統的數據質量差異,明顯有了質的改變。
在此反饋調節過程中需要注意的是,數據差異字段的評判邏輯,比如主數據A的屬性為kg,下游系統的屬性值為千克,如果評判邏輯為嚴格一致,那么每次反饋的差異將會是不一致的,這會導致數據增量每次反饋,觸發下發,反饋,觸發下發,陷入無限循環,這樣會對系統性能造成很大的影響,我們需要在性能和質量上尋求一個平衡,比如設置一定的循環次數,當到達此次數后,跳出循環。此外,這種反饋調節機制,對于由數據本身準確性所導致的下游系統校驗問題、流程及接口的邏輯錯誤問題是不可修復的,對于此類問題,將會以郵件通知的形式,通知對應的數據管理員,告知其及時對數據做出修正。
4? 結? 論
本文在企業實際業務系統中,即在主數據平臺和下游系統之間建立一種反饋調節通道,提出一種數據質量的負反饋調節機制,從數據質量的差異性角度出發,通過對實際業務運轉的定性分析和定量計算,有效減少了主數據上下游系統間的數據差異,同時自動調節方式有效減化了系統中人工梳理數據的過程,降低了運維成本。隨著企業信息化的不斷深入,數據的質量越來越重要,在大數據、云計算時代,對數據質量的監控、調節應朝著更加自動化和智能化的方向發展。
參考文獻:
[1] KAHN B K,STRONG D M,WANG R Y. Information quality benchmarks:product and service performance [J].Communications of the ACM,2002,45(4):184-192.
[2] ORR K. Data quality and systems theory [J].Communications of the ACM,1998,41(2):66-71.
[3] 楊青云,趙培英,楊冬青.數據質量評估方法研究 [J].計算機工程與應用,2004(9):3-4+15.
[4] 黃武鋒,鄭華.面向企業信息化的數據質量評估研究 [J].計算機技術與發展,2011,21(1):185-188+192.
[5] 宋敏,覃正.國外數據質量管理研究綜述 [J].情報雜志,2007(2):7-9.
[6] HUANG K T,LEE Y W,WANG R Y. Quality information and knowledge [M].Upper Saddle River:Prentice Hall PTR,1998.
[7] 胡文娟.企業報表系統的數據質量管理 [J].中國新通信,2017,19(22):97.
[8] 王英潔.企業全面數據質量管理體系研究 [C]//2010電力行業信息化年會.2010電力行業信息化年會論文集.長沙:期刊會展中心,2010:169-172.
[9] 毛一凡,張冰,任毅.企業數據質量的監控及提升 [C]//2017智能電網發展研討會.2017智能電網發展研討會論文集.北京:出版社不詳,2017:313-315+432.
[10] 溫雪,張偉.企業信息化統計數據質量影響因素分析 [J].山東工業技術,2018(8):219.
[11] 陳遠,羅琳,沈祥興.信息系統中的數據質量問題研究 [J].中國圖書館學報,2004,30(1):48-50.
[12] 亓文會,李傳春.企業信息化中數據質量監督控制研究 [J].中國管理信息化(綜合版),2007(7):15-17.
[13] 盧紹年.淺析企業信息化建設與數據質量 [J].廣西電業,2013(3):88-89+96.
[14] 譚馳.數據質量管理系統研究與應用 [J].貴州電力技術,2014,17(4):71-73.
[15] 朱如,李慶峰.數據質量管理與企業信息化建設 [J].計算機時代,2005(6):31-33.
[16] 彭健恩.探討數據質量管理的未來發展 [J].科技資訊,2017,15(29):242-243+245.
[17] 景瑞娜.提高數據質量管理的幾點思考 [J].中國金屬通報,2018(4):137-138.
[18] 畢月俠.影響企業信息系統數據質量的因素和提高的措施 [J].現代商業,2009(12):222-223.
[19] 趙長生,姜立勇,董松金,等.制造型企業信息化基礎數據整理研究 [J].機械設計與制造工程,2013,42(1):44-48+52.
作者簡介:夏榮(1987—),男,漢族,湖北洪湖人,助理工程師,碩士研究生,研究方向:混沌圖像加密、主數據管理、大數據技術;趙捷(1988—),男,漢族,湖南株洲人,助理工程師,碩士研究生,研究方向:數據分析、數據挖掘、機器學習。