基于Data Fabric 的多模數據管理方法

2023-09-22 01:09:56鄭新俊田國良黃飛虎

華東師范大學學報(自然科學版) 2023年5期

關鍵詞：檢測

鄭新俊, 田國良, 黃飛虎

（1. 南京理工大學網絡空間安全學院, 江蘇江陰 214414; 2. 中國移動通信集團江蘇有限公司, 南京 210029; 3. 北京寶蘭德軟件公司, 北京 100021）

0 引言

隨著數據作為戰略資產在政府和企業發展過程中發揮的作用日益突出, 以及數字技術的蓬勃發展, 政府和企業在信息化向數字化轉型過程中運用不同類型應用系統生成的數據已日益趨于多模化、多源化、海量化. 其發展趨勢給多模數據管理帶來了眾多新挑戰. 不同類型的應用系統使用各自的數據源、數據格式和數據訪問方式, 同時數據類型也更加多樣化, 這使得數據管理變得更加復雜, 需要一種能夠解決多模數據管理的新型技術或方法論來指導構建統一的數據管理平臺, 以便更有效地管理和優化多模數據環境, 進而提高數據的易用性和價值性.

2010 年以來, 業界在數據湖概念的基礎上進一步提出了采用多模、高擴展的分布式數據庫解決一站式數據存儲的多模數據湖方案, 其可以對多模數據進行統一的存儲和訪問; 但同時會引起不同的數據來源、數據源類型、數據格式的數據集成難度大, 數據一致性、準確性控制難度大的問題, 以及數據復制和數據冗余等問題. 2019 年, 陸嘉恒等[1]提出基于多模型查詢處理與優化的多模數據管理方案,可以把不同模型的數據進行統一存儲, 但是它們不能提供跨模型的查詢語言, 以及針對多種模型數據的查詢優化.

目前, 針對使用數據湖、多模數據庫等方法進行多模數據管理時存在的數據一致性、跨模型查詢等問題, 業界提出了利用Data Fabric 中集成的技術和工具來搭建多模數據管理平臺[2], 本文的主要工作和貢獻如下.

(1) 對Data Fabric 的整體架構、技術特點、技術價值和發展趨勢進行了深入分析, 并闡述了多模數據管理中使用Data Fabric 的完整流程.

(2) 提出了一種基于時序指標多模多源數據的異常檢測方法, 其運用Data Fabric 技術中的數據管理與協同處理能力, 通過設計并實現了基于多源數據的異常檢測模型和算法, 解決了對大規模、多類型和多源的時序指標數據進行高效、準確的異常檢測問題. 通過實驗證明, 該方法能夠實時處理和分析TB 級別的數據, 處理速度和F1-score 較其他方法分別提高33.3%和12.2 個百分點(用pp 表示).

(3) 提出了一種基于多模多源日志數據的異常檢測方法, 其充分利用了Data Fabric 的數據整合和實時處理能力, 并通過結合“BERT + 自編碼器”方法, 設計了一種能夠自動解析和識別大規模、不同源的多模日志數據異常的算法. 通過實驗證明, 該方法不僅能處理TB 級別的數據, 而且能在異常日志生成后的平均3 s 內成功地識別出異常, 處理速度和F1-score 較傳統方法分別提高42.2%和14.8 個pp.

本文的第1 章介紹了Data Fabric 的概念、特點和發展趨勢, 第2 章介紹了Data Fabric 的關鍵技術、技術價值和應用方法, 第3 章提出了使用Data Fabric 技術的兩種多模多源數據處理方法, 并通過實驗驗證了提出的方法的性能和準確性, 第4 章對Data Fabric 技術的應用進行了展望和建議, 第5 章對全文進行了簡要總結.

1 Data Fabric 技術闡述

1.1 Data Fabric 的概念

Data Fabric 被Gartner 定義為一種新型的數據管理技術和方法[3], 其提供了一種無縫、統一、可擴展和可靠的數據服務層, 使客戶有效地管理和利用分布在不同環境和存儲系統中的多來源、多類型、多格式數據, 用于解決跨越不同地域和數據中心的數據管理、訪問及分析應用的復雜性問題.

自2019 年起, Gartner 連續3 年將Data Fabric 列為年度數據和分析技術領域的十大趨勢之一.Data Fabric 也被稱為數據編織, 其概念由研究機構Forrester 在 2000 年首先提出. 它將不同的數據來源 (如本地數據中心、私有云、公共云、混合云、物聯網設備等) , 數據庫類型 (如關系型數據庫、鍵值數據庫、NoSQL 數據庫、NewSQL 數據庫、消息隊列、文件存儲、分布式文件系統等) , 數據格式(如結構化數據、半結構化數據和非結構化數據) 和SaaS 應用程序之間建立無縫的數據進行聚合、管理和分發, 形成一個統一、全面和高效的數據管理平臺, 并提供統一、可靠和實時的數據訪問能力, 以便能夠更快、更好地進行數據分析和做出高質量的應用和決策. Data Fabric 的架構非常靈活, 自下而上包括3 個部分.

(1) 數據集虛擬化層. 該層將來自多種數據源和數據類型的數據進行整合, 將分散的數據自動轉換為統一的格式和標準化結構, 并提供一致的數據訪問接口和服務.

(2) 數據處理層. 該層是Data Fabric 的核心, 提供數據的處理、分析、存儲和管理等服務, 支持各種數據類型的分析和挖掘.

(3) 數據應用層. 該層提供API (application programming interface)和工具, 支持開發者自定義各種應用程序, 以使用Data Fabric 提供的數據資源和服務來支持企業內部的業務需求.

1.2 Data Fabric 的技術特點及技術價值

Data Fabric 的特點包括多源異構數據整合、數據分析和挖掘、架構靈活、全局可訪問性、數據安全性及彈性可擴展等. 其技術特點和技術價值具體分析如下.

(1) 多源異構數據的整合能力

其架構是一種開放式的、微服務化的架構, 可以運行在公共云、私有云、混合云和本地數據中心等不同的數據環境中, 支持各種類型的應用程序和數據倉庫. 利用數據虛擬化技術將多源異構數據進行虛擬化處理, Data Fabric 將來自不同類型的數據源和存儲系統的結構化數據、半結構化數據和非結構化數據轉換成統一的數據視圖, 并提供一致和實時的數據訪問能力.

通過Data Fabric 中的異構數據整合能力可以解決數據源聚合、數據格式轉換、數據模型映射、數據質量管理以及數據安全和權限控制等多個數據管理痛點. 它簡化了異構數據的整合過程, 提供了統一的數據訪問和管理接口, 使用戶能夠輕松地利用和管理各種類型的數據.

(2) 數據分析和挖掘能力

Data Fabric 具有高效的數據預取、內存加速和多線程處理等技術, 具有強大的流數據和批量數據的分析挖掘能力, 可自動對數據進行探尋、聚合、分析和挖掘.

Data Fabric 的數據分析和挖掘功能可以幫助企業解決數據管理中的數據探索、數據挖掘、實時分析、預測分析以及數據質量和異常檢測等痛點. 它使用戶能夠更好地理解和利用數據, 發現數據中的價值和洞察, 并支持業務決策和創新.

(3) 全局可訪問性

Data Fabric 采用自治的數據管理方法, 能夠在不同的地理位置、多個云和數據中心之間, 實現數據的無縫連接和交互, 使數據能夠實現全局可訪問性.

Data Fabric 對數據的全局可訪問性為企業解決了數據管理中的數據分散和孤島化、跨地域和跨云的數據管理、多用戶和多部門數據共享以及實時數據處理和分析等痛點. 它實現了數據的全局可見性和一致性, 提高了數據的可用性、共享性和價值, 為企業的數據管理和應用能力帶來了顯著的提升.

(4) 數據安全性

它提供完備的權限控制和加密技術, 支持數據加密、數據隔離、訪問控制、數據審計和數據監控等多種技術, 用來保證數據在流動、存儲和使用過程中的保密性、完整性和可用性.

Data Fabric 中的數據安全性能夠幫助企業解決數據管理中的數據隱私保護、合規性要求滿足、數據備份和災難恢復、安全性監測和警報以及數據完整性和可信度等痛點. 它提供了一系列的安全功能和控制手段, 保護了數據的安全性和隱私性, 降低了數據泄露和安全風險, 增強了企業對數據的信任和保護.

(5) 彈性可擴展

Data Fabric 基于云原生、容器化和微服務體系結構, 具有良好的可擴展性和易部署性. 適應業務需求和數據規模不斷變化的同時可以動態地調整擴展節點或存儲資源, 在高并發訪問和大數據的情況下提高數據處理的效率, 并保證系統的可靠性和穩定性.

Data Fabric 的彈性可擴展的特性能夠解決企業在數據管理中的數據容量增長、高并發處理需求、異構數據管理、數據存儲和訪問效率以及系統可靠性和容錯性等痛點. 它具備靈活的擴展性和適應性, 可以根據需求進行資源調配和功能擴展, 滿足不斷變化的數據管理需求, 并提高數據處理的效率、可靠性和可用性.

上述特點使它成為一個強大的新型數據整合平臺技術, 具有較大的技術價值, 能夠解決復雜的多模數據管理的眾多痛點: 它可以整合和連接各種數據源、數據存儲和應用系統, 解決數據管理中的數據類型繁多、來源錯綜復雜和數據孤島問題; 在數據管理過程中無需對數據進行統一的集成交換和存儲, 解決了數據管理中需對數據集中化的問題, 以及數據集中化帶來的數據復制和冗余問題; 可以對數據虛擬化[4], 在訪問的過程中進行查詢優化, 解決了數據訪問效率低下的問題.

1.3 Data Fabric 的效益趨勢

Data Fabric 作為一種跨平臺的靈活、彈性數據整合技術, 能夠簡化數據整合基礎設施, 減少數據和分析團隊因整合難度上升而出現的技術債務. Gartner 預測, 至2023 年, 基于Data Fabric 的人工智能可將數據質量和數據管理的部署成本降低35%, 持續運營成本在現有基礎上降低65%[5]; 至2024 年,Data Fabric 可減少50%人力數據管理成本, 而且數據利用率會因Data Fabric 的部署使用提升3 倍;超過25%的數據管理供應商將通過自己的產品和合作伙伴的組合, 為數據結構支持提供完整的框架,而目前這一比例不到5%[6].

2 多模數據管理中 Data Fabric 的關鍵技術及應用流程

多模數據管理涉及多數據源、多數據類型的統一管理和訪問, 為技術要求帶來了巨大的挑戰.Data Fabric 通過數據虛擬化、元數據、增強數據目錄、知識圖譜、數據編排、數據工程和數據目錄,并使用AI 能力進行語義豐富、洞察和推薦等可解決這些挑戰, 具體而言如下所示.

(1) Data Fabric 中的數據虛擬化技術[7]將不同的數據來源 (如本地數據庫、私有云、公有云、混合云、物聯網設備等) , 數據庫類型 (如關系型數據庫、鍵值數據庫、NoSQL 數據庫、NewSQL 數據庫、消息隊列、分布式文件系統等) , 數據格式 (如結構化數據、半結構化數據和非結構化數據) 進行識別、抽象并映射到對應數據模型中使數據自動整合, 并提供一致的數據訪問接口和服務能力, 用戶可以通過接口快速便捷訪問不同數據.

(2) Data Fabric 中的各種機器學習算法, 對管理的數據進行高效洞察分析和價值挖掘, 從而加快實現數據價值變現, 讓被動等待的數據策略轉變為主動使能的數據策略.

(3) Data Fabric 中的低代碼技術提供通過拖拉拽實現自定義的數據開發、數據質量檢測、數據處理分析和數據模型管理的便捷服務能力, 解決數據使用者對數據應用開發的硬編碼問題, 降低數據編排和設計的使用門檻, 提升數據使用的效率.

圖1 為Data Fabric 技術核心架構圖.

2.1 多模數據管理中Data Fabric 的關鍵技術和應用場景

2.1.1 Data Fabric 中的數據虛擬化技術和應用場景

數據虛擬化技術是Data Fabric 的核心技術, 可實現跨多個數據源的數據無縫轉換和業務流程編排[8]. 當今企業數據往往分散在各個異構數據系統之中, 比如關系型數據庫、NoSQL 數據庫、數據倉庫、關系數據庫、Hadoop 集群、SaaS、web 服務等. 數據虛擬化提供了一個統一的數據集成和交付層,充當 IT 數據管理基礎設施與業務用戶和應用程序之間的橋梁. 它提供了一個單一的入口點, 無論它位于何處或其原生格式如何不同, 都能以安全的方式訪問任何數據. 一個統一的語義層, 使組織能夠創建虛擬模型, 以每種類型的消費者所需的形式和結構呈現數據. 數據虛擬化能以最適合用戶需求的格式向每種類型的用戶和應用程序提供數據, 與傳統的數據復制方法相比, 成本幾乎可以忽略不計[7],其核心技術有以下幾方面.

(1) 虛擬數據源

數據虛擬化需要將不同的數據源集成為一個統一的數據視圖, 因此需要實現虛擬數據源和透明數據訪問. 虛擬數據源將不同的數據源模型映射到一個通用模型, 從而使得應用程序可以通過一個統一的接口訪問所有的數據源.

(2) 數據融合

由于不同的數據源可能包含不同的數據模型和結構, 因此, 需要將所有數據源的數據進行合并.在數據合并階段, 需要對不同的數據源進行數據模型和結構轉換, 然后將轉換后的數據進行整合和統一.

(3) 查詢優化[4]

對于復雜查詢, 需要在虛擬視圖上重新排序查詢操作以最大限度地下推到數據源 (聚合下推、聯合下推、連接重新排序) , 刪除或簡化操作 (分支修剪、外部到內部) , 甚至在一個數據源中創建臨時表, 其中一部分數據位于另一個數據來源中 (數據移動、MPP 加速)[7]. 針對性能問題, 需要進行查詢優化, 使得查詢結果快速返回.

(4) 數據訪問控制

數據訪問控制是管理可訪問虛擬數據的角色、責任和權限的方法.

(5) 隱私安全保護

由于不同的數據源可能包含敏感數據, 通過訪問控制、數據加密保證數據虛擬化的安全性和隱私保護.

使用Data Fabric 的數據虛擬化技術使企業在多模數據管理的過程中無需構建湖倉一體的統一數據存儲平臺, 為企業解決了在多模數據管理中數據來源分散、數據整合難度大和數據維護復雜的問題, 也能夠更好地管理多源數據和提供更高的數據安全性, 降低數據維護成本, 并可以提供更好的數據訪問性能和更好的數據分析能力, 使企業更好地利用其數據資源.

2.1.2 Data Fabric 中的機器學習(ML)技術和應用場景

在Data Fabric 中, 使用知識圖譜和AI/ML 算法簡化數據集成設計能使數據更加直觀和加強用戶層面的理解, 讓數據工程師、應用分析者、業務專家、業務管理者更加能夠圍繞商業目的進行分析使用. 機器學習技術是Data Fabric 的關鍵技術之一, 有以下核心作用.

(1) 數據質量完善提升: Data Fabric 使用機器學習技術對所管理數據特征的學習和分析[9], 可更準確地識別數據中的問題, 例如潛在數據重復、關鍵數據缺失等.

(2) 數據處理效率提升: Data Fabric 使用機器學習技術來支持數據自動化管理, 包含數據字段分類、數據自動管理等, 從而提高數據管理效率.

(3) 數據應用效率提升: Data Fabric 使用機器學習的各種算法, 快速地通過從數據中挖掘規律和知識, 來預測未來的數據變化趨勢, 進一步提高對客戶數據的洞察和分析應用能力.

機器學習技術主要分為以下幾種類型.

(1) 監督學習: 使用標記好的數據作為訓練樣本進行學習, 生成一個模型或算法并在新數據中進行預測. 該模型可以根據已有的訓練數據來預測新的數據, 包括分類、回歸等.

(2) 無監督學習: 不使用標記好的數據, 直接從數據中挖掘出隱藏的內在結構、規律和信息, 發現數據本身的關系、分組等特點. 該類學習方法包括聚類和降維等.

(3) 半監督學習: 介于監督和無監督學習的中間狀態, 同時使用有標記和無標記的數據, 通過半監督學習技術來增強機器學習的預測能力, 以便更好地擬合數據模型.

(4) 強化學習: 在動態環境下進行決策的方法, 通過多次試驗, 讓計算機不斷學習, 將觀察結果映射成行動, 建立起一種行動與結果之間的獎勵機制, 最終得出一個最優決策.

(5) 深度學習: 通過建立多層神經網絡, 進行多層次特征學習和分類、預測、控制的方法, 通過對大量數據的學習和訓練來實現模型優化. 包括視覺識別和自然語言處理等.

Data Fabric 中的機器學習算法能夠幫助企業解決多模數據管理中的數據質量、數據分類和歸檔、數據流分析和實時決策等眾多實際問題. 比如使用機器學習算法可以檢測異常值、缺失值及重復數據, 并提供有效的糾正策略, 通過這種自動化和智能化的方式識別和糾正數據質量問題. 比如機器學習的文本分類、圖像分類等算法可以幫助企業解決多模數據管理中對大規模數據進行快速準確的自動分類和歸檔的問題. 比如實時處理和分析大規模數據流, 結合機器學習算法, 可以快速識別和響應關鍵事件, 并做出實時決策, 有效地解決了數據管理中的實時性和高效性問題.

2.1.3 Data Fabric 中的低代碼技術和應用場景

低代碼 (low-code) 技術是近年來發展起來的一種開發模式, 通過提供可視化的編輯器界面, 將復雜的編程語言轉換成一個組合邏輯圖或流程圖來演示應用程序的運行流程; 通過自動編程技術, 用固定的模塊和組件來完成常見的任務和功能搭建.

低代碼技術已經成為數字轉型和數字化創新的重要驅動力. 它可以縮短開發周期, 降低開發成本,提高生產效率, 促進業務創新, 增加業務價值. 此外, 低代碼技術還能夠提高應用程序的可維護性和可擴展性, 使其更易于管理和升級.

運用Data Fabric 中的低代碼技術可以讓企業在多模數據管理中無需編寫復雜的代碼, 為企業提供了僅通過拖拉拽和配置等方式就能完成多模數據管理中的自定義應用程序開發、自動化任務和工作流的配置, 解決了數據分析和報表生成工作中技術門檻要求高、人力成本大、效率低和靈活性不足的痛點問題. 簡化了數據管理的復雜性, 允許所有用戶在低技術水平下進行數據的洞察和使用, 支持各種應用場景, 完成數據平民化落地. 通過數據自助服務, 有效地解決了大部分用戶不能、不會使用數據的瓶頸.

2.2 多模數據管理中Data Fabric 的完整應用流程

Data Fabric 的落地通常包含數據工程和目錄的規劃、數據接入、數據分析、數據服務這4 個主要步驟.

2.2.1 數據工程和目錄的規劃

首先, 通過對需管理的不同的數據來源、數據庫類型、數據格式及歸屬應用系統、部門等數據進行調研, 形成調研資料; 其次, 結合客戶需求、數據管理目標和數據應用場景進行數據域、數據主題的劃分; 最后, 結合調研資料和需求進行數據工程和目錄的規劃.

2.2.2 數據接入

2.2.2.1 數據源識別和抽象

數據源識別和抽象是多模數據管理的一個關鍵環節, 它可以幫助我們自動識別和抽象數據源, 將它們映射到一個統一的數據模型中. 其步驟如下.

(1) 數據源識別. 首先, 通過連接數據源對已知數據源進行掃描以確定它們是否可用, 并收集數據源的元數據信息, 例如數據表名稱、列名稱、數據類型等. 然后, 使用機器學習或自然語言處理的技術,對元數據進行分析和比較, 并建立和解析數據源及關系模型, 從而確定數據源的來源、類型和格式.

(2) 數據源抽象. 通過數據源識別掃描后, 將數據源識別為邏輯層面上的實體模型, 例如數據庫模型、文檔型模型或圖形模型等. 在將數據源映射到統一數據模型之前, 需要對數據源進行抽象, 即將數據源的結構和語義抽象為一個通用的數據模型. 這個過程通常涉及數據模式匹配、數據模式轉換和語義理解等.

(3) 統一數據模型. 一旦數據源被抽象為一個通用的數據模型, 就可以將不同的數據源映射到同一個數據模型中. 這個數據模型可以是關系型數據庫模型、文檔型模型、圖形模型等, 根據不同的應用場景選擇不同的模型.

2.2.2.2 數據整合和集成

Data Fabric 通過數據虛擬化技術將不同類型的數據源整合在一起, 數據整合和集成包括數據源轉換、數據聚合和數據聯接等. 數據整合和集成主要通過收集數據源信息、創建虛擬視圖和定義物理源與虛擬視圖的映射這3 個核心步驟來實現.

(1) 收集數據源信息. 使用數據源識別獲取的所有數據源信息, 結合算法 (如數據相似性算法[10]來確定幾個數據源之間的相似性) 將不同的數據來源 (如本地數據庫、私有云、公共云、混合云、物聯網設備等), 數據源類型 (如關系型數據庫、鍵值數據庫、NoSQL 數據庫、NewSQL 數據庫、消息隊列、分布式文件系統等) 和數據格式 (如結構化、半結構化和非結構化) 的數據源進行整合; 同時, 收集這些數據源的元數據信息, 包括每個數據源的數據格式、結構、數據列數、名稱等.

(2) 創建虛擬視圖. 使用數據虛擬化技術需要創建一個用于查詢、更新、刪除和從不同數據源中檢索數據操作的虛擬視圖, 該視圖即為用戶最終訪問的中央訪問點. 通過一個統一的虛擬視圖, 使數據的訪問變得更加方便.

(3) 定義物理源與虛擬視圖的映射. 將虛擬視圖的模式定義與現有數據源的模式進行邏輯映射.

2.2.3 數據分析

首先, 將接入管理的多模數據中的元數據、知識圖譜、增強數據目錄和語義豐富等數據結合AI/ML 中的算法, 進行洞察分析和價值挖掘, 加快數據價值的提煉速度, 讓被動等待的數據策略轉變為主動響應的數據策略. 其次, 通過使用低代碼實現的數據編排和設計功能, 實現數據處理流程的設計、數據質量檢查的設計、數據管理模型的設計, 為用戶提供便捷高效的數據管理能力. 解決數據管理者和數據分析師對數據應用開發的硬編碼問題, 降低數據編排和設計的使用門檻, 提升數據使用效率.

2.2.4 數據服務

使用低代碼實現的數據編排和設計功能將跨多個數據源進行編排構建基于實時數據的工作流,然后將工作流執行的數據結果通過統一API 接口和可視化工具提供給用戶, 幫助政府、企業和個人快速使用和開發數據應用. 數據服務的重要性越來越受到重視, 已成為未來數字經濟的關鍵組成部分.數據服務核心流程如下.

2.2.4.1 數據查詢及優化

當用戶提交查詢訪問時, 為獲得最佳的查詢結果, 在執行查詢前, 會遵循一套算法來查找最佳數據源, 并對用戶提交的查詢進行轉換, 將其轉換為實際查詢數據源中使用的語言.

對于復雜查詢, 首先需要在虛擬視圖上重新排序查詢操作以最大限度地下推到數據源(聚合下推、聯合下推、連接重新排序), 刪除或簡化操作(分支修剪、外部到內部), 最終轉換為可在數據源中檢索數據的物理查詢語言; 然后, 執行轉換后的查詢語句, 并將結果以虛擬表的形式返回給用戶. 這種查詢實際上是由虛擬表組合或聯接而生成, 無需從數據源中移動或匯總數據. 查詢優化主要圍繞以下幾步進行:

(1) 執行計劃分析. 執行計劃是數據庫管理系統根據所給定SQL 語句生成的一種可供直接執行的計劃, 可以用來快速檢索和處理結果. 對于復雜的查詢語句, 系統通常會生成多個執行計劃, 優化器需要選擇最優的執行計劃, 以便盡可能快地返回查詢結果.

(2) 數據分析. 優化器對查詢語句進行分析, 以了解查詢所涉及的數據表和字段, 以及查詢條件等信息.

(3) 索引優化. 索引是提高查詢性能的重要手段, 優化器嘗試通過選擇合適的索引來優化性能.

(4) 緩存機制. 查詢結果的緩存可以大幅度地提高查詢性能, 因為結果已被計算出來, 可以直接返回. 在SQL 操作中相同的SQL 語句經常會被執行多次, 所以使用緩存來存儲最常用的查詢結果可以避免反復創建對象, 提高性能.

2.2.4.2 數據的洞察分析

在數據整合和集成的基礎上, Data Fabric 提供各種用于數據分析的組件, 包括數據挖掘、機器學習、數據可視化、報表和分析等, 可以對元數據、知識圖譜、數據目錄等管理的多類大量數據進行探索和分析, 以洞察其中隱藏的趨勢、關聯性等有價值的信息, 可以幫助政府和企業在數據管理過程中更好地挖掘需求、發現潛在風險、優化管理流程和提升決策效率. 例如, 在營銷領域, 企業通常需要從多個數據源中收集數據(如銷售數據、在線廣告數據和社交媒體數據), 利用多模數據管理中的數據洞察分析技術, 分析人員可更容易理解不同來源的數據、數據之間的關聯性以及數據在業務場景中的發展趨勢等.

3 基于多模數據管理中的Data Fabric 的應用實踐

本章將深入探討基于多模數據管理中的Data Fabric 的應用實踐. 我們提出了基于時序指標數據的異常檢測和基于日志數據的異常檢測兩個多模多源數據處理方法, 來驗證Data Fabric 的高效性和便捷性.

3.1 Data Fabric 用于處理多模時序數據和多模日志數據的優勢

Data Fabric 的多模數據管理方法在處理時序數據的異常檢測上, 相比于傳統數據管理系統, 具有以下顯著優勢.

(1) 數據一致性和完整性. Data Fabric 可以實時處理和管理多模多源時間序列數據, 確保數據的一致性和完整性, 這是精確檢測異常的前提.

(2) 并行計算和分析. Data Fabric 能夠處理大規模的數據并行計算和分析, 大大提升了數據處理的效率, 這對于時間敏感的異常檢測至關重要.

(3) 高效的模型訓練和部署. Data Fabric 提供了便捷的模型訓練和部署平臺, 方便了機器學習模型的應用, 并可以實時更新模型以適應時間序列數據的變化.

Data Fabric 的多模數據管理方法在處理日志數據的異常檢測上, 優勢同樣明顯.

(1) 高效處理多模多源日志數據. 日志數據通常來自不同的系統和應用, 具有各自的格式和結構.Data Fabric 可以方便地整合這些多源日志數據, 提供一致的視圖和查詢接口.

(2) 高效的文本處理能力. Data Fabric 支持各種文本處理和分析工具, 例如自然語言處理 (NLP)和機器學習模型, 這使得處理復雜的日志文本成為可能.

(3) 實時的異常檢測. Data Fabric 可以實時處理和分析日志數據, 提供實時的異常檢測, 這對于需要快速響應的場景 (如網絡安全) 非常重要.

總的來說, Data Fabric 的多模多源數據管理為異常檢測提供了強大的支持, 不僅提高了異常檢測的精度, 而且也大大提升了處理效率.

3.2 應用實踐1: 一種基于時序指標的多模多源數據的異常檢測方法

基于日志數據的異常檢測是Data Fabric 中非常重要的技術應用之一. IT 系統在日常運營中產生大量的日志數據, 這些數據可以包含各種各樣的信息, 例如數據源運行故障日志、用戶操作數據庫日志、數據文件分布情況等. 通過基于時序指標數據的異常檢測技術, 可以對日志數據進行分析和檢測.具體來說, 可以使用機器學習算法對日志數據中的異常點進行自動檢測, 并將結果反饋給用戶, 以幫助用戶快速排除問題、改善業務流程和提高服務質量.

基于時序指標數據的異常檢測, 我們采用的是經過優化的孤立森林 (isolation forest) 算法[11]. 孤立森林是一種非常高效的異常檢測算法, 在低維和高維數據集上都有良好的性能. 在孤立森林算法中,異常點的檢測是通過創建多棵決策樹并計算路徑長度來實現的, 路徑長度較短的點更可能是異常點.

此高效異常檢測方法成功地將Data Fabric 的特性融入其工作過程中, 充分展示了第1 章和第2 章所描述的技術優勢. 通過有效地使用Data Fabric 技術進行海量多模多源時序數據的管理、預處理和查詢, 顯著提高了此異常檢測方法的性能和準確率.

首先, 我們使用Data Fabric 技術進行數據的采集和整合. 在這個過程中, Data Fabric 可以自動處理來自不同源的時序數據, 包括清洗、轉換、歸一化等, 以統一的方式讓這些數據能被后續步驟所利用.

其次, Data Fabric 強大的查詢能力能夠輕易地從大規模數據集中獲取所需的數據子集, 進行更細粒度的分析. 我們也利用了Data Fabric 的數據版本控制能力, 跟蹤數據的歷史版本, 方便在異常檢測過程中回溯和比較.

最后, 將Data Fabric 與異常檢測算法相結合. Data Fabric 能夠方便地整合多種算法, 使我們可以根據數據和問題的特性選擇最適合的算法, 從而提高了異常檢測的性能和準確率, 此處的最終選擇是經過優化的孤立森林算法完成的.

3.2.1 重要性和挑戰性

在多個行業中, 例如金融業、制造業和零售業, 時間序列數據的異常檢測具有至關重要的作用. 對金融業來說, 異常交易可能預示著欺詐行為或市場操縱; 在制造業中, 設備傳感器數據的異常可能提前預示出設備故障, 允許及時地進行維護, 以防止生產中斷; 而在零售業, 銷售數據的異常可能代表著市場趨勢的改變, 需要調整策略. 在AIOps (artificial intelligence for IT operations, 智能運維) 領域,利用時序指標數據進行異常檢測是一項極其重要的任務, 因為這可以幫助我們及時發現系統性能的異常變化, 從而防止可能出現的系統崩潰或服務中斷等問題. 然而, 由于時序指標數據的多源性、高維性及噪聲干擾等問題, 利用這些數據進行異常檢測也面臨著極大的挑戰. 例如, 不同源的數據可能具有不同的地點和模式, 這就需要異常檢測模型能夠適應這些差異.

3.2.2 Data Fabric 在時序指標異常檢測中的應用

Data Fabric 在異常檢測中的應用主要表現在它可以有效地處理和分析來自不同源的時序指標數據, 而不需要進行繁瑣的數據預處理步驟. 此外, Data Fabric 也支持實時的數據處理和分析, 這對于實時的異常檢測任務來說尤其重要.

3.2.3 實驗目的

時序指標異常檢測的目的是利用Data Fabric 框架強大的數據管理和處理能力, 實現更有效、更準確的時序數據異常檢測. 具體來說, 有以下幾個目的.

(1) 驗證Data Fabric 的高效性和便捷性. 驗證Data Fabric 環境下比非Data Fabric 環境下數據管理及不同算法任務的性能和便捷性具有明顯的優勢.

(2) 驗證優化的孤立森林算法的高效性. 其在時序指標數據異常檢測上的準確性和效率優于傳統的孤立森林算法, 借助Data Fabric 的AI 和大數據處理能力, 使用更復雜、更精確的模型進行異常檢測,可提高檢測的準確性, 減少誤報和漏報.

(3) 大規模、自動化的異常實時檢測. 借助Data Fabric 的自動數據處理和AI 功能、分布式和多模型特性, 可以實現對大量時序數據的自動化處理和分析, 無需人工參與, 提高了運維效率. 無論是來自于一個大型系統的各個組件, 還是來自于多個不同系統的數據, 都能有效地進行異常實時檢測.

在基于時序指標數據的異常檢測實驗中, 處理的數據來自多個不同的源, 如服務器、網絡設備、數據庫等, 數據類型包含CPU 利用率、磁盤I/O、網絡延遲、業務日志等, 這些數據類型既有連續的數值型數據, 也有離散的類別數據, 形成了高度的多模數據. 傳統的異常檢測方法往往針對單一數據源和數據類型, 對這種多模數據的處理能力有限. 然而, 基于Data Fabric 的處理流程和優化的孤立森林算法, 可以有效地直接地處理這些多模數據, 提高了異常檢測的準確性和及時性.

3.2.4 實驗數據

本實驗涉及數據為多源的時序指標數據, 80 億條 (7 TB) , 包含不同數值類型、不同單位、不同采集頻次的時序指標數據, 具體格式如表1 所示.

表1 時序指標異常檢測的多源多模數據Tab. 1 Multisource and multimode data for anomaly detection of temporal indicators

表1 中包含了不同類型的設備 (如數據庫服務器、負載均衡器、IoT 設備、網絡交換機、Web 服務器、防火墻和存儲服務器) 及其不同的指標, 以及相應的數值和非數值類型的數據.

3.2.5 算法分析

對于基于時序指標數據的異常檢測, 我們采用擴展的孤立森林算法[11](extended isolation forest) ,即一種優化改進后的孤立森林算法. 它相比傳統的孤立森林算法可以更好地處理多模態數據[12](即數據分布有多個峰值) . 該算法在選擇切割點時不僅隨機選擇特征, 而且還隨機選擇切割值, 這使得算法更能捕捉到數據的內在結構.

在此算法中, 借助Data Fabric 對多源時序指標數據自動清洗和整合的能力, 然后直接使用extended isolation forest 算法對整合后的數據進行訓練, 以便找出異常點. 該算法的孤立性能夠通過式 (1) 進行計算:

式(1)中:h(x) 是樣本x的孤立評分;E[n(x)] 是x被孤立所需的路徑長度的期望值;c(n) 是平均路徑長度, 在二叉搜索樹中, 可以通過式 (2) 進行計算.

式(2)中:H(i) 是i的調和數, 可以近似為H(i)≈ln(i)+γ,γ是歐拉常數, 約等于0.577 215 664 9.

3.2.6 實驗結果

在基于時序指標多模多源數據的異常檢測實驗中, Data Fabric 展示了其強大的能力, 有以下特點及優勢.

(1) 多源數據整合. 利用Data Fabric 技術, 對來自不同源的大規模時序指標數據進行了高效整合,保證了數據的完整性和一致性, 從而為異常檢測提供了全面且可靠的數據基礎.

(2) 時間序列異常檢測算法. 設計并采用了一種新型的基于改進的isolation forest 時間序列異常檢測算法, 該算法不僅能夠有效地處理大規模多源數據, 而且能夠準確地捕捉到異常模式, 大大提高了異常檢測的準確性.

(3) 動態閾值設定. 引入了一種基于數據分布的動態閾值[13]設定方法, 該方法可以自動適應不同類型的數據和各種變化的情況, 提高了異常檢測的靈敏度和實用性.

(4) 實時檢測. 借助于Data Fabric 的實時數據處理能力, 能夠實現大規模多源數據的實時異常檢測, 極大地提升了檢測的時效性, 能夠在異常發生后的最短時間內做出反應.

(5) 高效率和高準確性. 實驗結果顯示, 該方法在減少了80%的人工干預時間的同時, 2 s 內成功地自動解析出和識別出了90.4%的異常事件, 提高了系統的告警及時性、準確性和文檔性.

我們使用優化的孤立森林算法進行實驗, 并與傳統的孤立森林、One-Class SVM、滑動窗口等算法進行對比. 由表2 可以看到, 優化的孤立森林在處理時序指標數據時, 其準確性和效率均優于其他方法,F1-score 從其他算法最高的78.2%提高到90.4%, 提升了12.2 個pp.

表2 時序指標異常檢測算法效果對比Tab. 2 Comparison of the effects of the timing metric in anomaly detection algorithms

從表3 中可知, 在Data Fabric 環境下, 數據處理速度和訓練總時長也均優于非Data Fabric 環境,每處理1 TB 數據的速度從2.43 h 提高到了1.62 h, 減少了0.81 h, 提升了33.3%. 關于Data Fabric 方法與非Data Fabric 方法的區別主要概述如下.

表3 Data Fabric 方法與非Data Fabric 方法相同算法的性能數據對比Tab. 3 Comparison of Data Fabric and non-Data Fabric performance data for the same algorithm

(1) Data Fabric 方法. 在本文中, 當我們談論Data Fabric 方法或系統, 是指一個使用了Data Fabric技術架構的數據管理框架. Data Fabric 作為一種現代的數據架構, 其核心理念是提供一個統一的數據訪問、數據處理和數據管理環境, 以便于跨多種數據源、數據類型和應用進行數據訪問和處理. 在我們的實踐中, 主要體現在: ① 使用Data Fabric 的數據管理能力, 實現了對多源、多模態的數據進行統一的清洗、整合和索引, 大大提升了數據的可用性和處理效率; ② 使用Data Fabric 的分布式計算和存儲能力, 實現了大規模數據的高效處理和實時的異常檢測.

(2) 非Data Fabric 方法. 與之對應, 非Data Fabric 方法或系統是指傳統的數據管理和處理方法.這些方法往往依賴于單一的數據源或數據類型, 并且需要單獨為每種數據源或數據類型進行數據清洗、整合和處理. 由于沒有統一的數據管理環境, 數據的訪問和處理通常是分散和孤立的, 這在處理大規模、多源、多模態的數據時, 往往會面臨效率低下、復雜度高、難以實時處理等問題.

綜上分析, 這種基于時序指標的多模多源數據的異常檢測方法不僅實現了對大規模多源數據的高效處理, 還成功地解決了多源數據異常檢測的挑戰, 展現了其強大的實際應用價值.

3.3 實踐2: 一種基于多模多源日志數據的異常檢測方法

與基于時序指標數據的異常檢測類似, 基于日志數據的異常檢測也是AIOps 領域的一個重要任務. 然而, 由于日志數據的特性 (例如: 日志數據是非結構化的、文本型的), 不能直接使用像孤立森林這樣的基于數值的異常檢測算法, 而需要采用一些適合處理文本數據的算法, 如基于詞袋模型的異常檢測算法.

一種基于日志數據的異常檢測高效方法充分利用了Data Fabric 的優點, 體現了第1 章和第2 章中所討論的關鍵技術. 我們利用Data Fabric 處理、管理和查詢大規模的多源日志數據, 顯著提高了異常檢測過程的效率和性能.

首先, 利用Data Fabric 的數據處理能力, 實現從各種不同源的大規模日志數據中自動提取、清洗、轉換和整合, 使這些日志數據能以一種統一的格式供后續步驟使用.

其次, 借助于Data Fabric 的強大查詢性能, 針對特定問題輕松地從龐大的數據集中檢索所需的子集, 進一步精細化數據分析. 我們還利用了Data Fabric 的數據版本控制功能, 記錄數據的歷史版本, 便于在異常檢測過程中進行數據的回溯和比較.

最后, 將Data Fabric 與日志異常檢測算法相結合. Data Fabric 能夠方便地整合各種算法, 使我們能夠根據具體的數據和問題的特性, 選擇最適合的算法, 從而提高了異常檢測的效率和準確性, 此處最終選擇“BERT + 自編碼器”算法方案.

3.3.1 重要性和挑戰性

日志數據在系統監控和異常檢測中起著關鍵作用. 對于IT 運維團隊來說, 日志可以提供關于系統性能、用戶行為和安全威脅的重要信息; 對于開發者來說, 日志可以幫助他們理解和解決系統故障;對于安全團隊, 異常的日志條目可能是網絡入侵的早期警告. 然而, 使用日志數據進行異常檢測也面臨著挑戰. 一方面, 大規模的日志數據量使得人工檢測幾乎不可能, 這需要自動化的解決方案. 另一方面, 日志數據通常包含各種復雜的結構和非結構化的文本信息, 這需要強大的文本處理和分析能力.此外, 日志數據的質量也是一個問題, 因為日志可能包含錯誤、重復或丟失的條目, 這些情況給日志數據異常檢測帶來了很大的挑戰.

3.3.2 Data Fabric 在日志異常檢測中的應用

Data Fabric 通過強大的數據處理和分析能力, 可以有效地處理和分析日志數據, 從而實現對日志數據的異常檢測. 例如, Data Fabric 可以對日志數據進行實時地清洗、提取和整合, 從而有效地降低噪聲信息的干擾, 并提高異常檢測的準確性.

3.3.3 實驗目的

在Data Fabric 框架下, 日志數據的異常檢測的目的是利用該框架強大的數據管理和處理能力,實現對大規模、復雜的日志數據的異常檢測. 結合Data Fabric 的多模型、分布式、彈性擴展等特性,我們能夠對不同來源、格式的日志數據進行高效的管理和分析, 從而更準確地定位問題, 提升系統的穩定性和運維效率.

對于基于日志數據的異常檢測實驗, 我們收集的日志數據包含系統日志、應用日志、錯誤日志等,這些日志來自不同的系統和應用, 格式和內容各異, 形成了復雜的多模數據. 傳統的基于規則的異常檢測方法在處理這種復雜的日志數據時, 往往需要大量的人工參與和預設規則, 這不僅效率低下, 而且可能漏掉一些未知的異常類型. 在Data Fabric 的支持下, 可以直接使用基于“BERT + 自編碼器”的異常檢測方法, 對多源日志數據進行有效處理, 顯著提高了異常檢測的效率和準確性.

3.3.4 實驗數據

本實驗涉及數據為多種源的日志數據, 約100 億條 (9 TB) , 包含了來自7 個不同源的大規模日志數據, 涉及不同類型的設備 (含數據庫服務器、負載均衡器、IoT 設備、網絡交換機、Web 服務器、防火墻和存儲服務器等) 的日志信息, 而且每種設備的日志風格都有所不同, 更加體現了數據的多源特性. 表4 中的time 表示日志數據的時間戳, message 表示對應的日志信息.

表4 日志異常檢測的多模多源數據格式Tab. 4 Multisource and multimode data for log anomaly detection

3.3.5 算法分析

對于多模時序數據的異常檢測, 我們采用“BERT[14]+ 自編碼器 (autoencoder) ”算法[15].

(1) 訓練自編碼器

需訓練一個自編碼器, 借助Data Fabric 對多源原始的日志數據自動清洗和整合的能力, 對每一條日志消息通過Bert 轉化為一個向量, 然后通過海量日志向量, 用無監督方式訓練一個自編碼器, 自編碼器可通過壓縮和解壓縮數據找到數據的有效表示.

自編碼器是一種無監督的神經網絡, 它可用于學習數據的低維表示, 從而進行特征提取、降維、噪聲消除等. 在異常檢測中, 自編碼器用于學習數據的正常模式, 然后通過比較原始數據和自編碼器的重構結果, 來識別那些與正常模式差異較大的異常點.

自編碼器主要包括兩個部分: 編碼器 (encoder) 和解碼器 (decoder). 編碼器負責將輸入數據x ∈Rd映射到一個低維表示z∈Rp, 解碼器則負責將低維表示z映射回原始空間, 得到重構的數據x^∈Rd. 編碼器和解碼器的映射函數通常由神經網絡來實現, 可以表示為編碼器:z=fθ(x)=σ(Wx+b) , 解碼器:=gφ(z)=σ(W′z+b′) . 其中,σ是非線性激活函數, 如 Sigmoid、ReLU 等;W、b、W'、b'分別是編碼器和解碼器的權重和偏置,θ=W,b和φ=W′,b′分別是編碼器和解碼器的參數.

自編碼器的訓練目標是最小化輸入數據x與重構數據x^ 之間的差異, 常用的目標函數 (損失函數)有均方誤差 (mean squared error, MSE) :

在進行異常檢測時, 可以將輸入數據x通過自編碼器進行重構, 然后計算x與重構結果之間的差異, 此處采用MSE. 如果這個差異超過了閾值0.15, 就認為x是異常點.

(2) 日志異常檢測

當新的目標日志需要檢測時, 首先使用同樣的Bert 模型將日志轉化為向量, 然后將向量輸入給已經訓練好的自編碼器. 如果自編碼器能夠成功地重構這個向量, 那么認為這條日志是正常的; 如果自編碼器無法成功地重構這個向量, 那么認為這條日志是異常的. 具體來說, 可以計算輸入向量和自編碼器輸出向量之間的誤差, 然后設定一個閾值(通常為0.15), 如果誤差大于這個閾值, 那么就認為這條日志是異常的.

3.3.6 實驗結果

本實驗中, 基于日志多源數據的異常檢測高效方法表現出了顯著的優勢, 其主要方法及特點包括:

(1) 多源日志數據的整合處理. 借助于Data Fabric 技術, 我們成功地對不同源、不同格式的日志數據進行了高效的整合, 為準確地進行異常檢測奠定了數據基礎.

(2) BERT + 自編碼器算法. 利用BERT 模型將日志信息轉化為向量表示, 再通過自編碼器進行無監督學習, 從而有效地提取出日志信息的主要特征, 準確地進行異常檢測.

(3) 自動化異常檢測. 算法能自動比較原始數據和自編碼器的重構結果, 并通過設置閾值判斷是否為異常, 實現了日志異常檢測的自動化, 減少了人工參與, 提高了效率.

(4) 實時檢測與快速響應. 利用Data Fabric 的實時處理能力, 實現了在日志異常產生后的平均3 s內即可識別出異常, 大大提高了系統的響應速度.

(5) 強大的處理能力和優秀的性能. 我們的系統在異常日志生成后的平均3 s 內成功地自動解析出和識別出了90%的異常日志事件.

我們使用基于“BERT + 自編碼器”的模型進行實驗, 并與傳統的自編碼器進行對比. 通過表5 可以看到, 基于“BERT + 自編碼器”的模型在處理日志數據時, 其準確性和效率均優于傳統的自編碼器,F1-score 達到了89.3%, 較傳統的74.5%顯著提高, 提升了14.8 個pp.

表5 Bert + 自編碼器與傳統自編碼器算法效果對比Tab. 5 Comparison of the effect of “Bert + autoencoder” and autoencoder algorithm

通過表6 可以看到, 基于“BERT + 自編碼器”的模型在處理日志數據時, 在Data Fabric 環境下,數據處理速度和訓練總時長也均優于非Data Fabric 環境, 每處理1 TB 數據的速度從2.68 h 提速到1.52 h, 減少了1.16 h, 提升42.2%.

表6 Data Fabric 方法與非Data Fabric 方法相同算法的性能數據對比Tab. 6 Comparison of Data Fabric and non-Data Fabric performance data for the same algorithm

綜上分析, 這種基于多模多源日志數據的異常檢測高效方法, 不僅在大規模、多源的日志數據上表現出了強大的處理能力, 而且在異常檢測的準確性和實時性上取得了顯著效果.

4 Data Fabric 技術在多模數據管理中的應用展望和建議

4.1 利用Data Fabric 技術建設數據治理平臺

預計在“十四五”期間, 我國數字經濟將會維持年均約9%的增速, 預計2025 年數字經濟的規模將超過60 萬億元. 數據治理已經從政府行業、金融行業、能源行業延伸到制造、交通、建筑等行業, 其價值和必要性逐漸被認可, 應用前景越來越廣泛, 整體市場將迎來高速增長期. 從市場增長角度看, 預計2023 年的市場規模增長將遠高于 2021 年和2022 年的年度增長[16]. 近兩年, 政府和企業組織都廣泛開展了數據湖、數據中臺及大數據中心等建設項目, 通過這些項目能夠實現價值增長及監管合規等價值. 不過, 在這一過程中, 企業也面臨過去二三十年間存量信息系統和存量數據資產等龐大的數據源,這些數據普遍存在著不可理解、不規范、不一致和不準確等問題, 制約了數據價值的發揮.

Data Fabric 有助于簡化和整合不同的數據來源 (如本地數據中心、私有云、公共云、混合云、物聯網設備等) 和數據庫類型 (如關系型數據庫、鍵值數據庫、NoSQL 數據庫、NewSQL 數據庫、消息隊列、文件存儲、分布式文件系統等) 的數據, 將分散的數據自動轉換為統一的格式和標準化的結構,并提供統一的、可靠的數據訪問能力, 以及數據分析和挖掘能力. 利用Data Fabric 技術建設數據治理平臺來解決在數據治理過程中存量數據資產遷移、融合和數據孤島問題, 充分利用和發揮了數據治理平臺為政府和企業在數字化轉型中的價值.

4.2 借助Data Fabric 技術賦能智慧洞察和智能運營

如今, 相對滯后的數據洞察可能會給企業推動新的商機和改善客戶體驗能力產生不利的影響, 企業通過管理實時、一致、互聯和可信的數據來支持關鍵業務運營和決策非常有必要. 但是, 存在多個數據源和平臺之間的緩慢數據移動、嚴格的數據轉換工作流和治理規則、不斷擴張的數據量以及跨云和本地的分布式數據等難點需要克服.

從Forrester 發布于2022 年第二季度的測評報告中可以看到, 隨著企業持續的數字化轉型, 所有行業 (包括金融服務、零售、醫療保健、制造、石油和天然氣及能源等) 使用Data Fabric 的計劃呈持續增強趨勢. 越來越多的企業正在利用公有云和混合云環境中的 Data Fabric 來支持客戶 360 度、業務 360 度、欺詐檢測、IoT 分析和實時洞察[17].

借助Data Fabric 技術提供的異構數據整合的能力、數據分析能力和挖掘能力搭建智能運營[18]系統. 系統首先可以基于業務實體的 360 度視圖持續提供高質量數據, 例如特定客戶群、公司產品線或特定地理位置的所有零售店數據來驅動. 其次, 數據科學家使用這類數據進行創建、訓練和改進機器學習模型; 數據分析師使用商業智能來進行分析趨勢、細分客戶和多維根因分析[19]. 然后, 為單個實體(客戶、產品、位置等) 提供實時按需的可執行機器學習模型來獲得單個實體的完整和當前數據. 最后,將上個環節的數據進行存儲并利用實時推薦引擎[20]和數據服務提供出來.

5 結論

本文提出了一種基于Data Fabric 技術來實現對多模數據的管理方法. 分析了Data Fabric 通過數據虛擬化、機器學習和低代碼等技術, 實現了將不同來源、不同類型和不同格式的數據進行快速融合管理、統一訪問和價值應用的能力, 提出了將跨越不同地域和數據中心的數據源進行識別、抽象并映射到對應數據模型中的多模數據管理的方法, 而無需對多模多源數據進行集中化處理, 以解決ETL(extract, transform and load) 等傳統數據集成技術存在的不足.

基于Data Fabric 技術, 我們進一步提出了一種基于時序指標多模多源數據的異常檢測方法, 解決了針對大規模、不同類型和不同源的時序指標數據如何進行高效、準確的異常檢測問題; 同時, 提出了一種基于多模多源日志數據的異常檢測方法, 解決了自動解析和識別大規模、不同源的日志數據和異常快速檢測問題. 并通過實驗驗證了上述兩種方法的效率和準確性, 處理速度分別提高33.3%和42.2%,F1-score 分別提高12.2 個和14.8 個pp. 未來的研究方向是考慮如何進一步擴展Data Fabric 的架構能力和數據自助服務能力, 以支持更多類型的數據和應用場景, 更大程度地降低數據使用門檻和發揮數據價值.