袁滿 杜楊楊



關鍵詞: 數據質量; DQV; 元模型; 質量模型; 建模方法
DOI:10.3969 / j.issn.1008-0821.2023.04.008
〔中圖分類號〕TP391 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 04-0077-11
隨著萬維網資源的開放與互聯, 鏈接開放數據(Linked Open Data, LOD)作為數據共享與互聯的一種方式[1] , 其“質量” 問題也逐漸顯露出來。例如, DBpedia 以LOD 的形式發布在Web 上[2] , 由于它從半結構化、非結構化等數據源中提取數據, 因此存在語義沖突、表示錯誤以及信息不完整等質量問題; 其次, LOD 數據集存在一些資源沒有標識數據來源信息導致可信性低或者用戶無訪問權限等, 從而間接導致數據集質量較差。數據質量是確保數據能夠進行業務組織以及決策實施的重要前提[3] , 因此, 數據的質量問題也成為工業界和學術界重點關注的對象。
數據質量的研究已有30 年之久, 質量模型能夠為數據管理者提供規范化術語并且輔助用戶決策。因此, 國際標準化組織[4](International Organi?zation for Standardization, ISO)認識到了數據質量模型的必要性, 并提出ISO/ IEC 25012 標準[5] 數據質量模型。該標準提出的數據質量模型按照固有的和系統相關的觀點概述了15 種通用的質量特征。然而, ISO 數據質量模型被認為過于通用, 沒有考慮到LOD 特有的互連性。Zaveri A 等[6] 則系統回顧了鏈接數據質量的評估方法, 為鏈接數據質量提供了18 個質量維度以及69 個質量指標。這項調研擴展了5 個鏈接數據特有的質量維度[6] , 并對數據質量常用術語進行統一形式化表述, Zaveri A 等團隊的這項工作為后續的研究提供了重要的參考價值。Chen H 等[7] 指出, Zaveri A 等所提供的綜合框架中一些質量指標是不必要的。因此, 在Zaveri A 等研究的基礎上提出了基于知識圖譜質量需求適用程度的質量評估框架, 要求該框架中的質量評估維度應該與知識圖譜所在應用層的質量需求相關聯。隨著數據質量的深入研究, Wand Y 等[8] 指出, 數據質量維度目前還沒有達到普遍的共識, 亟需開發一種層次評估框架并建議依據本體的嚴格規范性來統一術語。目前基于本體的質量模型也各不相同, 其中, Fürber C[9] 提出基于本體的語義數據質量管理( Semantic Data Quality Management Framework,SDQM)框架, 該框架解決了當前數據質量問題類型以及數據質量需求(也稱數據質量規則)的表述并定義了66 個類和56 個最常見質量問題的屬性。2016 年, W3C 推出數據質量(DQV)詞表[10] , 劉洋等[11] 基于DQV 模型分析得出知識圖譜22 個質量需求并映射為13 個質量維度, 其核心質量模型依據DQV 規范構建了知識圖譜質量本體, 并實現對知識圖譜質量評估以及質量標準化的任務。
綜上所述, 當前的質量模型既存在共性又具有差異。對于數據質量領域專家在模型的互操作性上存在不足; 非領域專家在模型構建上則存在一定的困難。針對這些問題, 本文提出一套標準的、適用的以及可互操作的質量模型建模方法, 從而系統地幫助數據持有者構建或選擇“Fitness for Purposes”的質量模型。本文采用溯源法, 首先對DQV 元模型以及其他4 個質量模型進行梳理和總結, 提煉出質量模型必要的核心要素, 并組織為數據質量概念模型; 其次, 采用GQM(Goal Question Metric)的思想[12] , 提出一套質量模型建模方法。以該方法為指導方針, 依次進行概念建模、詞表映射、模型構建。該方法以自底向上的方式從數據質量問題抽象到質量核心要素并組織為通用的數據質量概念模型; 再由概念模型向DQV 元模型進行映射以此來幫助用戶如何應用現有的頂層質量模型解決互操作性差的問題, 最終構建一個符合用戶需求的質量模型。對于數據持有者來說, 基于該方法構建的質量模型具有層次清晰以及語義關系明確的優勢, 使質量評估過程更加透明。對于數據資源來說, 該方法有助于數據質量管理的標準化進而促進數據生態環境的良好發展。
1相關理論研究
數據在人工智能發展的過程中一直扮演著重要角色, 不可避免的是“數據質量” 仍然為一項巨大挑戰。當前數據質量沒有一個統一的概念界定, 但數據質量通常與數據的使用有著緊密聯系。ISO/ IEC25012 標準將數據質量[5] 定義為“在特定條件下使用時, 數據的特征滿足規定和隱含需求的程度”;W3C 最佳實踐組[13] 認為, 數據適合其在操作、決策和計劃中的預期用途時, 這些數據是高質量的。因此, 數據持有者與特定任務之間的需求可以作為確定數據質量的基準。GB/ T 36344-2018[14] 標準指出“數據質量” 在指定條件下使用時, 數據的特性滿足明確的和隱含的要求的程度。
綜上所述, 數據質量的內涵與“Fitness for Use”主觀評價是高度一致的, 即數據滿足質量需求的程度。數據質量外延又分為質量評估、問題發現以及質量改進3 個任務[15] , 即以判定數據適用程度、識別數據質量問題以及提高數據質量的數據質量管理過程而開展的。
1.1數據質量術語規范
由于不同學者給定的數據質量術語存在差異,因此, 本文首先對術語進行標準化。通過溯源法對DQV 以及其他質量模型進行梳理, 總結了如下幾個數據質量核心要素。
1.2數據質量概念模型
本文使用溯源法對當前現有的數據質量模型(DQM、daQ、QMO、DQV[5,9,10,17-19] 等)進行梳理,提煉出質量模型中共有的質量要素: 質量維度、質量指標、質量度量、度量方法、質量類別, 并通過1.1 節對數據質量術語進行統一規范化。從知識組織[20] 的視角來看, 質量要素作為一種細粒度的知識單元, 它們之間存在豐富的信息結構和語義關聯,可將其組織為如圖1 所示的數據質量概念模型。
1.3最佳實踐原則
2017 年, DWBP 工作組提出35 條最佳實踐[13]原則, 依照這些原則來構建或維護不同的數據資源可獲得如表1 所示的有益啟示。其中涵蓋了數據質量、數據來源、元數據等不同方面, 最大程度上促進數據資源的規范性與共享性。
基于本體的質量模型也是一種數據資源, 因此, 當數據使用者針對其特定任務進行質量模型建模時, 建議其優先參照這35條最佳實踐原則。DQV詞表參照了最佳實踐15、16(詳細內容可參考[13]),從而促進資源的重用和互操作。一方面,DQV遵循最小本體原則(最佳實踐15), 其在知識組織的過程中選定了適用范圍的知識粒度, DQV的設計不是涵蓋實例化的質量問題、質量維度以及指標等, 而是為數據持有者提供一致的組織方式,從而促進其他用戶的可用性以及可擴展性; 另一方面, DQV 充分考慮到對現有詞表的重用(最佳實踐16), 例如dqv:Dimension 是skos:Concept 的子概念、dqv:Dimension 等價于daq:Dimension 等。使用現有詞表同樣促進了其他用戶的可用性, 從而提高數據資源的互操作性, 減少數據資源冗余, 避免數據資源存在語義歧義和沖突。
2數據質量模型研究
質量模型是通過一組已定義的質量特征、質量子特征、質量度量, 以及通過這些特征和度量之間的關系來定義的[5] , 在某種程度上規范了質量相關信息。目前, 質量模型共分為兩類: 一類是基于框架的質量模型[21] ; 另一類是基于本體的質量模型。質量模型旨在為質量評估過程提供一致的術語, 促進不同的系統間實現互操作以及提高可讀性。
2.1基于框架的質量模型
基于框架的質量模型由質量要素以及質量要素間的關系組成, 這類模型以層次結構對數據質量知識進行組織。2008年, 國際標準化組織提出ISO/IEC 25012標準[5] ,該標準下的質量模型將質量屬性分為15 個質量特征(即質量維度), 并將質量維度分為兩個類別——固有的和系統依賴的。圖2為該質量模型的層次結構, 固有類別與數據本身屬性相關; 系統依賴類別指在特定條件下使用數據時,其滿足需求的程度。
該質量模型是通用的數據質量模型, 對于鏈接開放數據的一些特性是不滿足的, 例如, 鏈接數據須用唯一的URI 來命名資源(表征維度類別), 該質量特征可映射為dqv:Availability 維度以及dqv:Uniqueness 維度。2016 年, Zaveri A 等的團隊[6] 在ISO 25012 模型的基礎上進行擴展和補充, 其框架確立了4 個質量類別18 個質量維度以及69 個質量指標。該項調研為后續的研究提供了重要參考價值。2019 年, Chen H 等[7] 提出“Fitness for Pur?pose” 的質量框架, 旨在依據數據集在應用層的需求來確立評估的質量維度/ 指標, 簡化了模型的規模避免工作內容的冗余。
2.2基于本體的質量模型
基于本體的質量模型是將數據質量知識用本體的嚴格規范性來統一術語[8],相比于基于框架的形式, 本體對層次劃分更加清晰、語義關系更加明確以及模型易于擴展和重用。當前, 基于本體的質量模型有DQV、DQM、DaQ 等, 下面將從模型的適用范圍、模型的規模, 以及模型的重用率進行對比分析。
2.2.1DQM 本體
2011 年, Fürber C 團隊[9] 提出數據質量管理(Data Quality Management Vocabulary, DQM)詞表質量模型, 其核心概念是dqm:DataRequirement 并且依賴于dqm:Task的實例, 旨在使用DQM 詞表定義的dqm:DataRequirement 進行數據質量評分并自動創建質量報告。目前DQM 詞表規模較大, 具有68 個類、46 個對象屬性和54個數據類型屬性。DQM 詞表具有可擴展性, 用戶可通過Wiki 界面自定義新的類和屬性等。由于該質量模型為早期任務并且當前已不再維護, 不推薦優先考慮重用該詞表。
2.2.2QMO&EVAL本體
2015 年, Radulovic F 發布了質量模型本體[17](Quality Model Ontology, QMO)與評估結果本體[18](Evaluation Result Ontology, EVAL), 它們是基于ISO 25010 和ISO 15939 系列標準開發的輕量級通用本體。QMO 側重于建模質量特征以及質量度量,EVAL 側重于獲取在產品、服務或行動評估中獲得的價值知識, 兩個本體則需要相互協作完成完整的質量評估任務。相比于DQV元模型, 二者在知識粒度上過于輕量級, 這可能導致用戶在開發新的類和關系時違背互操作性原則; 相比于其他質量模型, 二者嚴格遵循了W3C提倡的表述模型。推薦用戶優先選定通用建模語言, 不推薦用戶優先考慮重用這兩個詞表。
2.2.3 daQ本體
2014年,Debattista J 等[19] 開發了數據集質量(Dataset? Quality Ontology, daQ)本體, 其采用自下而上的方法系統地將質量要素以及質量要素間的關系以層次結構組織為元數據概念模型。daQ 是一個輕量級、可擴展的通用質量模型, 其開發的意義是為數據持有者提供一個核心模型, 并在該模型的基礎上開發適合適用的質量模型, daQ 的設計遵循了可重用性和互操作性的原則。圖3 為daQ 的概念模型,其中核心類有daq:Metric、daq:Dimension、daq:Cat?egory 等。
2.3DQV 數據質量詞表
2016年, W3C-DWBP 推出[13] 數據質量(DataQuality Vocabulary, DQV)詞表, 首先, 相比于daQ本體DQV 的一些類和屬性做了簡化處理。例如,dqv:Metric、dqv:Dimensional 等作為抽象類概念并未對其進行值的約束, 數據持有者可根據業務定義值域從而在使用上更加靈活; 其次, DQV 擴展了dqv:QualityMetadata、qv:QualityPolicy 等描述數據集質量信息元數據, 從而幫助數據持有者快速選定適用的數據資源。DQV 在設計原則上是嚴格遵守最佳實踐最小化本體原則的; 最后, DQV 還重用了W3C 標準詞表——DCAT、PROV、SKOS、RDFData Cube、OA 等。不同領域的標準詞表將DQV劃分為6 個組件, 分別為質量維度和類別、質量度量、質量注釋、質量來源、(元)數據標準以及質量政策, 如圖4所示。
DQV 作為數據質量領域標準的、通用的、頂層的質量元模型, 已成為構建高質量、易擴展、可互操作的質量模型的基準。Zaveri A 等提出的鏈接數據質量(Linked Data Quality Model, LDQM)框架[6] ,并在以DQV 為質量元模型將框架中的質量維度、質量指標、質量類別等向dqv:Category、dqv:Di?mension、dqv:Metric 等進行映射和描述, 該框架還重用了SKOS 詞表提供的語義關系(skos:related、skos:exactMatch 等)建立概念間的關聯關系。2021年, 劉洋等[11] 基于DQV 質量模型構建了知識圖譜質量(Knowledge Graph Quality Vocabulary, KGQV)本體, 結合知識圖譜的特性擴展了兩個抽象類和5個屬性并完成知識圖譜質量評估任務。
DQV 詞表不僅可以作為質量評估的預定義模型, W3C 還建議適用DQV 提供的質量政策、質量注釋、質量元數據組件作為數據集的元數據, 幫助數據持有者從描述元數據中獲取關鍵的質量信息,從而快速選定適用的數據資源。
2.4質量元數據
上述質量模型都對數據質量知識進行組織和建模, 但它們建模視角各不相同。DQM 從實際質量問題出發確立了68 個類和100 個屬性, 相比于DQV元模型不具有通用性和可擴展性。QMO 與EVAL遵循了W3C 推薦的標準語言, 但QMO 與EVAL 涵蓋的質量知識過于輕量會間接導致“信息孤島”等問題。針對DQM 和QMO 等模型的不足, Debat?tista J 等團隊[22] 基于daQ 本體開發了Luzzu 質量評估工具, 并基于daQ 本體開發了Luzzu 質量指標(Luzzu Quality Metric Language, LQML)語言而非官方語言。daQ 模型在設計靈感上為DQV 提供了良好的基礎, 但其在知識交換層面上存在不足。綜合來看, DQV 模型涵蓋了上述模型的優點并且彌補了上述模型的不足。
在DCAT 2.0版本[23]明確提出增加質量元數據, 并推薦優先使用DQV 中的dqv:Metric、dqv:Dimension、dqv:hasqualitymeasurement 的類和屬性。DQV 在設計上遵循了最佳實踐15、16, 因此DQV具有很強的可擴展性、靈活性以及互操作性和易于理解。依照賈君枝[24] 給定的資源重用方式, 質量模型的資源描述也可分為3 層, 分別為元數據層、模式層以及實例層。如圖5 所示, 推薦用戶優先選定DQV 元模型作為元數據層、模式層的元數據最終實例化為“Fitness for Use”的質量模型。
3質量模型建模方法研究
在以往的研究中, 僅為數據持有者提供可參考的質量模型, 而并未向數據持有者提供一套詳細的、完整的質量建模方法, 從而導致質量模型在使用的過程中存在一定的阻力。因此, 本文結合目標—問題—度量法(Goal Question Metric Approach, GQM)的思想[25] 并以W3C 最佳實踐為指導, 提出一個三階段六步驟的質量模型建模方法。
本文的建模靈感來自Maryland 大學的VictorBa?sili 開發的GQM[12] 層次模型, 如圖6 所示。GQM 模型的基本思想是從一組目標(Goals)定義開始, 目標的描述須包含評估對象、質量要素、視角等。其中評估對象可以為數據集、三元組集、鏈接集等; 視角可以為用戶視角或業務需求視角等; 質量要素為上述2.1節提到的質量維度、質量類別、質量度量等。將目標細化為幾個問題(Questions), 每個問題(Questions)量化為多個質量指標(Metrics), 依據指標計算數據來解決問題進而達成確立的目標。遵循GQM 思想能夠為特定的業務需求提供細化方案, 從而更容易達成確立的目標。
在以往的研究中, Wang Y R等和Zaveri A等分別系統地提供了各自的質量建模方案。Wang Y R等結合數據工程的思想[26] 提出一套質量建模方法并為數據質量管理定義了相關術語。具體步驟如下,第一步從實際業務出發確定數據質量問題; 第二步根據數據質量問題確立在實際應用場景下的主觀的/客觀的質量維度; 第三步將質量維度量化為可度量的質量指標; 第四步構建質量模型。Wang Y R等提出的模型考慮了根據特定需求來指定質量模型,但卻忽略了模型的術語標準化。RulaA等則結合數據質量管理[27]的思想確立了需求分析、質量評估以及質量改進3個階段。其中, 質量評估階段細化為質量問題識別、統計和分析、高級分析3個步驟, 即對數據集的質量問題進行識別, 再確立質量維度和質量指標再進行評估。這兩種建模方法都沒有給定依據的標準以及構建模型的建模語言, 從而存在不標準以及互操作性差等問題。因此, 本文為解決上述問題提出一個三階段六步驟的質量模型(Three-stage Six-step Methodology for Quality Model?ing, TS_MQM)建模方法。根據第1 章、第2 章的初步研究, 實現了術語標準化的過程。W3C 提供的DQV 數據質量頂層本體為互操作性提供了良好的前提。最后以GQM 思想為指導, 可以根據用戶的特定需求來構建適用的質量模型。
表2 為TS_MQM 建模方法的詳細內容, 概念建模階段共有4個步驟, 分為需求分析、目標分析、指標分析以及度量方案。需求分析從數據實際業務出發, 識別其質量問題并向質量維度/ 指標進行抽象目標分析, 定義目標以及子目標。例如, 目標的質量要素為“固有質量” 類別, 可將目標再細化為“語義準確性” “一致性” 等子目標; 指標分析, 根據上一步驟確立的問題細化為可度量的指標, 此過程也稱為定量過程; 度量方案, 根據上一步驟確立的質量指標指定度量方法并得到度量結果。
詞表映射階段是將概念建模中的質量維度/ 類別、質量指標以及度量方法等向DQV 質量組件進行映射, 可視為DQV 元模型實例化的過程。模型構建是將確立的概念模型構建為人機可讀的本體形式, 建議數據持有者在構建本體時遵循W3C 最佳實踐原則。例如, 優先考慮重用DQV 詞表以及DQV 重用的詞表。
4基于DQV 的質量建模用例
鏈接數據是語義Web 中常見的數據模型, 其同樣存在質量問題。以鏈接數據的語義準確性維度為例來驗證該方法論的可行性。例1 描述的三元組中Triple1 與Triple3 存在語義不準確的質量問題。根據常識可知ex:Italy 的首都并非ex:Milan; 并且Triple3 將ex:Italy 劃分為ex:Place, 則用ex:Coun?try 的實例來表述更符合真實狀態。
例1:三元組集
4.1語義準確性概念建模
語義準確性定義為數據值表示一個對象正確狀態的程度, 根據例1 存在不準確的注釋和虛假的注釋的語義不準確的質量問題, 可判定其違背了語義準確性維度/ 固有質量類別。語義準確性概念建模的具體步驟如表3 所示, 由自底向上的方法完成概念建模階段。
固有質量類別下包含語義準確性維度, 語義準確性維度通過定量的4 個質量指標進行度量并得到相應的度量結果。
4.2語義準確性詞表映射
針對固有質量類別、語義準確性維度、質量指標等概念分別對應DQV 中的dqv:Category、dqv:Dimension、dqv:Metric組件, 類間的關系由dqv:inCategory、dqv:computedOn 等屬性進行關聯。如表4所示, 詳細描述了語義準確性的對象缺失比率(dqv:missObjectRate)指標, 并用W3C 推薦的語言來表述該質量模型。
4.3語義準確性模型構建
質量模型最終要以人機可讀的本體形式進行質量評估、質量信息描述等任務, 本文選用Protégé工具對質量模型本體進行構建。圖9 為語義準確性(dqv:semanticAccuracy)維度的質量模型構建的可視化過程。其中包含以下的內容: dqv:Category、dqv: Dimension、dqv: Metric、qb: Observation 是DQV 元模型提供的組件; dqv:semanticAccuracy存在于(dqv:inCategory)固有類別下(dqv:intrinsicDi?mensions)、dqv:semanticAccuracy 下包含(dqv:in?Dimensuon)對象丟失率指標(dqv:missObjectRate)、dqv:missObjectRate 可度量為(dqv:isMeasurement?Of)統計對象丟失率的方法(missObjectFunction)。
5總結與展望
本文圍繞如何構建一套標準的、一致的以及適用的數據質量知識表示模型為核心, 采用溯源法對其開展研究。首先, 筆者在文獻調研和對比分析以往的質量模型的基礎上, 提出并構建了數據質量知識概念模型; 其次, 筆者將W3C 推薦的DQV 詞表作為數據質量頂層本體并開展詞表映射(數據質量知識概念模型向數據質量頂層本體進行映射)以及模型構建的研究; 最后, 以GQM 思想為指導提出一個三階段六步驟的質量建模方法, 即概念建模、詞表映射以及模型構建的3 個階段。該方法可根據用戶業務的特定需求自底向上地構建標準的、一致的以及適用的質量模型。為了驗證該方法的可行性, 本文以“語義準確性” 為例構建了相應的質量本體。結果表明, 該方法可以用來解決領域數據質量知識表示模型的構建, 并且以該方法構建的質量模型具有良好的擴展性和互操作性。本文的下一步工作是收集動態性語義質量的問題并確立其質量維度、質量指標以及度量方法等核心要素, 以本文提出的建模方法進一步細化和擴建適合特定領域的語義質量模型。