領域數據質量知識建模方法研究

2023-03-29 07:38:34袁滿杜楊楊

現代情報 2023年4期

袁滿　杜楊楊

關鍵詞：數據質量；ＤＱＶ；元模型；質量模型；建模方法

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０２３．０４．００８

〔中圖分類號〕ＴＰ３９１〔文獻標識碼〕Ａ〔文章編號〕１００８－０８２１（２０２３）０４－００７７－１１

隨著萬維網資源的開放與互聯，鏈接開放數據（ＬｉｎｋｅｄＯｐｅｎＤａｔａ，ＬＯＤ）作為數據共享與互聯的一種方式［１］，其“質量” 問題也逐漸顯露出來。例如，ＤＢｐｅｄｉａ以ＬＯＤ的形式發布在Ｗｅｂ上［２］，由于它從半結構化、非結構化等數據源中提取數據，因此存在語義沖突、表示錯誤以及信息不完整等質量問題；其次，ＬＯＤ數據集存在一些資源沒有標識數據來源信息導致可信性低或者用戶無訪問權限等，從而間接導致數據集質量較差。數據質量是確保數據能夠進行業務組織以及決策實施的重要前提［３］，因此，數據的質量問題也成為工業界和學術界重點關注的對象。

數據質量的研究已有３０年之久，質量模型能夠為數據管理者提供規范化術語并且輔助用戶決策。因此，國際標準化組織［４］（ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉ?ｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ，ＩＳＯ）認識到了數據質量模型的必要性，并提出ＩＳＯ／ＩＥＣ２５０１２標準［５］數據質量模型。該標準提出的數據質量模型按照固有的和系統相關的觀點概述了１５種通用的質量特征。然而，ＩＳＯ數據質量模型被認為過于通用，沒有考慮到ＬＯＤ特有的互連性。ＺａｖｅｒｉＡ等［６］則系統回顧了鏈接數據質量的評估方法，為鏈接數據質量提供了１８個質量維度以及６９個質量指標。這項調研擴展了５個鏈接數據特有的質量維度［６］，并對數據質量常用術語進行統一形式化表述，ＺａｖｅｒｉＡ等團隊的這項工作為后續的研究提供了重要的參考價值。ＣｈｅｎＨ等［７］指出，ＺａｖｅｒｉＡ等所提供的綜合框架中一些質量指標是不必要的。因此，在ＺａｖｅｒｉＡ等研究的基礎上提出了基于知識圖譜質量需求適用程度的質量評估框架，要求該框架中的質量評估維度應該與知識圖譜所在應用層的質量需求相關聯。隨著數據質量的深入研究，ＷａｎｄＹ等［８］指出，數據質量維度目前還沒有達到普遍的共識，亟需開發一種層次評估框架并建議依據本體的嚴格規范性來統一術語。目前基于本體的質量模型也各不相同，其中，ＦüｒｂｅｒＣ［９］提出基于本體的語義數據質量管理（ＳｅｍａｎｔｉｃＤａｔａＱｕａｌｉｔｙＭａｎａｇｅｍｅｎｔＦｒａｍｅｗｏｒｋ，ＳＤＱＭ）框架，該框架解決了當前數據質量問題類型以及數據質量需求（也稱數據質量規則）的表述并定義了６６個類和５６個最常見質量問題的屬性。２０１６年，Ｗ３Ｃ推出數據質量（ＤＱＶ）詞表［１０］，劉洋等［１１］基于ＤＱＶ模型分析得出知識圖譜２２個質量需求并映射為１３個質量維度，其核心質量模型依據ＤＱＶ規范構建了知識圖譜質量本體，并實現對知識圖譜質量評估以及質量標準化的任務。

綜上所述，當前的質量模型既存在共性又具有差異。對于數據質量領域專家在模型的互操作性上存在不足；非領域專家在模型構建上則存在一定的困難。針對這些問題，本文提出一套標準的、適用的以及可互操作的質量模型建模方法，從而系統地幫助數據持有者構建或選擇“ＦｉｔｎｅｓｓｆｏｒＰｕｒｐｏｓｅｓ”的質量模型。本文采用溯源法，首先對ＤＱＶ元模型以及其他４個質量模型進行梳理和總結，提煉出質量模型必要的核心要素，并組織為數據質量概念模型；其次，采用ＧＱＭ（ＧｏａｌＱｕｅｓｔｉｏｎＭｅｔｒｉｃ）的思想［１２］，提出一套質量模型建模方法。以該方法為指導方針，依次進行概念建模、詞表映射、模型構建。該方法以自底向上的方式從數據質量問題抽象到質量核心要素并組織為通用的數據質量概念模型；再由概念模型向ＤＱＶ元模型進行映射以此來幫助用戶如何應用現有的頂層質量模型解決互操作性差的問題，最終構建一個符合用戶需求的質量模型。對于數據持有者來說，基于該方法構建的質量模型具有層次清晰以及語義關系明確的優勢，使質量評估過程更加透明。對于數據資源來說，該方法有助于數據質量管理的標準化進而促進數據生態環境的良好發展。

１相關理論研究

數據在人工智能發展的過程中一直扮演著重要角色，不可避免的是“數據質量” 仍然為一項巨大挑戰。當前數據質量沒有一個統一的概念界定，但數據質量通常與數據的使用有著緊密聯系。ＩＳＯ／ＩＥＣ２５０１２標準將數據質量［５］定義為“在特定條件下使用時，數據的特征滿足規定和隱含需求的程度”；Ｗ３Ｃ最佳實踐組［１３］認為，數據適合其在操作、決策和計劃中的預期用途時，這些數據是高質量的。因此，數據持有者與特定任務之間的需求可以作為確定數據質量的基準。ＧＢ／Ｔ３６３４４－２０１８［１４］標準指出“數據質量” 在指定條件下使用時，數據的特性滿足明確的和隱含的要求的程度。

綜上所述，數據質量的內涵與“ＦｉｔｎｅｓｓｆｏｒＵｓｅ”主觀評價是高度一致的，即數據滿足質量需求的程度。數據質量外延又分為質量評估、問題發現以及質量改進３個任務［１５］，即以判定數據適用程度、識別數據質量問題以及提高數據質量的數據質量管理過程而開展的。

１.１數據質量術語規范

由于不同學者給定的數據質量術語存在差異，因此，本文首先對術語進行標準化。通過溯源法對ＤＱＶ以及其他質量模型進行梳理，總結了如下幾個數據質量核心要素。

１.２數據質量概念模型

本文使用溯源法對當前現有的數據質量模型（ＤＱＭ、ｄａＱ、ＱＭＯ、ＤＱＶ［５，９，１０，１７－１９］等）進行梳理，提煉出質量模型中共有的質量要素：質量維度、質量指標、質量度量、度量方法、質量類別，并通過１.１節對數據質量術語進行統一規范化。從知識組織［２０］的視角來看，質量要素作為一種細粒度的知識單元，它們之間存在豐富的信息結構和語義關聯，可將其組織為如圖１所示的數據質量概念模型。

１.３最佳實踐原則

２０１７年，ＤＷＢＰ工作組提出３５條最佳實踐［１３］原則，依照這些原則來構建或維護不同的數據資源可獲得如表１所示的有益啟示。其中涵蓋了數據質量、數據來源、元數據等不同方面，最大程度上促進數據資源的規范性與共享性。

基于本體的質量模型也是一種數據資源，因此，當數據使用者針對其特定任務進行質量模型建模時，建議其優先參照這３５條最佳實踐原則。ＤＱＶ詞表參照了最佳實踐１５、１６（詳細內容可參考［１３］），從而促進資源的重用和互操作。一方面，ＤＱＶ遵循最小本體原則（最佳實踐１５），其在知識組織的過程中選定了適用范圍的知識粒度，ＤＱＶ的設計不是涵蓋實例化的質量問題、質量維度以及指標等，而是為數據持有者提供一致的組織方式，從而促進其他用戶的可用性以及可擴展性；另一方面，ＤＱＶ充分考慮到對現有詞表的重用（最佳實踐１６），例如ｄｑｖ：Ｄｉｍｅｎｓｉｏｎ是ｓｋｏｓ：Ｃｏｎｃｅｐｔ的子概念、ｄｑｖ：Ｄｉｍｅｎｓｉｏｎ等價于ｄａｑ：Ｄｉｍｅｎｓｉｏｎ等。使用現有詞表同樣促進了其他用戶的可用性，從而提高數據資源的互操作性，減少數據資源冗余，避免數據資源存在語義歧義和沖突。

２數據質量模型研究

質量模型是通過一組已定義的質量特征、質量子特征、質量度量，以及通過這些特征和度量之間的關系來定義的［５］，在某種程度上規范了質量相關信息。目前，質量模型共分為兩類：一類是基于框架的質量模型［２１］；另一類是基于本體的質量模型。質量模型旨在為質量評估過程提供一致的術語，促進不同的系統間實現互操作以及提高可讀性。

２.１基于框架的質量模型

基于框架的質量模型由質量要素以及質量要素間的關系組成，這類模型以層次結構對數據質量知識進行組織。２００８年，國際標準化組織提出ＩＳＯ／ＩＥＣ２５０１２標準［５］，該標準下的質量模型將質量屬性分為１５個質量特征（即質量維度），并將質量維度分為兩個類別——固有的和系統依賴的。圖２為該質量模型的層次結構，固有類別與數據本身屬性相關；系統依賴類別指在特定條件下使用數據時，其滿足需求的程度。

該質量模型是通用的數據質量模型，對于鏈接開放數據的一些特性是不滿足的，例如，鏈接數據須用唯一的ＵＲＩ來命名資源（表征維度類別），該質量特征可映射為ｄｑｖ：Ａｖａｉｌａｂｉｌｉｔｙ維度以及ｄｑｖ：Ｕｎｉｑｕｅｎｅｓｓ維度。２０１６年，ＺａｖｅｒｉＡ等的團隊［６］在ＩＳＯ２５０１２模型的基礎上進行擴展和補充，其框架確立了４個質量類別１８個質量維度以及６９個質量指標。該項調研為后續的研究提供了重要參考價值。２０１９年，ＣｈｅｎＨ等［７］提出“ＦｉｔｎｅｓｓｆｏｒＰｕｒ?ｐｏｓｅ” 的質量框架，旨在依據數據集在應用層的需求來確立評估的質量維度／指標，簡化了模型的規模避免工作內容的冗余。

２.２基于本體的質量模型

基于本體的質量模型是將數據質量知識用本體的嚴格規范性來統一術語［８］，相比于基于框架的形式，本體對層次劃分更加清晰、語義關系更加明確以及模型易于擴展和重用。當前，基于本體的質量模型有ＤＱＶ、ＤＱＭ、ＤａＱ等，下面將從模型的適用范圍、模型的規模，以及模型的重用率進行對比分析。

２.２.１ＤＱＭ本體

２０１１年，ＦüｒｂｅｒＣ團隊［９］提出數據質量管理（ＤａｔａＱｕａｌｉｔｙＭａｎａｇｅｍｅｎｔＶｏｃａｂｕｌａｒｙ，ＤＱＭ）詞表質量模型，其核心概念是ｄｑｍ：ＤａｔａＲｅｑｕｉｒｅｍｅｎｔ并且依賴于ｄｑｍ：Ｔａｓｋ的實例，旨在使用ＤＱＭ詞表定義的ｄｑｍ：ＤａｔａＲｅｑｕｉｒｅｍｅｎｔ進行數據質量評分并自動創建質量報告。目前ＤＱＭ詞表規模較大，具有６８個類、４６個對象屬性和５４個數據類型屬性。ＤＱＭ詞表具有可擴展性，用戶可通過Ｗｉｋｉ界面自定義新的類和屬性等。由于該質量模型為早期任務并且當前已不再維護，不推薦優先考慮重用該詞表。

２.２.２ＱＭＯ＆ＥＶＡＬ本體

２０１５年，ＲａｄｕｌｏｖｉｃＦ發布了質量模型本體［１７］（ＱｕａｌｉｔｙＭｏｄｅｌＯｎｔｏｌｏｇｙ，ＱＭＯ）與評估結果本體［１８］（ＥｖａｌｕａｔｉｏｎＲｅｓｕｌｔＯｎｔｏｌｏｇｙ，ＥＶＡＬ），它們是基于ＩＳＯ２５０１０和ＩＳＯ１５９３９系列標準開發的輕量級通用本體。ＱＭＯ側重于建模質量特征以及質量度量，ＥＶＡＬ側重于獲取在產品、服務或行動評估中獲得的價值知識，兩個本體則需要相互協作完成完整的質量評估任務。相比于ＤＱＶ元模型，二者在知識粒度上過于輕量級，這可能導致用戶在開發新的類和關系時違背互操作性原則；相比于其他質量模型，二者嚴格遵循了Ｗ３Ｃ提倡的表述模型。推薦用戶優先選定通用建模語言，不推薦用戶優先考慮重用這兩個詞表。

２.２.３ｄａＱ本體

２０１４年，ＤｅｂａｔｔｉｓｔａＪ等［１９］開發了數據集質量（Ｄａｔａｓｅｔ? ＱｕａｌｉｔｙＯｎｔｏｌｏｇｙ，ｄａＱ）本體，其采用自下而上的方法系統地將質量要素以及質量要素間的關系以層次結構組織為元數據概念模型。ｄａＱ是一個輕量級、可擴展的通用質量模型，其開發的意義是為數據持有者提供一個核心模型，并在該模型的基礎上開發適合適用的質量模型，ｄａＱ的設計遵循了可重用性和互操作性的原則。圖３為ｄａＱ的概念模型，其中核心類有ｄａｑ：Ｍｅｔｒｉｃ、ｄａｑ：Ｄｉｍｅｎｓｉｏｎ、ｄａｑ：Ｃａｔ?ｅｇｏｒｙ等。

２.３ＤＱＶ數據質量詞表

２０１６年，Ｗ３Ｃ－ＤＷＢＰ推出［１３］數據質量（ＤａｔａＱｕａｌｉｔｙＶｏｃａｂｕｌａｒｙ，ＤＱＶ）詞表，首先，相比于ｄａＱ本體ＤＱＶ的一些類和屬性做了簡化處理。例如，ｄｑｖ：Ｍｅｔｒｉｃ、ｄｑｖ：Ｄｉｍｅｎｓｉｏｎａｌ等作為抽象類概念并未對其進行值的約束，數據持有者可根據業務定義值域從而在使用上更加靈活；其次，ＤＱＶ擴展了ｄｑｖ：ＱｕａｌｉｔｙＭｅｔａｄａｔａ、ｑｖ：ＱｕａｌｉｔｙＰｏｌｉｃｙ等描述數據集質量信息元數據，從而幫助數據持有者快速選定適用的數據資源。ＤＱＶ在設計原則上是嚴格遵守最佳實踐最小化本體原則的；最后，ＤＱＶ還重用了Ｗ３Ｃ標準詞表——ＤＣＡＴ、ＰＲＯＶ、ＳＫＯＳ、ＲＤＦＤａｔａＣｕｂｅ、ＯＡ等。不同領域的標準詞表將ＤＱＶ劃分為６個組件，分別為質量維度和類別、質量度量、質量注釋、質量來源、（元）數據標準以及質量政策，如圖４所示。

ＤＱＶ作為數據質量領域標準的、通用的、頂層的質量元模型，已成為構建高質量、易擴展、可互操作的質量模型的基準。ＺａｖｅｒｉＡ等提出的鏈接數據質量（ＬｉｎｋｅｄＤａｔａＱｕａｌｉｔｙＭｏｄｅｌ，ＬＤＱＭ）框架［６］，并在以ＤＱＶ為質量元模型將框架中的質量維度、質量指標、質量類別等向ｄｑｖ：Ｃａｔｅｇｏｒｙ、ｄｑｖ：Ｄｉ?ｍｅｎｓｉｏｎ、ｄｑｖ：Ｍｅｔｒｉｃ等進行映射和描述，該框架還重用了ＳＫＯＳ詞表提供的語義關系（ｓｋｏｓ：ｒｅｌａｔｅｄ、ｓｋｏｓ：ｅｘａｃｔＭａｔｃｈ等）建立概念間的關聯關系。２０２１年，劉洋等［１１］基于ＤＱＶ質量模型構建了知識圖譜質量（ＫｎｏｗｌｅｄｇｅＧｒａｐｈＱｕａｌｉｔｙＶｏｃａｂｕｌａｒｙ，ＫＧＱＶ）本體，結合知識圖譜的特性擴展了兩個抽象類和５個屬性并完成知識圖譜質量評估任務。

ＤＱＶ詞表不僅可以作為質量評估的預定義模型，Ｗ３Ｃ還建議適用ＤＱＶ提供的質量政策、質量注釋、質量元數據組件作為數據集的元數據，幫助數據持有者從描述元數據中獲取關鍵的質量信息，從而快速選定適用的數據資源。

２.４質量元數據

上述質量模型都對數據質量知識進行組織和建模，但它們建模視角各不相同。ＤＱＭ從實際質量問題出發確立了６８個類和１００個屬性，相比于ＤＱＶ元模型不具有通用性和可擴展性。ＱＭＯ與ＥＶＡＬ遵循了Ｗ３Ｃ推薦的標準語言，但ＱＭＯ與ＥＶＡＬ涵蓋的質量知識過于輕量會間接導致“信息孤島”等問題。針對ＤＱＭ和ＱＭＯ等模型的不足，Ｄｅｂａｔ?ｔｉｓｔａＪ等團隊［２２］基于ｄａＱ本體開發了Ｌｕｚｚｕ質量評估工具，并基于ｄａＱ本體開發了Ｌｕｚｚｕ質量指標（ＬｕｚｚｕＱｕａｌｉｔｙＭｅｔｒｉｃＬａｎｇｕａｇｅ，ＬＱＭＬ）語言而非官方語言。ｄａＱ模型在設計靈感上為ＤＱＶ提供了良好的基礎，但其在知識交換層面上存在不足。綜合來看，ＤＱＶ模型涵蓋了上述模型的優點并且彌補了上述模型的不足。

在ＤＣＡＴ２.０版本［２３］明確提出增加質量元數據，并推薦優先使用ＤＱＶ中的ｄｑｖ：Ｍｅｔｒｉｃ、ｄｑｖ：Ｄｉｍｅｎｓｉｏｎ、ｄｑｖ：ｈａｓｑｕａｌｉｔｙｍｅａｓｕｒｅｍｅｎｔ的類和屬性。ＤＱＶ在設計上遵循了最佳實踐１５、１６，因此ＤＱＶ具有很強的可擴展性、靈活性以及互操作性和易于理解。依照賈君枝［２４］給定的資源重用方式，質量模型的資源描述也可分為３層，分別為元數據層、模式層以及實例層。如圖５所示，推薦用戶優先選定ＤＱＶ元模型作為元數據層、模式層的元數據最終實例化為“ＦｉｔｎｅｓｓｆｏｒＵｓｅ”的質量模型。

３質量模型建模方法研究

在以往的研究中，僅為數據持有者提供可參考的質量模型，而并未向數據持有者提供一套詳細的、完整的質量建模方法，從而導致質量模型在使用的過程中存在一定的阻力。因此，本文結合目標—問題—度量法（ＧｏａｌＱｕｅｓｔｉｏｎＭｅｔｒｉｃＡｐｐｒｏａｃｈ，ＧＱＭ）的思想［２５］并以Ｗ３Ｃ最佳實踐為指導，提出一個三階段六步驟的質量模型建模方法。

本文的建模靈感來自Ｍａｒｙｌａｎｄ大學的ＶｉｃｔｏｒＢａ?ｓｉｌｉ開發的ＧＱＭ［１２］層次模型，如圖６所示。ＧＱＭ模型的基本思想是從一組目標（Ｇｏａｌｓ）定義開始，目標的描述須包含評估對象、質量要素、視角等。其中評估對象可以為數據集、三元組集、鏈接集等；視角可以為用戶視角或業務需求視角等；質量要素為上述２.１節提到的質量維度、質量類別、質量度量等。將目標細化為幾個問題（Ｑｕｅｓｔｉｏｎｓ），每個問題（Ｑｕｅｓｔｉｏｎｓ）量化為多個質量指標（Ｍｅｔｒｉｃｓ），依據指標計算數據來解決問題進而達成確立的目標。遵循ＧＱＭ思想能夠為特定的業務需求提供細化方案，從而更容易達成確立的目標。

在以往的研究中，ＷａｎｇＹＲ等和ＺａｖｅｒｉＡ等分別系統地提供了各自的質量建模方案。ＷａｎｇＹＲ等結合數據工程的思想［２６］提出一套質量建模方法并為數據質量管理定義了相關術語。具體步驟如下，第一步從實際業務出發確定數據質量問題；第二步根據數據質量問題確立在實際應用場景下的主觀的／客觀的質量維度；第三步將質量維度量化為可度量的質量指標；第四步構建質量模型。ＷａｎｇＹＲ等提出的模型考慮了根據特定需求來指定質量模型，但卻忽略了模型的術語標準化。ＲｕｌａＡ等則結合數據質量管理［２７］的思想確立了需求分析、質量評估以及質量改進３個階段。其中，質量評估階段細化為質量問題識別、統計和分析、高級分析３個步驟，即對數據集的質量問題進行識別，再確立質量維度和質量指標再進行評估。這兩種建模方法都沒有給定依據的標準以及構建模型的建模語言，從而存在不標準以及互操作性差等問題。因此，本文為解決上述問題提出一個三階段六步驟的質量模型（Ｔｈｒｅｅ－ｓｔａｇｅＳｉｘ－ｓｔｅｐＭｅｔｈｏｄｏｌｏｇｙｆｏｒＱｕａｌｉｔｙＭｏｄｅｌ?ｉｎｇ，ＴＳ＿ＭＱＭ）建模方法。根據第１章、第２章的初步研究，實現了術語標準化的過程。Ｗ３Ｃ提供的ＤＱＶ數據質量頂層本體為互操作性提供了良好的前提。最后以ＧＱＭ思想為指導，可以根據用戶的特定需求來構建適用的質量模型。

表２為ＴＳ＿ＭＱＭ建模方法的詳細內容，概念建模階段共有４個步驟，分為需求分析、目標分析、指標分析以及度量方案。需求分析從數據實際業務出發，識別其質量問題并向質量維度／指標進行抽象目標分析，定義目標以及子目標。例如，目標的質量要素為“固有質量” 類別，可將目標再細化為“語義準確性” “一致性” 等子目標；指標分析，根據上一步驟確立的問題細化為可度量的指標，此過程也稱為定量過程；度量方案，根據上一步驟確立的質量指標指定度量方法并得到度量結果。

詞表映射階段是將概念建模中的質量維度／類別、質量指標以及度量方法等向ＤＱＶ質量組件進行映射，可視為ＤＱＶ元模型實例化的過程。模型構建是將確立的概念模型構建為人機可讀的本體形式，建議數據持有者在構建本體時遵循Ｗ３Ｃ最佳實踐原則。例如，優先考慮重用ＤＱＶ詞表以及ＤＱＶ重用的詞表。

４基于ＤＱＶ的質量建模用例

鏈接數據是語義Ｗｅｂ中常見的數據模型，其同樣存在質量問題。以鏈接數據的語義準確性維度為例來驗證該方法論的可行性。例１描述的三元組中Ｔｒｉｐｌｅ１與Ｔｒｉｐｌｅ３存在語義不準確的質量問題。根據常識可知ｅｘ：Ｉｔａｌｙ的首都并非ｅｘ：Ｍｉｌａｎ；并且Ｔｒｉｐｌｅ３將ｅｘ：Ｉｔａｌｙ劃分為ｅｘ：Ｐｌａｃｅ，則用ｅｘ：Ｃｏｕｎ?ｔｒｙ的實例來表述更符合真實狀態。

例１：三元組集

４.１語義準確性概念建模

語義準確性定義為數據值表示一個對象正確狀態的程度，根據例１存在不準確的注釋和虛假的注釋的語義不準確的質量問題，可判定其違背了語義準確性維度／固有質量類別。語義準確性概念建模的具體步驟如表３所示，由自底向上的方法完成概念建模階段。

固有質量類別下包含語義準確性維度，語義準確性維度通過定量的４個質量指標進行度量并得到相應的度量結果。

４.２語義準確性詞表映射

針對固有質量類別、語義準確性維度、質量指標等概念分別對應ＤＱＶ中的ｄｑｖ：Ｃａｔｅｇｏｒｙ、ｄｑｖ：Ｄｉｍｅｎｓｉｏｎ、ｄｑｖ：Ｍｅｔｒｉｃ組件，類間的關系由ｄｑｖ：ｉｎＣａｔｅｇｏｒｙ、ｄｑｖ：ｃｏｍｐｕｔｅｄＯｎ等屬性進行關聯。如表４所示，詳細描述了語義準確性的對象缺失比率（ｄｑｖ：ｍｉｓｓＯｂｊｅｃｔＲａｔｅ）指標，并用Ｗ３Ｃ推薦的語言來表述該質量模型。

４.３語義準確性模型構建

質量模型最終要以人機可讀的本體形式進行質量評估、質量信息描述等任務，本文選用Ｐｒｏｔéｇé工具對質量模型本體進行構建。圖９為語義準確性（ｄｑｖ：ｓｅｍａｎｔｉｃＡｃｃｕｒａｃｙ）維度的質量模型構建的可視化過程。其中包含以下的內容：ｄｑｖ：Ｃａｔｅｇｏｒｙ、ｄｑｖ：Ｄｉｍｅｎｓｉｏｎ、ｄｑｖ：Ｍｅｔｒｉｃ、ｑｂ：Ｏｂｓｅｒｖａｔｉｏｎ是ＤＱＶ元模型提供的組件；ｄｑｖ：ｓｅｍａｎｔｉｃＡｃｃｕｒａｃｙ存在于（ｄｑｖ：ｉｎＣａｔｅｇｏｒｙ）固有類別下（ｄｑｖ：ｉｎｔｒｉｎｓｉｃＤｉ?ｍｅｎｓｉｏｎｓ）、ｄｑｖ：ｓｅｍａｎｔｉｃＡｃｃｕｒａｃｙ下包含（ｄｑｖ：ｉｎ?Ｄｉｍｅｎｓｕｏｎ）對象丟失率指標（ｄｑｖ：ｍｉｓｓＯｂｊｅｃｔＲａｔｅ）、ｄｑｖ：ｍｉｓｓＯｂｊｅｃｔＲａｔｅ可度量為（ｄｑｖ：ｉｓＭｅａｓｕｒｅｍｅｎｔ?Ｏｆ）統計對象丟失率的方法（ｍｉｓｓＯｂｊｅｃｔＦｕｎｃｔｉｏｎ）。

５總結與展望

本文圍繞如何構建一套標準的、一致的以及適用的數據質量知識表示模型為核心，采用溯源法對其開展研究。首先，筆者在文獻調研和對比分析以往的質量模型的基礎上，提出并構建了數據質量知識概念模型；其次，筆者將Ｗ３Ｃ推薦的ＤＱＶ詞表作為數據質量頂層本體并開展詞表映射（數據質量知識概念模型向數據質量頂層本體進行映射）以及模型構建的研究；最后，以ＧＱＭ思想為指導提出一個三階段六步驟的質量建模方法，即概念建模、詞表映射以及模型構建的３個階段。該方法可根據用戶業務的特定需求自底向上地構建標準的、一致的以及適用的質量模型。為了驗證該方法的可行性，本文以“語義準確性” 為例構建了相應的質量本體。結果表明，該方法可以用來解決領域數據質量知識表示模型的構建，并且以該方法構建的質量模型具有良好的擴展性和互操作性。本文的下一步工作是收集動態性語義質量的問題并確立其質量維度、質量指標以及度量方法等核心要素，以本文提出的建模方法進一步細化和擴建適合特定領域的語義質量模型。