
[摘要]數據質量影響用戶數據的整合過程與結果、數據庫的應用性、商業智能開發以及商業品牌。由信息系統呈現的數據,為滿足用戶的需求并將其做有效的應用,基礎均在于數據的質量。針對數據質量的評估方式、管理架構和評估要素,建構數據質量評價指標體系,為提高數據質量從而改善圖書館信息服務提供參考。
[關鍵詞]數據質量;數據管理;圖書館;信息服務
[中圖分類號]G252
[文獻標識碼]A
[文章編號]1008—0821(2012)08-0068—03
微軟研究院科學家Jim Gray在2007年提出了以數據為基礎的科學研究第四范式的概念:科學研究越來越依賴于數據的聚集和分析。隨著信息技術的發展,在有限的時間里,快速收集復雜而且大量的資料或數據(data),由數據整合與分析構建信息主體,再匯集足夠的信息,發展成為知識,有了知識作為決策參考,采取行動,最后取得效益。然而,由圖書館信息服務系統所呈現的數據,無論是數字型態還是文字型態,為滿足使用者的需求并將數據做有效的應用,一切基礎均在于數據質量。數據質量會影響人們對組織的看法、用戶數據整合過程與結果、數據庫的應用性、商業智能開發以及商業品牌。因此,圖書館在為用戶提供信息服務時,必考慮的要素即是資料或數據質量。
1 數據質量管理
數據質量是數據滿足明確或隱含需求程度的指標。數據質量是主觀性的,由使用者決定數據是否適用,或是否高質量的。數據質量評估可分為兩類:一是針對數據產品的收集者、保管者、用戶的需求與經驗等方面進行評估,稱之為主觀性評估;一是以任務獨立性與任務依賴性兩方面進行評估,則稱為客觀性評估。
數據質量管理是指對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發的各類數據質量問題,進行識別、度量、監控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高。數據質量管理是循環管理過程,其終極目標是通過可靠的數據提升數據在使用中的價值,并最終為企業贏得經濟效益,主要包括:數據分析(profiling)、數據清洗(cleaning)、數據提升(enhancement)、數據匹配與整合(matcheonsolidate)、數據監控(monitoring)等內容。
1.1 數據分析
通過數據分析的過程使數據收集者能夠了解數據以及診斷數據的問題,主要是發掘組織中資源的特征和質量。有效的數據分析可以了解機構背后隱藏的真實的數據內容、結構和關系。有許多機構、公司投入相當多的經費作有關用戶關系或信息系統,嘗試整合各個單位、部門、用戶或產品相關的數據。同時,憑借數據分析可以監控數據結構,將所有的信息與相關的數據庫做比對,同時還可以提高數據的價值,發現數據是否有不完整、不正確與混淆的地方。
1.2 數據清洗
為達到數據的高質量化和提升用戶滿意度、降低機構的危險性,必須通過校正、標準化與驗證檢測來強化數據的一致性、正確性與可信度,以作為決策的基礎,進而構建一個有用、主動的信息系統,提供正確的信息,以提高機構的效率與競爭力。有效的數據質量可對機構環境有較好的認識,并且降低無效的成本投入。
1.3 數據整合
數據整合的目的是為了創建數據的單一、戰略性視野(single,strategic view)。數據整合不良導致無法提供完整的影像給決策者,而會影響一個企業或組織的用戶關系管理(consumer relationship management,CRM)、企業資源管理(enterprise resource management,ERM)、數據倉庫及商業智能的原始想法。此外,數據整合并非僅是將數據匹配或鏈接,而是適時將新的數據加入數據庫中,并且確認所匯入或合并的新數據屬于高質量的數據。通過內外部資源、電子資源、網絡資源等資源整合,實現圖書館全部館藏信息資源組成的發現與獲取。
1.4 數據提升
數據提升是指將內在或外在的數據資源,應用到本身的機構或組織中,以達到數據的宏觀性。同時,增加現有數據的價值也是數據提升的方法之一,如增列封面、書摘、書評和社會化書簽等。
1.5 數據監控
借助數據的監控、核查功能,當數據質量出現下降現象時即刻提出警示,從而可以避免信息系統重復做無用功,并且憑借數據監控與核查可隨時反應數據的質量。
2 數據質量評價維度
2.1 準確性
數據準確性用于度量數據的正確性與精確度,數據庫收錄內容的準確性及客觀性,是否來源于學術性較強的權威機構,數據資源對學科的覆蓋率,評價指標包括涵蓋性、完整性、獲取收集過程、測量誤差、校正和處理。
涵蓋性:包括對所提供的數據能針對參照母群體有明確的說明,確認且紀錄數據來源不足或在事前定義的范圍中超出可接受范圍,以及數據的架構可與外在及獨立數據庫比對。查全率標引深度越大、邏輯性越好,查全率也就越高。
獲取與收集:獲取是指數據輸入依據有用性數據架構,且符合數據提供者的角度;收集是指不同的數據提供者將數據輸入類似數據庫中。出版社可視為數據提供者,圖書館將文獻數據制作成摘要即是數據采集,將數字化摘要匯集成數據庫即為數據收集。
完整性:是指數據的精確性和可靠性。它是應防止數據庫中存在不符合語義規定的數據和防止因錯誤信息的輸入輸出造成無效操作或錯誤信息而提出的。數據完整性分為4類:實體完整性、域完整性、參照完整性、用戶定義的完整性。
測量誤差:數據發生錯誤很難用一個簡單的評估方法就能找出其復雜的原因。數據錯誤可區分為測量誤差、偏差與一致性3種;所謂測量誤差是指數據值與其真實值的差異,即數據效度;偏差即以系統性方式檢查所得數據值與真實值的差異程度;數據的一致性則在評估多次的測量下其變異次數,可運用統計方法檢測。
校正:對不正確或遺失的數據,以特定數值替代的過程。建立適當的校正機制是提高數據質量的保證。
處理:對某一數據庫的數據為任何一個特定目的所執行的檢視程序或流程的過程。數據處理的過程步驟應包括數據加載、校正、聚類等。數據庫的系統、程序、操作與執行對數據質量的影響很大,所有數據處理的過程均要以紀錄為基礎,由紀錄可容易的檢視程序的效度,若要做變更,紀錄可以讓改變執行更為容易,并且數據處理過程有被測試,數據應被儲存在安全處。
2.2 時效性
時效性是指相對當前任務數據是最新數據的程度,用來考察數據的時間特性對應用的滿足程度。數據從產生、發展、到消亡,有一個相對的有效期,不同類型的應用對數據的時間特性有不同的要求,數據的提供、加載與分析運用的時間差越小越好,以使數據能夠被確切實時呈現。時效性可用數據更新及時、數據更新比例和臟數據比例等關聯關系來具體體現,如數據庫收錄內容的時間跨度、更新頻率、等待和響應速度,以及與對應紙本資源相比出版的及時性,評價指標包括數據釋出時效性與數據記錄時效性。
釋出時效性:是確認數據時間的重要因素,其測量方式是計算數據釋出時間與最后一次的時間點差距,其差距越短表示所釋出的數據呈現越接近目標。數據的釋出時間對使用者而言有其特定價值意義,包含從數據庫中粹出數據的不定期、定期時間點,如年報等。
記錄時效性:維持高質量的數據記錄最重要的一點是,當使用者取用或匯集數據,其數據是具有效用的,同時數據應有相應的時間記錄。
2.3 可比性
數據的可比性是指數據庫持續維持與其它數據庫的一致性與標準作業方式,如數據內容與報告期限。數據比對有助于數據的詮釋、了解與維護,同時,經由類似數據的比對可有效的檢測數據的涵括性、編碼錯誤、無反應等。數據可比性的評估有4項指標:數據概念標準、連結性、均等性與史實比對。
概念標準:為使數據庫的數據能明確的界定,減少混淆現象,應使用相同的數據概念定義,且數據概念標準應時時做審查與修訂。數據概念標準應包含其概念屬性,如名稱、類別、長度以及值域,是否標準化和開放性的系統和數據接口。
連結:當在使用數據鏈路時應有隱私與保密指引,其內容包括數據收集使用一致性的標準,以及數據編碼具一致性。邏輯語義以及基于結構化元數據構建,支持遞進式的深度檢索,直至獲取最小、最精準的知識單元,如基于FRBR的關聯數據等。
均等:是指數據可從一種格式對應到任何一種格式,錯誤的分類法必須做有明確的分析與調整,并有紀錄。
歷史比對:即將數據應用趨勢圖、百分比、頻次比,或縱向分析做歷史資料的比對。
2.4 可用性
數據可用性是指讓使用者在應用時易用、易懂且無障礙。由數據可用性的評估可以確認數據的相關性與詮釋程度,同時也可確認數據記錄的完整與無障礙,具有可達性、詳細說明、可理解三項評估指標。表現在與讀者習慣的那些著名的檢索站點相似的風格和成熟度,可視化知識地圖,更快更強更深的檢索,更優化更人性化更可視化的顯示個性化交互式的體驗。
可達性:當數據用于分析或制作報告時應儲存于安全的文檔中,且為未來參照之用。根據數據使用者的目的與需求,數據可以不同的格式與版本建立。無論印刷/電子、元數據/全文、本地/遠程資源,是否一站式獲取,爭取讓用戶用更少的點擊次數獲取更多的相關數據。
詳細說明:主要是給使用提供者充分的信息,同時亦可了解數據的質量狀況是否符合其使用的需求,可以提供數據的收集方法、操作方式以及主要的限制條件等。
可理解:數據的結構設計與潛在性限制是其主要影響因素。是否界面友好,檢索方法、界面術語容易理解和掌握,易學易用。
2.5 相關性
若要維持數據的相關性則必須持續的與主要使用者或數據處理者聯系,以數據的適應性與價值性作為評價指標。
適應性:是指它是否能根據使用者的需要,對現存的或未來信息的位置設定有足夠的彈性或明確的界定。因為需求與優先級經常改變,必須有反饋機制,以使數據使用者或擁有者能維持對現存或未來數據的關注與爭議,能夠將結果集以更精準、更可靠的相關度排序。
價值性:指圖書館信息服務對知識及其應用的貢獻度,決定于其是否能夠滿足用戶的信息需求,以及是否能夠針對其用戶提供合適的服務。
3 圖書館信息服務數據質量評價
以圖書館信息服務數據質量影響因素構建如圖1所示的評價指標樹,指標樹中包括準確性、時效性、可比性、可用性與相關性5個層面;在準確性層面又區分涵蓋、過程、完整、測量、校正和處理6項指標;時效性層面中以釋出時效性、紀錄時效作為指標;可比性層面則以概念標準、均等、連結性與歷史比對作為指標;可用性層面以可達性、詳細說明、可理解性作為指標;相關性層面以適應性與價值性為指標;還可在各個指標下設計若干項評估項目。請信息統計專家學者對其進行內容效度檢測,就評價內容的重要性、適切性與清晰度進行檢視,以5分法計算,1分表示完全不符合,5分表示完全符合,針對目前圖書館相關信息服務系統做測試,以了解與分析系統所提供的數據質量,進而修改與建立一有用、主動的圖書館信息服務系統,提供正確的信息知識,提高信息服務效率與質量。
4 結語
通過數據質量的指標評估,提高數據的準確性、時效性、可比性、相關性和可用性,通過實踐不斷修訂與完善,進而由數據的整合與分析建立信息主體,匯集發展成為知識架構,作為行動決策的參考依據,從而改善圖書館信息服務質量。