郭曉明
(大連理工大學 網絡與信息化中心,遼寧 大連 116023)
高校信息化環境中數據質量問題探析*
郭曉明
(大連理工大學 網絡與信息化中心,遼寧 大連 116023)
不同的數據環境存在不同的數據質量問題,本文首先介紹數據質量的概念,分析了高校信息化中的四種數據環境及其關系,對比了不同數據環境中數據質量問題,最后給出了高校信息化建設中數據質量問題的處理建議。
高校信息化;數據環境;數據質量;問題探析
在信息技術快速發展的“互聯網+”時代,各個組織都擁有大量的數據,并呈現爆炸式增長,但其中有用的信息卻很貧乏[1]。數據與信息的不對等,源自多個方面:一方面,數據與信息的外延有差別,信息來源于數據卻不能完全包含數據;另一方面,信息技術未能完全解決信息化過程中數據與信息的問題;最后,在信息化發展歷程中,組織或個體未能有效的保證作為信息載體的數據質量,致使產生了很多無用的信息。[2]
數據與信息有關聯,也有區別。數據是反映客觀事物屬性的記錄,是信息的具體表現形式,數據經過加工處理之后,才成為信息。從信息論的觀點來看,描述信源的數據是信息和數據冗余之和,可以說信息是數據的一個子集。就信息系統層面來說,數據是系統的輸入,是源材料,信息是系統的輸出,是產品[3]。 數據是信息的基礎,數據質量是信息質量全面提升的重要保障。
高校信息化建設包括計算機化、網絡化、數字化、數據化、智慧化等不同階段:計算機化是高校信息化的最初階段,依賴于Excel文件或單機版的數據文件來管理各類數據;網絡化則開啟了數據共享的時代,也逐步出現了基于網絡的應用數據庫;數字化是在網絡化基礎上,著重于把所有的手工操作轉變為業務系統,數據圍繞業務需求進行構建;數據化是在數字化基礎上,利用數據來對事物和現象進行描述,使之能同時被人和IT設施所理解,數據可以反哺業務[4];智慧化是信息化發展的最新階段,數據變成現實環境感知的最基本元素,使信息世界和實體世界相互對應,并使信息世界具有智慧,成為“虛擬大腦”系統。這些發展階段造就了不同的信息化數據環境,總結起來,可以定義為四種數據環境:數據文件環境、應用數據庫環境、主題數據庫環境、信息檢索系統環境。[5]
在實際的高校信息化建設中,高校內部部門、單位信息化建設存在很大的差異化和不平衡性,很難實現階段性的跨越,往往形成多個階段并存的局面,即在同一個時期存在多種多樣的數據環境。不同的數據環境存在不同的數據質量問題,本文首先介紹數據質量的概念,分析了高校信息化中的四種數據環境及其關系,對比了不同數據環境中數據質量問題,最后給出了高校信息化建設中數據質量問題的處理建議。
各種應用不斷產生和結束,而其中的數據則一直存在,劣質數據使組織或個人不能做出有效的決策,只有高質量的數據,才能使各項工作高效的推進。數據質量不僅僅只涉及準確性或者可靠性,而是多維的。Wang和Strong使用一個兩階段調查和兩階段分類研究的方式提出了一個典型的數據質量層次框架[6],將從數據用戶那里收集的118個數據質量特征合并為15個維度4個類別,如表1所示。

表1 Wang和Strong提出的數據質量層次框架
還有一些組織和研究機構也對數據質量進行了定義并形成了標準,比如麻省理工大學、美國商務部、歐盟統計局、國際貨幣基金組織等。總的來說,這些標準主要考慮了三個方面的內容:一是注重從用戶角度來衡量數據質量,強調用戶對數據的滿意程度;二是數據質量是一個綜合性概念,需要建立一套有效的數據質量管理體系,從多方面多角度評價數據好壞;三是把適用性、準確性、適時性、完整性、一致性和可比性作為數據質量的基本要素。[7]
1.數據文件環境
數據文件環境中,一般通過Excel等單機軟件完成數據的記錄和存儲,數據可能用于輔助管理人員或者業務辦理人員完成各項工作的開展,也可能用于工作內容的備份和存檔。高校之所以還存在這類環境:一方面是很多人還不能從手工或使用Excel等簡單軟件工作方式轉變成使用信息系統的工作方式,缺乏共享意識和整體觀念[8];另一方面是部分單位滿足于現有的工作方式,很難接收改變,或者缺少轉變所需要的資金和人才支撐。
這種數據環境下數據存儲在個人辦公計算機上,受眾面窄,沒有專門的訪問控制和安全性策略,存儲和表示數據的方式以個人喜好為主,沒有固定的規范,數據的利用價值很低。
2.應用數據庫環境
應用數據庫是基于學校實際的業務需求出發,通過面向過程的方式建立而成,主要服務于高校的各類MIS系統。很多高校并無專業的設計、開發團隊,往往委托技術公司完成系統的設計、數據庫的構建、功能的實現和系統的運行維護。其數據的設計依賴于一些大家公認的技術規范進行,是比數據文件環境更高級的數據環境。
系統建設團隊往往是由不懂技術的業務人員和不懂業務的技術人員組成,系統除了存儲業務功能所需要的必要數據外,也存儲了很多的冗余數據,兩類數據之間并沒有明顯的界限,影響了管理層的決策工作。
系統建設依據于現有業務實現,只能適應過去,而很難適用未來。早期的MIS系統并未過多涉及業務之外的功能,如統計、匯總、查詢功能考慮不足,很多都只能進行事后處理,通過人為參與的方式手工完成。若業務進行了調整,則需要對系統進行重大的改造,數據需重新轉換、清洗。
在應用數據庫環境中,不同部門都建立了各自的信息系統,系統之間的數據存在嚴重的異構問題:不同系統采用了不同的數據庫存儲系統;系統服務于不同的業務,其對數據存在不同的需求;同一類數據,存儲的格式和表示的方法存在比較大差別。部門之間的數據存在互訪和交互問題,漸漸成為了很多的信息孤島。
3.主題數據庫環境
主題數據庫環境是較高級的數據環境,由國際知名學者James Martin博士最先提出[9,10],他認為主題數據庫環境是一個用以支持企業或組織決策分析處理的、面向主題的、經過科學的規劃和設計、用DBMS建立起來的、具有共享性和一致性的、以主題數據庫為主的集成化數據環境,只有在這種數據環境中才能開發和運行集成化的信息系統[9]。高校在信息化建設的數字校園階段普遍引入此概念來構建高校獨有的主題數據庫環境,此環境下的數據獨立于具體的部門和業務應用,而是將全校各類業務數據進行綜合組織整理后,按照學校概況、學生管理、教學管理、教職工管理、科研管理、財務管理、資產與設備管理、辦公管理、外事、檔案管理等業務主題劃分為相互關聯的數據類集合,每類集合作為支持業務組的穩定數據基礎,業務子集可以在此基礎上直接構建,而不需要再設計新的數據庫。[10]
主題數據庫環境跳出了涉及眾多多變處理過程的業務,而轉向更高層次的業務數據。但是主題數據庫環境中的數據大部分是來源于處于更低級數據環境中的各個業務系統,這些數據通過各種集成技術,進行數據加載、清洗、轉換,最后進行匯聚,此過程中只能解決一些形式上的數據質量問題,包括異構、表達方式、存儲格式等等,而因為業務系統設計、具體執行過程產生的更加深層次的質量問題很難解決,比如數據真實性、數據及時性、數據關聯性等。
4.信息檢索系統環境
信息檢索系統是建立在數據之上的系統,以實現對數據的有效管理和利用,主要依據特定的信息需求對數據進行收集、加工、存儲和檢索,從而為用戶提供信息服務。有專門針對某個內容庫而建立的信息檢索系統,比如期刊、圖書、專利、標準等,這些系統注重內容庫的建設。而在高校信息化建設中的信息檢索系統,是一個綜合性的系統,其關注點已經從業務、數據轉變為信息,信息需求則來源于使用者、管理者、決策者等各類群體,這些用戶群體對信息的需求具有不確定性和多樣化的特性。為了有效構建信息檢索系統環境,需要從信息需求反推數據構建,從已有的數據中選擇、轉化、處理形成數據倉庫或數據集市,抑或從師生中直接收集信息,比如通過一張表建設工程完成。
信息檢索系統環境下,對數據質量的要求很高,但是因為其數據可能來源于數據文件、應用數據庫、主題數據庫中的任何一種,導致其存在很多難以解決的數據質量問題。
5.數據環境關系
四種數據環境基本上都存在于當前的高校信息建設中,其中應用數據庫環境是主要部分,有一少部分為數據文件,主題數據庫和信息檢索系統環境是最主要的建設目標。不同環境的中數據依次向更高級環境的數據服務,數據文件作為應用數據庫的輸入源之一,應用數據庫則是主題數據庫的主要輸入源,主題數據庫是信息檢索系統的主要輸入源。具體如圖1所示。

圖1 數據環境之間的關系
數據文件環境下的數據是支撐業務人員的必須數據,具有很高的可靠性,但是數據很容易過時,需要人為的持續維護,不然數據準確性必然會降低,其數據用途和表達形式完全依賴于負責維護的個人。而在應用數據庫環境下,業務涉及的數據需保證業務的正常運轉,具有很高的內在質量,而其它冗余數據往往不能有效保證其質量,應用數據庫涉及的業務范圍窄,其所涉及的上下文有限,數據存儲和表示以方便的方式為主,數據的訪問安全性考慮也不周全。主題數據庫環境中的數據是服務于業務全域,可能是同一時期的不同業務,或者同一業務不同時期的不同流程,涉及上下文范圍廣闊,需要保證很高的數據質量,其數據來源于不同的異構數據存儲,需要采用規范、通用的存儲和表示方式,主題數據庫通過統一的出口提供數據,訪問質量也有保障。信息檢索系統環境下用戶群體眾多,很多質量問題都能很容易在使用過程中顯現,所以其數據質量要求是最高的。四種環境的數據質量情況對比如表2所示。

表2 不同數據環境下的數據質量對比
高校數據質量問題來源有很多,有信息層面、技術層面、流程層面、管理層面[11],涉及的方面眾多,很難有效開展全面的數據質量管理策略,應根據實際情況逐步改善現有問題。
不同數據環境必然會很長時間共存于高校的信息化建設中,試圖改變這種局面很難,而應該考慮如何充分利用這種局面。特別是應用數據庫環境,在信息化環境轉變中存在承上啟下的作用,必將長期存在。要在對高校現有數據環境進行充分調研基礎上,逐步調整改善:對于數據文件環境,盡量提高其環境級別;對于應用數據庫環境中數據,剝離其中的有用數據和冗余數據,利用有用數據構建更高級別的數據環境;對于主題數據庫環境,則應以構建此數據環境為手段和目標,使整體的數據質量得以提升。
信息化建設持續推進的過程中,將涌現越來越多的業務系統,通過開展信息化數據管理和規范服務以提高系統中關鍵數據的數據質量,可以使數據更有價值,最終使數據效能最大化。
[1]隆益民.數據倉庫與數據挖掘[J].現代電子技術, 2000(10):70-73.
[2]商廣娟.有效的數據質量管理體系——21世紀管理的基石[J].航空標準化與質量,2005(2):18-22.
[3]蘇強,梁冰.信息質量及其評價指標[J].計算機系統應用,2000(7):63-65.
[4]宓詠.智慧時代數據服務的發展與思考[J].中國教育網絡,2015(8):23-26.
[5]郭曉明,張巍.高校信息化建設中公共數據平臺的探討[J].中國教育信息化,2015(19):69-72.
[6]理查德等著.曹建軍,刁興春,許永平譯.信息質量[M].國防工業出版社,2013.3.
[7]宋立榮,李思經.從數據質量到信息質量的發展[J].情報科學,2010(2):182-186.
[8]陳翼.數據質量理論與高校信息化應用建設探索[J].實驗技術與管理,2011(5):106-111.
[9]楊威,楊海君,沈葉忠.高校信息化建設中主題數據庫的作用與開發[J].河海大學常州分校學報,2003(4): 36-39.
[10]李麗,王倩宜,歐陽榮彬,等.高校信息化建設中主題數據庫的規劃設計[J].中山大學學報(自然科學版), 2009(S1):168-170.
[11]賈春燕,趙亞萍,程艷旗.高校數字校園數據質量管理研究[J].廣西大學學報(自然科學版),2011(S1):272-275.
(編輯:王曉明)
TP393
:B
:1673-8454(2016)15-0059-04
*本文系大連理工大學2014年度基本科研業務費科研專項項目“高校信息化過程中人員信息數據質量管理研究”(項目編號: DUT14RC(5)03)的研究成果之一。