吳春梅
摘 要:信息化經過多年的發展,已經積累了大量的基礎數據,由于建設初期缺少統一規劃和部署,“信息孤島”問題日益明顯。為將各應用系統間的數據聯系起來,打破數據堡壘,本文作者對數據整合技術進行了初步分析,并以檔案工作為例探討“信息孤島”問題的解決方案,提出進行數據整合工作需要注意的問題,最后總結了數據整合可能給檔案工作帶來的實際效益。
關鍵詞:檔案數據;信息孤島;整合技術;利用效益
隨著社會的發展和人們對信息技術認識的提高,各單位內部對軟件開發的需求也越來越多。為了滿足這些需求,就必須加快應用軟件的開發速度,然而快速的信息化建設容易忽略整體的規劃與設計,產生的問題就是不同的應用軟件之間的數據不能互聯互通,出現“信息孤島”現象,從而阻礙了信息化工作的進一步發展及產生更大的社會效益和經濟效益。
形成“信息孤島”的本質是在數據庫管理系統層面,如異構數據庫、數據結構差異和數據含義不同等。數據的整合就是將分散而冗余的數據按照一定邏輯關系進行集中存儲,使數據結構和數據含義統一,實現數據的全方位共享。
1 數據整合需求分析
數據整合的對象是數據,而這些數據存放于不同軟件開發商的數據庫內,這些數據庫的數據結構又千差萬別,無法通用,造成了應用的不便利。
為了使大家有一個直觀的認識,以我館一個典型的文學檔案研究場景為例加以說明。
中國現代文學館是中國第一座文學博物館,收藏了大量現當代作家的版本圖書、期刊、手稿、書信、字畫及實物資料,是現當代文學的研究陣地。經過近20年的館藏信息化建設,現在使用的館藏業務應用系統有書刊管理系統、藏品管理系統、藏品數字化系統一期(文本類檔案)和藏品數字化系統二期(音像類檔案),為現當代文學研究提供服務。
在我們的服務過程中,經常會出現的場景是,一名研究人員準備進行某作家的專項研究,他得知我館收藏該作家的資料比較豐富,但又不知道具體有哪些資料對自己的研究工作有幫助,于是該研究人員利用我館的公共館藏目錄檢索系統檢索到關于這位作家在我館的全部館藏品,包括:各版本圖書、手稿、書信、照片、字畫以及錄音、錄像帶。由于館藏檢索系統只提供目錄檢索,看到感興趣的信息后,該研究人員需要到藏品數字化系統中去瀏覽圖書、手稿、書信、照片的數字化影像,到音像數字化系統中去收聽聲音文件和觀看視頻文件。這個檢索瀏覽的過程可能需要反復多次,才能找到他需要的資料信息,費時費力,還可能出現遺漏。因此,該研究人員希望有一個科學的數據整合機制,將數據集中展現在一個界面上,使用戶能夠方便地看到數據全貌,既節省時間,又不會錯過有價值的信息。由此看來,數據整合是順應用戶的需求,是大勢所趨。因此,檔案數據整合工作是新形勢下對各級檔案部門提升自身實力,服務社會需求的集中體現。
2 數據整合的技術實現
構建數據整合平臺,目的是從不同的應用程序和分散異構的數據庫中提取數據源,并形成統一的、對分散異構數據源所產生映射的數據庫。數據整合平臺要整合各種應用系統數據庫,綜合利用數據資源,提供靈活的數據展現方式。
首先,數據整合工作的基礎就是數據分析。由于信息化建設早期缺乏統一規劃,造成不同應用系統的體系結構各不相同,數據缺乏統一規范和標準。做數據整合平臺的公司一般又不會是以前做數據管理型應用系統的軟件開發公司,要讓軟件開發公司向其他公司公開數據結構又是不可能的。那我們就換一種思路 ,使顯示數據統一標準,只呈現數據庫內常用數據或非標識數據,這樣就保證了軟件開發公司的自主知識產權,而且以后再增加軟件系統,也可以按這種方式處理,做到了可持續發展。為實現這一目的,對數據源的結構分析就顯得尤為重要。要看懂數據字典,了解數據庫表中各字段的含義及作用,標注常用的、具有信息描述作用的字段。
通過中間數據庫傳遞數據來解決“信息孤島”問題。我們通過建立一個中間數據庫,將各個分散異構數據源中的數據通過統一標準的視圖呈現出來。視圖中的字段可對應選取之前在原數據表中標注的字段,通過數據遷移機制按視圖字段提取各個數據庫的所需數據插入到中間數據庫的相應表中。為了保證中間數據庫與源數據庫的數據一致性,可在對應的源數據表中建立觸發器,一旦工作人員操作原始應用程序使表內數據發生改變,視圖即可對被改變的數據進行記錄。系統會按照事先制訂的遷移策略對中間數據庫數據進行定時更新。中間數據庫是整合平臺中的一個獨立的數據庫,甚至可以在其它網段,這樣就有效保證了業務數據庫的數據安全。
3 數據整合需要注意的問題
在數據整合的過程中,要確保數據的準確性、一致性和完整性。建立各庫的唯一性標識,是對各庫數據的規范性驗證,也是建立數據聯系的糾錯方式。整合后的數據應進行數據比對并實行抽檢,以驗證數據整合效果。在進行數據遷移和中間數據庫的存儲過程中要確保數據不被修改,確保呈現給用戶的數據是數據庫中的原始數據。
數據整合是一項復雜的系統工程,涉及眾多的應用系統、操作系統、數據庫管理系統、不同的數據結構、數據接口以及硬件平臺等,因此需要統一規劃。要堅持“統一標準、方便快捷、便于利用”的原則,分步實施,穩扎穩打,重質輕量。
檔案工作的根本目的是便于社會利用,這也是數據整合的目標之一。但整合數據在發布的過程中一定要遵循檔案的開放原則,遵守相應的法律法規和信息公開制度。數據隱私保護技術一般是在原有的數據應用平臺上實現的,經過抽取的數據在整合平臺上展示就失去了原來的隱私保護功能。因此數據整合也意味著風險,某些檔案信息的泄密會給社會穩定、民族利益甚至國防安全帶來威脅。
4 數據整合工作的效益
通過數據整合,形成各個應用系統數據的統一訪問入口,提供滿足信息安全的統一數據發布平臺。用戶數據搜索只針對中間數據庫進行,保證了業務數據的安全,更不會對業務網絡造成壓力。
通過數據整合,能夠將信息全面地展示給用戶,使用戶方便的進行查詢利用。用戶在整合平臺統一的檢索界面上實現對多個異構數據庫數據的檢索,檢索結果經合并去重和排序后,以統一的格式顯示,并可提供多種輸出方式。
可形成“按需訂制”的數據架構。在面對大量信息涌入而無所適從之時,人們對信息的獲取要求更直接更有針對性,希望能夠得到解決問題的知識和具體內容。數據整合平臺使有針對性的提供服務成為可能,變等待服務或被動服務為個性化的推薦服務或主動服務。
能夠對檔案數據進行信息分析和挖掘研究。信息本質是事物間的相互關系,關系是多維的、網狀的,只有整合起來才能反映關系的全面屬性。數據整合可以提高檔案檢索利用的智能化水平,從數據中發掘有價值的信息,滿足不同利用者的信息需求,將數據資源轉化為知識資源,實現從信息服務到內容服務的轉變。
使檔案部門的工作重點從以“擁有資源”為中心轉向以“整合信息資源”為中心。通過數據整合,知識達到充分共享,知識價值得到充分體現。今后的檔案部門將會向整合化方向發展,提供的服務由最初提供單一的物理實體服務,向多層次、多元化、數字化的知識共享服務方向發展。
參考文獻
[1]數據整合技術研究.[J],兵團教育學院學報,2006,余曉平、甕正科等.
[2]大數據時代的檔案信息服務研究,[J],蘭臺世界,2014,陳蘆燕.
[3]“大數據”時代科學數據整合研究[J],情報理論與實踐,201,4白如江、冷伏海.