全志薇 陳曉玲



摘 要:異構數據異構性主要表現在不同的數據庫類型和數據結構。為解決異構數據整合中的統一檢索問題,以科技資訊庫、政策庫、統計庫、項目庫、機構庫和人才庫為例,建立不同類型文獻資源元數據結構和規范,構建吉林省區域創新數據庫系統,解決不同種類數據庫之間的數據整合問題。實踐證明,基于該方式構建的區域創新數據庫可為后續學科個性化服務提供有效的檢索支撐,在系統利用和服務方面具有一定實用價值。
關鍵詞:異構數據;區域創新;數據整合;元數據;統一檢索
DOI:10. 11907/rjdk. 201004
中圖分類號:TP392文獻標識碼:A 文章編號:1672-7800(2020)010-0214-04
Abstract: This research mainly solves the problem of unified retrieval of heterogeneous data integration which is mainly manifested in different database types and data structures. Taking science and technology information database, policy database, statistics database, project database, institution database and talent database as examples, this paper designs the metadata structure of different types of literature resources and establishes the metadata of literature resources. According to the standard, the regional innovation database system of Jilin Province is constructed to solve the problem of data conversion between different kinds of databases. The practice proves that the unified retrieval platform of regional innovation database based on this method provides effective retrieval support for the personalized service of the follow-up disciplines and has a certain practical value for the utilization and service of the system.
Key Words: heterogeneous data; regional innovation; data integration; metadata; unified retrieval
0 引言
國家科技部2018年2月頒布了《國家科技資源共享服務平臺管理辦法》,科技資源共享有利于促進科技信息資源為社會、經濟、科研等提供更有效的服務。目前國內有多個商業化數字資源提供商,如中國知網、維普、讀秀等,但缺乏區域性特色科技資源共享平臺。吉林省科學技術信息研究所經過多年科研項目積累,形成了眾多分散式、區域性的科技資訊類、政策類、統計數據、項目、人才、機構等不同主體、不同種類、不同形態的資源,至今未對其進行有效的匯集、整合、存儲與表述,急需建立資訊、政策、數據、成果、人才、機構等科技信息共享平臺。本文充分利用模塊化構造方法,重點研究資訊類、政策類、統計數據類、科研項目類、人才類、機構類等分散式異構數據集成技術,以數據類型為例,統一協調不同數據庫管理軟件,對數據進行整合,構建吉林省區域創新數據庫。
1 文獻回顧
眾多學者對異構數據整合、創新數據庫進行了研究。張宏偉等[1]建立了基于DC元數據倉儲的一站式檢索系統架構模型;徐愛萍等[2]構建了水文及水環境數據共享平臺;顧瑋[3]闡述了異構數據源特點和集成技術;邵桐等[4]實現了數據交換系統;張洋[5]設計了異構數據庫實現方案;王宏起等[6]構建了各區域政府科技管理部門及區域共享平臺,為發展管理提供科學依據和參考;周瑩[7]對異構分布式數據庫系統具體設計思路進行了研究;道仁·哈尼開[8]提出采用XML技術針對異構數據的轉換模式。但是,針對區域創新數據庫共享平臺異構數據整合的研究鮮有涉及。因此本文針對不同類型數據庫,建立相應元數據結構和規范,構建吉林省區域創新數據庫系統,解決不同種類數據庫之間的數據整合問題。本文研究對提升區域創新和共享集成服務能力、豐富平臺管理方法具有重要的現實意義。
2 異構數據特點與整合
2.1 異構數據特點
數據庫系統模型有層次、網狀和關系,各種類型數據庫用戶群體、特征、數據結構均存在明顯區別[9]。異構數據庫系統是相關多個數據庫系統的集成,以實現數據共享和透明訪問。異構性主要體現在數據源異構、數據結構異構,因此對多個數據源集成非常重要,而異構數據庫集成可屏蔽數據來源和結構異構性,將分散的、異構的多個數據源相關數據進行有效集成[10-11]。
2.2 異構數據整合
吉林省區域創新數據庫整合了7類數據科技,如圖1所示。
(1)科技資訊、科技政策和科技統計數據存儲在SQL Server數據庫,包括國內外科技資訊和科技政策、吉林省歷年科技統計數據等。
(2)科技項目和軟科學項目數據存儲在Access數據庫,包括項目類別、年限、地區、來源、經費、承擔人、承擔單位等基本信息,以及項目鑒定時間、摘要、關鍵詞、研究成果等項目詳細信息。
(3)科技人才和科技機構存儲為Excel文件,沒有形成數據庫。科技人才信息包括姓名、性別、年齡、學歷、工作單位、職稱、職務、研究方向等信息;科技機構信息包括名稱、簡介、地址、聯系人、類型等。
綜上所述,現有7類數據采用不同的數據源和數據結構,將其分散的異構數據庫集中存儲到共享信息數據庫中,用戶可通過整合之后的吉林省區域創新數據庫進行全面了解科技類信息,實現統一檢索、聚類分析、分類導航等功能[12-13]。對不同數據源的數據進行封裝,對外提供統一的數據訪問方式,同時對各種類型的數據進行統一標識,實現信息統一和透明訪問[14]。
3 吉林省區域創新數據庫設計與實現
3.1 系統功能設計
首先采用元數據倉儲技術對異構數據進行統一描述和創建,其次系統提供統一跨庫檢索,可整合多個類型的資源并提供一站式檢索與服務,實現檢索結果統一展現。向用戶提供統一的檢索接口,將用戶檢索要求轉化為不同的數據源檢索表達式,提供基于元數據倉儲服務的集成功能,實現檢索結果整合[6]。系統主要功能需求如表1所示。
系統后臺功能模塊設計如圖2所示。
3.2 數據庫結構設計
不同類型和結構的科技文獻元數據描述各不相同,但在使用、傳輸、共享過程中,可形成相對全面且固定的描述信息[15]。本文主要采用將DC元數據與區域創新數據實際需求相結合的數據結構。系統主要DC元數據包括標題、創建者、主題、出版者、發布日期、類型、格式、標識符等,元數據規范如表2所示。
3.3 系統體系架構
系統采用B/S模式結構,具體系統架構如圖3所示。
對不同類型的數據源數據進行采集、傳輸與交換,通過數據導入、自動入庫、下載入庫和整理入庫等多種方式,將數據統一遷移和存儲到區域創新數據庫中,管理員在系統后臺進行用戶管理與權限認證。系統采用模塊化構造,具有良好的開放性和擴展性,根據需求拓展需求不斷進行調整組合,開拓新功能[16]。
3.4 系統功能實現
該系統以促進區域經濟發展和科技創新的服務需求為目標,成為區域產業升級、戰略性新興產業發展、政府管理部門科技咨詢和科技決策的載體[17]。以用戶為核心,以門戶網站為媒介,其服務功能如下:
(1)集成功能。根據自身優勢將區域科技資訊、政策、項目、機構、人才等分布散亂的資源進行集成并優化重組,確定科技資源存儲形式,以實現供需高效對接。
(2)整合功能。根據用戶創新數據需求將資源進行有效整合、分割和重組,不同資源轉變為實際服務,包括科技文獻、專業技術、專家咨詢等服務,增強中小企業創新實力,提高區域資源利用率[14]。
(3)共享功能。以用戶科技需求為前提,匯集、整合、存儲科技資源,通過共享為戰略性新興企業、中小企業、科研院所、高等院校等創新創業主體提供服務。如系統為需求方提供文獻資源和專家技術等,加快企業創新進程,解決實質性科技問題,提高企業對當下科技資源的利用率,降低企業創新成本[18-19]。
3.4.1 統一跨庫檢索
系統首頁為統一跨庫檢索入口,按標題、關鍵詞、來源等字段在全部數據庫中進行檢索:①全部數據庫按標題、作者、來源字段進行檢索;②資訊和政策數據庫按標題、作者、簡介(正文)字段進行檢索;③統計數據庫按標題、年份字段進行檢索;④項目數據庫按項目名稱、項目簡介、項目負責人、承擔單位、立項年字段進行檢索;⑤機構數據庫按機構名稱、機構簡介、機構類型字段進行檢索;⑥人才數據庫按姓名、個人簡介字段進行檢索。
在首頁提供所有數據庫圖片和文字鏈接入口,點擊圖片進入相應單庫界面,在單庫中也可進行高級檢索,選擇主要字段(全文、年份、標題、作者、摘要等)進行多條件組合檢索。
3.4.2 元數據管理
(1)元數據類型管理。其主要設置的系統元數據類型有多種,同時對每一種元數據類型進行配置。
(2)元數據字段管理。其主要設置系統對每一類元數據類型的字段配置,包括所有元數據類型的字段,如標題、主題、作者、來源、單位、年份、所屬行業等,同時針對每一個字段的中文名稱、要素、控件類型、數據類型、檢索名稱等進行詳細配置。
3.4.3 索引創建
由于系統提供統一跨庫檢索功能,對于后臺首次新創建的文獻信息,需重新創建索引,便于前臺統一跨庫檢索的數據集是最新全集。
4 結語
本文結合異構數據庫特點,解決了7類異構資源庫數據集成與共享問題。平臺通過測試和實際使用,實現了數據共享功能,證明了該系統可靠性和穩定性。本文對數據資源檢索特點及檢索需求進行分析,采取構建不同文獻資源類型的元數據整合方式,實現了整個平臺統一檢索,提供了可有效滿足用戶需求的檢索服務方式和功能。
通過前期基礎元數據倉儲構建與檢索平臺建設,以海量文獻資源元數據倉儲為基礎,通過信息資源不斷積累,圍繞吉林省區域創新科技資源建設,后續可按學科、服務對象對整合平臺進行升級改造。下一步將引用知識庫概念,在文本內容挖掘與價值發現方面,展現學科知識點關聯關系,實現資源多維分類導航,圍繞各種類型最終用戶,打造更具個性化特色的科技資源服務平臺;還可將基礎文獻資源統一檢索服務功能嵌入至各應用系統,充分利用統一檢索的作用,更好地為廣大用戶提供文獻資源服務。
參考文獻:
[1] 張宏偉,許慧. 基于DC元數據倉儲的數字存儲資源整合研究[J].圖書館學刊,2014,36(6):32-34.
[2] 徐愛萍,宋先明,徐武平. 分布式異構數據庫集成系統研究與實現[J]. 計算機工程與科學,2015,37(10):1909-1916.
[3] 顧瑋. 異構數據庫集成技術研究[J]. 辦公自動化,2016(19):44-45.
[4] 李秉鍵. 基于XML的高校異構數據交換平臺設計[J]. 軟件導刊,2014,13(2):100-102.
[5] 張洋. 云計算中異構數據庫方案的研究與設計[J]. 電腦編程技巧與維護,2017(12):63-65.
[6] 王宏起,程淑娥,李玥. 大數據環境下區域科技資源共享平臺云服務模式研究[J]. 情報理論與實踐,2017,30(3):42-47.
[7] 周瑩. 分布式異構數據集成系統的研究與分析[J]. 數字技術與應用,2018,36(7):220,222.
[8] 道仁·哈尼開. 基于XML的異構數據庫數據的轉換[J]. 電子世界,2018(11):64,66.
[9] 柳原. 多源異構數據整合系統在醫療大數據中的研究[J]. 電子制作,2019(14):64-65.
[10] 陳正思.? 基于TRS信息檢索技術的文獻資源統一檢索平臺的構建[D]. 長沙:中南大學,2011.
[11] 黃鏑. 異構數據庫的跨庫檢索技術綜述[J]. 圖書情報工作,2003。47(6):94-97, 109.
[12] 邵桐,朱明東. 基于元數據的數據交換系統研究[J]. 軟件導刊,2016,15(7):158-160.
[13] 王亮,蘇云. 基于Lucene的異構數據庫全文檢索技術[J]. 指揮控制與仿真,2017,39(2):141-144,148.
[14] 陳鳳巖,唐振宇,步兆軍. 基于Java和XML的異構數據庫集成研究[J]. 情報雜志,2006,25(7):16-17,21.
[15] 何卓桁,劉志勇,李璐,等. 異構文本數據轉換中XML解析方法對比研究[J]. 計算機工程,2020,46(7):286-293,299.
[16] 趙瑜,李曉東,張新建. 基于元數據的分布式數據統一訪問技術[J]. 指揮信息系統與技術,2019,10(4):33-37,60.
[17] 李璋琪.? 基于異構數據庫的歷史數據中心建設[J]. 電子技術與軟件工程,2019(18):154-158.
[18] 肖剛. 異構數據庫更新同步研究與實現[J]. 軟件導刊,2019,18(10):182-185.
[19] 劉順利,李銀生,吳峰,等. 我國科技報告建設面臨的發展瓶頸及其對策建議[J]. 科技管理研究,2019,39(12):252-256.
(責任編輯:江 艷)