摘要:文章通過對高校學術數據庫的元數據按照RDF格式進行標準化,提取其中關鍵字建立索引,搜索引擎利用倒索引方式進行檢索,提高搜索的查全率和查準率,形成基于元數據的面向高校學術數據庫的搜索引擎的設計。
關鍵詞:元數據;RDF;倒索引;搜索引擎
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1006-8937(2010)24-0096-01
1 設計思路
將不同學術資源數據庫的各類數據資源轉換成統一的元數據格式,利用建立索引的方式對元數據進行處理,構建出基于元數據的面向學術數據庫的搜索引擎平臺。
①元數據概念的介紹。元數據又稱關于數據的數據。元數據能夠為各種類型數字化信息資源提供規范、普遍的描述方法和檢索工具;元數據是分布的、由多種數字化資源有機構成的信息體系的整合工具與紐帶。引入元數據,能保證數據資源信息的一致性。通過這種一致的描述,使不同數據庫提供的同種性質的數據資源有一個統一的形式,為各種數據信息集成提供前提,為集中檢索提供保障。②元數據標準的選擇。對數據資源進行描述的元數據有很多種,常接觸到的元數據的著錄標準有DC,MARC,GILS,EDA,RDF等幾種主流格式,各種數據庫資源采用不同的著錄方式,其元數據也不相同,元數據的通用性受到很大的影響。RFD是W3C提出的一種元數據模型,該模型中數據資源被描述為一個三元組
2 搜索引擎算法的采用
將元數據形成統一的格式之后,為元數據建立了索引,整個搜索引擎的算法將依據索引進行。
2.1搜索引擎算法的選擇
索引搜索法是為了節省搜索時間,在空間上建立一系列的索引表,索引表由一系列元數據形成的,按照title,author,year,keyword等元數據信息集合形式排列,搜索時,用戶輸入一個查詢關鍵字,搜索引擎首先去索引中進行搜索,如搜索到了符合條件的查詢信息,將與此有關的元數據信息一同反映,達到提高查全率的目的,事先規定元數據的標準格式為英文或者中文,利用該搜索引擎檢索到的數據資源就是全部中英文文獻,通過加入翻譯功能實現輸出格式的多樣化。
2.2索引關鍵詞的篩選
通過過濾器,從已經標準化的RDF格式元數據中提取,將RDF元數據的格式信息過濾掉,得到關鍵字,由關鍵字形成的索引表傳遞給搜索引擎,搜索引擎根據索引進行搜索,搜索的結果是元數據中的關鍵字,關鍵字對應著元數據中的完整信息,通過關鍵字,用戶可以輕松的找到xml文檔所對應的數據資源信息,提高查準率。
2.3搜索引擎的工作原理
篩選后的關鍵字形成索引,傳遞給了搜索引擎索引,搜索引擎在檢索之后,通過關鍵字找到元數據資源數據,這在過程上是一種倒排的順序,這種倒排索引,實現搜索引擎從索引列表一關鍵字—元數據一資源數據的過程。元數據提取過程是從資源數據一元數據一關鍵字一索引列表。在處理元數據的時候,設立了很多存放索引的空間,搜索引擎在訪問這些空間的時候必然會降低檢索的效率,那么我們可以通過建立常用關鍵字表來提高搜索引擎的使用效率,出現頻次高的關鍵字,集中放在一個索引當中,而在針對某個學科的學術資源信息進行檢索的時候,可以優先訪問頻次高關鍵字索引,從而提高搜索引擎的檢索效率。
3 結語
基于元數據對高校的學術資源數據庫進行整合是建立跨平臺搜索系統的方法之一,隨著高校所擁有的學術數據資源越來越多,異平臺的使用,勢必降低用戶在使用資源數據庫的搜索效率,而建立基于元數據的搜索引擎能為實現同平臺檢索提出解決之道,無論在查全率方面還是在查準率方面,都能使搜索變得更加快捷高效,符合當代高校對信息資源使用的要求。
參考文獻:
[1]任磊,譚躍生,基于RDF元數據的網絡資源統一描述方法[J],內蒙古科技大學學報,2009,(2).