【摘要】隨著數(shù)據庫技術廣泛應用在人們生活與生產工作中,可以有效的存儲、查詢與優(yōu)化結構化數(shù)據,關系數(shù)據庫是目前數(shù)據庫的主要應用形式,主要通過用戶對結構化的查詢語言檢索方式有一定的數(shù)據庫模式知識與查詢語言的掌握,然后進行語言內容的檢索,而當前所應用的另一種檢索方式——信息檢索,是通過輸入關鍵詞的方式進行檢索,用戶只要輸入關鍵詞,然后按回車或是檢索網頁就會出現(xiàn)許多與關鍵詞有關的資料。本文主要研究的是基于關系數(shù)據庫的關鍵詞查詢方式,有利于用戶快速找到所需要的資料,從而可以有效提高檢索效率。
【關鍵詞】關系數(shù)據庫;信息檢索;查詢
1.前言
隨著互聯(lián)網的不斷發(fā)展,越來越多的用戶需要訪問網絡數(shù)據庫,然而由于用戶不具備一定的數(shù)據庫模式知識,或者不了解查詢語言檢索方式,加之關系數(shù)據庫存儲文本數(shù)據越來越多,許多企業(yè)與個人需要實現(xiàn)文體數(shù)據與網絡結構化數(shù)據的有效連接,由此產生了關系數(shù)據庫的關鍵詞查詢[1]。
2.基于關系數(shù)據庫的關鍵詞查詢問題的概述
2.1 關鍵詞查詢與結構化查詢
2.1.1 關鍵詞查詢
關鍵詞查詢是互聯(lián)網中普遍使用的一種數(shù)據搜索方式,即對語言信息的檢索技術,例如Google、360搜索、百度、有道等。使用關鍵詞查詢技術具有一定的靈活性,在企業(yè)中應用較為廣泛,并已取得一定的成效。采用關鍵詞查詢技術原理是指有效利于HTML文檔之間的連接關系,實現(xiàn)從一個網頁到另一個網頁的有效連接,并將網頁數(shù)據放到本地系統(tǒng)中進行檢索與分析。當用戶應用關鍵詞查詢時,搜索引擎會把與關鍵詞有關的網頁按照一定的算法進行排序,然后以檢索結果的形式返回給用戶。通常情況下搜索引擎查詢數(shù)據分析與待搜索的數(shù)據源兩部分。所謂數(shù)據分析也就是搜索部分,主要是根據用戶所提供的關鍵詞,檢索與之相關的網頁信息,并按照一定的算法將檢索結果返回給用戶。待搜索的數(shù)據源是指互聯(lián)網的所有信息,即是指用戶在網絡檢索信息的來源[2]。
2.1.2 結構化查詢
在傳統(tǒng)的關系數(shù)據庫檢索中,通常是采用SQL語句完成檢索查詢,而SQL指的是關系代數(shù)與關系演算的一種結構化查詢語言方式,可以確保用戶準確獲得想要的數(shù)據信息。采用SQL檢索查詢方式不僅具有一定的數(shù)據查詢功能,還具有數(shù)據處理與數(shù)據的定義功能。
2.2 關系數(shù)據庫與關鍵詞查詢結合的必要性
對于企業(yè)關系數(shù)據庫的應用,大多數(shù)都是文本文檔與結構化數(shù)據同時應用。因此,如何有效將兩種信息結合成為一個核心的課題。也可以說,文本文檔與結構化數(shù)據的有機結合是許多企業(yè)共同的美好愿望,在一定程度上可以有效提高企業(yè)的效益。為了文本文檔與結構化數(shù)據的有機結合,需要通過關系數(shù)據庫與關鍵詞查詢技術的融合來實現(xiàn)。
就當前網絡搜索引擎發(fā)展的情況來說,許多搜索引擎可以提供半結構化數(shù)據支持,例如XML。然而這些半結構化數(shù)據支持在實際應用中還存在著一些問題:①半結構化數(shù)據支持的搜索引擎一般不具有數(shù)據庫的查詢優(yōu)化作用;②半結構化數(shù)據支持的搜索引擎只能提供有限的結構化查詢能力,當數(shù)據信息轉換成HTML文檔后將永久不變,當數(shù)據更新時會生成新的相應的HTML文檔,占有較大的數(shù)據存放空間,也容易造成關系數(shù)據的丟失。由此可以看出,關系數(shù)據庫查詢技術不支持文本文檔格式,而關鍵詞查詢技術則缺少結構化查詢的有效優(yōu)化。因此,將關系數(shù)據庫查詢技術與關鍵詞查詢技術結合起來,可以將兩者取長補短,有利于實現(xiàn)關系數(shù)據庫的關鍵詞查詢技術,可以有效提高關系數(shù)據庫的查詢技術的開放性與靈活性[3]。
3.基于關系數(shù)據庫的關鍵詞查詢
基于關系數(shù)據庫的關鍵詞查詢主要有基于模式圖的方法與基于數(shù)據圖的方法兩大類。在基于模式圖的方法中主要是利用數(shù)據庫模式圖獲得所要檢索結果,然后根據一定的算法進行排序,將檢索結果轉換成SQL語句的形式,并在數(shù)據庫中執(zhí)行,使用戶得到所需的檢索結果。而在基于數(shù)據圖的方法中,關鍵詞查詢直接對數(shù)據庫中的元組進行處理,然后將生成的元組連接樹結果返回給用戶。目前在許多關于關鍵詞檢索都采用基于數(shù)據圖的方式進行檢索。
目前我國基于數(shù)據圖的關系數(shù)據庫的關鍵詞查詢方式主要存在著以下二個方面問題:①采用數(shù)據圖的方式進行檢索存在著重復性文檔格式,導致檢索效率下降。因此需要運用試探法有效減少內存使用的文檔格式,可以有效提高檢索效率;②是采用數(shù)據圖的方式進行檢索需要占用較大的內存空間[4]。
在基于關系數(shù)據庫的關鍵詞檢索中,可以有效的運用數(shù)據庫的數(shù)據圖結構,將問題的解空間以數(shù)據的形式定義,然后由數(shù)據庫的元組構成解空間圖的結點,元組間的主外鍵關系構成圖中結點間的邊。然后采用試探法的優(yōu)化檢索方式深入優(yōu)化檢索解空間的問題解,也就是與用戶所提供關鍵詞的相關查詢結果。采用試探法在檢索的過程,并不在用戶的計算機中保存全部的解空間,而是一邊生成解答樹中的結點,一邊丟棄結點,因此在檢索的過程中,計算機只保存了檢索開始時的結點到當前檢索結果的結點,從而有效減少數(shù)據信息所占的內存,提高檢索效率。
4.結語
關系數(shù)據庫的關鍵詞查詢技術是現(xiàn)代信息檢索與數(shù)據庫信息研究的熱點課題,可以有效解決用戶多個關鍵詞查詢的需求,有利于快速從網絡數(shù)據庫中查詢出與關鍵詞相關的信息,目前,關系數(shù)據庫的關鍵詞查詢技術已得到廣泛的使用,并且可以有效提高用戶檢索效率,提高網絡數(shù)據庫信息的訪問率[5]。
參考文獻
[1]郗君甫,劉國華,唐軍軍.基于本體的關系數(shù)據庫關鍵詞語義查詢擴展方法[J].燕山大學學報(社會科學版),2010,12(01):180-182.
[2]蔡宏艷,姚佳麗,王珊珊.DETECTOR:基于關系數(shù)據庫通用的在線關鍵詞查詢系統(tǒng)[J].計算機研究與發(fā)展,2009,16(03):137-139.
[3]張曉穎,李昕麗,王文娟.一種關系數(shù)據庫上的關鍵詞查詢排序方法[J].遼寧工業(yè)大學學報(自然科學版),2013, 11(02):103-104.
[4]郗君甫,王海賓,文繼軍.基于關系數(shù)據庫關鍵詞的評分函數(shù)研究[J].邢臺職業(yè)技術學院學報(自然科學版),2011,33(20):157-158.
[5]王佳宜,楊路明,張華兵.基于關系數(shù)據庫的關鍵詞查找排序策略[J].計算機工程與設計,2009,33(17):192-193.