尚曉麗宋廣軍包向輝
(1.綏化學院 黑龍江綏化 152061;2.齊齊哈爾大學 黑龍江齊齊哈爾 161006)
空間數據庫反向最近鄰數據模型查詢優化研究
尚曉麗1,2宋廣軍2包向輝1
(1.綏化學院 黑龍江綏化 152061;2.齊齊哈爾大學 黑龍江齊齊哈爾 161006)
反向最近鄰數據查詢優化簡言之就是從特定文本中取出所需的事實反向最近鄰數據。它的具體應用可表現多個方面。比如從新聞里查詢優化報道、從公司網站查詢優化產品情況、從漫畫網站里查詢優化漫畫圖片等。通過反向最近鄰數據信息優化,提高數據信息提取與查詢能力。
空間數據庫;反向最近鄰;數據模型
當我們享受空間數據庫帶來的方便、快捷、高效、豐富的反向最近鄰數據同時,一個問題也不容我們忽視。那就是隨著人們的需求量的上升,空間數據庫上的反向最近鄰數據也成指數級增長,以至于浩如煙海的反向最近鄰數據與個人需求之間矛盾也隨之誕生。為了獲得自己需要的反向最近鄰數據,有時候用戶不得不花費大量的時間甚至以天計算來上網瀏覽各種網頁。雖然搜索引擎隨著空間數據庫的飛速發展也迅速發展起來,但是你通過搜索獲得的反向最近鄰數據仍然是個龐大的結果集。這個結果集給我們的反向最近鄰數據只是一個相關的大致概要。有時候甚至于用戶需要的反向最近鄰數據相差甚遠,為了獲得需要的反向最近鄰數據,用戶仍需查找相關的頁面。這個過程難免浪費大量的人力和物力,即使獲得自己需要的反向最近鄰數據,如何有效的保存也是一個不容忽視的問題。
上述問題的關鍵在于空間數據庫反向最近鄰數據的發布和瀏覽都是基于html或者xml語法的頁面來實現的。而大家都知道,html或者xml都是非結構化、半結構化的語言,計算機所識別的只是二進制碼,因此它們像傳統數據庫那樣,提供高效、結構化、強大的查詢語句也變得不太可能。我們所要解決的問題正是如何從計算機中獲取所需的反向最近鄰數據,這也是反向最近鄰數據查詢優化的任務所在。
反向最近鄰數據查詢優化是反向最近鄰數據檢索的一種,它的目標是把非結構化、半結構化的機器可讀文本抽取出來并轉化成結構化的存儲格式。在大部分情況下,處理人類語言文本的形式跟自然語言處理過程相似。近年來像自動標注和通過處理查詢優化出圖像、音頻、視頻的多媒體文檔,也被看作是反向最近鄰數據查詢優化的一種方式。反向最近鄰數據查詢優化的一種形式化描述如下:假定某一組web頁固定(用符號s表示),然后我們再定義一個映射(用符號w表示),w將s映射到一個結構化的,語義清晰明確的數據結構中(用符號d表示),同時與s結構和語義都相關的web集合(用符號s表示)都可以認為具有相同的功能。反向最近鄰數據查詢優化的研究歷史可以追溯到二十世紀七十年代晚期(也就是自然語言處理的早期)。當時相關查詢優化系統的建立最早是在八十年代中期,也就是jasper系統。系統建立的目的是為了提供實時的金融反向最近鄰數據給相關客戶。開發實用的反向最近鄰數據抽取系統這正是反向最近鄰數據查詢優化的目的,從自由文本中分析需要的反向最近鄰數據并將之抽取出來從而得到真正有用反向最近鄰數據和用戶感興趣的反向最近鄰數據。反向最近鄰數據抽取技術在軍事、經濟、醫學、科學研究等領域都有著廣泛的應用,它提供了一條從海量的反向最近鄰數據堆中抽取出與用戶相關的反向最近鄰數據的思路。
1.反向最近鄰數據查詢優化與反向最近鄰數據檢索
反向最近鄰數據查詢優化與反向最近鄰數據檢索關系密切,但也有不同之處。它們的主要不同之處在以下三個方面體現:
(1)目的不同
反向最近鄰數據檢索的目的雖說是找出用戶需要的文檔,但帶有盲目性;而反向最近鄰數據查詢優化于基于抽取性質的,它是直接從文本中抽取獲得用戶感興趣的反向最近鄰數據。
統計詞頻和匹配關鍵字符是反向最近鄰數據檢索經常使用的技術,在檢索的過程中,文本是被看成是一個大量詞的集合,不需要對文本的深入分析和理解;而反向最近鄰數據抽取是建立在自然語言的基礎上,是通過對文本進行分析處理后完成的。
(3)適用的范圍不同
反向最近鄰數據檢索往往是跟領域無關的,而反向最近鄰數據抽取相關性比較強,只能抽取預先設定好的某些領域的反向最近鄰數據。
2.反向最近鄰數據查詢優化的基本模式
反向最近鄰數據查詢優化的類型方式多種多樣,根據原理的不同可以大致分為以下五類:
(1)基于自然語言的原理處理方式反向最近鄰數據的查詢優化
這類的反向最近鄰數據查詢優化主要是針對大量文本的情況,通過對自然語言處理技術的借鑒形成了一系列基于語法和語義的規則。目前papier、srv、whisk采取這種原理。這種方式查詢優化來的文本需要大量的文本練習,利用形成的規則來進行處理的。
將君子教育理念滲透到智慧課堂模式是指在師生之間、生生之間的交流互動中注重文明禮儀、弘揚君子德操,行于禮、止于禮、互相尊重,團結協作,共同探究,這可從智慧課堂模式的各個環節中體現。
(2)基于包裝器歸納方式的反向最近鄰數據查詢優化
采用這種方式的反向最近鄰數據查詢優化是根據事先標注的樣本,使用機器學習方式的歸納算法,生成查詢優化規則,這種查詢優化規則是基于上下文語境的,即根據語義項的左右邊界來定位語義項。目前stalke、softmealy和wien采取這種原理。這種包裝器歸納方式的反向最近鄰數據查詢優化的主要特點是定位反向最近鄰數據時是以上下文語義為參考標準的,語義約束也沒有被使用。
(3)基于ontology方式的反向最近鄰數據查詢優化
這種方式的反向最近鄰數據查詢優化主要是依據自己的數據量反向最近鄰數據來實現對反向最近鄰數據的查詢優化,這種方式對網頁等外在因素依賴較少。目前BYU、quixote采取這種方式處理。
(4)基于html網頁結構的反向最近鄰數據查詢優化
基于html網頁結構的反向最近鄰數據查詢優化是根據網頁的結構來進行反向最近鄰數據的鎖定,先把相關文檔解析成為語法樹,之后進行反向最近鄰數據的查詢優化,隨之在自動或半自動化方式的基礎上產生相對應的語法規則,從而通過實現對語法樹的操作來完成反向最近鄰數據查詢優化。目前來看lixto、xwrap、roadrunner、w4f采用這種方式實現查詢優化。
(5)基于web查詢的反向最近鄰數據查詢優化
基于web查詢的反向最近鄰數據查詢優化的主要特點是將轉變web反向最近鄰數據查詢優化使之成為能使用標準查詢語言的查詢優化來實現對相關文檔的查詢。此種類型的查詢方式具有通用性。目前web-oql系統和pqagen系統采用這種方式實現查詢優化。以上五種反向最近鄰數據查詢優化方式各有優缺點,對不同的網頁有著不同的查詢優化效率。因此需要根據實際情況來進行選擇。
空間數據庫設計中斷句在文本中出現次數較多,很少有完整的句子出現。基于文檔的這兩個顯著特點,那些采用傳統方式的自然語言處理技術已經不適用了。但是,經過分析,網頁還是有一定的規律可循的。例如:web頁面可分為標題、正文、超文本、網頁間的鏈接四個部分。
1.標題
在網頁中〈Title〉〈/Title〉之間的文字部分。值得注意的是,標題中的內容往往是概括性質的內容。
2.正文
很多情況下,我們都用自然語言的方式來書寫網站的正文。統計關鍵詞一般也是對其在正文中出現的次數來進行統計分析的。
3.超文本性質標簽
在標簽中反向最近鄰數據的作用主要體現在:在文中同一位置的關鍵重要性不同,標簽表示的性質也不同。當在網頁中出現我們所需的重要詞時,我們可以利用標簽對其出現的次數進行簡單加權統計,從而能夠有效利用標簽里的重要反向最近鄰數據。
4.網頁之間的鏈接
是否存在鏈接,這是網頁和普通文檔的一個重要區別。在網頁中,鏈接是呈網狀結構的,它們之間有相關性。研究人員曾在web文本特征、相關查詢優化知識、相關算法等方面做了大量的工作。
[1]覃開賢,胡寶清,謝黎黎,田濤.區域土地利用與優化調控決策支持系統[J].安徽農業科學,2011(29):12-13.
[2]謝黎黎,胡寶清,田毅清.縣域РRЕD信息系統數據庫設計及實現[J].地理空間信息,2010(04):18-19.
[3]林巧鶯.基于GIS的校園房產信息管理系統的構建[J].高師理科學刊,2011(06):21-22.
[4]耿澤飛,胡飛虎,陳慧敏.基于GIS的災害應急管理系統的數據集成研究[J].計算機應用與軟件,2012(01):27-28.
[5]陳慧敏,胡飛虎,耿澤飛,張智.基于GIS的災害應急管理系統業務數據和空間數據的集成[J].自然災害學報,2011(01):31-32.
The optimization of spatial database reverse nearest neighbor data model
Shang Xiao-li1,2, Song Guang-jun2, Bao Xiang-hui1
(1.Suihua University, Suihua Heilongjiang, 152061, China; 2.Qiqihar University, Qigihar Heilongjiang, 161006, China)
The reverse nearest neighbor query optimization in a nutshell is required to remove the fact reverse nearest neighbor data from a specific text. Its application can be expressed in many aspects. For example, in the news reports from the company's website query optimization, query optimization product pictures from comic website etc.. The reverse nearest neighbor optimization of data information, improve information extraction and query capabilities.
spatial database; reverse nearest neighbor; data model
G250.74
A
1000-9795(2014)03-0303-02
[責任編輯:劉麗杰]
2014-01-15
尚曉麗(1980-),女,黑龍江齊齊哈爾人,講師,從事計算機應用技術和特殊教育研究。
宋廣軍,黑龍江齊齊哈爾人,教授,從事空間數據庫方向的研究。
包向輝,黑龍江訥河人,講師,從事計算機應用技術方向的研究。