999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XML的Web搜索技術研究

2011-08-15 00:48:59
科學之友 2011年20期
關鍵詞:搜索引擎數據庫用戶

房 屹

(山東絲綢紡織職業學院,山東 淄博 255300)

隨著Internet資源的迅速增長,網絡資源愈發豐富,傳統的基于HTML的搜索技術的準確率水平亟待提高。XML標記語言可以明確的標記多樣化的網絡信息,通過內容與標記之間的關系準確定位,查找目標。突破了傳統意義的全文檢索方式,減小了搜索范圍,提高搜索的精度與準確度。

1 XML搜索技術

可擴展標記語言(Extensible Markup Language, XML)是互聯網聯合組織(W3C)創建的一組規范,為了便于網頁信息的組織而設計的。XML是一種元標記語言,它以一種開放的自我描述方式定義數據結構,在描述數據內容的同時能突出對結構的描述,從而體現出數據之間的關系,這樣所組織的數據對于應用程序和人類都是友好的、可操作的。所以,XML是一種優秀的數據打包和數據交換的形式。為分析和轉換 XML文檔,XML還提供了DOM、SAX等技術于實現對XML文檔的解析,并提供Xpath、Xquery等查詢語言實現對XML文檔的有效查詢,形成XML搜索技術。

在基于XML的搜索引擎的設計中,對特定結構的XML文檔存儲網站Web信息,將有關Web頁面的內容或超級鏈接文本以及它們對應的URL分層保存在XML文檔中,并通過對XML文檔的解析實現信息的錄入、更新、修改,最后設計利用XML查詢技術的檢索器,通過對存儲查詢信息的 XML文檔進行檢索,按用戶查詢字找到對應的Web頁面的URL,在用戶瀏覽器端返回其所指的Web頁,從而實現基于XML的Web信息搜索。

2 基于XML的Web搜索引擎的設計

2.1 Web信息的集成

建立Web信息集成平臺的目的就是為用戶提供涉及多個Web信息源的統一查詢機制。現在一般有兩種方法:虛擬(virtual)方法和數據倉庫(warehousing)方法。虛擬方法是基于一個“中間模式”,但數據仍保存在各個參加集成的數據源中,通過各數據源的“包裝程序”(wrappers)將數據虛擬成中間模式,用戶的查詢是基于中間模式,即建立一個虛擬數據庫。數據倉庫法是建立一個數據倉庫,并將參加集成的各個不同的信息源裝入數據倉庫,用戶的查詢是基于數據倉庫的數據。基于 XML和ASP語言的中間層方法能夠從多個不同結構的數據源中集成數據,并以XML文檔的形式把這些數據交付給查詢用戶。

2.2 用戶興趣模型的建立和更新

用戶興趣建模為用戶提供個性化信息服務,是信息推薦系統的核心,它代表每個用戶的不同信息需求。目前普遍采用的建立用戶興趣模型的顯示獲取和隱式獲取方式都存在一定的缺陷:以關鍵字的方式提供用戶興趣的用戶經常不能準確地表達自己的興趣;從目標樣本文檔提取用戶興趣的不能全面發現用戶的興趣;用戶主動方式建立興趣的不能自動更新用戶的興趣。因此本文采用顯示和隱式相結合的方式建立用戶興趣模型。先通過用戶注冊時填寫用戶興趣的信息建立起粗略的用戶興趣模型(此部分是可選擇的,如果用戶認為耽誤時間或怕麻煩等也可以不填),然后系統根據用戶的瀏覽內容和瀏覽行為自動構建準確的用戶興趣模型,并通過對搜索結果的反饋信息更新用戶興趣。這樣可在用戶沒有明確參與的情況下,建立并更新用戶興趣。

2.3 XML數據的查詢處理方法

目前關于XML數據的查詢處理都是針對專門的XML存儲系統,對于底層采用數據庫管理系統的情況,則是通過將XML查詢語言書寫的查詢轉換為關系#K&語言或OK&語言查詢,利用傳統數據庫系統的查詢處理功能來完成用戶的查詢請求。

該方法與傳統數據庫中的查詢處理類似,大致有以下幾個步驟:一是對查詢進行語法分析,并將其轉換為傳統的SQL的形式;二是邏輯查詢計劃性生成器產生一個邏輯查詢計劃;三是這個邏輯查詢計劃可以產生很多的物理查詢執行計劃,而物理計劃由一些物理操作符構成,這些操作符可由查詢執行引擎執行。查詢優化器通過存儲的統計信息和開銷模型,從眾多的物理查詢執行計劃中選出一個最優的;四是提交給查詢計劃執行引擎完成查詢,并返回查詢結果。

3 基于XML搜索的優點

與基于HTML的搜索引擎相比,基于XML的站內搜索引擎適應了計算機技術的發展需要,它的優點是:①由于 XML文檔對內容和結構的良好支持,使搜索引擎脫離了對數據庫的依賴,并較好的支持了非結構信息的處理。②與數據庫文件相比,XML文件存儲容量較小,減小了對存儲空間的占用,并有利于提高查詢速度。③借助于支持XML的API,減輕了數據錄入和管理的人工操作,并易于實現搜索信息的動態更新;實現了Web搜索引擎;實現了對Web站點的全部文本、圖片、音頻三類數據的索引,并且采用了 XML作為數據存儲容器,它能在大量信息的環境下大大節省空間和提高索引的速度。此外,由于 XML文檔結構的可擴展性,通過增加新元素和對檢索器應用程序進行微小調整,既可容易地進一步擴展搜索引擎查詢方式,如按Web頁面建立時間查詢等。并且,在動態擴展方面,基于XML的搜索引擎也具有獨特優勢。

4 結束語

本文對現有的XML搜索技術進行了分析,對Web信息的集成、用戶興趣模型的建立和更新、XML數據的查詢處理方法,給出了索引的數據結構以及查詢的優化算法,使網絡信息查詢更加靈活簡便。

1 陳金森.XML搜索引擎中索引技術的研究[D].燕山大學,2006

猜你喜歡
搜索引擎數據庫用戶
數據庫
財經(2017年2期)2017-03-10 14:35:35
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
數據庫
財經(2016年15期)2016-06-03 07:38:02
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
基于Nutch的醫療搜索引擎的研究與開發
主站蜘蛛池模板: 国产95在线 | 在线精品视频成人网| 99视频国产精品| 国产精品人莉莉成在线播放| 国产精品va免费视频| 性视频久久| 日韩高清欧美| 成人精品免费视频| 亚洲日韩精品伊甸| 99精品视频在线观看免费播放| 国产91透明丝袜美腿在线| 日本精品视频一区二区| 亚洲美女一级毛片| 久久综合结合久久狠狠狠97色 | 四虎成人精品在永久免费| 色亚洲成人| 国产精品手机在线观看你懂的| 91精品专区国产盗摄| 精品国产三级在线观看| 欧美视频在线第一页| 国产亚洲一区二区三区在线| 91精品最新国内在线播放| 亚洲人在线| 国产精品无码AV片在线观看播放| 国产精品自拍合集| 亚洲视屏在线观看| 亚洲区欧美区| 国产91蝌蚪窝| 2022国产无码在线| 成年免费在线观看| 亚洲av无码专区久久蜜芽| 久久性视频| 亚洲二三区| a在线观看免费| 色香蕉影院| 美女一区二区在线观看| 国产尤物jk自慰制服喷水| 亚洲欧洲日产国码无码av喷潮| JIZZ亚洲国产| 天天视频在线91频| 国产剧情无码视频在线观看| 亚洲高清在线播放| 亚洲v日韩v欧美在线观看| 日本欧美一二三区色视频| 成人另类稀缺在线观看| 欧美日韩一区二区在线播放| 伊人色在线视频| 婷婷综合在线观看丁香| 免费一级毛片在线播放傲雪网| 午夜电影在线观看国产1区| 亚洲黄网视频| 日本高清免费一本在线观看 | 尤物亚洲最大AV无码网站| 操国产美女| 久久香蕉国产线看观看式| 欧美亚洲欧美区| 国产在线视频导航| 欧美日韩国产高清一区二区三区| 美女被操黄色视频网站| 欧美日韩激情在线| 久久精品国产999大香线焦| 色综合成人| 国产新AV天堂| 91无码人妻精品一区二区蜜桃| 亚洲天堂在线免费| 欧美精品aⅴ在线视频| vvvv98国产成人综合青青| 91小视频版在线观看www| 老司国产精品视频| 成年av福利永久免费观看| 波多野结衣在线一区二区| 国产欧美另类| 不卡无码h在线观看| 欧美成人怡春院在线激情| 亚洲日韩AV无码一区二区三区人| 香蕉99国内自产自拍视频| a天堂视频| 51国产偷自视频区视频手机观看| 国产呦精品一区二区三区下载| 欧美日韩一区二区三区在线视频| 国产丝袜91| av在线无码浏览|