999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Deep Web數(shù)據(jù)集成的個性化信息服務(wù)研究

2010-12-31 00:00:00張云坤
現(xiàn)代情報 2010年10期

〔摘 要〕互聯(lián)網(wǎng)和信息數(shù)字化的高度發(fā)展為信息查詢帶來了新的挑戰(zhàn),如何改善查詢模式使用戶從海量的數(shù)據(jù)中快速找到真正需要的信息成為了當(dāng)前業(yè)界亟待解決的課題。本文描述了一種個性化信息服務(wù)模型,使用Deep Web數(shù)據(jù)集成技術(shù)設(shè)計了一個圖書館數(shù)字資源個性化信息服務(wù)系統(tǒng),實現(xiàn)了以用戶為中心的圖書館信息服務(wù)。

〔關(guān)鍵詞〕Deep Web;個性化服務(wù);數(shù)據(jù)集成

DOI:10.3969/j.issn.1008-0821.2010.10.020

〔中圖分類號〕G252 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821(2010)10-0074-03

Application of the Deep Web Integration in the Personalized Information ServiceZhang Yunkun

(Library,Soochow University,Suzhou 215006,China)

〔Abstract〕The highly developed Internet and digital information has brought information retrieval a new challenge and how to improve search model so that users can quickly retrieve the exact information they need from mass of data,has become the urgent and major issue in the information retrieval domain.The article described a customized information service model by utilizing Deep Web data Integration technology and implemented a customized information service system for digital library resource and thus achieved user centric library information services.

〔Keywords〕Deep Web;personalized service;data integration

目前,國內(nèi)高校圖書館的個性化信息服務(wù)主要是從圖書館自身的角度進行資源組織和信息服務(wù),針對用戶提出的申請,到有關(guān)的數(shù)據(jù)庫里單個的進行檢索,然后人工合并重復(fù)信息后發(fā)送給用戶。作為信息傳播門戶的圖書館,不應(yīng)該再繼續(xù)傳統(tǒng)的被動式服務(wù),應(yīng)轉(zhuǎn)變?yōu)椤耙杂脩魹橹行摹保皶r主動地提供個性化信息服務(wù)[2]。主動推送的信息必須符合用戶需求并且基本涵蓋所有的網(wǎng)絡(luò)資源和數(shù)據(jù)庫資源,Deep Web數(shù)據(jù)集成技術(shù)可以滿足這個需求,從看似雜亂無序的浩瀚信息中提取其內(nèi)在聯(lián)系,高效率抓取出高質(zhì)量的信息提供給用戶。

1 個性化信息服務(wù)模型

Deep Web的概念最初由Dr.Jil E lsworth在1994年提出,指的是常規(guī)搜索引擎不能索引到的網(wǎng)絡(luò)資源[3]。常規(guī)搜索引擎可以索引的網(wǎng)絡(luò)資源,或者通過靜態(tài)URL可以直接訪問到的頁面稱之為Surface Web,而嵌入數(shù)據(jù)庫信息的網(wǎng)頁不具有靜態(tài)URL,因此普通搜索引擎無法直接索引到這部分頁面信息,使得這部分信息對于用戶來說是隱藏的,稱之為Deep Web,比如高校訂購的數(shù)據(jù)庫資源以及眾多的網(wǎng)絡(luò)中可以查詢的在線數(shù)據(jù)庫資源都屬于Deep Web的范疇。在內(nèi)容上,Deep Web站點比Surface Web站點更專業(yè);Deep Web內(nèi)容的全部價值是Surface Web的1 000~2 000倍[4]

Deep Web數(shù)據(jù)源具有很強的領(lǐng)域特性,在Deep Web數(shù)據(jù)源中進行查詢得到的結(jié)果更加專業(yè)和準(zhǔn)確,但是Deep Web數(shù)據(jù)具有異構(gòu)性和動態(tài)性,為了獲得Deep Web中大量有價值的隱藏信息,在同一領(lǐng)域內(nèi)比較某一事物的大量相關(guān)信息,需要把眾多的Deep Web數(shù)據(jù)源進行整合集成。

在高校的范圍內(nèi),可以充分發(fā)揮Deep Web數(shù)據(jù)源的優(yōu)勢,從廣泛的云數(shù)據(jù)里采集相關(guān)領(lǐng)域的Web數(shù)據(jù)源,并根據(jù)用戶的個性化需求提煉信息展示給用戶,個性化信息服務(wù)模型如圖1所示。

圖1 個性化信息服務(wù)模型

基于此模型,針對高校學(xué)科發(fā)展,系統(tǒng)可以智能搜集某一領(lǐng)域的學(xué)科發(fā)展動態(tài)、前沿研究、研究熱點等信息,圍繞這些信息做相關(guān)的技術(shù)分析報告發(fā)送給學(xué)科帶頭人,積極參與到學(xué)校的學(xué)科建設(shè)中,為學(xué)校重點學(xué)科建設(shè)做好信息服務(wù)工作。促進學(xué)校在一個更高起點上建設(shè)新的優(yōu)勢學(xué)科,不斷擴大優(yōu)勢學(xué)科群和優(yōu)勢學(xué)科覆蓋面,大幅提高學(xué)校的核心競爭力;針對企業(yè)服務(wù),系統(tǒng)可以智能搜集企業(yè)發(fā)展需要的信息,合資企業(yè)需要市場信息和決策信息,國營企業(yè)需要的科技信息,小型企業(yè)需要的商業(yè)信息以及行業(yè)的其他信息。充分發(fā)揮Deep Web專注于某一領(lǐng)域的優(yōu)勢,進行校企合作,提高學(xué)校在社會中的影響力和輻射能力;針對閱讀節(jié),系統(tǒng)可以通過分析用戶的個性化需求,智能搜集相關(guān)的圖書資料并提供給采購人員圖書清單,集中大多數(shù)人的共同需求點來選擇展示圖書,給師生提供一個愛上閱讀的平臺;針對敘詞表,系統(tǒng)可以智能搜集相關(guān)網(wǎng)頁,設(shè)定不同的權(quán)值,比如敘詞出現(xiàn)在標(biāo)題中權(quán)值最高設(shè)為1,敘詞出現(xiàn)在關(guān)鍵詞中,權(quán)值設(shè)為2,敘詞出現(xiàn)在摘要中,權(quán)值設(shè)為3,依次類推,通過不同權(quán)值的設(shè)置加上詞頻的限制,可以更完善的整理敘詞表并進一步提高檢準(zhǔn)率。

2 個性化信息服務(wù)系統(tǒng)

本文設(shè)計了一個基于Deep Web數(shù)據(jù)集成的個性化信息服務(wù)系統(tǒng),該系統(tǒng)首先根據(jù)高校圖書館數(shù)字化資源的特點,利用現(xiàn)有Deep Web數(shù)據(jù)集成技術(shù)集成相關(guān)數(shù)字資源,然后在集成系統(tǒng)的基礎(chǔ)上通過統(tǒng)一的查詢接口為用戶提供個性化服務(wù)。系統(tǒng)主要包含以下三模塊:數(shù)據(jù)源獲取模塊、數(shù)據(jù)源集成模塊和用戶個性化信息模塊。

2.1 數(shù)據(jù)源獲取模塊

數(shù)據(jù)源發(fā)現(xiàn)主要是指在Web中發(fā)現(xiàn)可以訪問的某一領(lǐng)域的Web數(shù)據(jù)庫,通過對爬蟲的設(shè)計,利用目錄搜索引擎提供的分類目錄作為查詢的起點,通過查詢擴展來改進查詢關(guān)鍵詞,從而盡可能多的發(fā)現(xiàn)那些含有Web數(shù)據(jù)庫的站點。找到Web數(shù)據(jù)庫所在的網(wǎng)站,并從網(wǎng)站中發(fā)現(xiàn)能夠?qū)?shù)據(jù)庫進行查詢的接口,再加上圖書館已有資源的優(yōu)勢,如此數(shù)據(jù)源包括由圖書館購買的數(shù)據(jù)庫和館外眾多的屬于同一個領(lǐng)域的Web數(shù)據(jù)庫和OA資源組成,豐富的數(shù)據(jù)源可以看作一塊“數(shù)據(jù)云”充分滿足用戶的需求。發(fā)現(xiàn)某一領(lǐng)域的Web數(shù)據(jù)庫是使用搜索引擎進行搜索,雖然它不能直接獲取Web數(shù)據(jù)庫內(nèi)容,但可以找到Web數(shù)據(jù)庫所在網(wǎng)站,比遍歷Web中所有的IP要有效的多。

針對圖書館個性化服務(wù)系統(tǒng)主要是為學(xué)校廣大師生服務(wù),因此集成的資源可從兩個方面獲取:圖書館現(xiàn)有數(shù)字化資源和網(wǎng)絡(luò)上的開放資源。以師生最常見的論文查詢?yōu)槔齺砻枋鲑Y源的獲取。圖書館現(xiàn)有數(shù)字化資源:綜合資源選用中國期刊網(wǎng)、重慶維普、萬方資源、Elsevier Science Direct、Ebsco、Wiley和Springer,根據(jù)個性需求專業(yè)的不同再選擇專業(yè)數(shù)據(jù)庫,比如醫(yī)學(xué)就可以在綜合資源的基礎(chǔ)上加上Ovid、Medline和Biosis;使用數(shù)據(jù)源發(fā)現(xiàn)方法,發(fā)現(xiàn)開放的數(shù)據(jù)源,比如Open Science Directory、Social Science Research Network、Open J-Gate、Bentham Open等都是爬蟲爬取到的開放的優(yōu)秀期刊論文。

2.2 數(shù)據(jù)源集成模塊

數(shù)據(jù)源集成模塊主要功能是把抓取到的各種數(shù)據(jù)源進行集成,形成統(tǒng)一的查詢接口,包括查詢接口模式抽取、查詢接口集成和構(gòu)建統(tǒng)一的查詢接口。

把采集到的所有數(shù)據(jù)源根據(jù)站點的接口特征進行分類,整合相同領(lǐng)域內(nèi)的所有Deep Web站點的查詢接口,對這些接口所包含的屬性分析和抽取,獲取查詢接口的模式信息,比如要查找圖書,接口的模式信息就包含了書名、作者、價格等。然后把屬于某一領(lǐng)域的接口集成形成一個統(tǒng)一的集成查詢接口,得到一個全局的查詢接口。用戶在統(tǒng)一查詢接口上填寫需求并提交查詢后,系統(tǒng)會把查詢的關(guān)鍵詞轉(zhuǎn)換為在具體的Deep Web數(shù)據(jù)源查詢接口上查詢的關(guān)鍵詞,再將自動轉(zhuǎn)換后的查詢進行提交。在對查詢接口的判定問題上,采用樸素貝葉斯分類算法對HTML網(wǎng)頁表單進行自動分類[5]。Deep Web數(shù)據(jù)源集成框架圖如圖2所示。圖2 Deep Web數(shù)據(jù)源集成框架圖3 未使用數(shù)據(jù)集成信息服務(wù)系統(tǒng)的檢索框架

與圖3未使用數(shù)據(jù)集成信息服務(wù)系統(tǒng)的檢索框架相比,個性化信息服務(wù)系統(tǒng)可以把用戶輸入的檢索詞近似等價的轉(zhuǎn)化成在數(shù)據(jù)源的查詢接口上查詢的檢索詞,經(jīng)過一系列的查詢轉(zhuǎn)化、查詢提交,最后把經(jīng)過合并、去重、按照用戶興趣排序后的結(jié)果展現(xiàn)給用戶,結(jié)果的查全率和查準(zhǔn)率都很高,最重要的這些信息完全不需要任何人工干預(yù)且已經(jīng)查重,比傳統(tǒng)個性化信息服務(wù)的效率要高很多。

2.3 用戶個性化信息模塊

用戶個性化信息模塊主要包括收集信息模塊、興趣建模模塊和信息推薦模塊,收集信息模塊收集用戶的基本信息,用戶訪問歷史信息:比如借閱書刊的歷史、已做原文傳遞的內(nèi)容、以往提出的個性化信息服務(wù)等了解用戶的興趣,用戶的科研信息:發(fā)表的文章、研究的項目、申請的專利等了解用戶的研究領(lǐng)域;通過收集到的各種信息對用戶興趣建模,生成用戶興趣模型;把用戶興趣模型和整合結(jié)果中的每個條目進行匹配,按匹配分值從高到低把若干條結(jié)果數(shù)據(jù)庫中信息呈現(xiàn)給用戶[6]

基于Deep Web數(shù)據(jù)集成的個性化信息服務(wù)具體體現(xiàn)在以下兩個部分:

2.3.1 基于用戶個性化模型的查詢數(shù)據(jù)源選擇

集成系統(tǒng)對于某一個領(lǐng)域可能集成幾十個,甚至上百個數(shù)據(jù)源,如果對于一個查詢就訪問所有的數(shù)據(jù)源,將是對網(wǎng)絡(luò)資源和Web數(shù)據(jù)源的巨大消耗,因此,對于一個查詢需要選擇最合適的Web數(shù)據(jù)源去查詢。對于一個特定用戶給定的查詢,系統(tǒng)根據(jù)用戶以往的查詢歷史記錄和用戶的興趣模型,選擇合適的數(shù)據(jù)源集成后再進行查詢。

2.3.2 基于用戶個性化模型的查詢結(jié)果展示

大量Web數(shù)據(jù)源使用戶有了更多的選擇,也有了更大的可能性來獲得想要的信息。但是,隨之而來的問題就是:對于用戶的一個查詢,把各個Web數(shù)據(jù)源的返回結(jié)果匯總在一起時通常會有大量的記錄,而實際上用戶真正需要的記錄很可能只是少數(shù)幾個,用戶還是需要大海撈針?biāo)频脑诖罅糠祷亟Y(jié)果中去尋找想要的那幾個記錄。如何尋求有效的方式來幫助用戶在大量的查詢結(jié)果中快速地找到真正需要的記錄是問題的核心,本系統(tǒng)提出通過使用用戶的興趣模型來解決這個問題。首先從大量返回的記錄中篩選出用戶可能感興趣的結(jié)果集;然后對結(jié)果集進行排序,按照用戶對結(jié)果記錄感興趣的程度,把用戶最可能感興趣的記錄放在最前面展現(xiàn),使得用戶以最短的時間找到最需要的信息。

基于Deep Web數(shù)據(jù)集成的個性化信息服務(wù)系統(tǒng)不僅能夠?qū)崿F(xiàn)用戶自行檢索需要的信息,同時也能夠?qū)崿F(xiàn)咨詢館員通過分析用戶個性化信息來了解用戶的需求,進而把用戶希望得到的信息推送給用戶,而且能夠?qū)崿F(xiàn)用戶之間組建興趣組,共享查詢到的資源或者進行在線的交流。個性化信息服務(wù)系統(tǒng)框架如圖4所示。圖4 個性化信息服務(wù)系統(tǒng)框架圖

3 結(jié) 語

將具有領(lǐng)域性的Deep Web數(shù)據(jù)和數(shù)據(jù)集成技術(shù)應(yīng)用到用戶個性化信息服務(wù)系統(tǒng)具有重要意義和實際應(yīng)用價值。基于Deep Web數(shù)據(jù)集成的個性化信息服務(wù)系統(tǒng)在用戶進行個性化信息推薦時具有個性化、智能化、查全率高、查準(zhǔn)率高、數(shù)據(jù)去重效果好、安全等優(yōu)點。但隨著Deep Web數(shù)據(jù)的高速增長,如何對待Web集成數(shù)據(jù)增量維護問題,研究云存儲模式下海量Deep Web數(shù)據(jù)的深度挖掘和知識發(fā)現(xiàn),建立適合于云存儲特征的深度挖掘算法,提高運行速度和執(zhí)行效率是今后值得更深入探討和研究的問題。參考文獻

[1]錢強,李英.數(shù)據(jù)挖掘技術(shù)在圖書館讀者分析中的應(yīng)用J].圖書情報工作,2009,(12):121-124.

[2]樓晶.圖書館個性化信息推送系統(tǒng)[J].圖書館學(xué)研究,2008,(4):49-53.

[3]董,方曙.Deep Web信息抽取研究[J].圖書情報工作,2007,(10).

[4]Bin He,Mitesh Patel,Zhen Zhang,Kevin Chen-Chuan Chang.Accessing the Deep Web:A Survey.2004.

[5]高嶺,趙朋朋,崔志明.Deep Web查詢接口的自動判定[J].計算機技術(shù)與發(fā)展,2007,(5):148-151.

[6]邵秀麗,乜聚科,田振雷,等.用戶個性化推薦系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機工程與設(shè)計,2009,(20):4681-4683.

主站蜘蛛池模板: 中文字幕佐山爱一区二区免费| 日本黄网在线观看| 四虎成人精品| 国产一区二区三区在线精品专区| 玖玖免费视频在线观看 | 久久人人爽人人爽人人片aV东京热 | 免费看久久精品99| 国产一区二区三区视频| 久久免费视频播放| 亚洲成年人网| 精品久久高清| 国产毛片不卡| 国产成人无码久久久久毛片| 一区二区影院| 精品久久久久久久久久久| 国产亚洲精品无码专| 人妻丰满熟妇αv无码| 亚洲福利一区二区三区| 性色一区| 国产极品粉嫩小泬免费看| 国产精品欧美激情| 国产成人精品午夜视频'| 国产欧美日韩综合一区在线播放| 欧洲成人免费视频| 国产一级做美女做受视频| 亚洲午夜久久久精品电影院| 免费jjzz在在线播放国产| 亚洲最大情网站在线观看| 亚洲av综合网| 国产精品夜夜嗨视频免费视频| 国产乱子伦视频三区| 欧美午夜网站| 一级成人欧美一区在线观看| 中文字幕乱码中文乱码51精品| 97se亚洲综合在线韩国专区福利| 91精品最新国内在线播放| 尤物成AV人片在线观看| 91无码视频在线观看| 欧美黄网在线| 免费看a毛片| 欧美在线黄| 色亚洲激情综合精品无码视频| 国产精品午夜福利麻豆| 日本不卡免费高清视频| 色婷婷丁香| 中文字幕人成人乱码亚洲电影| 国产丝袜精品| 久久永久精品免费视频| 国产91精品调教在线播放| 亚洲综合精品第一页| 全午夜免费一级毛片| 日本不卡在线| 国产欧美日韩在线一区| 国产呦精品一区二区三区网站| 午夜影院a级片| 国产成人精品男人的天堂| 一边摸一边做爽的视频17国产| 欧美精品在线看| 国产欧美日韩va另类在线播放| 国内精自线i品一区202| 少妇精品网站| 精品免费在线视频| 在线高清亚洲精品二区| 久久精品国产在热久久2019| 国产成人无码AV在线播放动漫| 欧洲成人免费视频| jizz在线免费播放| 国产精品视频猛进猛出| 国产另类视频| 中文字幕欧美日韩高清| 国产丰满成熟女性性满足视频| 99re免费视频| 国产三级毛片| 成人欧美日韩| 日韩精品资源| 无遮挡一级毛片呦女视频| 国产无码高清视频不卡| 亚洲无码电影| 九九热视频精品在线| 波多野结衣久久精品| 亚洲无码37.| 精品偷拍一区二区|