隨著Web的迅猛發(fā)展,社會信息資源的類型以及信息產(chǎn)生和發(fā)布的方式都發(fā)生了巨大的變化,圖書館信息服務(wù)環(huán)境也隨之發(fā)生了根本性的變化,首先是信息資源空間的數(shù)字化,用戶信息行為正從文獻(xiàn)獲取轉(zhuǎn)為數(shù)字化網(wǎng)絡(luò)化地獲取信息,并逐步成為一種基本要求和行為習(xí)慣。那么,怎樣合理、有效地對各類數(shù)字信息進(jìn)行組織、檢索、訪問和利用;怎樣有效利用互聯(lián)網(wǎng)的優(yōu)勢向用戶提供海量數(shù)字信息服務(wù);這正是本文研究的重點(diǎn)。
一、數(shù)字圖書館信息服務(wù)技術(shù)的功能
1.可以優(yōu)化服務(wù)資源。數(shù)字圖書館的文獻(xiàn)資源將以電子化的館藏為主,各種文獻(xiàn)信息資源都轉(zhuǎn)化成數(shù)字形式,存貯于一定的載體上。圖書館在資源共享的前提下,應(yīng)優(yōu)化開發(fā)電子信息資源。首先要使館藏資源數(shù)字化。其次要大力開發(fā)網(wǎng)絡(luò)資源,通過互聯(lián)網(wǎng)把境外資源引進(jìn)自己內(nèi)部服務(wù)器,以節(jié)省用戶上網(wǎng)費(fèi),通過網(wǎng)絡(luò)機(jī)器人實(shí)現(xiàn)專題信息的自動抓取,以滿足部分用戶的特定需求。
2.可以轉(zhuǎn)變信息服務(wù)模式。在數(shù)字圖書館環(huán)境下,用戶查閱信息的模式將徹底改變,用戶和信息服務(wù)人員將通過網(wǎng)絡(luò)傳遞請求和信息,并以用戶為中心,根據(jù)用戶的需求,信息服務(wù)人員適時、主動地向用戶提供知識化的信息咨詢服務(wù)。要實(shí)現(xiàn)此模式(user-centered),首先要加強(qiáng)用戶需求的調(diào)研和預(yù)測,以增強(qiáng)信息服務(wù)的針對性和時效性:其次要注重用戶認(rèn)知能力的培養(yǎng),使用戶樹立信息意識激發(fā)信息需求。所謂用戶信息認(rèn)知能力是指用戶對媒體的認(rèn)知能力、計(jì)算機(jī)操作應(yīng)用能力、網(wǎng)絡(luò)認(rèn)知能力以及傳統(tǒng)的圖書館利用能力等。
3.可以改革信息工作體系。傳統(tǒng)的信息工作是一種線性模式,文獻(xiàn)信息經(jīng)過采集、整理加工、流通傳遞、檢索咨詢等環(huán)節(jié)才能到達(dá)用戶手中,而這些環(huán)節(jié)是彼此分離的,由不同的人員來完成,結(jié)果使工作始終停留在文獻(xiàn)信息的表層,對信息內(nèi)容難以有效揭示,從而限制了信息服務(wù)的水平。在數(shù)字圖書館環(huán)境下,信息的取得和加工都變得極為方便和迅速,既能使傳統(tǒng)信息服務(wù)環(huán)節(jié)由一個人完成,更能使信息服務(wù)人員以信息內(nèi)容為中心,并且可以對內(nèi)容單元進(jìn)行重組和研究,從而將信息服務(wù)的水平大幅度提高。信息機(jī)構(gòu)將按知識體系來形成工作體系,每人以固定的知識類別為工作對象,采集加工、研究信息內(nèi)容、提供信息咨詢服務(wù),總體上由綜合協(xié)調(diào)人員來把握全局。這樣可以進(jìn)一步深化服務(wù)內(nèi)容。
二、數(shù)字圖書館信息服務(wù)的關(guān)鍵技術(shù)
數(shù)字圖書館信息服務(wù)的信息推送和信息推送的所需元數(shù)據(jù)的主動抓取,主要應(yīng)用技術(shù)包括:OAI協(xié)議、移動Agent技術(shù)、信息過濾技術(shù)和XML語言。本文重點(diǎn)介紹信息過濾技術(shù)。
1.信息過濾技術(shù)的分類
(1)基于內(nèi)容的過濾。基于內(nèi)容的過濾源于信息檢索,采用了與信息檢索相似的技術(shù)。信息對象(如文本文檔)的過濾是建立在其內(nèi)容與用戶興趣模型文件相比較的基礎(chǔ)上的。基于內(nèi)容過濾的系統(tǒng)的優(yōu)點(diǎn)是簡單、有效;缺點(diǎn)是:首先,基于內(nèi)容的技術(shù)在碰到相同主題的文檔時,很難區(qū)分質(zhì)量的高低;第二個問題是不能為用戶發(fā)現(xiàn)新的感興趣的信息。由于系統(tǒng)只能將與用戶興趣文件相比較得分高的文檔推薦給用戶,用戶將局限于看到那些與已評估過的文檔相似的文檔。
(2)協(xié)作過濾。協(xié)作過濾的出發(fā)點(diǎn)在于任何人的興趣不是孤立的,而是處于某個群體中的。系統(tǒng)根據(jù)相同或相近興趣的用戶對相應(yīng)信息做出的評價,向其他用戶進(jìn)行推送,與基于內(nèi)容的過濾相比,協(xié)作過濾有下列優(yōu)點(diǎn):能夠過濾難以進(jìn)行機(jī)器自動內(nèi)容分析的信息,像藝術(shù)品、音樂、電影等;能夠基于一些復(fù)雜的,難以表述的概念(如質(zhì)量、品味)進(jìn)行過濾;具有推薦新信息的能力。但是,協(xié)作過濾也存在一定的局限性:其一,要想獲得滿意的效果,需要建立在擁有大量的用戶評價信息的基礎(chǔ)上,這很難做到(幾乎都集中在音樂、電影等娛樂方面),使得協(xié)作過濾技術(shù)應(yīng)用領(lǐng)域較為狹窄,在更廣的領(lǐng)域(如在文本過濾相當(dāng)成功的文本相關(guān)性領(lǐng)域)的應(yīng)用還很不夠;其二,系統(tǒng)的可擴(kuò)展性較差,即隨著系統(tǒng)用戶和信息資源的增多,系統(tǒng)的性能會下降。
2.信息過濾的算法類型
信息過濾是個性化主動服務(wù)的重要環(huán)節(jié)。根據(jù)實(shí)現(xiàn)的原理不同,信息過濾分為基于內(nèi)容的過濾和協(xié)作過濾以及把兩者結(jié)合起來的混合過濾。我們根據(jù)數(shù)字圖書館信息服務(wù)的特點(diǎn),設(shè)計(jì)了一種基于移動Agent的信息過濾算法。
(1)移動Agent的信息過濾算法。信息過濾Agent根據(jù)用戶已有信息資源分析用戶喜好,建立用戶信息的興趣庫,并且可以根據(jù)用戶Agent收集的信息的不斷變換不斷修正興趣庫。
(2)移動Agent的信息過濾算法的實(shí)現(xiàn)。信息過濾Agent采用向量空間法進(jìn)行過濾的主要思想是按照信息中各個關(guān)鍵詞的出現(xiàn)頻率建立關(guān)鍵詞向量,根據(jù)各關(guān)鍵詞向量在向量空間中的夾角確定信息之間的相似度。系統(tǒng)將與用戶原有信息相似度最大的信息推薦給用戶。
3.關(guān)鍵詞向量的計(jì)算方法
(1)信息預(yù)處理。原始信息中含有大量無意義的詞匯,如冠詞、連詞等,必須首先通過一個stop word表把它們?nèi)サ簟τ谝杂⑽臑榇淼奈鞣轿淖郑枰ㄟ^詞的修剪(stemming)將同一個詞的不同形式統(tǒng)一,例如動詞的不同時態(tài)變原型,名詞的復(fù)數(shù)變單數(shù)。對于中文,由于各個詞之間缺少分隔符,需要進(jìn)行切割詞語工作。
(2)關(guān)鍵詞向量映射。預(yù)先定義一個關(guān)鍵詞詞表,形成一個關(guān)鍵詞空間。
(3)關(guān)鍵詞向量合成。由于Agent中包含多條信息,為了提取這個Agent的整體特征,將Agent中所有信息映射后的關(guān)鍵詞向量進(jìn)行矢量合成,得到新的向量。
(4)關(guān)鍵詞向量降維。由于關(guān)鍵詞向量的維數(shù)較高,分類器采用閾值分界法提取向量的主要特征。
(5)得到代表Agent興趣的關(guān)鍵詞向量以后,采用其中出現(xiàn)頻率最高的關(guān)鍵詞,到信息數(shù)據(jù)庫中查找相關(guān)信息。
在信息過濾的過程中,從文檔中提取關(guān)鍵字是最為重要的一步。對于算法本身,不管采用多么好的模式匹配方法,系統(tǒng)只有接受高質(zhì)量的關(guān)鍵字,模式匹配算法才能發(fā)揮它的應(yīng)有效率。
當(dāng)信息過濾Agent打開一個XML文檔時,它讀取文檔的title,head,text等元標(biāo)識對之間的內(nèi)容。提取這些元標(biāo)識對之間的信息后,再在這些信息中提取關(guān)鍵字。同時,對于有keywords或關(guān)鍵字字樣的文檔,可直接提取它們后面的幾個短語關(guān)鍵字。對提出的所有詞按其在文檔中的每個位置打分,將各個位置的分?jǐn)?shù)累計(jì),按總分多少排序,總分最多的就認(rèn)為是關(guān)鍵字了。
三、結(jié)束語
數(shù)字圖書館最重要也是最基本的職能是信息服務(wù)功能。現(xiàn)代信息服務(wù)是以信息技術(shù)為核心和動力發(fā)展起來的,信息技術(shù)的超速度發(fā)展必然要帶動信息服務(wù)模式的轉(zhuǎn)變。從“以資源為中心”的信息服務(wù)模式向“以用戶為中心”的服務(wù)模式轉(zhuǎn)變是數(shù)字圖書館發(fā)展的必然趨勢。因此,在數(shù)字圖書館中構(gòu)建自適應(yīng)用戶需求的信息服務(wù)系統(tǒng)成為數(shù)字圖書館信息服務(wù)的一個主要研究方向,該系統(tǒng)應(yīng)能夠主動分析用戶需求、主動搜索、加工信息,并主動發(fā)布信息,變“人找信息”為“信息找人”以用戶為中心,滿足用戶對信息的渴求。
(作者單位:西昌學(xué)院圖書館)