靳輝
(哈爾濱金融學院圖書館哈爾濱150030)
基于RSS技術的圖書館一站式信息服務
靳輝
(哈爾濱金融學院圖書館哈爾濱150030)
為了完善一站式服務內容,提高圖書館信息服務水平,對RSS技術原理剖析后提出了基于RSS技術的一站式信息服務模型。該模型主要通過用戶興趣庫的構建、信息源獲取及RSS源文件的解析、多維權值排序算法來實現。最后給出了模型的誤差仿真實驗。此模型提高了圖書館信息服務的個性化程度,將知識、信息和用戶銜接起來,以全新的視角改善了網絡資源的使用率。
RSS 圖書館 一站式服務 信息服務
G202
A
現代信息技術的成熟加快了圖書館的數字化、個性化信息服務的進程。個性化信息服務就是根據用戶的信息需求供給不同的信息內容,并利用好的信息供給刺激用戶產生更高的信息需求并尋求滿足。[1]為用戶提供豐富、便利、主動、及時、有效的信息服務,充份加強對信息資源的分散性與用戶需求特定性的協調;對信息服務的方式與用戶的獲取信息的方便度、滿意度的協調;對信息供給的全面性、相似性與供給速度的協調已成為高校圖書館的觀注重點。本文以RSS技術為基礎建立雙向協調性、學習性、互動性完備的一站式服務模型,為不斷提高圖書館個性化、學科化、專業化服務水平提供技術平臺。
RSS技術是基于XML標準建立的內容包裝和投遞的協議,是各站點之間共享內容,實現個性化信息服務的信息聚合技術。服務提供者將信息以記錄的形式封裝成RSS文件,直接被其他站點調用或在其他的終端和服務中使用。還可根據用戶的定制項目,由RSS Reader(專用/在線閱讀器、Web瀏覽器)提取信息,以用戶感興趣、習慣的顯示方式向用戶提供一站式信息服務。RSS以其特有的高度聯合性、個性化動態聚合性讓用戶可以選擇性地過濾、訂閱出自己感興趣的消息,并且獲得的是全綠色無垃圾信息。用戶不必在各網站來回切換查找信息。RSS文件封裝及發布在技術實現上是極為簡單的一次性的工作,操作簡單、低成本、強時效性是其他方式所無法比擬的。
……
元素說明:
模型結構如圖1所示,該模型說明如下:

圖1 基于RSS的一站式信息服務模型
(1)用戶通過Web瀏覽器或RSS閱讀器獲得服務內容。并可以對感興趣的內容進行自助式定制。
(2)模型根據用戶輸入的相關內容對其興趣愛好進行分析建模,從而構建用戶興趣庫。
(3)模型提供網絡信息源有RSS源信息和非RSS源信息。RSS源信息來源于信息發布者(主要是搜索引擎提供商)將用戶的檢索信息歸類、主題聚合后根據RSS規范[3]生成RSS文件并發布;非RSS源是未進行RSS規范化的資源(如傳統的網頁信息,以HTML格式為主)和圖書館自建數據源,如根據自我特色而建立的數據庫,如特色專題知識庫、本校教師文獻庫等。[4]
(4)對于RSS源信息要進行RSS文件解析,實現信息特征表示,與用戶的興趣特征進行比較,按相似度進行排序后提供給用戶,實現在線瀏覽。對于非RSS源信息用戶可以直接訪問獲取,也可以由信息發布者規范化后形成RSS源文件發布后使用。
(5)模型對RSS文件進行分類管理。及時地將更新后的最新的信息個性化地推送給用戶。
(6)與新型圖書館OPAC[5]系統的結合,用戶不必再訪問多個網站就可完成所需內容的獲取。真正實現一站式信息檢索服務。
(7)提供自助式交流服務,如虛擬參考咨詢、定題服務、學科導航、特色專題知識庫導航。
使用數據使用挖掘(Data Usage Ming)技術構建興趣庫,從文檔和服務中自動發現和抽取信息,能夠幫助進行信息分析和信息處理,從而改進服務。[6]數據使用挖掘主要包括兩種方法:①利用COM技術,[7]與瀏覽器交互,用ATL(活動模板)實現與IE或Netscape等交互的DLL(動態鏈接庫)來收集用戶個性化數據。②通過對用戶訪問日志的挖掘以發現用戶訪問模式和預測用戶瀏覽行為的技術。
向量空間建模的基本思想是將文檔和個性化需求表示成為所有索引項組成的向量空間中的點,通過向量空間關系來定義和計算文檔與用戶興趣的相關度。設定一個文檔:

其中Tk(1≤k≤n)為文檔的基本組成單位(字、詞、詞組或句子等),稱為項。Wk(1≤k≤n)被賦予對應項的權重,表示其在文檔中的重要程度。常用的計算權重的方法:

公式(2)中,W(t,d)為項t在文檔d中的權重,tf(t,d)為項在文檔中出現的頻率,N為訓練樣本總數,nt為訓練樣本集中出現的文檔數,分母為歸一化因子。
對于非RSS源的獲取本文采用了基于鏈接密度和統計結合的網頁正文提取方法。該方法首先判斷4個參量:鏈接節本密度LTD(li.nk text density):某個節點下所有鏈接的文字的長度與所有文字長度的比值;鏈接個數LA(Link Amount):該節點下的所有的子節點中含有鏈接節點的個數;鏈接個數密度LAD(Link AmountDensity):該節點下所有的子節點中鏈接節點個數和所有節點個數的比值;節點文本長度NTL(Node Text Length):一個節點下去掉網頁標記后的所有文本的長度,根據4個參量的值判斷文本的位置,然后抽取。
信息按照用戶興趣度高低順序依次推送給用戶是個性化服務的目的。本文采用多維權值排序算法(MWRA)實現信息源排序。其數學化形式為:

Mw為多維檢索衡量權值;R為信息本身的客觀重要度權值,通過超鏈接的引用情況獲得;S為用戶輸入的檢索關鍵詞與網頁的匹配度;I為用戶自身的檢索習慣與信息的相似度值;T為信息更新的時間。這個T值由用戶自行指定。對用戶興趣庫的數據用R,S和I值得出Mw值進行綜合排序后,再利用T值對于相同的Mw值的頁而按時間先后進行排序,最終的網絡信息是按符合度遞減的順序反饋給用戶。
利用Matlab對查詢信息數據進行模擬分析,對比信息查詢和獲得信息相似度之間的誤差,若是誤差越小,說明信息服務質量越高、供給的信息越準確,即信息服務的個性化服務質量越高。設神經元個數為1000,采用sigmoid函數,a取0.2,誤差測試結果如圖2所示。通過實驗,隨著樣本量的增加,誤差趨于0。顯然得出本文提出的模型檢索信息誤差較小、準確率較高。

圖2 模型誤差分析
本文提出了基于RSS技術的一站式信息服務模型及相關技術算法,通過對知識和信息的過濾,使得隱性知識通過網絡實現顯性化,把網絡上的最新信息資源推送給用戶?;赗SS技術一站式信息服務模型提高了圖書館信息服務的個性化程度,將知識、信息和用戶銜接起來,完善了一站式信息服務內容,以全新的視角改善了網絡資源的使用率。
[1]胡昌平等.信息服務與用戶[M].武漢:武漢大學出版社,2008:200-280.
[2]張延偉,RSS技術及其在數字圖書館中的應用探討[J],圖書情報研究.2009,2(1).
[3]Winer D.RSS2.0 Specification(2.0版規范,)[EB/OL]http://blogs. law.harvard.edu/tech/rss,2005.05.20
[4]張立彬,楊軍花.基于RSS的搜索引擎技術及其發展趨向探析[J].情報科學.2009,27(2).
[5]胡潛,汪會玲.基于RSS的個性化推送服務[J].情報雜志.2008,10.
[6]HAN J.數據挖掘感念與技術2版[M].范明,譯.北京:機械工業出版社.2007:100-163
[7]Kelly D,Teevan J.Implicit feedback for inferring user preference:a bibliography[C].ACM SIGIR Forum 37(2)(2003):18-28.
靳輝,女,碩士研究生,哈爾濱金融學院圖書館技術部館員。