孔祥瑜 吳孟哲 陳新宇 孟澤鑫
摘要:本文主要論述了基于RSS的高校綜合信息平臺的建立及其應用方法。作為互聯(lián)網(wǎng)上的最新技術(shù)之一,RSS通過XML標準定義了內(nèi)容的包裝和發(fā)布格式,使得信息發(fā)布、接收和使用更加穩(wěn)定、高效、實時、安全、低成本。該平臺實現(xiàn)了信息資源的自動提取與采集以及RSS自定義添加與分享,同時對采集到的信息進行分類、在線聚合,具有強交互性、高共享性、高度個性化、知識種類多樣化等眾多優(yōu)點,具有一定的市場價值。
關(guān)鍵詞:RSS;聚合;信息平臺;分享;高校學生
一.RSS基本原理
RSS技術(shù)是基于XML標準建立的內(nèi)容包裝和投遞的協(xié)議,它規(guī)范了網(wǎng)站發(fā)布更新消息時的格式,要求以XML格式記錄信息的題目、作者、發(fā)布時間、摘要內(nèi)容、相關(guān)的URL地址等。網(wǎng)站更新內(nèi)容時,只需要按照RSS標準生成同樣形式的文件,RSS訂閱工具可以檢測網(wǎng)站發(fā)布文件并自動地將更新的文件下載到本地。用戶通過RSS reader可以瀏覽到相應頻道給出的信息列表,通過刷新可以查看最新的頻道更新內(nèi)容。同時通過相應的URL地址可以鏈接到原始網(wǎng)站查看詳細內(nèi)容。RSS搭建了一個信息迅速傳播的平臺,使得用戶可以不用逐個登陸網(wǎng)站而實時獲取最新消息。RSS標準規(guī)定的XML格式文件使得文件中包含的信息能直接被其他站點調(diào)用,同時也能在其他的終端和服務中使用。
二.系統(tǒng)框架與功能分析
2.1系統(tǒng)框架設(shè)計
基于RSS架構(gòu)的高校綜合信息平臺的個性化服務體現(xiàn)在用戶可以定制頻道內(nèi)容,實現(xiàn)的關(guān)鍵在于收集用戶個性設(shè)置。通過RSS訂閱頁面,收集用戶個性設(shè)置,用于生成RSS頻道描述信息。最終通過網(wǎng)站內(nèi)置的簡易RSS閱讀器將用戶定制內(nèi)容展示在個人空間。如圖2-1、圖2-2所示,本平臺系統(tǒng)總體設(shè)計采用目前比較流行的輕型框架組合SSH(Struts、Spring、Hibernate)實現(xiàn)。
RSS訂閱頁面收集用戶個性設(shè)置信息,并將其存入個性設(shè)置數(shù)據(jù)庫。RSS頻道生成器根據(jù)用戶識別代碼,從個性設(shè)置數(shù)據(jù)庫讀取個性設(shè)置信息,用于查詢公告信息和數(shù)據(jù)庫,生成頻道信息。用戶可直接登錄個人空間進行定制信息的閱讀。
在用戶端,RSS閱讀器可以按照用戶喜好。有選擇性地將用戶感興趣的內(nèi)容來源進行“聚合”,為用戶提供多來源信息的“一站式”服務。
2.2系統(tǒng)功能分析
1、自動聚合信息資源
基于RSS的信息聚合功能,用戶只需根據(jù)自身需要或興趣,訂閱相應的信息與資源,即可在聚合器獲取到符合條件的所有資源,而不必為查找資源遍歷各個信息資源網(wǎng)站,節(jié)省了大量時間,提高了效率。
2、自動過濾信息資源
基于RSS的信息過濾功能,用戶還可以通過設(shè)置過濾掉不需要或不感興趣的信息或頻道,防止垃圾信息,方便本地資源管理,如文檔分類排序、搜索和標記已讀/未讀等多種資源管理功能,所以大大方便了教學信息內(nèi)容的解讀以及管理。
3、自動更新信息資源
基于RSS的信息推送功能,服務器端更新的信息資源,會被及時主動地推送到聚合器上,從而確保了最新的信息資源能夠在第一時間被發(fā)現(xiàn)并使用,用戶不必再頻繁登錄網(wǎng)站以查詢資源是否已更新。
三.系統(tǒng)實現(xiàn)的關(guān)鍵技術(shù)
3.1RSS解析
RSS feed就是RSS的Web內(nèi)容源,有人叫它種子,由于RSS Feed是基于XML標準的,可看作是一種半結(jié)構(gòu)化的數(shù)據(jù)模型,因此可以使用半結(jié)構(gòu)化數(shù)據(jù)模型抽取技術(shù),將RSS Feed文檔描述與關(guān)系數(shù)據(jù)庫中的屬性一一對應起來,從而很容易地實現(xiàn)RSS Feed數(shù)據(jù)源的抽取與存儲。
3.2信息內(nèi)容過濾
在信息內(nèi)容提取時,為了過濾掉廣告、圖標等影響用戶閱讀的雜質(zhì),設(shè)置了信息內(nèi)容過濾器,通過對信息內(nèi)容頁面的分析,根據(jù)用戶設(shè)置的過濾條件,對廣告等雜質(zhì)進行過濾。
3.3并行采集
為了提高采集效率,系統(tǒng)采用多線程技術(shù)對多個任務進行并行采集。主線程根據(jù)設(shè)置的最大線程數(shù)目和執(zhí)行周期負責對各子線程的調(diào)用,子線程負責對各個啟動的任務進行采集。
3.4重復內(nèi)容檢測
為了在采集時避免信息重復采集,在數(shù)據(jù)庫中設(shè)計了抓取的鏈接記錄表,詳細記錄每一條抓取過的鏈接,在每次信息采集時將采集到的源標題及其鏈接與數(shù)據(jù)庫中的抓取鏈接記錄表進行比較,如果抓取鏈接記錄表中存在該條記錄,則表示該條信息已經(jīng)采集,不再進行采集。
3.5編碼方式檢測
由于采集的信息源來自于不同的網(wǎng)站,為了確定其編碼方式,設(shè)計了編碼檢測器對其進行檢測,由于編碼方式一般在網(wǎng)頁的開頭,因此,編碼檢測器首先讀取網(wǎng)頁的前1000字節(jié),然后從中提取編碼方式。
4總結(jié)與展望
通過以上論述,我們知道,利用RSS技術(shù)可以使得高校綜合信息平臺具有如下優(yōu)勢:
(1)信息過濾:是充當知識和信息的“過濾器”,通過RSS技術(shù)讓網(wǎng)絡(luò)形成最好的知識積累方式,可以使得“隱性知識”真正通過網(wǎng)絡(luò)實現(xiàn)“顯性”化;
(2)信息搜集:簡單進行訂閱RSS頻道,只要經(jīng)過一些相關(guān)部門的整合,就可以搜集各高校網(wǎng)絡(luò)上值得關(guān)注的信息,如從圖書館網(wǎng)站、或其他系部網(wǎng)站及時獲得最新信息;
(3)信息推送:把學校網(wǎng)絡(luò)上的最新信息變動推送給用戶;
(4)信息交流:通過RSS技術(shù),使得需要不斷學習的各位學校用戶,可以在很短的時間內(nèi),接觸最鮮活的思想,瀏覽全球范圍最好的新聞、文章、評論與報告,準確把握最新的熱點、觀點、動態(tài)和趨勢;
隨著RSS技術(shù)的快速發(fā)展和普及,必將推動高校網(wǎng)絡(luò)教育的個性化智能化。
參考文獻:
[1]胡智文.RSS與語義網(wǎng)研究[J].計算機工程與設(shè)計,2008,29(17):4618-4620.
[2]謝倩堃.RSS新聞的更新特征分析及RSS Reader的訂閱模型[D].北京:北京交通大學電子信息工程學院,2008.
[3]Jussi Myllymaki. Effective Web Data Extraction with Standard XML Technologies[J]. Hong Kang, 2001(10):125.