孔祥瑜 吳孟哲 陳新宇 孟澤鑫
摘要:本文主要論述了基于RSS的高校綜合信息平臺的建立及其應用方法。作為互聯網上的最新技術之一,RSS通過XML標準定義了內容的包裝和發布格式,使得信息發布、接收和使用更加穩定、高效、實時、安全、低成本。該平臺實現了信息資源的自動提取與采集以及RSS自定義添加與分享,同時對采集到的信息進行分類、在線聚合,具有強交互性、高共享性、高度個性化、知識種類多樣化等眾多優點,具有一定的市場價值。
關鍵詞:RSS;聚合;信息平臺;分享;高校學生
一.RSS基本原理
RSS技術是基于XML標準建立的內容包裝和投遞的協議,它規范了網站發布更新消息時的格式,要求以XML格式記錄信息的題目、作者、發布時間、摘要內容、相關的URL地址等。網站更新內容時,只需要按照RSS標準生成同樣形式的文件,RSS訂閱工具可以檢測網站發布文件并自動地將更新的文件下載到本地。用戶通過RSS reader可以瀏覽到相應頻道給出的信息列表,通過刷新可以查看最新的頻道更新內容。同時通過相應的URL地址可以鏈接到原始網站查看詳細內容。RSS搭建了一個信息迅速傳播的平臺,使得用戶可以不用逐個登陸網站而實時獲取最新消息。RSS標準規定的XML格式文件使得文件中包含的信息能直接被其他站點調用,同時也能在其他的終端和服務中使用。
二.系統框架與功能分析
2.1系統框架設計
基于RSS架構的高校綜合信息平臺的個性化服務體現在用戶可以定制頻道內容,實現的關鍵在于收集用戶個性設置。通過RSS訂閱頁面,收集用戶個性設置,用于生成RSS頻道描述信息。最終通過網站內置的簡易RSS閱讀器將用戶定制內容展示在個人空間。如圖2-1、圖2-2所示,本平臺系統總體設計采用目前比較流行的輕型框架組合SSH(Struts、Spring、Hibernate)實現。
RSS訂閱頁面收集用戶個性設置信息,并將其存入個性設置數據庫。RSS頻道生成器根據用戶識別代碼,從個性設置數據庫讀取個性設置信息,用于查詢公告信息和數據庫,生成頻道信息。用戶可直接登錄個人空間進行定制信息的閱讀。
在用戶端,RSS閱讀器可以按照用戶喜好。有選擇性地將用戶感興趣的內容來源進行“聚合”,為用戶提供多來源信息的“一站式”服務。
2.2系統功能分析
1、自動聚合信息資源
基于RSS的信息聚合功能,用戶只需根據自身需要或興趣,訂閱相應的信息與資源,即可在聚合器獲取到符合條件的所有資源,而不必為查找資源遍歷各個信息資源網站,節省了大量時間,提高了效率。
2、自動過濾信息資源
基于RSS的信息過濾功能,用戶還可以通過設置過濾掉不需要或不感興趣的信息或頻道,防止垃圾信息,方便本地資源管理,如文檔分類排序、搜索和標記已讀/未讀等多種資源管理功能,所以大大方便了教學信息內容的解讀以及管理。
3、自動更新信息資源
基于RSS的信息推送功能,服務器端更新的信息資源,會被及時主動地推送到聚合器上,從而確保了最新的信息資源能夠在第一時間被發現并使用,用戶不必再頻繁登錄網站以查詢資源是否已更新。
三.系統實現的關鍵技術
3.1RSS解析
RSS feed就是RSS的Web內容源,有人叫它種子,由于RSS Feed是基于XML標準的,可看作是一種半結構化的數據模型,因此可以使用半結構化數據模型抽取技術,將RSS Feed文檔描述與關系數據庫中的屬性一一對應起來,從而很容易地實現RSS Feed數據源的抽取與存儲。
3.2信息內容過濾
在信息內容提取時,為了過濾掉廣告、圖標等影響用戶閱讀的雜質,設置了信息內容過濾器,通過對信息內容頁面的分析,根據用戶設置的過濾條件,對廣告等雜質進行過濾。
3.3并行采集
為了提高采集效率,系統采用多線程技術對多個任務進行并行采集。主線程根據設置的最大線程數目和執行周期負責對各子線程的調用,子線程負責對各個啟動的任務進行采集。
3.4重復內容檢測
為了在采集時避免信息重復采集,在數據庫中設計了抓取的鏈接記錄表,詳細記錄每一條抓取過的鏈接,在每次信息采集時將采集到的源標題及其鏈接與數據庫中的抓取鏈接記錄表進行比較,如果抓取鏈接記錄表中存在該條記錄,則表示該條信息已經采集,不再進行采集。
3.5編碼方式檢測
由于采集的信息源來自于不同的網站,為了確定其編碼方式,設計了編碼檢測器對其進行檢測,由于編碼方式一般在網頁的開頭,因此,編碼檢測器首先讀取網頁的前1000字節,然后從中提取編碼方式。
4總結與展望
通過以上論述,我們知道,利用RSS技術可以使得高校綜合信息平臺具有如下優勢:
(1)信息過濾:是充當知識和信息的“過濾器”,通過RSS技術讓網絡形成最好的知識積累方式,可以使得“隱性知識”真正通過網絡實現“顯性”化;
(2)信息搜集:簡單進行訂閱RSS頻道,只要經過一些相關部門的整合,就可以搜集各高校網絡上值得關注的信息,如從圖書館網站、或其他系部網站及時獲得最新信息;
(3)信息推送:把學校網絡上的最新信息變動推送給用戶;
(4)信息交流:通過RSS技術,使得需要不斷學習的各位學校用戶,可以在很短的時間內,接觸最鮮活的思想,瀏覽全球范圍最好的新聞、文章、評論與報告,準確把握最新的熱點、觀點、動態和趨勢;
隨著RSS技術的快速發展和普及,必將推動高校網絡教育的個性化智能化。
參考文獻:
[1]胡智文.RSS與語義網研究[J].計算機工程與設計,2008,29(17):4618-4620.
[2]謝倩堃.RSS新聞的更新特征分析及RSS Reader的訂閱模型[D].北京:北京交通大學電子信息工程學院,2008.
[3]Jussi Myllymaki. Effective Web Data Extraction with Standard XML Technologies[J]. Hong Kang, 2001(10):125.