劉聰
摘 要:互聯(lián)網(wǎng)的普及,拓展了人們的信息獲取途徑,同時也增加了信息的冗余度和信息篩選的難度。RSS有效得聚合了信息,RSS搜索引擎彌補了傳統(tǒng)搜索引擎的不足。本文將探討RSS搜索引擎的技術(shù)背景、實現(xiàn)思路和發(fā)展趨勢,以盡量簡潔語言和實用的操作幫助讀者了解RSS搜索引擎。
關(guān)鍵詞:RSS;搜索引擎;信息;實現(xiàn)
一、技術(shù)背景
搜索引擎為網(wǎng)絡(luò)信息檢索提供了巨大的方便,使我們可以直接利用檢索語法來獲取自己想要的信息。但是隨著互聯(lián)網(wǎng)的發(fā)展與信息爆炸式增長,傳統(tǒng)的搜索引擎逐漸暴露出更新速度慢、收錄不完整等缺點,不能滿足用戶多樣化、純凈化的需求,RSS搜索引擎應運而生。
顧名思義,RSS搜索引擎是對RSS信息的再次整合,用戶可以通過關(guān)鍵字搜索檢索自己需要信息。相比于傳統(tǒng)搜索引擎,RSS源搜索引擎能夠滿足用戶的時效性需求、信息定位更加精準、信息搜索更加全面以及更小的信息冗余和更高的搜索效率。
二、實現(xiàn)思路
(一)數(shù)據(jù)獲取
RSS采用XML(可擴展標記語言)格式,使用特定標簽將信息寫入RSS。雖然不同的RSS數(shù)據(jù)源有自己的特點,但標簽取名和標簽數(shù)量基本一致。RSS信息中一般含有標題、摘要、鏈接和時間,部分RSS還有圖片和正文等信息。
為減少工作量和開發(fā)難度,獲取數(shù)據(jù)一般采用專用的RSS解析器,主流的解析器有RSSLibJ、Flock 、Informa 、ROME等,其功能大同小異。筆者以ROME為例,通過向解析器提供RSS地址,強大的解析器提取出、、