李果
摘 要:區域農業信息對于特定區域的關切人群具有重要價值。提出了一種面向區域農業信息的垂直搜索引擎設計方法,從信息采集、信息組織和信息服務3個角度,提升用戶獲取區域農業信息的體驗。
關鍵詞:區域信息;垂直搜索引擎;農業信息
文章編號:1004-7026(2018)13-0061-01 中國圖書分類號:TP391.3 文獻標志碼:A
搜索引擎是一種應對信息過載的有效方式。但通用搜索引擎在面對狹小細分領域信息檢索的時候,信息收集不充分、索引數據庫不完備,從而導致該領域信息查全率和查準率低的問題。因此,垂直搜索引擎應運而生。垂直搜索引擎是指應用于搜索某一專業領域(比如科技論文、汽車、房產等)或者某一類信息(比如地圖、音樂等)的專業搜索引擎[1],也被稱為專題或專門搜索引擎,是搜索引擎的細分和延伸。垂直搜索引擎并不追求大而全,強調的是專而精,可以在特定領域信息檢索中獲得較好的效果。
區域農業信息指通過各種渠道傳播的以地方區域為范圍的涉農相關信息,這些信息對于特定區域關切的人來說往往關乎切身利益,具有重要價值。每天都有大量的各類信息從各個地方產生,但受限于主流媒體有限的版面和時長,只有極少數信息能被選擇報道傳播,許多區域信息被埋沒而失去價值。通過建立面向區域農業信息的垂直搜索引擎,快速、精準地滿足相關用戶個性化的信息需求,下文將就幾個關鍵技術點進行闡述。
1 區域農業信息搜索基本流程
從信息管理角度看,要實現區域信息垂直搜索引擎的設計。首先需要根據設定區域從互聯網各種渠道采集相關信息,并建立基本的信息庫。接著對信息庫中的信息進行標注,從每一條信息中提取若干主題特征。此外為了搜索結果的有效性,還應計算信息的權重。最后考慮到區域信息規模往往不大,可以采用關鍵詞匹配的方式響應用戶搜索,同時采用top-N推薦的方式提升用戶使用體驗。
2 區域農業信息基礎庫建設
垂直搜索設計的首要問題是基礎信息庫的建設,對于區域信息,主要有三類:一、穩定的信息,產生時間早且不容易發生變化,比如某地的歷史、地理信息、風俗習慣等;二、較穩定信息,信息變化不頻繁但一定周期會發生更新,比如某地的火車時刻表、農業經營場所信息等;三、實時信息,這類信息變化快、數量大,比如某地的天氣信息、某地的交通路況信息、惠農政策信息等。針對不同類別信息需要建立相應的信息庫。
3 區域農業信息采集
對于不同類別信息,信息采集方式不一樣。對于穩定的信息,主要是做好前期工作,信息來源不僅僅是互聯網,還可以是線下信源,傳統方志、實地考察等,確保權威、準確。對于較穩定的信息,則注意信息抓取的周期,盡量響應信息更新。對于實時信息,則需要耗費較多計算資源,密切抓取信息源實時更新。互聯網信息來源多樣,在有限資源的前提下,考慮到信息分布呈現的馬太效應[3],盡可能聚焦核心信息源信息進行采集可以提升采集效率。
4 區域農業信息組織
對于已建立好的信息庫,要實現搜索的響應功能,需要做好兩個工作。一是對信息進行標注,提取信息的主題特征,可通過中文分詞進行涉農詞匯識別,去除無意義的停用詞,提取有意義的涉農詞語標簽。二是計算信息的權重值,主要從時間角度和影響力角度進行衡量,從時間角度看通常較新的信息具有更大的價值,從影響力角度看主要考慮信息來源和信息引用及互動情況。比如權威信息源發布的信息往往重要性高于普通網民發布的信息,又比如被廣泛轉載和評論的信息往往具有較高的價值。
5 區域農業信息搜索
區域涉農信息規模通常不大,在信息呈現上,可以以兩種方式:一是提供搜索入口,用戶提交關鍵詞,然后直接通過關鍵詞匹配和近似詞匹配的方式,按照權重和時間順序給出搜索結果,單純依賴關鍵詞匹配可能會降低查全率,在信息組織階段可以將信息進行基本類別的劃分,當關鍵詞匹配結果不理想的情況下,可以反饋同類別信息;二是采用topN推薦的方式,列出特定時間段重要性較高的信息,滿足用戶多樣性和新穎度的需求。
6 結束語
相比通用綜合搜索引擎大而全的方式,垂直搜素引擎強調專而精,在特定領域信息搜索中具有更高的查準率。區域農業信息對于某一地方關切的用戶具有重要價值,通過垂直搜索引擎采集和挖掘本地信息便具有重要意義。
參考文獻:
[1]王文鈞,李巍.垂直搜索引擎的現狀與發展探究[J].情報科學,2010,28(03):477-480.
[2]楊韜,鄒永利.中文商業網站信息資源的集中與分散規律探究[J].現代情報,2007(09):53-56.