王軍
摘要:在互聯網時代,隨著信息量的不斷膨脹,搜索引擎在計算機技術不斷發展的局勢下,受到了更多的挑戰。本文就搜索引擎的發展歷程及結構原理進行了介紹,重點提出如何利用Java語言對垂直搜索引擎進行設計方案的構建。
關鍵詞:Java;垂直搜索引擎;方案構建
伴隨著21世紀互聯網技術的熾熱化的發展進程人們對互聯網應用范圍的擴展也提出了新的要求,現有引擎雖然信息面廣,但更像大染缸,信息雜糅,只有快速的找到關鍵詞才能比較迅速的找到自己想要的信息大概范圍,經過瀏覽確定最終目標,人們更需要一種專業化的引擎,于是我們想到了垂直搜索引擎。
一、搜索引擎的發展歷程
20世紀90年代,WWW還沒有出現,文件傳輸已經比較普遍,但查詢不便,所以lan Emtage想到了以一種通過文件名查詢文件的方法,即搜索引擎的雛形,它以腳本程序為基礎,供使用者查找文件。在lan Emtage的啟發下,美國的System Computing Services大學開發了具有搜索網頁功能的Veronica,網頁的搜索開始發展。
縱觀搜索引擎的發展歷程,可分為四個階段。1994年的IR基本實現了在Web網頁上的檢索,由于可供用的網站也少且費時,很快被第二代搜索引擎代替,第二代搜索引擎主要表現為數據庫和網絡蜘蛛的分布式兩種。第三代已進入人工智能時代,搜索引擎空前繁榮,加入了地域搜索和主題搜索、超鏈接以及用戶記錄,自動分類技術已有滲透。第四代搜索引擎即垂直搜索引擎,其專業化程度相較于之前有了很大的提高,出現了專門針對某一行業的主題信息的搜索。
二、垂直搜索引擎
垂直搜索引擎的出現改變了原來搜索引擎查詢深度不足、信息量太、查詢精度低的問題,對某一行業、某一人群的不同需求來對信息進行篩選然后提供給他們搜索更加有序具體,縮小了搜索范圍但提高了精度,節約了用戶的時間。比如對于經常瀏覽雜志頁面的用戶,他可能會有訂閱雜志的意愿,那就需要對相關雜志有更詳細的介紹,包括里面的排版特點、主要內容等。尤其對于電子行業的用戶來說,其需求更加明確所以就需要更加詳細的信息予以支持,針對這種非常具體需求而出現的搜索引擎就是垂直搜索。
作為一種更詳細具體的搜索引擎,其專業化服務質量的審核標準主要決定于web結構信息抽取的技術的高低,由于垂直搜索引擎屬于新興技術,仍然處于探索階段,這是不可否認的。已經存在的垂直搜索引擎主要有:旅游類的去哪兒網、征程網等,招聘類的智聯,娛樂類的搜狐、樂視等。
垂直搜索引擎相比于通用的搜索引擎具有很多的優勢:行業色彩更濃,專注于某一主題的服務,所以提供的信息更加詳細具體而有針對性;引擎的開發在于為專門的用戶提供專門的服務,因為專注,所以高效;以元數據和結構化數據為搜索基礎,關鍵詞的提取相對要容易一些。
當然,缺陷也是不能忽略的,比如種子站點的掌控難,只有經過準去的判斷才能夠找到目的網站;技術難度比較高;信息的提供專業但是單一。
三、基于Java的垂直搜索引擎的設計
手機作為與人們生活息息相關的電子產品,在人們的引擎搜索中往往被格外關注,本文以手機為對象,探討基于Java的垂直搜索引擎的設計。
1、引擎設計前的需求分析
經過對各大手機門戶網站進行瀏覽分析后,需要建立一個具有垂直搜索引擎功能的模擬系統,供用戶搜索,具體來講,需要涉及到一下方面。
一是手機相關信息的搜索與顯示,這是一個直至搜索引擎最基本的功能,通過操作界面的指令的發送,后臺開始操作,找到相關的信息后通過界面顯示的形式反饋給用戶,點擊進入后就可以看到需要的信息,不會出現與搜索內容無關的消息。
二是信息自動采集功能。通過垂直搜索引擎找到與搜索信息有相似特點的信息,并加以保存分析提取整理存入數據庫。
2、設計思路
本次研究基于Eclipse3.1+MySQL5.0+Tomcat5.5 環境,其良好的開發性有助于Java語言的開發性能的發揮,在構建web時需要使用PluginV3插件,用到的已開發程序包和檢索工具包包括Heritrix1.12.1和Lucene2.0。
3、網頁信息的抓取
首先需要獲得更多的手機相關信息,利用蜘蛛程序爬行網頁對各大網站的信息進行收集分析和整理,選擇獲取信息的網站的前提是瀏覽量大,信息完備,以便于搜索涵蓋幾乎所有手機的信息。
此外還要對網頁的結構以及URL特點進行分析,目的在于對蜘蛛獲得信息進行進一步的過濾,將與產品無關的資料去掉。
4、網頁機構化的抽取
在網頁被抓取后并不能直接使用,而是需要經過進一步的篩選將有用信息保存下來,一般為了方便數據的入庫都會將其以文本形式保存,這一步的信息處理是建立引擎的關鍵,工作相對繁瑣一些。
5、建立索引
待前邊的準備工作都完成后,即開始引擎搜索的建立,主要是通過代碼的編寫將獲得的信息導入到每款手機特定的文件中,然后放入數據庫等待用戶搜索。
結束語
在互聯網時代,信息量的日與劇增促使人們對信息的搜索提出了更專業化的要求,作為搜索引擎的輔助型工具,垂直搜索引擎的確在互聯網中法糊了不可替代的作用,我們也將加大對其研究的力度,努力讓其在每一個領域都能夠提供服務,本文的研究將為這一偉大設想提供參考。
參考文獻
[1]潘春華,常敏,武港山.面向Web的信息收集工具的設計與開發[J].計算機應用研究,2012(16).
[2]張娜,張化祥.基于超鏈接和內容相關度的檢索算法[J].計算機應用,2012(26).