999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Java的垂直搜索引擎的設計方式構建

2015-06-05 10:01:53王軍
信息化建設 2015年3期

王軍

摘要:在互聯網時代,隨著信息量的不斷膨脹,搜索引擎在計算機技術不斷發展的局勢下,受到了更多的挑戰。本文就搜索引擎的發展歷程及結構原理進行了介紹,重點提出如何利用Java語言對垂直搜索引擎進行設計方案的構建。

關鍵詞:Java;垂直搜索引擎;方案構建

伴隨著21世紀互聯網技術的熾熱化的發展進程人們對互聯網應用范圍的擴展也提出了新的要求,現有引擎雖然信息面廣,但更像大染缸,信息雜糅,只有快速的找到關鍵詞才能比較迅速的找到自己想要的信息大概范圍,經過瀏覽確定最終目標,人們更需要一種專業化的引擎,于是我們想到了垂直搜索引擎。

一、搜索引擎的發展歷程

20世紀90年代,WWW還沒有出現,文件傳輸已經比較普遍,但查詢不便,所以lan Emtage想到了以一種通過文件名查詢文件的方法,即搜索引擎的雛形,它以腳本程序為基礎,供使用者查找文件。在lan Emtage的啟發下,美國的System Computing Services大學開發了具有搜索網頁功能的Veronica,網頁的搜索開始發展。

縱觀搜索引擎的發展歷程,可分為四個階段。1994年的IR基本實現了在Web網頁上的檢索,由于可供用的網站也少且費時,很快被第二代搜索引擎代替,第二代搜索引擎主要表現為數據庫和網絡蜘蛛的分布式兩種。第三代已進入人工智能時代,搜索引擎空前繁榮,加入了地域搜索和主題搜索、超鏈接以及用戶記錄,自動分類技術已有滲透。第四代搜索引擎即垂直搜索引擎,其專業化程度相較于之前有了很大的提高,出現了專門針對某一行業的主題信息的搜索。

二、垂直搜索引擎

垂直搜索引擎的出現改變了原來搜索引擎查詢深度不足、信息量太、查詢精度低的問題,對某一行業、某一人群的不同需求來對信息進行篩選然后提供給他們搜索更加有序具體,縮小了搜索范圍但提高了精度,節約了用戶的時間。比如對于經常瀏覽雜志頁面的用戶,他可能會有訂閱雜志的意愿,那就需要對相關雜志有更詳細的介紹,包括里面的排版特點、主要內容等。尤其對于電子行業的用戶來說,其需求更加明確所以就需要更加詳細的信息予以支持,針對這種非常具體需求而出現的搜索引擎就是垂直搜索。

作為一種更詳細具體的搜索引擎,其專業化服務質量的審核標準主要決定于web結構信息抽取的技術的高低,由于垂直搜索引擎屬于新興技術,仍然處于探索階段,這是不可否認的。已經存在的垂直搜索引擎主要有:旅游類的去哪兒網、征程網等,招聘類的智聯,娛樂類的搜狐、樂視等。

垂直搜索引擎相比于通用的搜索引擎具有很多的優勢:行業色彩更濃,專注于某一主題的服務,所以提供的信息更加詳細具體而有針對性;引擎的開發在于為專門的用戶提供專門的服務,因為專注,所以高效;以元數據和結構化數據為搜索基礎,關鍵詞的提取相對要容易一些。

當然,缺陷也是不能忽略的,比如種子站點的掌控難,只有經過準去的判斷才能夠找到目的網站;技術難度比較高;信息的提供專業但是單一。

三、基于Java的垂直搜索引擎的設計

手機作為與人們生活息息相關的電子產品,在人們的引擎搜索中往往被格外關注,本文以手機為對象,探討基于Java的垂直搜索引擎的設計。

1、引擎設計前的需求分析

經過對各大手機門戶網站進行瀏覽分析后,需要建立一個具有垂直搜索引擎功能的模擬系統,供用戶搜索,具體來講,需要涉及到一下方面。

一是手機相關信息的搜索與顯示,這是一個直至搜索引擎最基本的功能,通過操作界面的指令的發送,后臺開始操作,找到相關的信息后通過界面顯示的形式反饋給用戶,點擊進入后就可以看到需要的信息,不會出現與搜索內容無關的消息。

二是信息自動采集功能。通過垂直搜索引擎找到與搜索信息有相似特點的信息,并加以保存分析提取整理存入數據庫。

2、設計思路

本次研究基于Eclipse3.1+MySQL5.0+Tomcat5.5 環境,其良好的開發性有助于Java語言的開發性能的發揮,在構建web時需要使用PluginV3插件,用到的已開發程序包和檢索工具包包括Heritrix1.12.1和Lucene2.0。

3、網頁信息的抓取

首先需要獲得更多的手機相關信息,利用蜘蛛程序爬行網頁對各大網站的信息進行收集分析和整理,選擇獲取信息的網站的前提是瀏覽量大,信息完備,以便于搜索涵蓋幾乎所有手機的信息。

此外還要對網頁的結構以及URL特點進行分析,目的在于對蜘蛛獲得信息進行進一步的過濾,將與產品無關的資料去掉。

4、網頁機構化的抽取

在網頁被抓取后并不能直接使用,而是需要經過進一步的篩選將有用信息保存下來,一般為了方便數據的入庫都會將其以文本形式保存,這一步的信息處理是建立引擎的關鍵,工作相對繁瑣一些。

5、建立索引

待前邊的準備工作都完成后,即開始引擎搜索的建立,主要是通過代碼的編寫將獲得的信息導入到每款手機特定的文件中,然后放入數據庫等待用戶搜索。

結束語

在互聯網時代,信息量的日與劇增促使人們對信息的搜索提出了更專業化的要求,作為搜索引擎的輔助型工具,垂直搜索引擎的確在互聯網中法糊了不可替代的作用,我們也將加大對其研究的力度,努力讓其在每一個領域都能夠提供服務,本文的研究將為這一偉大設想提供參考。

參考文獻

[1]潘春華,常敏,武港山.面向Web的信息收集工具的設計與開發[J].計算機應用研究,2012(16).

[2]張娜,張化祥.基于超鏈接和內容相關度的檢索算法[J].計算機應用,2012(26).

主站蜘蛛池模板: 国产精品太粉嫩高中在线观看| 国产乱子伦视频在线播放| 久久五月视频| 久久人人爽人人爽人人片aV东京热| 亚洲精品制服丝袜二区| 91青青在线视频| 亚洲人成影院在线观看| 激情无码字幕综合| 激情影院内射美女| 欧美一级高清片欧美国产欧美| 久久精品亚洲中文字幕乱码| 亚洲国产成熟视频在线多多| 无码人妻免费| 91丨九色丨首页在线播放| 孕妇高潮太爽了在线观看免费| 亚洲无码高清视频在线观看| 91成人免费观看| 亚洲AV无码一区二区三区牲色| 少妇极品熟妇人妻专区视频| 亚洲精品免费网站| 亚洲男人的天堂在线| 日韩国产精品无码一区二区三区 | 亚洲人成人无码www| 嫩草国产在线| 国产国语一级毛片| 欧美日韩成人在线观看 | 久久久亚洲色| 五月婷婷激情四射| 免费观看精品视频999| 91国内在线视频| 国产精品自拍合集| 免费av一区二区三区在线| 九九热视频精品在线| 国产h视频免费观看| 亚洲欧美自拍中文| 第一页亚洲| 麻豆精品视频在线原创| 亚洲精品无码不卡在线播放| 美女高潮全身流白浆福利区| 国产福利影院在线观看| 欧美在线黄| 久久青青草原亚洲av无码| 亚洲第一区在线| 狠狠综合久久久久综| 91色在线视频| 国产欧美视频一区二区三区| 亚洲欧美日本国产专区一区| 国产激爽大片高清在线观看| 亚洲男人的天堂在线观看| 免费看黄片一区二区三区| 国产综合网站| 国产精品开放后亚洲| 欧美色99| 4虎影视国产在线观看精品| 无码专区在线观看| 精品无码专区亚洲| 国产精品无码一二三视频| 欧美成人国产| 国产综合在线观看视频| 日韩一区二区在线电影| 久无码久无码av无码| 亚洲AⅤ永久无码精品毛片| 国产福利2021最新在线观看| 狠狠色噜噜狠狠狠狠奇米777| 91精品国产无线乱码在线| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产精品偷伦视频免费观看国产 | 日韩欧美中文字幕一本| 狠狠干综合| 欧美福利在线| 97亚洲色综久久精品| 日韩免费视频播播| 日韩小视频网站hq| 综1合AV在线播放| 亚洲精品视频免费| 色AV色 综合网站| 99视频免费观看| 国产欧美日韩另类| 欧美午夜久久| 青草娱乐极品免费视频| 成人在线观看不卡| 夜精品a一区二区三区|