999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向醫療的垂直搜索引擎的研究與開發

2018-07-05 02:09:46姚奕伸張旖旎陳恩澤陳曉星
科技與創新 2018年13期
關鍵詞:搜索引擎用戶信息

姚奕伸,張旖旎,周 婷,陳恩澤,陳曉星

(華北電力大學 控制與計算機工程學院,北京 102206)

隨著互聯網技術的快速發展和醫療水平的不斷提高,越來越多的用戶選擇上網搜索獲取醫療信息。中國互聯網絡信息中心于2017年發布的《中國互聯網絡發展狀況統計報告》顯示,截至2016-12,中國網民規模達7.31億,相當于歐洲人口總量,互聯網普及率達53.2%,其中,手機網民規模達6.95億,占比達95.1%,增速連續3年超10%[1].醫療信息檢索就是眾多網絡行為中重要的一部分。

在實際應用中,用戶常選用通用搜索引擎,比如百度、Google檢索醫療信息。的確,這類綜合性搜索引擎資源范圍廣,用戶可以在搜索框中輸出關鍵詞檢索出幾乎任何類型、任何主題的信息,但是,正是由于其信息資源的廣闊性,出現了死鏈接繁多、廣告層出不窮、相關度精準度低等問題,給用戶帶來了煩惱,且在一定程度上誤導用戶[2]。轟動一時的魏則西事件更是揭露了混淆用戶視聽的百度競價排名機制,引起了大量網民的口誅筆伐。針對這些問題,垂直搜索引擎應運而生。垂直搜索引擎[3]是針對某一個行業的專業搜索引擎,是搜索引擎的細分和延伸,是對網頁庫中的某類專門信息進行一次整合,定向分字段抽取出需要的數據進行處理后再以某種形式返回給用戶。垂直搜索引擎的召回率和準確率遠高于綜合性搜索引擎,因為它的特定信息來源于特定的網站,在一定程度上保證了它的準確率。

相比于通用搜索引擎,“醫家搜索”專門針對醫療行業的特定信息,致力于實現高召回率和高準確率的醫療信息搜索,同時保證少之又少甚至零的廣告。通過搜集大量醫院網址,借助于開源搜索引擎Nutch,搭建出小型服務器,為用戶提供了一定的醫院信息服務,同時也實現了移動端的服務。

1 垂直搜索引擎工作原理

搜索引擎為用戶查找網上的資源,它的爬蟲會按照設定好的策略爬行,并采集信息,經過處理后將結果返回給用戶。通用搜索引擎由網頁爬蟲、頁面分析、索引和檢索4個基本模塊構成。

1.1 網絡爬蟲

爬蟲(crawler),是用來在網絡上進行信息抽取的程序。它從起始網站出發,按照一定的策略,遍歷網站并且抓取各類型的網頁內容。由于互聯網上的信息非常龐大,爬蟲不可能抽取到所有的信息,因此,需要按照一定的策略進行爬取。常見的網絡采集策略有深度優先采集、IP掃描采集和廣度優先采集3種策略[4]。

1.2 頁面分析

為了便于建立索引,通用搜索引擎常在抓取完數據后進行一定的預處理,一般包括頁面語法分析、詞匯分割、詞匯過濾等。垂直搜索引擎還需要進行更深的數據挖掘和信息類型的判斷等操作,從而提高搜索的精準度。

1.3 索引

搜索引擎普遍使用的技術是倒排索引。所謂“倒排索引”,是相對于正向索引來說的,正向索引用來存儲每個文檔對應的單詞列表,而倒排索引則是根據單詞來索引文檔編號,每個單詞后邊的文檔編號列表叫做投遞列表。索引可使檢索對網頁的定位更加精確,減少計算時間,提高搜索引擎效率。

1.4 檢索

檢索模塊為用戶提供了一個方便檢索的接口,在用戶搜索相應的關鍵詞后,搜索引擎對檢索到的結果進行排序后呈現給用戶。排序主要依據搜索詞的相關度和權值,此外,還需考慮網頁的重要性和鏈接程度。

2 垂直搜索引擎的特點

與通用搜索引擎抓取海量信息不同,垂直搜索引擎主要用于特定主體的抓取。垂直搜索引擎比通用搜索引擎的結果更加精準,它的爬蟲具有過濾功能,可實現對特定網頁的抓取,無關網頁的過濾。

2.1 垂直搜索引擎

垂直搜索引擎與通用搜索引擎的結構基本相同,唯一的差別就是前者的爬蟲在抓取信息時會進行一定的判別。這樣,就保證了爬蟲在工作時不會受到不相關信息的干擾,為返回準確的結果打下基礎。

2.2 垂直搜索引擎與通用搜索引擎的區別

垂直搜索引擎與通用搜索引擎原理大致相同,但垂直搜索引擎也有自己比較明顯的特征,兩者的區別主要體現在以下幾個方面:①爬行策略。通用搜索引擎要實現的是更多的信息,所以,它傾向于全網的爬取;而垂直搜索引擎則只需爬取具有特定主題的網頁,爬取專業領域的深采集。②服務對象。通用搜索引擎面向全體網絡用戶,其數據覆蓋面比較廣,但其相對于某一特定領域的專業性比較差;垂直搜索引擎服務于專業人士或某一專業領域的檢索,因此,更加注重抓取的行業相關度和深度。③信息處理。通用搜索引擎注重網頁元數據的處理和結構化信息的提取,在網頁排序方面通常采用PageRank算法;垂直搜索引擎還要在信息處理中加入主題判別功能,在排序方面比較多樣化。

3 面向醫療的垂直搜索引擎

面向醫療網站的搜索引擎的主要目標是實現對某地區各大醫院網站、各科室的精準搜索,同時,還實現了對廣告的隔離,為用戶提供簡潔直觀的搜索結果。因此,面向醫療的垂直搜索引擎應當至少包括以下幾個功能:①對特定醫院網站的數據采集,信息抽取;②對分類后的數據生成倒排文件和數據管理;③簡單易操作的界面和直觀的返回結果。

根據以上功能需求,本文提出了一種基于Nutch的面向醫療網站的垂直搜索引擎,其工作流程如圖1所示。

圖1 垂直搜索引擎工作流程圖

基于Nutch的面向醫療的搜索引擎的搭建步驟如下。

3.1 工作環境的安裝和變量的設置

Nutch是Java開發的開源項目,需要在JDK、Linux下工作,本搜索引擎使用JDK1.7,cygwin(Linux虛擬器),Nutch1.2來搭建[5]。如果需搭建分布式環境,則還需要Hadoop[6]。另外,在環境變量中分別為JDK、Nutch和Tomcat配置環境變量。

3.2 為Nutch和Tomcat分別設置工作條件

在nutch-1.2confNutch-site.xml中為Nutch設置工作信息,這些信息會附加在發給服務器的信息中,遵循HTTP協議。在之間添加以下內容:格式如下:

同樣,在TomcatconfNutch-site.xml下為Tomcat配置相關信息,其信息與Nutch對應目錄下一致。

3.3 加入相關網站

本搜索引擎面向醫療,因此,爬蟲要抓取的應是醫療方面的相關網站。利用一段簡單的Java小程序找到行業網站,經過實際操作觀察后,編寫特定規則的Java程序,獲取包含所需網址鏈接的網頁鏈接。同時,編寫Java代碼獲取網頁源碼。編寫所需網址類型的正則表達式,采用首尾截取方式截取相關字段,以準備好的正則表達式匹配之,最終獲得我們所需的網址鏈接。將獲得的鏈接整理好放于文檔中,用Nutch爬取,所得結果存儲于Nutch中的用戶自行命名創建的文檔中。采用這種方式,我們直接獲得所需的一手資料,獲得屬于自己的數據庫,能極大程度地剔除廣告帶來的影響。這樣,就可以得到大量與醫療相關的網站。我們將其放在Nutch根目錄下自己新建的一個文本文檔中,命名為seed.txt。

3.4 對相關URL進行爬取

在Cygwin下進行相應的命令操作:①利用cd命令進入到Nutch的根目錄下。②利用bin/nutch crawl seed.txt-dir crawl-depth 1-topN 1000-threads 5命令進行抓取,seed.txt是存放目標抓取網站的文本文檔;dir后跟爬取到的數據所存放的文件夾;depth為爬取的深度,此處設置為1;topN為爬取的廣度,此處設置為1 000;threads為爬蟲設置線程數,此處設置為5.至此,本文的垂直搜索引擎已搭建完成,借助于Sunny垂Ngrok,我們將本地服務器的端口與申請的域名綁定在一起,實現移動端的搜索。

4 試驗測試及性能分析

召回率[7],是衡量某一檢索系統從文獻集合中檢出相關文獻成功度的一項指標,即檢出的相關文獻與全部相關文獻的百分比。普遍表示為:召回率=(檢索出的相關信息量/系統中的相關信息總量)×100%.

在召回率的實驗中,大量文獻表明,通用搜索引擎的召回率遠低于垂直搜索引擎。由于百度、搜狗、Yahoo等通用搜索引擎基于其數據庫信息保密的需要,我們無法精確地具體得知這些通用搜索引擎系統中的相關信息總量,但是,可以通過大量查詢得知中國人民解放軍醫院北京地區總共有13家,在百度、搜狗、Yahoo這3個搜索引擎中,對于這13家醫院,筆者一一檢索均能進入其網站或者掌握該醫院數據庫的網站,然而當檢索的關鍵詞為北京軍隊醫院官網時,檢索的相關信息量就很少了。同樣的,醫家搜索庫里放了11個解放軍醫院的官網,檢索出來的網站為6,由此可以進一步推斷,醫家搜索的查全率高于通用搜索引擎。檢索結果對比如表1所示。

表1 檢索結果查全率對比圖

在醫家搜索中輸入“北京軍隊醫院官網”,檢索結果如圖2所示。

圖2 “北京軍隊醫院官網”檢索結果圖

研究表明,用戶希望檢索結果能隨相關度降序排列[8]。因此,前幾頁的搜索結果往往是用戶最為關注的。搜索引擎用戶通常只瀏覽前2頁的檢索結果,而且前3個檢索結果最為重要,其次是接下來的7個檢索結果,而后是再接著的10個檢索結果[9]。

在搜索框內輸入關鍵詞“心血管”,檢索結果如圖3所示。

圖3 關鍵詞“心血管”檢索結果圖

所以,實驗選取“心血管”“消化”2個醫療領域的關鍵詞進行檢索,統計前2頁的檢索結果中與醫療主題相關結果的個數,計算檢準率,并與主流通用搜索引擎進行比較,得出結果如表2所示。

表2 檢查結果相關性及排序質量分析

分析表2中的數據可知,本搜索引擎相對于通用搜索引擎,檢準率平均高出30%.雖然通用搜索引擎檢索信息量大,但多為重復信息或不相關信息,對于用戶而言都是無用的。實驗表明,在檢索醫療信息方面,本搜索引擎比通用搜索引擎更為準確。

5 總結

本文基于Nutch,為用戶提供了醫療方面的信息檢索服務,相比于百度、雅虎等搜索引擎,它具有更高的召回率和檢準率,且廣告等冗余信息大大減少。與此同時,本文的搭建方法具有普適性,他人可以據此搭建其他領域的垂直搜索引擎。

但我們尚有不足:①信息的捕獲過于煩瑣,需要人工操作,并不適應當今社會信息的爆炸增長;②中文分詞的功能不夠強大,搜索的精準度有待進一步提高;③檢索的結果未能細化到某一科室,對用戶來講檢索效率比較低。

在大數據時代的背景下,關于垂直搜索引擎技術的探討一直在繼續,相信我們的不足會被有效解決。

[1]CNNIC發布第39次《中國互聯網絡發展狀況統計報告》[J].中國信息安全,2017(02):24.

[2]施儉,王恒山,肖仰華,等.面向主題的垂直搜索引擎系統的研究與實現[J].微電子學與計算機,2011(7):1-4,8.

[3]百度百科“垂直搜索”詞條[EB/OL].[2017-11-23].https://baike.baidu.com/item.

[4]袁恩閣.基于Nutch的醫療搜索引擎的研究與開發[D].烏魯木齊:新疆大學,2014.

[5]胡濤,路紅英.基于Nutch的搜索引擎的研究[J].計算機時代,2007(1):57-59.

[6]程苗,陳華平.基于Hadoop的Web日志挖掘[J].計算機工程,2011(11):37-39.

[7]準確率(Accuracy),精確率(Precision),召回率(Recall)和 F1-Measure[EB/OL].[2017-12-01].https://rc.mbd.baidu.com/gk77wmo.

[8]Cortes C,Mohri M,Rastogi A.An Alternative RankingProblem for Search Engines[C]//International Conference on Experimental Algorithms.Springer-Verlag,2007:1-22.

[9]Leighton,H.V.,&Srivastava,J.First 20 Precision Among World Wide Web Search Services(Search Engines)[J].Journal ofAmerican Society for Information Science,1999(10 ):870-881.

猜你喜歡
搜索引擎用戶信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 专干老肥熟女视频网站| 久久伊人操| 亚洲Av综合日韩精品久久久| 国产97色在线| 伊人丁香五月天久久综合| 久久亚洲综合伊人| 久久精品国产精品一区二区| 露脸国产精品自产在线播| 这里只有精品免费视频| 亚洲成人精品在线| 国产成人永久免费视频| 成人国产精品一级毛片天堂 | 久草视频精品| 一本大道在线一本久道| 久久国产精品娇妻素人| 扒开粉嫩的小缝隙喷白浆视频| 亚洲swag精品自拍一区| 日韩 欧美 小说 综合网 另类| 国产一区免费在线观看| 91蝌蚪视频在线观看| 亚洲国产成人久久精品软件| 就去色综合| 国产精品美人久久久久久AV| 欧美a在线视频| 99re视频在线| 亚洲精品麻豆| 99热这里只有精品免费| 久久精品国产999大香线焦| 日韩免费视频播播| 激情国产精品一区| 毛片视频网址| 精品国产一区二区三区在线观看 | 91色在线观看| 国产在线日本| 成年人国产网站| 在线欧美一区| 亚洲欧美在线综合一区二区三区| 人妻丰满熟妇AV无码区| 永久天堂网Av| 四虎影视无码永久免费观看| 国产黄色免费看| 九九九国产| 亚洲精品国产日韩无码AV永久免费网| 欧美午夜视频在线| 男人天堂亚洲天堂| 日韩无码视频网站| 国产另类视频| 亚洲视频免费在线看| 国产精品成人一区二区| 国产亚洲一区二区三区在线| 人妻熟妇日韩AV在线播放| a级毛片在线免费| 国产在线视频自拍| 久久精品中文字幕免费| 国产亚洲视频在线观看| 国产成人在线小视频| 国产亚洲精品在天天在线麻豆 | 国产午夜不卡| 久99久热只有精品国产15| 日本免费高清一区| 精品久久久无码专区中文字幕| 午夜视频在线观看区二区| 福利在线不卡| 精品国产自在在线在线观看| 男女性色大片免费网站| 亚洲 成人国产| 久久香蕉国产线看观看亚洲片| 四虎永久在线视频| 亚洲AV无码不卡无码| 国产精品区视频中文字幕| 国产精品第| 久久精品国产91久久综合麻豆自制| 亚洲精品波多野结衣| 99热最新网址| 成人在线观看一区| 国产精品精品视频| 成人午夜网址| 中文字幕亚洲第一| 日本高清免费一本在线观看| 91在线激情在线观看| 国产伦精品一区二区三区视频优播 | аv天堂最新中文在线|