999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SES通用爬行器的設計與實現

2011-06-08 03:35:12文必龍
關鍵詞:搜索引擎內容用戶

文必龍,葉 靜

(東北石油大學計算機與信息技術學院,黑龍江 大慶 163318)

信息社會的快速發展使得信息的容量達到了空前的高度.在大部分行業中,企業內容每年增加一倍以上.重要而敏感的內容遍及各處,它們存在于企業的數據庫中,電子郵件的附件中,專用內容管理服務器中、分布式文件系統或私人工作區中,以及內部網和面向公眾的網站中.用戶需要有效的企業搜索,將分布各處的信息轉化為運營優勢,企業搜索引擎[1]成為研究熱點.企業搜索引擎與因特網搜索引擎比較具有其特殊的特性[2]:企業搜索引擎需要面向企業網,對企業內部的信息資源進行搜索;因特網搜索引擎的搜索對象是網頁和多媒體文件,而企業搜索引擎可以對企業數據庫進行搜索;因特網搜索的內容和展現的信息都是完全開放,不存在安全性問題,但企業的數據涉及企業的核心利益,要求具有很高的保密性;因特網搜索和展現的內容都是網頁和文件的原始形態,但企業數據庫中的數據有的是以編碼形式保存,需要進行專門的語義處理和代碼轉換,變成用戶能讀懂的文字、圖形和報表等方式.

數據采集[3]是搜索引擎工作的第一步,只有相關的信息被爬行器抓取到才能進行下一步的數據分析工作.由于企業搜索引擎素要處理的信息[4]包括了大量的異構數據庫和異構文檔,需要對不同類型的信息書寫不同的處理函數以提取文本.本文根據企業搜索引擎的相關特性,開發出基于SES的通用爬行器.該爬行器可以對 Lotus/Domino的相關內容、基于Microsoft SharePoint Server(SPS)門戶網站、基于Content Management System(CMS)內容管理系統、企業數據庫(Oracle和Sql Server)和FTP上的相關內容進行爬行.從爬行效果上都必須滿足對數據源的完全爬行,對于Domino、FTP的相關內容還應提供增量爬行機制,即采集新增的或有更新情況的文檔,保證了搜索的時效性.

1 SES簡介

Secure Enterprise Search(SES)安全企業搜索,是由Oracle公司針對企業用戶的企業搜索需求推出的一款安全企業搜索產品,并提供了用于二次開發的相應的接口.Oracle搜索解決方案基于Oracle數據庫構建(定期對可靠性和安全性進行檢查),為搜索提供了高度安全的基礎.Oracle與主要的認證機制和庫進行了集成,用戶不僅可以安全有效地查找信息、緩解信息過載,還可以發掘深層內聯網中難以觸及的隱藏信息.

SES提供的搜索器是一個多線程Java應用程序,負責從用戶在配置期間指定的數據源中收集文檔.要搜索其他信息庫,SES搜索器允許用戶定義特定“數據源”.搜索器也可以通過“插件”擴展(插件是Oracle提供的或客戶開發的Java類,與搜索應用程序運行在同一個OC4J容器中).在定義插件后,它們將作為新數據源列出.在進行配置后,插件可以將數據提供給搜索器,并且可以像其他數據源一樣進行索引.從技術上講,插件負責收集指向要索引文檔的URL,它們將這些URL傳遞給搜索器進行索引.用戶可以根據自己的實際需求,利用SES提供的相應接口,按照一定的規范實現自己的插件.

2 系統設計

2.1 總體設計

本系統采用分層設計,結構清晰,可擴展性強.系統的總體結構如圖1所示.

圖1 系統總體結構

數據采集是企業搜索引擎工作的第一步,通過SES提供的相應接口開發出通用爬行器插件,根據需要爬取數據源類型的不同,選擇相應的爬行器類型并填寫好爬行參數,對爬取的數據進行索引,并存儲到索引庫當中.用戶在Web界面中輸入相應的關鍵詞并對其進行簡單的切詞操作后提交到企業搜索引擎當中,將命中的結果的前200條分頁顯示在界面當中.

2.2 爬行器設計

SES提供了相應的接口供用戶開發符合自己需求的爬行器插件,本系統利用了這些接口開發了通用爬行器插件,該爬行器可以對Lotus/Domino的相關內容、基于Microsoft SharePoint Server(SPS)門戶網站、企業數據庫(Oracle和 Sql Server)和FTP上的相關內容進行爬行.從爬行效果上滿足了對數據源的完全爬行和對部分數據源的增量爬行.

圖2為爬行器的系統架構,其中①②③④⑤為爬行器的工作順序,具體工作流程如下.

圖2 爬行器的系統架構

1)通過源類型注冊,系統知道該到哪個jar文件中查找實現CrawlerPluginManager的類名,該類是爬行器程序的入口.

2)創建源時選擇源類型,系統通過調用管理器類的三個成員函數:getPluginParameters、getPluginDescription和 getPluginName,獲取插件名稱、描述和參數表,其中getPluginParameters返回一組類型為List的參數列表,系統根據列表中的參數名、參數描述和缺省值自動生成參數輸入界面.

3)啟動爬行后,調用初始化函數init(ParameterValues params,boolean forceRecrawl,Date last-CrawlTime,GeneralService generalMgr,int thread-Count),即向管理器類傳遞爬行模式、上次爬行時間、線程數等相應參數.此外,將提供一個輔助服務類(GeneralService generalMgr)傳遞給管理器類,管理器類通過輔助服務類可以獲取系統的各種服務.CrawlerCtrl類為各種數據源的連接及獲取相關內容的管理類,例如,getFileList(String path)可獲得ftp服務器上path目錄下包括子目錄的所有文件列表,LotusAttachment(String dominoURL,String username,String password,String DBname,String Form)可獲得domino服務器上某個表單下的所有附件.對實例化CrawlerCtrl類后得到的結果進行處理,得到文檔鏈接,將其和文檔的最后修改時間拼接后作為唯一的DisplayURL放入隊列中,采用修改時間作為文檔修改的主要標志,實現對domimo和ftp數據源的增量爬行.

4)調度系統在通過init完成管理器類的初始化后,然后調用管理器類getCrawlerPlugin函數,從管理器類中獲得爬行器對象.在getCrawlerPlugin函數中,管理器類創建一個爬行器類的對象,并用系統在init中傳過來的參數對其進行初始化.

5)調度系統用管理器類的getCrawlerPlugin方法獲得爬行器對象后,調用爬行器對象的crawler方法,啟動爬行.crawler方法根據系統傳遞過來的源定義參數,如數據服務器地址、用戶名、口令、文件目錄、爬行的域或屬性、關鍵字等內容,完成以下工作.

①從隊列中依次取出DisplayURL,建立與數據服務器的聯接,查詢出對應的文檔.

②對每一個文檔,獲取其屬性(如標題、最后修改時間、文檔的顯示URL、作者等),根據這些屬性建立一個元數據對象(類DocumentMetadata的實例).

③對每一個文檔,建立一個讀取文件的流對象(InputStream類的實例).

④將元數據對象和流對象提交給爬行線程服務器CrawlingThreadService.

爬行線程服務器在接到提交的元數據對象和流對象后,就會調用流對象獲取文檔內容,根據內容格式調用相應的過濾器(如word、PDF、Excel等基本格式)進行格式分析、內容過濾、建立索引、派生線程等.

3 系統實現

本系統分后臺搜索管理模塊和前臺搜索請求模塊兩部分.后臺搜索管理模塊從總體上分為:搜索前準備、搜索過程控制和搜索成果管理等.前臺搜索請求模塊主要負責對已爬行到的結果進行檢索.

3.1 后臺搜索管理模塊設計

后臺管理模塊需要設置所要爬行的數據源的必要信息,包括數據源名稱、服務器地址、用戶名、密碼、所要爬行內容對應的相關實體和屬性.例如,Domino爬行器程序的界面如圖3所示.通過日志模塊可以查看整個爬行的運行狀態,如圖4所示.

圖3 Domino爬行器主界面

圖4 爬行運行狀態

3.2 前臺搜索請求模塊設計

搜索請求界面是企業搜索引擎系統提供的首界面,頁面簡單明了,用戶只需輸入關鍵字,點擊“搜索”按鈕即可.

4 結語

主要實現基于SES的通用爬行器程序以及基于企業搜索引擎的搜索程序.該通用爬行器可以對企業數據庫、門戶網頁、文檔文件、辦公系統內容等進行抓取和分析,提取有用文字信息,并對這些信息建立索引.該爬行器既提升了信息的可訪問性,也保證了企業內部的敏感信息的安全性.用戶通過后臺搜索管理界面填寫相應參數,讓爬行器只爬取特定的數據源,前臺搜索請求模塊可以對已爬行到的數據源進行檢索,通過對用戶的身份進行確認,從而可以給用戶提供安全搜索模式.

[1]文必龍,李 添.企業搜索引擎安全搜索的研究[J].齊齊哈爾大學學報,2010(5):1-3.

[2]李海豐.基于Lucene的企業搜索引擎研究及應用[J].電腦知識與技術,2009(4):926-929.

[3]鄭 偉.數據采集系統的設計研究[J].電腦與信息技術,2010,18(6):33-35.

[4]姜 華.基于Lucene的面向商業應用的搜索引擎研究與實現[D].成都:電子科技大學,2007:48-76.

猜你喜歡
搜索引擎內容用戶
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 五月丁香在线视频| 国产欧美专区在线观看| 久久91精品牛牛| 成人午夜视频在线| 亚洲中文久久精品无玛| 91人妻在线视频| 在线看AV天堂| 人妻丝袜无码视频| 国产精品网拍在线| 国产精品女人呻吟在线观看| 亚洲激情区| 中文成人无码国产亚洲| 一区二区午夜| 啪啪啪亚洲无码| 性欧美久久| 亚洲V日韩V无码一区二区| 欧美国产中文| 亚洲an第二区国产精品| 国产成人亚洲综合A∨在线播放 | 久久国产亚洲偷自| 无码网站免费观看| 97国产精品视频自在拍| 亚洲国产日韩一区| 制服丝袜无码每日更新| 久久99热这里只有精品免费看| 亚洲成人黄色在线| 一区二区三区四区日韩| yy6080理论大片一级久久| 鲁鲁鲁爽爽爽在线视频观看| 日韩经典精品无码一区二区| 国产在线视频福利资源站| 美女免费精品高清毛片在线视| 免费看黄片一区二区三区| 亚洲欧洲日韩国产综合在线二区| 亚洲精品va| 国产精品片在线观看手机版| 亚洲精品视频在线观看视频| 熟女视频91| 欧美日韩精品一区二区视频| 久久永久视频| 国产日韩AV高潮在线| 国产微拍精品| 国产成人亚洲无码淙合青草| lhav亚洲精品| 国产另类视频| 在线观看视频一区二区| 青草91视频免费观看| 国产精彩视频在线观看| 国产肉感大码AV无码| 欧美不卡视频在线观看| 五月婷婷亚洲综合| 日韩欧美成人高清在线观看| 日本成人精品视频| 真实国产精品vr专区| 91口爆吞精国产对白第三集| 精品国产电影久久九九| 国产白浆视频| 国内a级毛片| 精品国产Av电影无码久久久| 亚洲精品制服丝袜二区| 久操中文在线| 亚洲国产精品久久久久秋霞影院| 午夜a级毛片| 97国产在线观看| 999福利激情视频| 亚洲中久无码永久在线观看软件| 中文字幕无码中文字幕有码在线 | 亚洲精品午夜天堂网页| 免费在线看黄网址| 青青青国产精品国产精品美女| 黄色网页在线观看| 第一区免费在线观看| 青青青国产免费线在| 国产极品嫩模在线观看91| 欧类av怡春院| 国产成人成人一区二区| 亚洲免费福利视频| 高清无码不卡视频| 久久精品中文字幕免费| 亚洲男女天堂| 成人韩免费网站| 国产成人综合久久精品下载|