999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向教育主題的垂直搜索引擎的設計與實現

2013-08-08 09:52:48王樹文1鄭闊實2陳竟博3
長春師范大學學報 2013年4期
關鍵詞:搜索引擎頁面數據庫

王樹文1,鄭闊實2,陳竟博3

(1.吉林省計算中心,吉林長春 130012;2.中共吉林省委黨校(吉林省行政學院),吉林長春 130012;3.吉林大學計算機科學與技術學院,吉林長春 130012)

隨著互聯網技術的快速發展和網絡信息量的爆炸式增長,如何快速、有效、準確地從海量信息中獲取所需的有價值的信息,越來越受到人們的關注。通用搜索引擎在信息采集、存儲等方面都面臨著很大的挑戰。通用搜索引擎試圖返回面向所有用戶的查詢結果,使得其搜索到的信息量過大、查準率低、深度不夠,不能滿足針對某一特定領域精確搜索的要求。在這樣的背景下,垂直搜索引擎應運而生。它是一種與通用搜索引擎截然不同的搜索模式,是專門針對某一領域的專業搜索引擎。其特點就是專、精、深,具有行業色彩,是通用搜索引擎的細分和延伸[1]。

在教育資源數字化、網絡化的趨勢下,互聯網上產生了大量分布廣泛、不同格式的教育資源,專門針對教育領域的數字化教育資源搜索成為垂直搜索引擎的重要應用之一,其可以為人們提供大量有價值的綠色教育信息,比如數字圖書搜索、教育視頻搜索、考試信息搜索、名師介紹搜索等。本文設計的面向教育領域的垂直搜索引擎系統在通用搜索引擎的技術基礎上,采用了面向教育主題網絡蜘蛛選擇性的收集僅包含教育主題相關信息的網頁,建立面向教育主題的網頁數據庫,并把網頁中非結構化信息提取、轉化為結構化數據,建立索引數據庫。最后以檢索的方式同用戶進行信息交互,為用戶提供面向教育主題的垂直搜索服務。

通用搜索引擎系統主要由采集器、索引器、檢索器、相關數據庫及用戶接口等部分組成[2],而本文設計的面向教育主題的垂直搜索引擎為了實現查詢結果與教育主題相關,還需要增加面向主題的特征詞數據庫及主題相關性計算器,用于判斷爬取的網頁信息是否與主題相關。

1 垂直搜索引擎的體系結構設計

面向教育主題的垂直搜索引擎系統主要包含信息采集模塊與主題識別模塊、信息抽取與索引模塊、用戶接口與信息檢索模塊三部分,總體結構設計如圖1所示。

圖1 面向教育主題垂直搜索引擎總體結構設計圖

1.1 教育主題信息采集與主題識別模塊

在信息采集模塊中,運用面向教育主題的網絡蜘蛛對教育主題相關信息進行抓取,這是搜索引擎的第一個步驟。從某一個具有主題意義的種子URL開始,按照深度優先算法,采用多線程并行抓取方式自動在互聯網上搜索爬行。遍歷教育領域的門戶網站,抓取與教育主題相關的網頁,采集網頁信息,抽取并壓縮網頁內容存入原始數據庫中,然后跳轉到網頁中鏈接指向的其他網頁,直至遍歷整個網絡。

在此過程中,運用主題識別算法對網絡蜘蛛所采集的頁面進行主題相關性判斷,根據計算得到的相關度結果,對采集到的網頁進行取舍,將相關度大于預先設定的閾值的網頁保存到面向主題網頁數據庫中,舍棄與主題不相關的網頁。這垂直搜索引擎的核心部分,可以控制信息采集的規模,保證采集到的信息的專業性,提高搜索的準確性。

1.2 信息抽取與索引模塊

信息抽取與索引模塊對存儲于面向主題數據庫中的大量結構和非結構化的數據進行抽取,將網頁主題塊中特定的結構化信息抽取出來。并進行過濾、分詞等預處理操作,構造索引,計算詞的權值按檢索結果合理排序,并存入索引數據庫中。

1.3 用戶接口與信息檢索模塊

用戶接口與信息檢索模塊是接受用戶輸入查詢請求并將查詢結果反饋給用戶的接口界面。模塊首先對用戶輸入的搜索關鍵字、排序方式進行分詞等信息分析處理,然后在索引數據庫中查找到包含搜索關鍵詞的文本記錄,并根據相關度評價和用戶需要將記錄排序,最后以超級鏈接的形式將提取網頁的摘要信息反饋給用戶。

2 面向主題的垂直搜索引擎關鍵技術

2.1 面向教育主題的網絡蜘蛛設計

為了盡可能多地實現對教育主題相關網頁信息的自動獲取,本文在通用搜索引擎的基礎上設計了一個面向教育主題的網絡蜘蛛系統模型,它是面向教育主題垂直搜索引擎系統的核心部分[3]。面向教育主題網絡蜘蛛系統模型主要由信息采集模塊、頁面解析與過濾模塊、主題相關性計算器、鏈接剪枝控制器4部分構成。頁面采集模塊主要負責從初始URL隊列出發,通過HTTP協議請求并下載web頁面,采集URL指向的頁面信息,送入頁面解析與過濾模塊中。本文采用了多線程并發技術,大大提高了頁面采集效率[4]。頁面解析與過濾對下載到原始數據庫中的頁面信息進行消重處理,解析web頁面,提取例如鏈接文本、結構信息、鏈接URL地址等數據。主題相關性計算器主要是對網址解析與過濾模塊中提取的網頁內容文本進行主題相關性判定,將主題相關度大于預先設定閾值的網頁保存在面向主題數據庫中,過濾掉與主題相關度較低或不相關的頁面,從而保證網絡所采集頁面的主題的相關性與專業性。鏈接剪枝控制器的任務是從與經過過濾后得到的主題相關的頁面中抽取出鏈接URL,并采用主題相關計算方法對URL進行篩選,將有價值的URL暫存在待搜索URL隊列中,按照主題相關度大小進行排序,相關度越高的越先被訪問。

面向教育主題的網絡蜘蛛工作流程如圖2所示。面向教育主題的網絡蜘蛛首先依次從人工預設的種子URL隊列中取出以獲取URL,訪問該URL指向的網頁并解析其內容,使用主題相關性計算方法計算頁面及頁面內URL鏈接的主題相關度,將與主題相關的網頁信息存入面向主題網頁數據庫中,將頁面中與主題相關的URL加入待搜索URL隊列中。不斷從待搜索URL隊列中取出URL進行訪問,這樣迭代訪問web,直到遍歷整個web或滿足某一條件為止。

圖2 面向教育主題的網絡蜘蛛設計模型圖

2.2 向量空間模型

本文采用了計算頁面主題相關度時使用較多、效果較好的數學模型VSM(veclor space modle)[5],對網頁內容與主題的相關程度進行評價,保留與主題相關度大于設定閾值的頁面,過濾掉與主題相關度較低或不相關的頁面,以提高采集頁面的準確性。

在VSM中,將網頁看成由相互獨立的詞條組成,將教育領域主題詞庫看作一個n維向量(c1,c2,…,cn),n為教育領域主題詞庫中關鍵詞的個數,頁面Pi可以表示成一個一維向量P=(w1c1,w2c2,…,wncn)。其中,wi為評價教育領域主題詞庫中關鍵詞ci在頁面P中重要程度的權值。若關鍵詞ci未在頁面P中出現,則權值wi值為0。本文中權值wi采用傳統的TF-IDF算法計算,其計算公式為:

其中,cFi為關鍵詞cj在頁面Pi中出現的頻率,由于關鍵詞在頁面中出現的位置不同,重要程度也不同,所以cj在頁面Pi中出現的頻率cFi應該由在標題和正文出現次數加權求和來計算。

這樣,頁面與主題相關度問題就轉化為向量空間的矢量匹配問題,可利用向量空間中向量間夾角的余弦值來度量目標網頁與主題的相關度,向量間夾角的余弦值越小則兩者相似度越高,算法流程如下。

(i)在初始種子集合的URL指向頁面中提取關鍵詞并加權,得到關于教育主題的特征向量及向量權值。

(ii)分別對目標網頁的標題和正文內容進行分詞、篩選并合并關鍵詞,得到目標網頁關于教育主題的特征向量,根據關鍵詞在文章中出現的位置和頻率計算其權重。(iii)根據公式(3)計算目標網頁與主題的相關度值。

其中wic為關鍵詞ci在主題詞向量中C的權重。

(iv)將計算得到的目標網頁的相關度與閾值s進行比較,若相關度大于閾值,則將目標網頁存于面向主題網頁數據庫中,否則,忽略此頁面。

2.3 基于Lucene索引的創建

垂直搜索引擎在同一時間會接受大量的用戶的查詢請求,這就要求索引模塊完成大量的運算操作,以提高檢索模塊的工作效率。Lucene是用JAVA實現的開放源代碼的全文檢索引擎工具包,是一個高性能、可伸縮的信息搜索庫[7],本文正是基于Lucene技術建立索引,其工作方式如圖3所示。

圖3 索引建立流程圖

索引網頁庫存儲鏈接與其指向網頁的映射。文本解析器用來分析和處理不同格式的文檔,提取正文信息、過濾垃圾信息、中文分詞切分索引項等操作,形成統一格式的文檔,存儲于文本中間格式數據庫中。由于中文構詞方式的差異,需要對中文網頁進行分詞,以便建立索引文件。本文采用雙向哈希索引詞典,對數據庫中中文網頁進行分詞處理。文本中間格式數據庫存儲經文本解析器提取、過濾、分詞等操作的數據,數據格式為純文本格式,為索引器提供可分析數據。索引器是垂直搜索引擎中用來分析處理文本中間格式數據庫中的非結構化文檔信息、建立索引的程序,主要任務是按照預設的索引項建立索引列表、更改索引字典。文本索引庫中存儲以索引形式組織存放的文檔信息數據文件,一般的數據庫系統不能同時滿足大量用戶的查詢請求,所以在本系統中采用了倒排索引技術。創建倒排索引包括建立正向索引、創建反向索引、歸并索引等操作。將存放詞和編碼意義映射關系存儲于索引字典中。

2.4 檢索與用戶接口模塊

面向教育主題的垂直搜索引擎通過檢索模塊實現與用戶的交互,系統對通過接口輸入的查詢短語進行分詞等操作,將它傳送至檢索器,檢索器根據查詢項在索引文件上查找,按照與查詢項相關程度排序,并將結果通過用戶接口呈獻給用戶。其主要流程如下:

(1)通過用戶接口接受用戶的查詢項,并對其進行分析、分詞等處理。

(2)搜素包含關鍵詞的網頁,過濾掉與查詢項不相關的網頁。

(3)按照與查詢項相關度大小對匹配的網頁排序,以鏈接形式呈現給用戶。

3 系統實現

本文采用Java開發的開源的主題網絡蜘蛛從吉林省內各中小學校、培訓機構網站上爬取與教育主題相關的信息資源,利用主題相關度算法判斷爬取到的信息的主題相關性,后對信息進行分析和提取、運用、擴展,并成功應用luene極其相關技術,構建了檢索結果比較精準的面向教育主題的垂直搜索引擎系統,為人們提供了大量的綠色教育資源,極大地方便了人們的日常生活。

4 結論

本文詳細描述了面向教育主題的垂直搜索引擎系統的總體設計,從教育領域信息搜索的實際出發,著重研究了主題網絡蜘蛛、向量空間模型、倒排索引建立等關鍵技術,并給出了具體的實現細節。在此基礎上,開發了一個面向教育主題的垂直搜索引擎,該系統能夠有效地采集分散的教育主題相關網頁,形成面向教育主題網頁數據庫,快速地響應用戶的查詢請求,準確地返回相關度較高的網頁,實現了教育資源的共享,具有較高的社會價值。

[1]劉暢.綜合搜索引擎與垂直搜索引擎的比較[J].情報科學,2007,25(1):97-102.

[2]閆俊英.垂直搜索引擎的研究與實現[D].哈爾濱:哈爾濱工業大學,2004.

[3]張博,蔡皖東.面向主題的網絡蜘蛛技術研究與系統實現[J].微電子學與計算機,2009,26(5):52-55.

[4]彭濤.面向專業搜索引擎的主題爬行技術研究[D].長春:吉林大學,2007.

[5]張昌年.一種基于VSM的檢測相似重復記錄的方法[J].微電子學與計算機,2008(8):184-187.

[6]朱學昊,王儒敬,余鋒林,等.基于Lucene的站內搜索設計與實現[J].計算機應用與軟件,2008,25(10):6-8.

猜你喜歡
搜索引擎頁面數據庫
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
同一Word文檔 縱橫頁面并存
主站蜘蛛池模板: 国产免费羞羞视频| 亚洲精品第一在线观看视频| 激情無極限的亚洲一区免费| 免费国产黄线在线观看| 国产在线97| 久久99这里精品8国产| 热久久这里是精品6免费观看| 黄色在线网| 伊人久久福利中文字幕| 成人av专区精品无码国产| aaa国产一级毛片| 777午夜精品电影免费看| 久久鸭综合久久国产| 亚洲天堂免费在线视频| 亚洲国产亚洲综合在线尤物| 玖玖免费视频在线观看| 久综合日韩| 亚洲一级毛片在线播放| 真实国产精品vr专区| 激情无码字幕综合| 在线观看精品国产入口| 五月六月伊人狠狠丁香网| 国产麻豆精品久久一二三| a级毛片毛片免费观看久潮| 欧美色香蕉| 黄色网站不卡无码| 国产原创演绎剧情有字幕的| 91丨九色丨首页在线播放| 青青青国产视频手机| 国产剧情国内精品原创| www.91在线播放| 99精品视频在线观看免费播放| 久久精品国产一区二区小说| 成人福利视频网| 久久香蕉国产线| 成人午夜视频网站| 国产午夜小视频| 欧美一级大片在线观看| 亚洲无码高清一区二区| 99在线小视频| 福利小视频在线播放| 久久9966精品国产免费| 亚洲成a人片7777| 国产jizzjizz视频| 一级毛片a女人刺激视频免费| 3344在线观看无码| 亚洲久悠悠色悠在线播放| 大陆国产精品视频| 欧美α片免费观看| 69av在线| 青青操视频在线| 99热免费在线| 在线国产三级| 一区二区三区成人| 欧美成人影院亚洲综合图| 国产成人调教在线视频| 91色爱欧美精品www| 99久久人妻精品免费二区| 91在线播放免费不卡无毒| 日韩不卡高清视频| 色婷婷久久| 国产亚洲第一页| www.99在线观看| 欧美一区精品| 国产毛片一区| 欧美 亚洲 日韩 国产| 无码一区二区三区视频在线播放| 狠狠色噜噜狠狠狠狠色综合久| 亚洲最大福利网站| 日本三级黄在线观看| 四虎亚洲国产成人久久精品| 福利国产微拍广场一区视频在线 | av手机版在线播放| 国产不卡国语在线| 园内精品自拍视频在线播放| 无码内射中文字幕岛国片| 国产成人精品综合| 欧美成人免费午夜全| 欧美在线伊人| 久久精品人人做人人爽电影蜜月| 制服丝袜在线视频香蕉| 成人一区在线|