高校就業(yè)信息平臺(tái)的垂直搜索引擎實(shí)現(xiàn)

2013-01-01 00:00:00徐勇薛建芳

中小企業(yè)管理與科技·下旬刊 2013年3期

摘要：利用開(kāi)源軟件Lucene工具包實(shí)現(xiàn)一個(gè)基于垂直搜索的高校就業(yè)信息平臺(tái)，為大學(xué)生就業(yè)提供專業(yè)對(duì)口、內(nèi)容全面、權(quán)威準(zhǔn)確的就業(yè)信息，大力促進(jìn)高校畢業(yè)生的就業(yè)。

關(guān)鍵詞：Lucene 垂直搜索就業(yè)

1 概述

近年來(lái)，隨著高校擴(kuò)招規(guī)模的逐年加大，畢業(yè)生數(shù)目也隨之水漲船高，各大城市招聘市場(chǎng)的火爆場(chǎng)面更是讓眾多的畢業(yè)生望而生畏。通過(guò)網(wǎng)絡(luò)平臺(tái)發(fā)布就業(yè)/招聘信息越來(lái)越受到大學(xué)生和企業(yè)雙方的重視。本文采用開(kāi)源工具包Lucene實(shí)現(xiàn)了一個(gè)基于B/S模式的高校就業(yè)信息平臺(tái)，為大學(xué)生提供專業(yè)對(duì)口、信息準(zhǔn)確、實(shí)時(shí)高效、可以設(shè)定就業(yè)地域/薪酬水平等等的垂直搜索服務(wù)。

2 高校就業(yè)信息平臺(tái)的總體框架

本系統(tǒng)包括以下模塊：

2.1 信息采集模塊本模塊采用網(wǎng)絡(luò)蜘蛛自動(dòng)采集網(wǎng)頁(yè)信息，獲取與招聘信息有關(guān)的網(wǎng)頁(yè)，并對(duì)這些網(wǎng)頁(yè)進(jìn)行存儲(chǔ)，之后運(yùn)用信息抽取技術(shù)，提取出網(wǎng)頁(yè)的結(jié)構(gòu)化信息，如招聘企業(yè)的地址、工作類別、工資待遇、相關(guān)要求等，并將這些數(shù)據(jù)存入數(shù)據(jù)庫(kù)當(dāng)中，為用戶提供查詢和檢索信息。

2.2 數(shù)據(jù)庫(kù)管理模塊本平臺(tái)主要包括兩個(gè)數(shù)據(jù)庫(kù)。網(wǎng)頁(yè)采集數(shù)據(jù)庫(kù)：用于存儲(chǔ)網(wǎng)絡(luò)蜘蛛已經(jīng)采集到的網(wǎng)頁(yè)信息，已經(jīng)發(fā)現(xiàn)但是還沒(méi)有遍歷的新URL列表，網(wǎng)頁(yè)權(quán)值的存儲(chǔ)以及索引和數(shù)據(jù)字典信息存儲(chǔ)等等。信息數(shù)據(jù)庫(kù)：用于存儲(chǔ)所有招工單位的基本信息。包括企業(yè)名稱、地址、電話、招工崗位、薪酬、和其他具體要求等等。

2.3 信息檢索顯示模塊此模塊是用戶和該平臺(tái)的一個(gè)信息交互窗口，給用戶提供最終的查詢結(jié)果，同時(shí)還提供了供用戶選擇的查詢方式。用戶可以根據(jù)自己的需要選擇查詢方式和顯示方式，最終在此模塊中對(duì)用戶展現(xiàn)結(jié)果。

3 系統(tǒng)實(shí)現(xiàn)

3.1 網(wǎng)頁(yè)信息抓取在本環(huán)節(jié)中，系統(tǒng)使用元搜索引擎根據(jù)用戶輸入的關(guān)鍵字獲取相關(guān)的內(nèi)容，然后派出網(wǎng)絡(luò)蜘蛛抓取相關(guān)的網(wǎng)頁(yè)，經(jīng)過(guò)一系列的處理以后存入索引庫(kù)以供以后的查詢使用。

為了保證檢索精度，對(duì)抓取網(wǎng)頁(yè)的HITS算法進(jìn)行了改進(jìn)。描述如下：第一步：初始化，把網(wǎng)頁(yè)的Authority權(quán)值和Hub權(quán)值初值都設(shè)為1；第二步：按照規(guī)則，把所有鏈接的Authority和Hub權(quán)值計(jì)算出來(lái)；第三步：按照下面的公式進(jìn)行計(jì)算，直到收斂。Ai=■Hj*Authority j，i

3.2 使用如下正則達(dá)式來(lái)限制網(wǎng)絡(luò)蜘蛛的爬行范圍：

#accept hosts in .DOMAINBEACCEPT.NAME

+^http：//（[a-z0-9]*＼.）*招聘網(wǎng)站URL

3.3 頁(yè)面信息分析常見(jiàn)的就業(yè)招聘信息網(wǎng)頁(yè)都是通

過(guò)類似于表格的結(jié)構(gòu)化形式對(duì)招聘信息進(jìn)行描述的。針對(duì)網(wǎng)頁(yè)的HTML源碼使用如下算法抽取單位信息：第一步：去掉HTML中的標(biāo)記和網(wǎng)頁(yè)描述符號(hào)，得到網(wǎng)頁(yè)中描述招工單位的具體內(nèi)容的詞語(yǔ)或詞組，采用分隔符將這些詞隔開(kāi)。這樣在網(wǎng)頁(yè)HTML描述中就只剩下“單位”、“職位”、“工資”、“日期”、“兼職”等字段。第二步：根據(jù)網(wǎng)頁(yè)中的注釋符號(hào)將網(wǎng)頁(yè)中說(shuō)明程序功能的注釋提取出來(lái)，將這些注釋與招工單位的一些描述性文字進(jìn)行比對(duì)，得到招工單位的一些信息。第三步：本平臺(tái)中的招工信息數(shù)據(jù)庫(kù)中存儲(chǔ)了一些相關(guān)的職位信息字段，把從網(wǎng)頁(yè)中獲取到的相關(guān)字段和上述數(shù)據(jù)庫(kù)中的字段進(jìn)行比對(duì)和分析，可以獲得比較良好的匹配度。第四步：根據(jù)前面的比較得到匹配字段后，按照順序取出這些匹配字段：如“聯(lián)想集團(tuán)、銷售人員、3000/月、2010-12-8”作為相應(yīng)字段的值存入數(shù)據(jù)庫(kù)中。第五步：將前四步循環(huán)，當(dāng)遇到下一個(gè)代碼“！”時(shí)停止。第六步：上述環(huán)節(jié)結(jié)束后將網(wǎng)頁(yè)的URL添加到數(shù)據(jù)庫(kù)中，然后由人工的方式進(jìn)行處理。在本平臺(tái)運(yùn)行的過(guò)程中，可以實(shí)現(xiàn)動(dòng)態(tài)調(diào)整。在試運(yùn)行階段發(fā)現(xiàn)，如果用戶輸入的關(guān)鍵字和數(shù)據(jù)庫(kù)中的相關(guān)字段匹配程度較高，本平臺(tái)可以實(shí)現(xiàn)高達(dá)90%以上的查詢精確度。

3.4 建立系統(tǒng)索引本文使用如下方法建立系統(tǒng)索引：①讀取招聘信息數(shù)據(jù)庫(kù)中的內(nèi)容，然后創(chuàng)建一個(gè)實(shí)現(xiàn)了與數(shù)據(jù)庫(kù)鏈接方法和讀取數(shù)據(jù)庫(kù)內(nèi)容方法的類。②創(chuàng)建高校學(xué)生就業(yè)平臺(tái)和Lucene的交互接口。③為存儲(chǔ)高校學(xué)生就業(yè)單位的數(shù)據(jù)庫(kù)建立索引。

3.5 信息檢索本平臺(tái)獲取到用戶輸入的查詢關(guān)鍵字后，通過(guò)Lucene接口將關(guān)鍵字提交給查詢分析器，查詢分析器將關(guān)鍵字分析轉(zhuǎn)換成基本的關(guān)鍵字的邏輯組合用來(lái)執(zhí)行搜索過(guò)程，檢索結(jié)束后返回一個(gè)命中集。用戶在進(jìn)行檢索的時(shí)候可以選擇查詢范圍和條件。

4 總結(jié)

本論文使用開(kāi)源工具包Lucene實(shí)現(xiàn)了高校就業(yè)信息平臺(tái)。通過(guò)使用垂直搜索技術(shù)實(shí)現(xiàn)了對(duì)大學(xué)生就業(yè)信息專業(yè)化、高精度的深入檢索，避免了通用搜索引擎寬泛的缺陷，給大學(xué)生就業(yè)提供了一個(gè)專業(yè)對(duì)口、信息實(shí)時(shí)、準(zhǔn)確、全面的搜索工具。

參考文獻(xiàn)：

[1]陳向東.寵物用品垂直搜索引擎研究與設(shè)計(jì)[M].西北農(nóng)林科技大學(xué)，2010.

[2]苗海.基于聚類算法的垂直搜索引擎技術(shù)研究，北京信息科技大學(xué)學(xué)報(bào)，2013.

[3]郭姣.基于WebGIS的五金產(chǎn)業(yè)信息搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[M].山西財(cái)經(jīng)大學(xué)，2011.

[4]馮效棟.垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用[M].中國(guó)海洋大學(xué)，2010.

中小企業(yè)管理與科技·下旬刊2013年3期

中小企業(yè)管理與科技·下旬刊的其它文章: 頂管技術(shù)在市政工程中的應(yīng)用; 試論網(wǎng)絡(luò)民意對(duì)當(dāng)代政府管理的現(xiàn)實(shí)影響及其應(yīng)對(duì); 基于S7—300的步進(jìn)運(yùn)動(dòng)控制系統(tǒng)研究; 淺談ORACLE GoldenGate在企業(yè)數(shù)據(jù)庫(kù)中的應(yīng)用; 移動(dòng)設(shè)計(jì); 公共產(chǎn)品的定價(jià)機(jī)制及問(wèn)題分析