摘要:利用開(kāi)源軟件Lucene工具包實(shí)現(xiàn)一個(gè)基于垂直搜索的高校就業(yè)信息平臺(tái),為大學(xué)生就業(yè)提供專業(yè)對(duì)口、內(nèi)容全面、權(quán)威準(zhǔn)確的就業(yè)信息,大力促進(jìn)高校畢業(yè)生的就業(yè)。
關(guān)鍵詞:Lucene 垂直搜索 就業(yè)
1 概述
近年來(lái),隨著高校擴(kuò)招規(guī)模的逐年加大,畢業(yè)生數(shù)目也隨之水漲船高,各大城市招聘市場(chǎng)的火爆場(chǎng)面更是讓眾多的畢業(yè)生望而生畏。通過(guò)網(wǎng)絡(luò)平臺(tái)發(fā)布就業(yè)/招聘信息越來(lái)越受到大學(xué)生和企業(yè)雙方的重視。本文采用開(kāi)源工具包Lucene實(shí)現(xiàn)了一個(gè)基于B/S模式的高校就業(yè)信息平臺(tái),為大學(xué)生提供專業(yè)對(duì)口、信息準(zhǔn)確、實(shí)時(shí)高效、可以設(shè)定就業(yè)地域/薪酬水平等等的垂直搜索服務(wù)。
2 高校就業(yè)信息平臺(tái)的總體框架
本系統(tǒng)包括以下模塊:
2.1 信息采集模塊 本模塊采用網(wǎng)絡(luò)蜘蛛自動(dòng)采集網(wǎng)頁(yè)信息,獲取與招聘信息有關(guān)的網(wǎng)頁(yè),并對(duì)這些網(wǎng)頁(yè)進(jìn)行存儲(chǔ),之后運(yùn)用信息抽取技術(shù),提取出網(wǎng)頁(yè)的結(jié)構(gòu)化信息,如招聘企業(yè)的地址、工作類別、工資待遇、相關(guān)要求等,并將這些數(shù)據(jù)存入數(shù)據(jù)庫(kù)當(dāng)中,為用戶提供查詢和檢索信息。
2.2 數(shù)據(jù)庫(kù)管理模塊 本平臺(tái)主要包括兩個(gè)數(shù)據(jù)庫(kù)。網(wǎng)頁(yè)采集數(shù)據(jù)庫(kù):用于存儲(chǔ)網(wǎng)絡(luò)蜘蛛已經(jīng)采集到的網(wǎng)頁(yè)信息,已經(jīng)發(fā)現(xiàn)但是還沒(méi)有遍歷的新URL列表,網(wǎng)頁(yè)權(quán)值的存儲(chǔ)以及索引和數(shù)據(jù)字典信息存儲(chǔ)等等。信息數(shù)據(jù)庫(kù):用于存儲(chǔ)所有招工單位的基本信息。包括企業(yè)名稱、地址、電話、招工崗位、薪酬、和其他具體要求等等。
2.3 信息檢索顯示模塊 此模塊是用戶和該平臺(tái)的一個(gè)信息交互窗口,給用戶提供最終的查詢結(jié)果,同時(shí)還提供了供用戶選擇的查詢方式。用戶可以根據(jù)自己的需要選擇查詢方式和顯示方式,最終在此模塊中對(duì)用戶展現(xiàn)結(jié)果。
3 系統(tǒng)實(shí)現(xiàn)
3.1 網(wǎng)頁(yè)信息抓取 在本環(huán)節(jié)中,系統(tǒng)使用元搜索引擎根據(jù)用戶輸入的關(guān)鍵字獲取相關(guān)的內(nèi)容,然后派出網(wǎng)絡(luò)蜘蛛抓取相關(guān)的網(wǎng)頁(yè),經(jīng)過(guò)一系列的處理以后存入索引庫(kù)以供以后的查詢使用。
為了保證檢索精度,對(duì)抓取網(wǎng)頁(yè)的HITS算法進(jìn)行了改進(jìn)。描述如下:第一步:初始化,把網(wǎng)頁(yè)的Authority權(quán)值和Hub權(quán)值初值都設(shè)為1;第二步:按照規(guī)則,把所有鏈接的Authority和Hub權(quán)值計(jì)算出來(lái);第三步:按照下面的公式進(jìn)行計(jì)算,直到收斂。Ai=■Hj*Authority j,i
3.2 使用如下正則達(dá)式來(lái)限制網(wǎng)絡(luò)蜘蛛的爬行范圍:
#accept hosts in .DOMAINBEACCEPT.NAME
+^http://([a-z0-9]*\.)*招聘網(wǎng)站URL
3.3 頁(yè)面信息分析 常見(jiàn)的就業(yè)招聘信息網(wǎng)頁(yè)都是通
過(guò)類似于表格的結(jié)構(gòu)化形式對(duì)招聘信息進(jìn)行描述的。針對(duì)網(wǎng)頁(yè)的HTML源碼使用如下算法抽取單位信息:第一步:去掉HTML中的標(biāo)記和網(wǎng)頁(yè)描述符號(hào),得到網(wǎng)頁(yè)中描述招工單位的具體內(nèi)容的詞語(yǔ)或詞組,采用分隔符將這些詞隔開(kāi)。這樣在網(wǎng)頁(yè)HTML描述中就只剩下“單位”、“職位”、“工資”、“日期”、“兼職”等字段。第二步:根據(jù)網(wǎng)頁(yè)中的注釋符號(hào)將網(wǎng)頁(yè)中說(shuō)明程序功能的注釋提取出來(lái),將這些注釋與招工單位的一些描述性文字進(jìn)行比對(duì),得到招工單位的一些信息。第三步:本平臺(tái)中的招工信息數(shù)據(jù)庫(kù)中存儲(chǔ)了一些相關(guān)的職位信息字段,把從網(wǎng)頁(yè)中獲取到的相關(guān)字段和上述數(shù)據(jù)庫(kù)中的字段進(jìn)行比對(duì)和分析,可以獲得比較良好的匹配度。第四步:根據(jù)前面的比較得到匹配字段后,按照順序取出這些匹配字段:如“聯(lián)想集團(tuán)、銷售人員、3000/月、2010-12-8”作為相應(yīng)字段的值存入數(shù)據(jù)庫(kù)中。第五步:將前四步循環(huán),當(dāng)遇到下一個(gè)代碼“!”時(shí)停止。第六步:上述環(huán)節(jié)結(jié)束后將網(wǎng)頁(yè)的URL添加到數(shù)據(jù)庫(kù)中,然后由人工的方式進(jìn)行處理。在本平臺(tái)運(yùn)行的過(guò)程中,可以實(shí)現(xiàn)動(dòng)態(tài)調(diào)整。在試運(yùn)行階段發(fā)現(xiàn),如果用戶輸入的關(guān)鍵字和數(shù)據(jù)庫(kù)中的相關(guān)字段匹配程度較高,本平臺(tái)可以實(shí)現(xiàn)高達(dá)90%以上的查詢精確度。
3.4 建立系統(tǒng)索引 本文使用如下方法建立系統(tǒng)索引:①讀取招聘信息數(shù)據(jù)庫(kù)中的內(nèi)容,然后創(chuàng)建一個(gè)實(shí)現(xiàn)了與數(shù)據(jù)庫(kù)鏈接方法和讀取數(shù)據(jù)庫(kù)內(nèi)容方法的類。②創(chuàng)建高校學(xué)生就業(yè)平臺(tái)和Lucene的交互接口。③為存儲(chǔ)高校學(xué)生就業(yè)單位的數(shù)據(jù)庫(kù)建立索引。
3.5 信息檢索 本平臺(tái)獲取到用戶輸入的查詢關(guān)鍵字后,通過(guò)Lucene接口將關(guān)鍵字提交給查詢分析器,查詢分析器將關(guān)鍵字分析轉(zhuǎn)換成基本的關(guān)鍵字的邏輯組合用來(lái)執(zhí)行搜索過(guò)程,檢索結(jié)束后返回一個(gè)命中集。用戶在進(jìn)行檢索的時(shí)候可以選擇查詢范圍和條件。
4 總結(jié)
本論文使用開(kāi)源工具包Lucene實(shí)現(xiàn)了高校就業(yè)信息平臺(tái)。通過(guò)使用垂直搜索技術(shù)實(shí)現(xiàn)了對(duì)大學(xué)生就業(yè)信息專業(yè)化、高精度的深入檢索,避免了通用搜索引擎寬泛的缺陷,給大學(xué)生就業(yè)提供了一個(gè)專業(yè)對(duì)口、信息實(shí)時(shí)、準(zhǔn)確、全面的搜索工具。
參考文獻(xiàn):
[1]陳向東.寵物用品垂直搜索引擎研究與設(shè)計(jì)[M].西北農(nóng)林科技大學(xué),2010.
[2]苗海.基于聚類算法的垂直搜索引擎技術(shù)研究,北京信息科技大學(xué)學(xué)報(bào),2013.
[3]郭姣.基于WebGIS的五金產(chǎn)業(yè)信息搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[M].山西財(cái)經(jīng)大學(xué),2011.
[4]馮效棟.垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用[M].中國(guó)海洋大學(xué),2010.