付俊生 蘇小魯

隨著互聯網的普及以及全球金融危機的影響,越來越多的求職者利用互聯網發布簡歷尋找工作職位,包括眾多的海外求職者也希望能到中國淘金。中國市場上傳統的人力資源網站例如51job、ChinaHR等也都面向海外求職者開辟了招聘頻道或者與國外的公司進行合作。這樣的平臺面向海外求職者免費注冊并可填寫簡歷,并為國內用人單位提供了眾多優秀的人才。但因為是開放的平臺,所有訪問者都可以免費注冊,因此簡歷庫中很多注冊用戶都稱不上高層次人才,只是普通的海外求職者,并且已經逐漸不能滿足用人單位對優秀人才的渴求。
黨中央對于當前的國際人才競爭也非常重視,提出把實施“千人計劃”、引進高層次海外人才,作為提升企業核心競爭力的緊迫戰略任務,努力為企業發展、國家富強廣攬天下人才。中央各個部門也都在建立人才資源庫。但是由于渠道單一、專業性強,造成了各個海外高層次人才資源庫信息量都較小,且相對集中在特定的領域,無法滿足國內企業對于各類高層次海外人才的渴求。
為了充實我們的海外高層次人才簡歷庫,應對日益激烈的國際人才競爭,貫徹落實中央人才強國戰略,國家外國專家局國外人才信息研究中心對互聯網上諸多國際知名的大學、科研院所、企業機構和各國政府網站中公開發布的高層次人才簡歷信息進行了分析。我們認為將互聯網上公開的簡歷信息搜集到一起并提供給國內有需求的用人單位,將為引進高層次海外人才提供更多的渠道和更有價值的信息。因此我們產生了開發海外高層次人才簡歷搜索引擎的設想。目的是借助互聯網這個工具,在已有的Chinajob.com國際人才交流平臺的基礎上,挖掘在互聯網上公開的海外高層次人才簡歷,充實我們的人力資源庫,為國內的企業單位提供更加廣泛的渠道和信息。
根據需求,本搜索引擎只針對互聯網上公開的高層次人才簡歷信息進行搜索過濾和抓取,因此我們采用了廣域網搜索、垂直搜索和索引頁面搜索相結合的方式,通過人工輸入的特定的URL進行遍歷,對遍歷到的頁面根據設定好的過濾算法及詞頻算法進行分析,符合條件的頁面被認定為是簡歷信息并保存到本地的數據庫。
下面簡單介紹一下三種搜索方式的區別:
1、廣域網搜索:通過工作人員在后臺添加特定的網頁URL,并開啟蜘蛛程序對該URL進行遍歷、分析和過濾,遍歷過程中首先將每個頁面下的標記地址記錄在待搜索頁面列表中,在處理完當前頁面后,從待搜索頁面列表中取出下一個URL再執行分析和過濾的流程。直到將本URL下所有頁面遍歷完畢,并將符合過濾條件的簡歷信息保存到本地數據庫中。
2、垂直搜索:通過工作人員在互聯網上查找到專業的簡歷搜索網站或人才庫,根據其URL參數為ID輪詢或分頁輪詢分別由蜘蛛程序對其下每個子頁面進行直接抓取,保存到本地數據庫。采用這種方式搜索到的簡歷信息可以保證其真實可用性,并大大簡化了后面的數據處理過程。
3、索引頁面搜索:通過工作人員在互聯網上查找到特定的組織機構人員建立頁面URL,提交并開啟蜘蛛程序。蜘蛛程序默認該頁面下所有子頁面為簡歷信息頁面并進行抓取,保存到本地數據庫。
對數據抓取過程完畢后,需要由工作人員對本地數據進行再處理才能進入前臺展示數據庫。工作人員為每個特定URL下抓取的頁面進行分析,建立頁面過濾規則,去除掉源頁面的頁頭和其他無用信息。建立規則可對所有符合該URL特征的頁面直接執行過濾操作,完成數據的批量處理,并進入前臺展示數據庫。
系統后臺由蜘蛛管理模塊、后臺管理模塊以及系統監控三個模塊組成。其中系統監控模塊只有系統管理員可以執行操作。
蜘蛛管理模塊后臺分為系統管理員權限和系統操作員權限對蜘蛛的運行進行管理操作。
后臺管理模塊共設置了三種權限的管理員,分別為系統管理員、普通管理員和地方外專局。其中系統管理員可以對系統的用戶、參數、數據、日志等所有信息進行管理操作;普通管理員可以對蜘蛛數據、展示數據、簡歷錄入及批量導入進行管理操作;地方外專局用戶可對展示數據進行管理并可錄入簡歷。
設置地方外專局用戶以及簡歷錄入功能是為了靈活的擴展我們的高層次人才簡歷庫而開發的功能。我們可以為更多的合作伙伴添加后臺管理賬戶,方便他們將自己所有的專家簡歷信息輸入到我們的數據庫中,這些人工輸入的簡歷信息將被系統認為是權重最高的簡歷,在前臺用戶搜索的展示列表中將最先展示這些簡歷信息。合作單位還可以針對每條簡歷信息添加評論并與其他注冊用戶共享評論信息,建立起有效的評價體系,為用人單位提供較好的評價查詢功能。
系統前臺搜索為用戶提供了關鍵詞搜索、屏幕劃詞翻譯和高級搜索功能,用戶可在搜索框中輸入關鍵詞進行搜索,或者點擊系統提供的關鍵詞列表進行搜索。同時為普通用戶提供了劃詞翻譯,使一般用戶可及時查詢到與中文相對應的英文關鍵詞。
高級搜索功能為用戶提供了關鍵詞分類、語種、學歷等選項,為用戶提供多詞復合查詢的功能。
在每個搜索結果頁面為用戶提供信息最初來源的鏈接,使用戶可以得到更多有用的信息。
本搜索引擎采用的搜索策略及方式區別于廣域網海搜方式,因此只要修改過濾算法以及詞頻表便可應用于其他行業中,在未來可與更多的企業機構進行合作開發,拓展更多的領域。
以海外高層次人才簡歷搜索引擎為基礎,我們還可以進一步加強對簡歷信息來源的控制,增加評價體系中對專家成就、學術會議、論文與著作等信息的添加管理,以此提高簡歷的質量控制。
進一步加強高層次人才簡歷搜索引擎的推廣與應用,建立會員機制,變單向服務為平臺服務。
在現有資源的基礎上,努力建設高層次海外人才資源庫,拓寬人才信息渠道,吸引更多優秀的海外人才,為應對國際金融危機、推動科學發展提供人才保證。
(作者單位:國家外國專家局國外人才信息研究中心)