薛安榮,王 丹,黃祖衛
(江蘇大學 計算機科學與通信工程學院,江蘇 鎮江 212013)
?
基于CSS模板的職位信息并行抽取系統設計
薛安榮,王 丹,黃祖衛
(江蘇大學 計算機科學與通信工程學院,江蘇 鎮江 212013)
針對現有職位信息抽取方法由于缺乏自適應性和并行性,存在冗余度高和抽取效率低的問題,提出了基于CSS模板的方式并行職位信息抽取方法。該方法根據職位信息頁面特點使用CSS路徑抽取方法,并制定抽取模板解決抽取的準確性和自適應性,使用了MapReduce編程模型實現職位信息的并行化抽取。使用MD5算法計算已抽取得到的職位信息的MD5值,結合MapReduce并行計算編程模型的特性實現職位信息去重,最終將去重后的職位信息存儲在分布式數據庫HBase。實驗測試結果表明,并行計算與傳統的非并行編程模型相比在處理的時間效率和采集的職位信息量上都有明顯的提高。
信息抽取;MapReduce;CSS模板;MD5算法;分布式數據庫HBase
XUE Anrong, WANG Dan, HUANG Zuwei
(School of Computer Science and Communication Engineering, Jiangsu University, Zhenjiang 212013, China)
當下網絡求職已成為當下趨勢,招聘網站的不斷增多,使求職者可選擇的求職路徑增多,但同時也給求職者帶來一定的困擾。求職者在不同的招聘網站查找適合的職位信息以后,每個招聘網站都要求求職者注冊個人信息以及填寫求職簡歷。與此同時,職位信息發布者可將同一職位信息發布在不同的招聘網站上,造成了職位信息的冗余問題,使求職者在求職過程中不斷鑒別職位信息的重復性。
為解決以上問題,使用了Web信息抽取技術。Web信息抽取技術是從網頁中抽取出用戶感興趣的內容,去除一些不必要的信息包括廣告、不相關的內容等。……