999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本的職位畫(huà)像系統(tǒng)研究與設(shè)計(jì)

2020-07-09 21:26:25李蘇龍王大慶董曉瑋
現(xiàn)代信息科技 2020年23期
關(guān)鍵詞:文本挖掘數(shù)據(jù)挖掘

李蘇龍 王大慶 董曉瑋

摘 ?要:職位畫(huà)像系統(tǒng)的主要目的就是利用現(xiàn)代編程技術(shù),將定量數(shù)據(jù)與定性分析相結(jié)合,構(gòu)建出職位畫(huà)像系統(tǒng),并將結(jié)果可視化,為企業(yè)、求職者和第三方學(xué)校、培訓(xùn)機(jī)構(gòu)之間提供參考幫助。文章基于文本分析,將定量數(shù)據(jù)與定性分析的方法相結(jié)合,運(yùn)用基于分布式爬蟲(chóng)技術(shù),進(jìn)行文本挖掘、數(shù)據(jù)挖掘,幫助企業(yè)找到合適的人才,求職者明確市場(chǎng)需求找準(zhǔn)自身定位,也為學(xué)校、培訓(xùn)機(jī)構(gòu)的領(lǐng)導(dǎo)層提供數(shù)據(jù)決策支持和行業(yè)洞察功能。

關(guān)鍵詞:職位畫(huà)像系統(tǒng);分布式爬蟲(chóng)技術(shù);數(shù)據(jù)挖掘;文本挖掘

中圖分類(lèi)號(hào):TP311.52 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)23-0067-05

Research and Design of Position Portrait System Based on Text

LI Sulong,WANG Daqing,DONG Xiaowei

(Xuzhou University of Technology,Xuzhou ?221018,China)

Abstract:The main purpose of position portrait system is to use modern programming technology,combining quantitative data and qualitative analysis,build a position portrait system,and the results visualization,so as to provide reference and help for enterprises,job seekers,third-party schools and training institutions. Based on text analysis,this paper combines quantitative data with qualitative analysis,and uses distributed crawler technology to carry out text mining and data mining,so as to help enterprises find suitable talents,job seekers clarify market demand,find their own positioning,and provide data decision support and industry insight function for the leadership of schools and training institutions.

Keywords:position portrait system;distributed crawler technology;data mining;text mining

0 ?引 ?言

長(zhǎng)期以來(lái),企業(yè)、求職者和第三方學(xué)校、培訓(xùn)機(jī)構(gòu)之間都面臨著棘手的問(wèn)題:一方面企業(yè)無(wú)職位定義、找不到合適的員工、處于長(zhǎng)期動(dòng)蕩的局面;另一方面,求職者求職難、不知道企業(yè)要什么、不清楚自己會(huì)什么;同時(shí),作為第三方的學(xué)校、培訓(xùn)結(jié)構(gòu)以及獵頭公司“望眼欲穿”很想抓住市場(chǎng)的痛點(diǎn),但苦于招生困難、就業(yè)率低、學(xué)習(xí)的理與企業(yè)需求不匹配。

通過(guò)對(duì)以上問(wèn)題的分析和對(duì)職位畫(huà)像系統(tǒng)的研究,結(jié)合徐州工程學(xué)院實(shí)際情況,本項(xiàng)目提出了基于文本的職位畫(huà)像系統(tǒng)(以下均簡(jiǎn)稱(chēng)為職位畫(huà)像系統(tǒng))的研究與設(shè)計(jì)。一方面幫助企業(yè)找到合適的人才,另一方面求職者明確市場(chǎng)需求找準(zhǔn)自身定位,同時(shí)也為第三方學(xué)校、培訓(xùn)機(jī)構(gòu)的領(lǐng)導(dǎo)層提供數(shù)據(jù)決策支持和行業(yè)洞察的功能。解決人才與崗位之間不匹配的矛盾,方便人才快速便捷的找到適合自己的工作崗位,企業(yè)也可以根據(jù)人才畫(huà)像找到對(duì)應(yīng)崗位技能需求的人才。

1 ?研究意義

職位畫(huà)像作為用戶(hù)畫(huà)像的一種,不僅可以完美的抽象出一個(gè)用戶(hù)的全貌信息,還可以對(duì)用戶(hù)的職位信息做出精準(zhǔn)的判斷,進(jìn)而了解到職位的薪資水平和地理分布,挖掘出潛在的數(shù)據(jù)價(jià)值。

基于文本的職位畫(huà)像系統(tǒng)的研究與設(shè)計(jì)既能夠幫助企業(yè)找到合適的人才,提高企業(yè)的核心競(jìng)爭(zhēng)力;幫助求職者明確市場(chǎng)需求找準(zhǔn)自身定位,最大限度地體現(xiàn)自身價(jià)值;同時(shí)也為第三方的學(xué)校、培訓(xùn)機(jī)構(gòu)中的領(lǐng)導(dǎo)層提供數(shù)據(jù)決策支持,保證授課內(nèi)容緊跟市場(chǎng)潮流,實(shí)時(shí)更新市場(chǎng)需求信息,協(xié)助教學(xué)產(chǎn)品的研發(fā)。

2 ?研究目標(biāo)及主要內(nèi)容

2.1 ?研究目標(biāo)

職位畫(huà)像是對(duì)職位的一種可視化描述形式。通過(guò)對(duì)職位建立畫(huà)像,能過(guò)形象直觀(guān)地標(biāo)識(shí)職位的具體特征,把數(shù)量龐大且雜亂無(wú)章的職位數(shù)據(jù)用簡(jiǎn)單易懂的形式表示出來(lái)。

本系統(tǒng)采用以Python為主,輔以JavaScript編程語(yǔ)言結(jié)合Tableau桌面應(yīng)用軟件、MySQL和Linux的形式進(jìn)行系統(tǒng)開(kāi)發(fā),采用文本分析的方法,將定量數(shù)據(jù)與定性分析相結(jié)合,運(yùn)用基于網(wǎng)絡(luò)爬蟲(chóng)技術(shù),有效的抓取全行業(yè)“準(zhǔn)實(shí)時(shí)”數(shù)據(jù),進(jìn)行文本挖掘、數(shù)據(jù)挖掘,分析各種職位的需求,對(duì)職位進(jìn)行準(zhǔn)確描述,設(shè)計(jì)形成了特定職位的畫(huà)像。

2.2 ?項(xiàng)目的需求分析和總體設(shè)計(jì)

2.2.1 ?系統(tǒng)可視化界面

從多個(gè)角度分析職位數(shù)據(jù)特征,形成可視化報(bào)表,對(duì)職位畫(huà)像系統(tǒng)進(jìn)行系統(tǒng)的分析:

(1)職位數(shù)據(jù)統(tǒng)計(jì)。不同的時(shí)間對(duì)于不同專(zhuān)業(yè)方向,例如大數(shù)據(jù)、數(shù)據(jù)分析、HTML5等崗位的需求數(shù)是有所變化的,職位數(shù)據(jù)統(tǒng)計(jì)如圖1所示。

(2)Java系統(tǒng)架構(gòu)師職位畫(huà)像。Java系統(tǒng)架構(gòu)師的職位技能要求中,架構(gòu)設(shè)計(jì)最為明顯,這是由于所有職位描述中,架構(gòu)設(shè)計(jì)一詞出現(xiàn)的頻率最高,也就是出現(xiàn)的次數(shù)最多,理解為Java系統(tǒng)架構(gòu)師職位畫(huà)像中架構(gòu)設(shè)計(jì)為主要要求技能,具體地說(shuō)計(jì)算機(jī)體系結(jié)構(gòu)指的是計(jì)算機(jī)系統(tǒng)設(shè)計(jì)的觀(guān)念與架構(gòu),描述計(jì)算機(jī)在的設(shè)計(jì)原則。該架構(gòu)確定一個(gè)計(jì)算機(jī)設(shè)計(jì)的部件功能,部件間接口并且計(jì)算機(jī)體系結(jié)構(gòu)著重于負(fù)責(zé)了計(jì)算機(jī)架構(gòu)的中心功能:計(jì)算的中央處理器內(nèi)部的運(yùn)行動(dòng)作與存儲(chǔ)器的訪(fǎng)問(wèn)。此外,還有其他技能,例如:數(shù)據(jù)分析、用戶(hù)體驗(yàn)、Axure等[1]。

2.2.2 ?系統(tǒng)非功能性需求

結(jié)合目前計(jì)算機(jī)和網(wǎng)絡(luò)資源的優(yōu)勢(shì),利用國(guó)內(nèi)外現(xiàn)有成果,最大限度發(fā)揮系統(tǒng)投資效益,本系統(tǒng)以運(yùn)用、管理、維護(hù)、保障投資持續(xù)性為原則。除上述總體設(shè)計(jì)原則外,本系統(tǒng)的設(shè)計(jì)應(yīng)充分考慮以下非功能性需求[2]:

(1)開(kāi)放性。該系統(tǒng)可獨(dú)立作為一個(gè)完整的系統(tǒng)平臺(tái)使用,并可方便地集成到現(xiàn)有的系統(tǒng)中。

(2)實(shí)用性。進(jìn)行系統(tǒng)設(shè)計(jì)的首要目標(biāo)是提高系統(tǒng)的實(shí)用性,系統(tǒng)需要滿(mǎn)足信息管理的基本要求。

(3)靈活性。作為一個(gè)計(jì)算機(jī)應(yīng)用系統(tǒng),隨著需求的變化,系統(tǒng)應(yīng)具有良好的適應(yīng)性,可以靈活滿(mǎn)足不同用戶(hù)的訪(fǎng)問(wèn)需求

(4)穩(wěn)定性。系統(tǒng)采用多層架構(gòu),基于協(xié)同開(kāi)發(fā)方法,具有較高的可靠性和穩(wěn)定性。

2.2.3 ?系統(tǒng)功能性需求

結(jié)合系統(tǒng)功能,本系統(tǒng)功能性需求包括:

(1)系統(tǒng)功能。本系統(tǒng)主要功能模塊分為信息采集模塊和數(shù)據(jù)挖掘模塊。其中,信息采集模塊包括網(wǎng)絡(luò)通信、資源管理、數(shù)據(jù)分析和存儲(chǔ)管理。數(shù)據(jù)挖掘模塊包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、回歸分析、決策樹(shù)分析等。此外,還應(yīng)考慮一些常用功能,以考慮用戶(hù)的不同需求。可以將上述功能再進(jìn)行細(xì)分,如用戶(hù)界面等。

(2)系統(tǒng)用例。職位畫(huà)像系統(tǒng)的主要實(shí)施目標(biāo)是進(jìn)行架設(shè)網(wǎng)絡(luò)平臺(tái),最后,數(shù)據(jù)挖掘技術(shù)使系統(tǒng)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分析和處理,形成具體的工作畫(huà)像,并為相關(guān)人員提供決策支持,從而提高系統(tǒng)的智能化水平。

圖2左側(cè):一般用戶(hù)是普通求職者或企業(yè)招聘經(jīng)理。通過(guò)查詢(xún)、查看、下載結(jié)果等功能,可以查看在線(xiàn)招聘崗位信息的數(shù)據(jù)挖掘結(jié)果。

圖2右側(cè):管理員、一般用戶(hù)和分析人員可以對(duì)系統(tǒng)的各個(gè)功能模塊進(jìn)行操作,最終實(shí)現(xiàn)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)功能。

(3)系統(tǒng)體系架構(gòu)。由圖3所示系統(tǒng)架構(gòu)可知,整個(gè)系統(tǒng)分為:數(shù)據(jù)源層、數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)預(yù)處理層、分詞數(shù)據(jù)分析層(用戶(hù)畫(huà)像層)、職位畫(huà)像應(yīng)用層[3]。

(4)系統(tǒng)數(shù)據(jù)架構(gòu)。將來(lái)自各個(gè)爬蟲(chóng)系統(tǒng)的數(shù)據(jù)根據(jù)多維應(yīng)用主題對(duì)數(shù)據(jù)進(jìn)行匯總后,進(jìn)一步分類(lèi),建立統(tǒng)一的數(shù)據(jù)視圖,構(gòu)筑存儲(chǔ)中心,形成統(tǒng)一的數(shù)據(jù)分析模型,以此共同組成完整的職位畫(huà)像系統(tǒng)的數(shù)據(jù)架構(gòu)[4]。

2.3 ?職位畫(huà)像系統(tǒng)的詳細(xì)設(shè)計(jì)

2.3.1 ?系統(tǒng)模塊設(shè)計(jì)

職位畫(huà)像系統(tǒng)總體包括三大部分:職位數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、職位畫(huà)像模塊。

職位數(shù)據(jù)采集模塊:基于Python腳本語(yǔ)言,使用Web Spider技術(shù),從指定的招聘網(wǎng)站獲取招聘數(shù)據(jù)。

數(shù)據(jù)預(yù)處理模塊:負(fù)責(zé)分析下載到本地?cái)?shù)據(jù)庫(kù)的在線(xiàn)招聘崗位信息,對(duì)爬取后的職位招聘信息作簡(jiǎn)單數(shù)據(jù)預(yù)處理工作。

職位畫(huà)像模塊:職位畫(huà)像系統(tǒng)的核心處理模塊,通過(guò)抽取經(jīng)過(guò)預(yù)處理后的職位招聘數(shù)據(jù),建立不同角度的數(shù)據(jù)結(jié)構(gòu)模型,構(gòu)建多層次職位畫(huà)像。

對(duì)于上述三大部分,詳細(xì)介紹:

(1)職位數(shù)據(jù)采集模塊設(shè)計(jì)。常見(jiàn)大數(shù)據(jù)采集方法有系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集及其他數(shù)據(jù)采集方法。對(duì)職位信息的采集屬于網(wǎng)絡(luò)數(shù)據(jù)采集。網(wǎng)絡(luò)數(shù)據(jù)采集是指通過(guò)網(wǎng)絡(luò)爬蟲(chóng)公開(kāi)API等方式從網(wǎng)站獲取數(shù)據(jù)信息,抽取網(wǎng)頁(yè)中的非結(jié)構(gòu)化數(shù)據(jù),通過(guò)頁(yè)面解析成結(jié)構(gòu)化數(shù)據(jù),并保存到本地文件中。通用網(wǎng)絡(luò)爬蟲(chóng)框架如圖4所示。

(2)數(shù)據(jù)預(yù)處理模塊設(shè)計(jì)。網(wǎng)站收集的大量原始招聘數(shù)據(jù)中存在大量的異常數(shù)據(jù),嚴(yán)重影響了數(shù)據(jù)挖掘建模的有效性,可能導(dǎo)致搜索結(jié)果偏差。因此,對(duì)數(shù)據(jù)進(jìn)行清洗接著或者同時(shí)進(jìn)行預(yù)處理,對(duì)于提高數(shù)據(jù)集的質(zhì)量和最小化異常數(shù)據(jù)是非常重要的。以此來(lái)提高數(shù)據(jù)集的質(zhì)量,盡可能減少異常數(shù)據(jù)對(duì)結(jié)果的影響。數(shù)據(jù)預(yù)處理一般包括步驟:初始數(shù)據(jù)的獲取、數(shù)據(jù)清洗、數(shù)據(jù)繼承和融合、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約、數(shù)據(jù)挖掘知識(shí)評(píng)價(jià)等。如圖5所示。

(3)職位畫(huà)像模塊設(shè)計(jì)。專(zhuān)業(yè)技術(shù)領(lǐng)域中,職位信息一般都含有對(duì)要求技能的描述。而在眾多職位中被頻繁提到的技能,正是目前大多企業(yè)正廣泛使用的技術(shù)。基于此,假定詞條出現(xiàn)的次數(shù)越多就表明職位對(duì)該詞條的需求越大,即詞條對(duì)應(yīng)的詞頻越大,詞條需求度就越高。通過(guò)專(zhuān)業(yè)技能詞條的出現(xiàn)頻率來(lái)度量職位技能的需求度,具體包括如下:

1)詞條:根據(jù)爬取數(shù)據(jù)的各個(gè)職位描述,對(duì)職位描述進(jìn)行分詞得到詞條。

2)詞頻:分詞后,針對(duì)詞語(yǔ)出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì)得到詞頻。

3)詞條長(zhǎng)度:定義每個(gè)詞條的字符個(gè)數(shù)為詞條長(zhǎng)度。

4)職位需求度量:詞條出現(xiàn)的詞頻越大,表明職位對(duì)該詞條的需求越大。

職位畫(huà)像模塊是職位畫(huà)像系統(tǒng)的核心處理模塊,通過(guò)抽取經(jīng)過(guò)預(yù)處理后的職位招聘數(shù)據(jù),建立不同角度的數(shù)據(jù)結(jié)構(gòu)模型,構(gòu)建多層次職位畫(huà)像。

2.3.2 ?數(shù)據(jù)庫(kù)設(shè)計(jì)

一個(gè)好的數(shù)據(jù)庫(kù)產(chǎn)品不等于就有一個(gè)好的應(yīng)用系統(tǒng),如果不能設(shè)計(jì)一個(gè)合理的數(shù)據(jù)庫(kù)模型,不僅會(huì)增加客戶(hù)端和服務(wù)器端程序的編寫(xiě)和維護(hù)的難度,而且將會(huì)影響系統(tǒng)實(shí)際運(yùn)行的性能。本系統(tǒng)的數(shù)據(jù)庫(kù)優(yōu)化設(shè)計(jì)主要包含以下幾個(gè)方面:

(1)數(shù)據(jù)庫(kù)優(yōu)化設(shè)計(jì)。數(shù)據(jù)庫(kù)模型不僅會(huì)影響編寫(xiě)和維護(hù)客戶(hù)端和服務(wù)器端程序的難易度,還會(huì)影響系統(tǒng)運(yùn)行的實(shí)際性能。本系統(tǒng)的數(shù)據(jù)庫(kù)優(yōu)化設(shè)計(jì)主要包含以下幾個(gè)方面[5]:

1)索引。創(chuàng)建索引,可以在查詢(xún)的過(guò)程中使用優(yōu)化隱藏器,提高系統(tǒng)的性能。

2)存儲(chǔ)過(guò)程。存儲(chǔ)過(guò)程過(guò)多,無(wú)論是對(duì)版本控制、開(kāi)發(fā)、部署還是對(duì)遷移數(shù)據(jù)庫(kù)都會(huì)帶來(lái)很大的影響。所以在設(shè)計(jì)過(guò)程中,盡可能少的使用存儲(chǔ)過(guò)程,對(duì)于功能需求可以參考使用相關(guān)技術(shù)替代,如“對(duì)象/關(guān)系映射”等。

3)弱關(guān)聯(lián)。在關(guān)系型數(shù)據(jù)庫(kù)中,通過(guò)表中的字段來(lái)設(shè)計(jì)聯(lián)系,表和表之間的外鍵約束盡可能少,能夠方便對(duì)表字段和表結(jié)構(gòu)的調(diào)整和重構(gòu)。

4)并發(fā)控制。如果對(duì)并發(fā)操作不加以控制,就可能會(huì)造成讀取和存儲(chǔ)錯(cuò)誤,破壞數(shù)據(jù)庫(kù)的一致性。

(2)數(shù)據(jù)庫(kù)邏輯結(jié)構(gòu)設(shè)計(jì)。對(duì)職位畫(huà)像系統(tǒng)的詳細(xì)設(shè)計(jì),根據(jù)系統(tǒng)要求的分析和設(shè)計(jì),分別實(shí)現(xiàn)和分析了三個(gè)主要功能模塊,給出了系統(tǒng)實(shí)現(xiàn)和數(shù)據(jù)挖掘過(guò)程的細(xì)節(jié)。關(guān)于開(kāi)發(fā)工具的選擇,本文試圖選擇更新的版本。關(guān)于職位信息收集模塊,系統(tǒng)正在使用基于Python語(yǔ)言的Web Spider模塊。使用者可以自訂收集網(wǎng)址,以收集網(wǎng)站下方的子鏈接資料。對(duì)于數(shù)據(jù)預(yù)處理模塊,將采集來(lái)的經(jīng)過(guò)清洗、變換、規(guī)約、集成處理后的有用信息存儲(chǔ)到本地?cái)?shù)據(jù)庫(kù)當(dāng)中;職位畫(huà)像模塊采用回歸分析、決策樹(shù)等分析方法,對(duì)于不同的分詞進(jìn)行處理,形成特定的職位畫(huà)像。

(3)數(shù)據(jù)庫(kù)實(shí)現(xiàn)。部分代碼為:

# -*- coding:utf-8 -*-

"""

Created on Mon Jan 25 11:26:29 2016

@author:ifuturedata@icloud.com

mongodb數(shù)據(jù)庫(kù)連接類(lèi)

"""

import sys

reload(sys)

import ?pymongo

sys.setdefaultencoding('utf-8')

class dbMongo:

def __init__(self):

self.OpenDB()

self.def_collection()

def OpenDB(self):

user=''

passwd=''

host=''

port=''

auth_db=''

uri = "mongodb://"+user+":"+passwd+"@"+host+":"+port+"/"+auth_db+"?authMechanism=SCRAM-SHA-1"

self.con = pymongo.MongoClient(uri,connect= False)

def def_collection(self):

self.db = self.con['qq']

self.c1_ods_qq_msg = self.db['ods_qq_msg']

self.c2_qq_group_member = self.db['qq_group_member']

def closeDB(self):

self.con.close()

def PrintResult(self,rows):

for row in rows:

for key in row.keys():

print row[key]

print '\n'

class dbMongoTest:

def __init__(self):

self.OpenDB()

self.def_collection()

def OpenDB(self):

user = 'root'

passwd = 'ibfroot'

host = 'db.ibf.cn'

port = '27019'

auth_db = 'admin'

uri = "mongodb://" + user + ":" + passwd + "@" + host + ":" + port + "/" + auth_db + "?authMechanism= SCRAM-SHA-1"

self.con = pymongo.MongoClient(uri,connect=False)

def def_collection(self):

self.db = self.con['resume']

self.c1_echarts = self.db['echarts']

def closeDB(self):

self.con.close()

def PrintResult(self,rows):

for row in rows:

for key in row.keys():

print row[key]

print '\n'

# class dbMongoInit:

# init_dict={'con':{'user':'',

# ? 'passwd':'',

# ? 'host':'',

# ? 'port':'',

# ? 'auth_db':''

# ? },

# 'db_use':{'db':'',

# ? 'col':[]}

# }

#

# def __init__(self,init_dict):

# self.init_dict=init_dict

# self.OpenDB()

# self.def_collection()

#

# def OpenDB(self):

# uri = "mongodb://"+self.init_dict['con']['user']+":"+self.init_dict['con']['passwd']+"@"+ \

# ?self.init_dict['con']['host']+":"+self.init_dict['con']['port']+\

# ?"/"+self.init_dict['con']['auth_db']+"?authMechanism=SCRAM-SHA-1"

# self.con = pymongo.MongoClient(uri,connect=False)

#

# def def_collection(self):

# self.db = self.con[self.init_dict['db_use']['db']]

# c_id=0

# for colection in self.init_dict['db_use']['col']:

# c_id+=1

# exec("self.c{0[0]}_{0[1]}=self.db['{0[2]}']".format([c_id,colection,colection]))

#

# def closeDB(self):

# self.con.close()

#

# def PrintResult(self,rows):

# for row in rows:

# for key in row.keys():

# print row[key]

# print '\n'

#

# @classmethod

# def db_mongo_use(cls):

# cls.init_dict={'con':{'user':'root',

# 'passwd':'ibfroot',

# 'host':'db.ibf.cn',

# 'port':'27019',

# 'auth_db':'admin'

# },

# 'db_use':{'db':'resume',

# 'col':['echarts']}

# }

# return dbMongoInit(cls.init_dict)

………

3 ?結(jié) ?論

數(shù)據(jù)挖掘一方面對(duì)歷史數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,總結(jié)過(guò)去,另一方面為今后的發(fā)展提供寶貴的信息。由于筆者在這一領(lǐng)域的時(shí)間和理解有限,對(duì)該系統(tǒng)的研究還存在一些不足,在設(shè)計(jì)開(kāi)發(fā)的系統(tǒng)中還有許多地方需要加強(qiáng)和改進(jìn),例如需要加強(qiáng)對(duì)采集系統(tǒng)邏輯處理策略的研究等。作者對(duì)本論文的研究和開(kāi)發(fā)過(guò)程進(jìn)行總結(jié)和歸納后,認(rèn)為下一階段的研究應(yīng)側(cè)重于以下方面:

(1)網(wǎng)頁(yè)數(shù)據(jù)預(yù)處理。Web數(shù)據(jù)結(jié)構(gòu)越來(lái)越復(fù)雜,Web數(shù)據(jù)分析中需要考慮許多問(wèn)題,例如有效填充默認(rèn)屬性、轉(zhuǎn)換數(shù)據(jù)類(lèi)型、減小文本大小和檢查屬性一致性。為了解決這些問(wèn)題,還需要進(jìn)行更多的系統(tǒng)研究。

(2)效率問(wèn)題。隨著網(wǎng)上招聘數(shù)據(jù)量的成倍增加,我們應(yīng)該考慮采用更有效、更先進(jìn)的技術(shù)來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)功能,并利用有效的網(wǎng)頁(yè)分析算法對(duì)網(wǎng)頁(yè)進(jìn)行快速準(zhǔn)確的分析,提高網(wǎng)頁(yè)收集效率。

(3)與現(xiàn)有企業(yè)信息系統(tǒng)無(wú)縫集成。如何將網(wǎng)絡(luò)信息收集平臺(tái)透明地納入現(xiàn)有系統(tǒng),是今后研究的重點(diǎn)之一。

參考文獻(xiàn):

[1] 劉海,盧慧,阮金花,等.基于“用戶(hù)畫(huà)像”挖掘的精準(zhǔn)營(yíng)銷(xiāo)細(xì)分模型研究 [J].絲綢,2015,52(12):37-42.

[2] 郝勝宇,陳靜仁.大數(shù)據(jù)時(shí)代用戶(hù)畫(huà)像助力企業(yè)實(shí)現(xiàn)精準(zhǔn)化營(yíng)銷(xiāo) [J].中國(guó)集體經(jīng)濟(jì),2016,2(4):61-62.

[3] 王珊,王會(huì)舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn),現(xiàn)狀與展望 [J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1741-1752.

[4] 朱志遠(yuǎn).基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)招聘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) [D].成都:電子科技大學(xué),2012:10-13.

[5] 韓家煒.數(shù)據(jù)挖掘:概念與技術(shù) [M].北京:機(jī)械工業(yè)出版社,2000.

作者簡(jiǎn)介:李蘇龍(1999—),男,漢族,江蘇徐州人,本科在讀,研究方向:信息與計(jì)算科學(xué);王大慶(2000-)男,漢族,江蘇連云港人,本科在讀,研究方向:信息與計(jì)算科學(xué);通訊作者:董曉瑋(1980—),女,漢族,山東新泰人,實(shí)驗(yàn)師,碩士研究生,研究方向:軟件工程及大數(shù)據(jù)處理。

猜你喜歡
文本挖掘數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
商(2016年34期)2016-11-24 16:28:51
從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢(shì)
慧眼識(shí)璞玉,妙手煉渾金
文本觀(guān)點(diǎn)挖掘和情感分析的研究
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 国产欧美日韩18| a在线观看免费| 亚洲资源站av无码网址| 重口调教一区二区视频| 欧美特级AAAAAA视频免费观看| 青青草国产在线视频| 成人在线观看不卡| 波多野结衣一区二区三区AV| 亚洲福利片无码最新在线播放| 日韩精品久久久久久久电影蜜臀| 色哟哟精品无码网站在线播放视频| 午夜国产在线观看| 男人天堂亚洲天堂| 国产va在线观看免费| 亚洲狠狠婷婷综合久久久久| 青青极品在线| 国产福利大秀91| www.av男人.com| 女人毛片a级大学毛片免费| 在线观看国产精美视频| 中文字幕资源站| 亚洲AV无码一二区三区在线播放| 国产一区二区福利| 嫩草影院在线观看精品视频| 国产精品主播| 亚洲AV成人一区二区三区AV| 国产鲁鲁视频在线观看| 国产aⅴ无码专区亚洲av综合网| 午夜a级毛片| 久久精品人妻中文系列| 99在线免费播放| av一区二区三区在线观看| 无码综合天天久久综合网| 成·人免费午夜无码视频在线观看| 国产伦片中文免费观看| 污视频日本| 无码一区18禁| 国产国语一级毛片| 亚洲一级毛片在线观| 国产午夜人做人免费视频| 午夜视频在线观看免费网站| 亚洲婷婷六月| 色综合久久88色综合天天提莫 | 最新日本中文字幕| 黄色福利在线| 中文字幕永久视频| 亚洲国产天堂久久综合| 国产尤物视频在线| 欧美天天干| 99国产精品免费观看视频| 999福利激情视频| 91青青草视频在线观看的| 亚洲欧洲日韩综合| 国产一级片网址| 熟女成人国产精品视频| 欧美日韩国产在线观看一区二区三区| 国产小视频网站| 欧美另类视频一区二区三区| 超级碰免费视频91| 激情六月丁香婷婷| 99热线精品大全在线观看| 五月婷婷综合色| 日韩无码一二三区| 国产精品无码AV片在线观看播放| 成人无码区免费视频网站蜜臀| 亚洲国产理论片在线播放| 亚洲美女一区二区三区| 无码福利日韩神码福利片| 久久免费成人| 国产亚洲视频中文字幕视频| 欧美黄网站免费观看| 色AV色 综合网站| 无码高清专区| 国产尤物视频在线| 日韩欧美视频第一区在线观看 | 精品国产成人高清在线| 亚洲国产精品日韩专区AV| 国产18在线播放| 久久久亚洲国产美女国产盗摄| 国产精品女人呻吟在线观看| 久一在线视频| 精品综合久久久久久97超人该|