999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在線招聘場景下的簡歷活躍度預測*

2018-05-09 08:49:51史舒揚張智鵬邵鎣俠
計算機與生活 2018年5期
關鍵詞:特征用戶模型

史舒揚,張智鵬,郭 龍,邵鎣俠,崔 斌

1.北京大學 信息科學技術學院 高可信軟件技術教育部重點實驗室,北京 100871

2.北京大學 深圳研究生院,廣東 深圳 518055

1 引言

在信息時代的背景下,大量招聘與求職的工作被放在互聯網上進行,各種各樣的在線招聘平臺相繼出現,如58招聘、智聯招聘、拉勾網等。

在以58招聘為例的求職招聘網站上,每天有大量的簡歷被求職者更新后展示在個人資料里或者投遞到對應職位上,也有大量的職位被各招聘單位放出。通過數據統計發現,在2016年9月10日開始的一個月間,就一共添加了超過165萬份新簡歷,放出了超過280萬個職位,這樣的數據量暗示著平臺的重要性與潛力。在線招聘平臺中招聘者和求職者有兩種互動模式:其一是求職者瀏覽公開招聘的職位,選擇合適的職位投遞簡歷,然后等待招聘者聯系并安排面試;其二是招聘平臺向招聘者推送可能適合于該單位的簡歷,然后招聘者從中下載相應求職者的具體聯系信息。從平臺的角度出發,這里主要關注后者,即求職者的簡歷被推送給招聘者這一方式。

在這個方式中,盡管招聘平臺提供了將求職者推送給招聘者的途徑,但是也存在著一定的問題。因為求職者找到工作之后通常不會告知平臺,可能只是不再登錄平臺進行瀏覽、點擊、投遞等,所以平臺并不知道他已經不需要繼續求職,會繼續推送該求職者的簡歷。但是由于該求職者其實已經有了滿意的工作,此時推送的簡歷就成為了“無效”簡歷,即使被下載,也不會再達成新的勞動協議。這樣的情況,一方面降低了求職者和招聘者雙方的用戶體驗,另一方面降低了推送簡歷的價值,也造成了平臺的資源浪費。如圖1所示,在2016年的一個月中,除去僅活躍一天的用戶以后,有點擊、投遞行為不超過9天的用戶占了97%,并且活躍只有兩三天的用戶超過70%,這意味著大部分求職者的活躍時間都很短暫,他們在求職成功以后不再活躍,繼續推送他們的簡歷將造成平臺資源的浪費和用戶體驗的損失。因此對簡歷活躍與否的甄別是有意義的,針對活躍簡歷重點推送能夠很大程度上提升推送效果。

在現實中,求職者是否找到工作的真實情況是難以推測的,因為用戶找到工作之后通常不會告知平臺。盡管如此,顯而易見的是,持續活躍的用戶仍然有在平臺求職的意愿。基于這一觀點,本文重點關注那些近期內活躍的求職者,用求職者在最近一段時間內點擊、瀏覽等行為定義簡歷活躍度的概念,旨在通過預測簡歷的活躍度,將未來近期內可能會活躍的簡歷篩選出來,在推送的時候賦予更高的優先級和更好的展示機會,提高平臺簡歷推薦的效果,提升用戶體驗,減少平臺的資源浪費。

Fig.1 Ratio of users that click or deliver on different numbers of days圖1 不同天數發生過點擊或者投遞的用戶所占比例

現有的活躍度預測方案,大多是基于在線社交網絡的方案,文獻[1]采用生存時間預測場景下的Cox比例風險統計模型,在招聘場景下由于“生存時間”相對較短而難以保證其適用性,同時也會浪費場景信息資源。文獻[2]從社交網絡內外兩方面進行考慮,也有工作從社交網絡本身的特性出發,根據用戶行為的多樣性、動態性、社交影響等特點,基于現有模型提出了更具有適應性的預測模型[3-4]。這些模型適應了社交網絡的特點,但是由于招聘場景與其的諸多不同,并不能很好地移植。例如在招聘場景下,用戶的個體行為風格難以刻畫,社交關系沒有定義,多樣性、社交影響就無從談起。

為了做好簡歷的活躍度預測,本文對在線招聘的場景特點進行了探索,總結了以下4個特性:首先,數據具有高度動態性,每天有大量的求職者在平臺上傳并投遞簡歷,也有大量的招聘職位被招聘者放出。其次,用戶黏度低,求職者往往在短至幾天的活躍之后就離開平臺,在很長時間內不再有活躍行為。對用戶連續行為的分析表明,在線招聘場景下用戶往往不會表現出像社交網絡那樣長久的粘性,而是在一段時間內頻繁產生登錄、點擊等行為,之后就會很長時間內不再活躍。第三,由于招聘平臺的特殊性,其中的用戶分為求職者(簡歷)一方和招聘者(職位)一方,前者可以點擊、瀏覽、投遞,而后者可以接受求職者投遞的簡歷,也可以從招聘平臺購買所需要的簡歷,這樣的行為模式是達成雇傭關系的重要過程,也是數據中應該被考慮的內容。除此以外,招聘場景下活躍度預測的目標也有一定的特殊性,即召回優先(參見2.4節),因為與推送一份“無效”簡歷(求職結束的求職者)帶來的資源浪費相比,損失一份活躍簡歷(仍在求職的求職者)會直接影響勞動協議的達成,有更嚴重的后果,所以在預測過程中需要保留足夠多的有效簡歷。

在適應在線招聘場景數據特點的情況下,根據高度動態性、用戶黏度低、雙向匹配以及召回優先特點,本文結合隨機森林模型(random forest,RF)和邏輯回歸模型(logistic regression,LR),提出了簡歷活躍度預測模型(resume activeness prediction,RAP),并提供了可供平臺選擇的篩選參數γ,用來調節召回率和準確率的相對重要程度。

本文的主要貢獻如下:

(1)提出在線招聘平臺中的簡歷活躍度預測問題,并基于真實數據分析,總結了在線招聘場景下數據具有高度動態性、用戶黏度低、雙向匹配等特點,明確了場景要求下預測問題的召回優先性。

(2)結合招聘場景下高度動態性、用戶黏度低、雙向匹配的特點,采用樹模型和線性模型的混合模型,提出了簡歷活躍度預測方法RAP,并通過篩選參數γ來調節兩類預測錯誤的損失函數比,從而適應在線招聘場景下召回優先的需求。

(3)在58招聘的真實數據上的實驗表明,RAP可以獲得0.817的AUC(area under curve)值,并且通過篩選參數γ能夠有效地實現召回優先這個需求。

本文組織結構如下:第2章給出在線招聘場景下簡歷活躍度預測的問題定義;第3章總結在線招聘場景的特點;第4章根據總結的特點提出預測方法RAP;第5章在58招聘的真實數據上進行實驗,證明RAP方法的有效性;第6章介紹目前已有的相關工作和研究;最后對本文結果進行總結。

2 問題定義

本章首先定義簡歷活躍度的概念,在此基礎上,給出簡歷活躍度預測問題的定義,作為進一步研究簡歷活躍度預測問題的基礎。

定義1(簡歷活躍度)若簡歷r在第t天被投遞了Dtr次,其用戶在該天一共點擊了Ctr次招聘職位,則r在這一天的活躍情況為(Crt,Dtr)。為了方便進行比較等運算,簡歷r在第t天的活躍度Atr定義為:

其中,θc、θd是兩個閾值參數。進一步地,簡歷r在第t天時,將未來一段時間(δ天)內的活躍度定義為:

即,如果簡歷r在未來δ天內至少有一天活躍,那么它在未來δ天內就被認為是活躍的。

在此基礎上,將簡歷活躍度預測問題定義為一個傳統的分類問題。

定義2(簡歷活躍度預測)給定簡歷集合R和每個簡歷的特征信息,給定未來區間δ,對其中的每一份簡歷r∈R,簡歷活躍度預測問題就是利用特征信息預測簡歷r在第t天時未來δ天的活躍度∈{0,1},記預測值為∈{0,1},其中1代表活躍,0代表不活躍。

3 在線招聘場景特點

為了更好地了解在線招聘場景,更有針對性地設計模型來解決簡歷活躍度預測的問題,本章分析在線招聘場景的主要特點。通過對58招聘平臺的數據分析與探究,對比社交網絡等其他在線網絡平臺,本文總結了數據與用戶行為的特性,包括高度動態性、用戶黏度低、雙向匹配等特點。同時,從場景動機出發,在線招聘對簡歷活躍度的預測也有召回優先的要求。

3.1 高度動態性

在招聘平臺上,每天有大量的求職者在平臺上傳并投遞簡歷,也有大量的招聘職位被招聘者放出。如圖2所示,對58招聘平臺的數據統計表明,每天大約產生數萬的新簡歷和超過十萬的新職位。這樣的數據量展示了招聘場景數據的高度動態性,新用戶、新簡歷、新職位的產生速度非常快,信息快速更迭。在活躍度預測問題中,高度動態性表示人們不僅需要處理大量的數據,還需要應對大量新簡歷的情況。

Fig.2 Number of new resumes and positions published every day on 58 Recruitment Website in Sep,2016圖2 58招聘每天添加的新簡歷、新職位數目(2016年9月)

3.2 用戶黏度低

求職者在求職期間會經常登錄求職網站,瀏覽各種職位,并投遞一些職位,而一旦找到了滿意的工作,就不會繼續登錄網站產生上述行為。從而招聘平臺往往有較低的用戶黏度,尤其是與社交網絡用戶的強黏度相比。在這樣的情況下,數據具有強時效性,判斷用戶的行為可能需要從近期的活躍度和行為情況入手,久遠的信息可能只涉及完全不相關的工作狀態。

本文從58招聘平臺的真實數據中找到了相應的依據。如圖1所示,根據用戶在一個月內產生點擊或者投遞行為的天數分類統計,產生過點擊或者投遞行為的用戶中,3天以下的占71.2%,5天以下的占87.9%,大于9天的只占2.7%,因此單個用戶的行為數據量是非常有限的,經常活躍幾天以后就不再產生用戶行為。除了宏觀統計之外,將這段時間內有活躍行為的用戶取樣,對他們的活躍行為次數按照日期的分布繪制了統計圖。在圖3的個案分析中,可以看到,比較典型的用戶,例如用戶B,在一段比較短的時間內(8天)活躍,在接下來的一段時間內不再登錄平臺產生行為;用戶A在兩個活躍峰值之間有約一周的間隔,但是之后也不再繼續活躍,行為集中;用戶C活躍的日期范圍相對分散,橫跨18天,但只活躍了6天。在對數據的觀察中發現這3類用戶都存在,其中與用戶A、B類似的用戶尤其廣泛,大部分用戶都在一個比較短暫的區間內產生活躍行為。因此,用戶黏度低,數據的時效性非常強,采用近段時間的數據進行預測是非常合理的選擇。

Fig.3 Statistics of user activities of several sample users in a month on 58 Recruitment website圖3 一個月內58招聘用戶活躍次數按天統計示例

3.3 雙向匹配

在現實職業場景的招聘會中,有招聘者和求職者雙方的參與,線上招聘平臺也是如此,雙方都有對應的活動,分別發布簡歷和職位,然后求職者可以瀏覽職位,投遞簡歷,而招聘者可以購買或下載簡歷。由于這是招聘場景的本質特征,這樣的雙向互動在所有線上招聘平臺中都是存在且類似的。

在簡歷活躍度預測的問題中,很重要的內容是求職者能否通過平臺找到工作,而能達到這一點的最主要的就是簡歷和職位在瀏覽、投遞、購買等場景的交互中能否匹配得當。簡單來說,求職者認為匹配得當就會投遞簡歷,而招聘者覺得匹配得當就會購買簡歷或者約求職者面試。因此,盡管沒有顯式的公式進行衡量,這種雙向匹配的活動是人們在判斷的時候需要關注的重要內容。

3.4 活躍度預測的召回優先

在線招聘場景下簡歷活躍度預測問題,是為了挑選出活躍簡歷進行重點推送,因此準確率和召回率[5]的重要性有明顯的差異。當一份不會再活躍的簡歷被當作活躍簡歷重點推送時,最壞的結果是浪費少量的平臺資源,降低一些求職者和招聘者的用戶體驗;但是另一方面,如果一份活躍簡歷被當作不會再活躍的簡歷,基本不被推送,則可能會導致一個正在求職的用戶無法獲得對應的招聘,妨礙勞動協議的達成,直接影響平臺核心功能,進而影響招聘平臺對就業市場的貢獻。兩相比較,召回率比準確率在此場景下更為重要一些,即活躍度預測具有召回優先的特性,預測方法也需要與這樣的指標相適應。同時,召回率相對準確率優先的程度需要根據具體平臺的實際情況和需求來調節,理想的預測方法應該能滿足這一要求。

3.5 小結

根據以上分析,在線招聘場景具有高度動態性、用戶黏度低、雙向匹配、召回優先等特點,根據這些特點,在預測簡歷活躍度中,本文選取兩方面的特征:近期歷史活躍信息(對應高度動態性、低用戶黏度)和雙向匹配信息(對應雙向匹配特點),而召回優先的需求將從模型的角度控制。具體的特征參見5.2節。

4 活躍度預測方法RAP

根據第2章總結的在線招聘的場景特點,即高度動態性、用戶黏度低、雙向匹配和召回優先,本章提出對應的簡歷活躍度預測方法RAP。

如圖4所示,RAP模型的執行流程分為特征轉換和模型訓練兩部分。第一部分是特征轉換部分,RAP通過樹模型將數據特征中的近期歷史活躍信息部分轉化為新的向量特征;第二部分用轉換后的特征和雙向匹配特征拼接,然后訓練模型RAP。

接下來具體介紹模型的兩部分,即如何對隨機森林特征進行轉化,以及如何定義RAP模型。

4.1 特征轉換

通過樹模型對特征進行一定的選擇和過濾,能夠選取一些比較重要的特征,使得模型具有一定程度的可解釋性。在線招聘場景中,同樣要求用于活躍度預測模型的特征具有一定的可解釋性,因為這樣有利于用戶和平臺結合自己的策略進行特征的調控[6]。因此,本文采用能適應較大數據量的樹模型隨機森林對近期歷史活躍信息進行特征的轉換。

Fig.4 Aschematic diagram of RAP model圖4 RAP模型的結構示意圖

利用隨機森林進行特征轉換[6]指的是:對輸入的特征(近期歷史活躍信息),通過隨機森林模型進行分類訓練,然后將現有特征轉化為只包含0、1的新特征z()=,具體的流程如算法1所示。在用隨機森林訓練得到樹模型之后,新特征的維數就是所有樹的葉子結點個數(第2~3行),而對于特征,其在z()中第k維的值由在樹模型上分類的結果決定,第k維為1當且僅當分類后落在第k個葉子結點上。計算的時候,遍歷森林中的所有樹(第4~15行),找到特征對應的葉子結點(第5~12行),并標記新特征的對應值(第13~14行)。例如,圖5中的經過樹模型之后,假設分類經過的結點為圖中的畫“X”結點,并且一共有兩棵樹,5個葉子結點,那么得到的新特征為=(0,0,1,1,0)T。

算法1特征轉換

輸入:訓練得到的樹模型trees,輸入的特征向量x。

輸出:轉換后的特征z。

1.leaves←包含trees中所有葉結點的數組;

2.z←長度與leaves相同且全為0的數組;

3.forT∈treesdo

4.node←T.root;

5.while notnode.isLeafdo

6. ifx屬于node的左子樹then

7.node←node.leftChild

8. else

9.node←node.rightChild

10. end

11.end

12.找到k使得leaves[k]=node

13.z[k]←1

14.end

15.returnz

式中,y、a、b和x分別代表變量的回歸結果,時間趨勢、截距以及年份。通常地,當a>0時,表明變量y呈增加的趨勢,反之則呈減少的趨勢。

Fig.5 An example of feature conversion圖5 特征轉換樣例

4.2 模型定義

如第1章所述,將活躍度預測問題形式化為一個二分類問題。這里基于邏輯回歸模型提出RAP模型。RAP定義了全新的損失函數,能夠很好地適應在線招聘場景中召回優先的需求。本文以邏輯回歸(LR)為基本模型的原因是:LR的輸出結果表征求職者是否活躍的概率,而不是簡單的0、1類別。在在線招聘場景中,以概率作為輸出值是很重要的,因為平臺可以根據各個簡歷的活躍情況進行排序,進而獲得相對活躍的簡歷。接下來,介紹活躍度預測模型RAP。

定義3(RAP預測模型)假設需要在第t天預測簡歷r在未來δ天內是否活躍,用表示數據特征,表示預測值,則預測值為:

其中,σ為sigmoid函數;ω為需要學習得到的回歸系數。

對于每一天、每一份簡歷,最小化它們預測值和真實值之間的誤差,因此優化目標J定義為:

其中,γ0是正則化項||ω||22的參數;T是訓練數據的天數是損失函數。損失函數定義為:

其中,γ∈[0,1]為篩選參數。這個預測模型記為RAP模型。通過簡單的求導可知,該模型的損失函數是凸函數,因此能夠使用梯度下降函數求解參數并獲得全局最優解。

下面證明RAP中召回率和準確率的相對重要程度由篩選參數γ決定。考慮分類過程中出現的兩類錯誤,FP(false positive,預測值為1而實際值為0)與FN(false negative,預測值為0而實際值為1),要判斷召回率和準確率的相對重要程度,只需判斷兩者對損失函數的貢獻的比值即可。

命題1如果分別記FP、FN兩類錯誤對目標函數J的貢獻(即損失)為L(FP)和L(FN),則兩者之比為1-γ。

證明直接計算:

可以看到,篩選參數γ的實際意義就是兩類錯誤對損失函數的貢獻相差的百分比。因此,RAP可以方便簡單地通過控制參數γ達到召回優先的需求。

5 實驗

本章通過58招聘平臺的真實數據,分別探究、展示近期歷史活躍信息、雙向匹配信息在簡歷活躍度預測問題中的利用情況,最后結合這兩類特征,證明RAP模型在在線招聘場景中預測簡歷活躍度的有效性。

5.1 實驗環境

本文實驗運行在一個包含7臺機器的Spark 1.6.1集群上,每個機器配有兩個AMD Opteron 4180處理器,40 GB內存。實驗代碼均使用Scala語言編寫。本文采用的數據來自58招聘平臺(2016年9月10日至2016年10月10日),包括用戶、簡歷、職位、企業等項目的基本信息,以及他們的行為數據,數據的特點參見表1。在實驗中,不失一般性,采用前26天的數據作為訓練集,后5天的數據作為測試集(其中簡歷用戶都是近期L天內有過點擊或者投遞行為的)。

Table 1 Basic characteristics of 58 Recruitment data表1 58招聘數據的基本特點

相關社交網絡的活躍度模型[1-4]大多從社交網絡本身的特性出發,根據用戶行為的多樣性、動態性、社交影響等特點預測,但是由于招聘場景與其的諸多不同,例如在招聘場景下,用戶的個體行為風格難以刻畫,社交關系沒有定義等,已有的活躍度預測方法難以移植。因此,本文只展示RAP模型在實驗數據中的有效性。

對于RAP模型效果的衡量指標,本文采用分類模型中通常使用的AUC(area under curve)、準確率(Precision)和召回率(Recall)。其中AUC是在ROC曲線下的面積[7],用來衡量正樣本預測結果比負樣本高的概率,而Precision和Recall的定義參見文獻[5]。

本文實驗中所提及的AUC、Precision、Recall是測試集中每天結果的平均值。

5.2 特征選擇

根據第2章分析的在線招聘場景的特點,抽取近期歷史活躍信息和雙向匹配信息兩方面的特征。

首先,根據在線招聘場景數據的高度動態性和用戶黏度低兩個特點,抽取用戶最近L天的近期歷史活躍信息作為一部分特征。例如L=5時,用戶A在最近L天的活躍情況為(點擊5次投遞3次,點擊2次投遞1次,不點擊也不投遞,點擊6次,不點擊也不投遞),那么對應的向量為(5,3,2,1,0,0,6,0,0,0)T。

其次,根據雙向匹配特性,分別抽取簡歷和職位兩方面的信息以及二者的雙向匹配信息,比如求職者用戶點擊/瀏覽職位,招聘者用戶下載簡歷等行為。表2詳細列出了這些信息的具體內容。

Table 2 Features extracted from 58 Recruitment data表2 58招聘數據中提取的特征具體內容

5.3 基本參數設置

本節考慮實驗中用到的基本參數。

在歷史活躍信息中,本文取L=5天的近期歷史活躍信息來刻畫高度動態性和用戶粘度低等特點。因為根據對場景數據的統計分析,近90%的用戶活躍天數不超過5天,所以5天的歷史活躍情況能對用戶近期活躍做一個表征。考慮簡歷活躍的行為定義,由“活躍”的含義(參見第1章)可知,用戶的投遞行為可以明確表示其求職的意愿,而點擊行為在達到一定數量之后也能體現出足夠的求職意愿。不失一般性,實驗中活躍度參數取θc=3,θd=1。

接下來確定RAP模型中的基本參數,包括模型訓練的迭代輪數和特征轉換的隨機森林中樹的個數、深度等。通過對RAP的預實驗來確定使用的迭代輪數。圖6展示了模型訓練中SGD的迭代輪數與AUC之間的關系曲線,可以看到在8~10輪后AUC基本不變,因此在后續實驗中選取迭代輪數為10輪。

Fig.6 Relation betweenAUC and the number of SGD iterations when training RAP圖6RAP模型訓練中AUC值與SGD迭代輪數的關系

與之類似,用隨機森林模型進行預實驗,根據對AUC的影響,確定后續實驗中使用的隨機森林的參數,具體為50棵樹,最大深度10層。

5.4 特征有效性評估

本節通過不同的基本模型考察近期歷史活躍信息和雙向匹配信息在簡歷活躍度預測問題中的不同作用。基本模型包括邏輯回歸模型(LR)、隨機森林模型(RF)和支持向量機(SVM)。

5.4.1 近期歷史活躍信息特征

針對高度動態性、用戶黏度低的場景特點,即在只有近期歷史活躍信息的情況下,通過實驗考察三種基本模型對信息的利用情況,探究數據和模型的特點,實驗結果如表3所示。從表中可以觀察到,三者的AUC值并不高,RF相對略高一些,因為三者模型、特征都比較簡單,無法很好地刻畫活躍簡歷的特點,但是樹模型RF在準確度上達到了0.95的水平,遠遠高于前兩者的準確率和召回率,可能是通過對非線性特征的過濾直接地篩選出了典型的活躍簡歷。因此,在RAP模型執行流程的設計中,也希望通過樹模型對歷史信息進行處理。

Table 3 Accuracy of models using history activeness information表3 不同模型使用近期歷史活躍信息的預測精度

5.4.2 雙向匹配信息特征

Table 4 Accuracy of models using bidirectional matching information表4 不同模型使用雙向匹配信息的預測精度

5.5 RAP模型評估

本節考察RAP模型預測簡歷活躍度的效果。通過分析篩選參數γ對準確率、召回率、AUC等指標的影響,考察它的作用與靈敏性,然后通過與基線模型的比較證明RAP模型的有效性。

5.5.1 篩選參數γ

篩選參數γ的選取,依賴平臺對問題目標的要求,可能與平臺的運營目標、用戶規模、質量要求等相關,平臺也可以通過選取不同的γ提供不同質量層次的簡歷給招聘者。根據3.2節的理論分析可知,參數γ可以控制準確率和召回率的相對重要程度。因此,這里用實驗來衡量參數γ對預測結果指標的影響。

從圖7中可以看到,當篩選參數γ從零開始逐漸增加時,AUC基本不變,模型保持了對正負樣本的區分能力,有效性得到了保持。而準確率和召回率隨γ的改變往不同方向改變,召回率逐漸上升,準確率逐漸下降,達到篩選參數的調節作用。從圖7來看γ在0.1至0.2左右時有一個比較不錯的結果。

Fig.7 Influence of parameterγon prediction accuracy圖7 參數γ對預測精度的影響

5.5.2 總體實驗效果分析

下面通過實驗證明RAP模型在綜合利用近期歷史活躍信息、互動匹配信息,解決預測問題方面的有效性。這里選取的基線模型是4.4節表現較好的兩個模型,分別是使用互動匹配特征的邏輯回歸(LR),以及使用近期歷史活躍信息特征的隨機森林(RF)。

如表5所示,RAP模型在AUC上達到了0.817,相比于兩個基線模型有明顯的優勢,因為它綜合了這兩個模型對特征利用的優勢,分別針對互動匹配信息和近期歷史活躍信息,能更好地區分正負樣本;RAP的準確率比LR高,但是比RF低,在一個可以接受的水平上,并隨著篩選參數γ的改變而變化,召回率也能通過參數進行合理調節,滿足此處對預測模型的要求,比如隨著γ從0增長到0.2,RAP的Precision在降低,Recall在升高。

Table 5 Accuracy of models on activeness prediction表5 不同模型在活躍度預測問題上的精度

6 相關工作

本章回顧和分析兩方面的工作:一般場景下的用戶活躍度預測問題和在線招聘場景相關的研究。

(1)關于用戶活躍度預測的研究。在用戶活躍度預測方面,社交網絡等平臺上有較多的研究。文獻[2]就用戶可能退出社交平臺的內、外部兩方面因素進行考慮,提出了社交網絡中用戶活躍的總體性預測方法。文獻[1]就免費網絡服務的用戶,采用Cox比例風險模型來擬合預測活躍情況。文獻[4]就人人網實名社交平臺對社交網絡的用戶數據特性進行了探索,根據多樣性、動態性、社交影響這三方面的特點,提出了適應社交網絡的活躍度預測方法。用戶活躍度預測還有進一步的社會意義,文獻[3]根據社交網絡與肥胖癥傳遞的相關特性[8],結合文獻[4]提出的社交網絡三種主要特征,提出了社交限制性玻爾茲曼機(social restricted Boltzmann machine,SRBM)的深度學習方法,以預測健康網絡中的用戶行為。這些利用了社交網絡特性的預測方法可以作為招聘場景的參考。另外,問答論壇[9]、網絡游戲[10]、通訊行業[11-13]等場景中的用戶活躍預測研究也都利用了各自內部用戶之間的黏性,這和用戶黏度低的招聘平臺大有不同。

(2)關于在線招聘場景的研究。隨著在線招聘的普及,關于在線招聘市場數據的研究也變得熱門。文獻[14]為了分析在線招聘市場中招聘的宏觀趨勢變化,提出了線性隱語義模型MTLVM(market trend latent variable model),該模型采用多級狄利克雷過程來捕獲宏觀過程中招聘主題的變化。文獻[15]研究如何在大量的招聘數據中有效地找到具有特定技能的人才。該研究通過構建“職業變遷網絡”,然后在該網絡中進行稠密子圖的發現,進而將網絡劃分成聯通的“才能”網絡。

7 總結

本文提出了在線招聘場景下的簡歷活躍度預測問題,總結了該場景下的數據具有的高度動態性、用戶黏度低、雙向匹配等特點,明確了預測目標的召回優先性,并在此基礎上,提出了一種既能適應上述在線招聘場景特點,又能通過簡單參數調節實現召回優先需求的簡歷活躍度預測方法RAP。通過真實數據集上的實驗,RAP模型的有效性得到了證實。

[1]Kapoor K,Sun Mingxuan,Srivastava J,et al.A hazard based approach to user return time prediction[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,New York,Aug 24-27,2014.New York:ACM,2014:1719-1728.

[2]Zhu Yin,Zhong Erheng,Pan S J,et al.Predicting user activity level in social networks[C]//Proceedings of the 22nd ACM International Conference on Information and Knowledge Management,San Francisco,Oct 27-Nov 1,2013.New York:ACM,2013:159-168.

[3]Oentaryo R J,Lim E P,Lo D,et al.Collective churn prediction in social network[C]//Proceedings of the 2012 International Conference on Advances in Social Networks Analysis and Mining,Istanbul,Aug 26-29,2012.Washington:IEEE Computer Society,2012:210-214.

[4]Phan N H,Dou Dejing,Piniewski B,et al.Social restricted Boltzmann machine:human behavior prediction in health social networks[C]//Proceedings of the 2015 International Conference on Advances in Social Networks Analysis and Mining,Paris,Aug 25-28,2015.New York:ACM,2015:424-431.

[5]Baeza-Yates RA,Ribeiro-Neto B.Modern information retrieval[M].Boston:Addison-Wesley Longman Publishing Co,Inc,1999.

[6]He Xinran,Pan Junfeng,Jin Ou,et al.Practical lessons from predicting clicks on ads at Facebook[C]//Proceedings of the 8th International Workshop on Data Mining for Online Advertising,New York,Aug 24,2014.New York:ACM,2014:1-9.

[7]Friedman J H,Hastie T,Tibshirani R.The elements of statistical learning(Vol.1)[M].Berlin,Heidelberg:Springer,2001.

[8]Fichman R G,Kemerer C F.The illusory diffusion of innovation:an examination of assimilation gaps[J].Information Systems Research,1999,10(3):255-275.

[9]Yang Jiang,Wei Xiao,Ackerman M S,et al.Activity lifespan:an analysis of user survival patterns in online knowledge sharing communities[C]//Proceedings of the 4th International Conference on Weblogs and Social Media,Washington,May 23-26,2010.Menlo Park:AAAI,2010:186-193.

[10]Kawale J,Pal A,Srivastava J.Churn prediction in MMORPGs:a social influence based approach[C]//Proceedings of the 12th IEEE International Conference on Computational Science and Engineering,Vancouver,Aug 29-31,2009.Washington:IEEE Computer Society,2009:423-428.

[11]Dasgupta K,Singh R,Viswanathan B,et al.Social ties and their relevance to churn in mobile telecom networks[C]//Proceedings of the 11th International Conference on Extending Database Technology,Nantes,Mar 25-29,2008.New York:ACM,2008:668-677.

[12]Guyon I,Lemaire V,Boullé M,et al.Analysis of the KDD Cup 2009:fast scoring on a large orange customer database[C]//Proceedings of KDD-Cup 2009 Competition,Paris,Jun 28,2009:1-22.

[13]Richter Y,Yom-Tov E,Slonim N.Predicting customer churn in mobile networks through analysis of social groups[C]//Proceedings of the 2010 SIAM International Conference on Data Mining,Columbus,Apr 29-May 1,2010.Philadelphia:SIAM,2010:732-741.

[14]Zhu Chen,Zhu Hengshu,Xiong Hui,et al.Recruitment market trend analysis with sequential latent variable models[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,San Francisco,Aug 13-17,2016.NewYork:ACM,2016:383-392.

[15]Xu Huang,Yu Zhiwen,Yang Jingyuan,et al.Talent circle detection in job transition networks[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,San Francisco,Aug 13-17,2016.New York:ACM,2016:655-664.

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 久久久精品久久久久三级| 潮喷在线无码白浆| 国产精品爽爽va在线无码观看 | 国产偷倩视频| 成人午夜视频在线| 欧美日韩国产成人在线观看| 国产在线第二页| 久久青草视频| 无码AV高清毛片中国一级毛片| 欧美精品亚洲精品日韩专| 欧美第一页在线| 一本大道香蕉高清久久| 91啦中文字幕| 成人免费网站在线观看| 久久久久亚洲AV成人人电影软件| 91色国产在线| 114级毛片免费观看| 日本人真淫视频一区二区三区| 97国产精品视频人人做人人爱| 四虎国产在线观看| 人人91人人澡人人妻人人爽| 国产精品一线天| 欧美国产日韩在线观看| 欧美a在线视频| 国产三级视频网站| a天堂视频在线| 99re在线免费视频| 老司机午夜精品网站在线观看| 又黄又湿又爽的视频| 午夜福利在线观看入口| 国产精品欧美在线观看| 精品色综合| 天堂在线视频精品| 久久精品亚洲中文字幕乱码| 国产靠逼视频| 国产福利免费视频| 欧美激情首页| 国产精品yjizz视频网一二区| 国产门事件在线| 欧洲一区二区三区无码| 国产成人亚洲精品无码电影| 妇女自拍偷自拍亚洲精品| 国产黄网永久免费| 又大又硬又爽免费视频| 国产黄视频网站| 欧美日韩久久综合| 亚洲一区波多野结衣二区三区| 国产精品久久精品| 就去吻亚洲精品国产欧美| 91精品最新国内在线播放| 2019年国产精品自拍不卡| 色呦呦手机在线精品| 丁香婷婷久久| 国产精品专区第一页在线观看| 91九色国产在线| 999精品视频在线| 国产亚洲精品在天天在线麻豆 | 尤物国产在线| 亚洲精品国产综合99| 18禁影院亚洲专区| 成人一级免费视频| 午夜啪啪福利| 一级毛片基地| 日韩精品一区二区三区swag| 全裸无码专区| 韩日无码在线不卡| 天天综合网在线| 日韩免费无码人妻系列| 国产精品自在线天天看片| 色香蕉网站| 国产91麻豆免费观看| 夜夜操国产| 毛片一级在线| 久久五月天综合| 欧洲熟妇精品视频| 欧美亚洲综合免费精品高清在线观看| www亚洲天堂| 国产成人综合久久| 亚洲国产精品成人久久综合影院| 国产精品久久精品| 日本少妇又色又爽又高潮| 乱系列中文字幕在线视频|