999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機(jī)制的眾包任務(wù)推薦算法

2020-03-05 04:22:08趙祺雯彭瑞袁平
現(xiàn)代計(jì)算機(jī) 2020年3期
關(guān)鍵詞:機(jī)制特征模型

趙祺雯,彭瑞,袁平

(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065;2.重慶理工大學(xué)軟件工程(兩江人工智能學(xué)院),重慶400054;3.重慶第二師范學(xué)院數(shù)學(xué)與信息工程學(xué)院,重慶400067)

0 引言

隨著信息技術(shù)和互聯(lián)網(wǎng)行業(yè)的發(fā)展,信息過載的問題日益嚴(yán)峻。個(gè)性化推薦能夠有效緩解這一問題并取得不俗的成果,能夠幫助用戶在以指數(shù)增長的資源中快速、準(zhǔn)確地定位到自己需要的內(nèi)容。眾包指的是一個(gè)公司或機(jī)構(gòu)把過去由員工執(zhí)行的工作任務(wù),以自由自愿的形式外包給非特定的(而且通常是大型的)大眾志愿者的做法,眾包平臺(tái)一般由任務(wù)發(fā)布方、任務(wù)承接方(工人)和平臺(tái)組成,發(fā)布方發(fā)布任務(wù)后工人提交自己的方案,最后由發(fā)布方?jīng)Q定中標(biāo)人,中標(biāo)人可獲得相應(yīng)報(bào)酬。面對(duì)眾多的信息,工人難以迅速選出適合自己的任務(wù)。為了降低搜索成本,工人大多選擇最近發(fā)布或排在前兩頁的任務(wù),較高的搜索成本可能會(huì)降低工人的參與度,并且不利于保證任務(wù)完成的質(zhì)量。幫助工人挑選與自己相關(guān)的任務(wù)是任務(wù)選擇的研究重點(diǎn)[1]。

同時(shí)相較于主流的電商、視頻新聞推送等平臺(tái),眾包平臺(tái)有其獨(dú)有的特征,如:①眾包的需求是不可重復(fù)銷售的并且任務(wù)存在于系統(tǒng)中的時(shí)間短。②發(fā)布方提供的需求或者工人提供的服務(wù)都被他們的技能/興趣所限制。本文將通過基于物品的協(xié)同過濾方法,利用注意力機(jī)制為用戶交互過任務(wù)分配重要性權(quán)重,同時(shí)利用任務(wù)的屬性信息代替id作為學(xué)習(xí)特征的輸入,提高任務(wù)承接方的中標(biāo)率。

1 眾包任務(wù)推薦研究現(xiàn)狀

在眾包模式下,仲秋雁等人[2]提出一種考慮工人興趣和能力的任務(wù)推薦方法,首先通過TF-IDF工人興趣偏好模型,然后基于勝任力理論分析構(gòu)建工人的KSAO能力集合融入到模型中,構(gòu)建新的工人模型;在此基礎(chǔ)上,利用幾種相似性度量計(jì)算工人建融合興趣和能力的綜合相似度,以此選取臨近集并生成推薦。Aldahari E等人[3]提出眾包任務(wù)推薦應(yīng)同時(shí)滿足任務(wù)發(fā)布方、工人和平臺(tái)三方的利益,其中通過計(jì)算工人的專業(yè)度得分和發(fā)布可能的報(bào)酬,但手工特征的方法缺少說服力切繁雜。施戰(zhàn)等人[13]以任務(wù)發(fā)布者的收益最大化為優(yōu)化目標(biāo),利用貪心技術(shù)設(shè)計(jì)了一種高效的任務(wù)分配機(jī)制。其次設(shè)計(jì)了一種基于歷史信息的用戶可靠性更新機(jī)制并將支付給用戶的最終報(bào)酬與用戶的可靠性掛鉤。最后,從任務(wù)發(fā)布者的總效益、任務(wù)完成率和用戶可靠性三個(gè)方面分析設(shè)計(jì)機(jī)制的有效性。在非眾包模式下,Cheng Z等人[4]提出A3NCF模型,基于一種自適應(yīng)方面注意力機(jī)制,可以捕捉同一用戶對(duì)不同產(chǎn)品偏好的不同。首先用topic model從評(píng)論中提取user和item的特征,將提取出的特征分別與embedding后的user和itemid按點(diǎn)逐位相加融合,隨后經(jīng)過全連接層,其輸出和user、item特征共同作為注意力網(wǎng)絡(luò)的輸入,最后通過MLP層進(jìn)行評(píng)分預(yù)測。在bit-wise level上,Lian J等人[5]提出了Compressed Interaction Network(CIN)網(wǎng)絡(luò)結(jié)構(gòu),目的在生成的特征在vector-wise level上,CIN結(jié)合RNN和CNN的特性完成多階特征的抽取,并且最終和DNN以及Linear整合到一起完成顯性特征的使用。其中,CIN中每一層的神經(jīng)元都是根據(jù)前一層的隱層以及原特征向量推算而來。

2 個(gè)性化推薦方法

2.1 協(xié)同過濾

Item-CF通過用戶歷史記錄推薦相關(guān)物品[7],已廣泛應(yīng)用于工業(yè),因?yàn)槠渚哂袕?qiáng)可解釋性,而且它可以使得實(shí)時(shí)個(gè)性化更容易實(shí)現(xiàn),評(píng)估相似性的計(jì)算離線進(jìn)行,在線的推薦模型只需要去執(zhí)行,查找相似項(xiàng),這很容易達(dá)到實(shí)時(shí)。Item-CF主要分為兩個(gè)部分,①獲取user和item的特征,可以通過如id、評(píng)論文本、屬性等獲取。②user和item特征間的交互,可以簡單地使用相似度度量如余弦相似度,也可以用神經(jīng)網(wǎng)絡(luò)MLP[8]、CNN[10]、PNN[9]等。最終對(duì)隱式或顯示反饋進(jìn)行預(yù)測。

2.2 注意力機(jī)制

Attention機(jī)制的基本思想是:打破了傳統(tǒng)編碼器-解碼器結(jié)構(gòu)在編解碼時(shí)都依賴于內(nèi)部一個(gè)固定長度向量的限制。通過訓(xùn)練一個(gè)模型對(duì)輸入進(jìn)行選擇性的學(xué)習(xí)并且在模型輸出時(shí)將輸出序列與之進(jìn)行關(guān)聯(lián)。Chaudhari S等人[6]按序列數(shù)將注意力機(jī)制分為distinc?tive(當(dāng)候選和查詢狀態(tài)分別屬于兩個(gè)不同的輸入和輸出序列時(shí));co-attention(同時(shí)輸入多個(gè)輸入序列,共同學(xué)習(xí)它們的注意力權(quán)重);self(查詢和候選狀態(tài)屬于相同序列)。本文為組成工人特征的任務(wù)記錄學(xué)習(xí)重要程度的權(quán)重,因此使用self-attention的方式[12]。

3 基于注意力機(jī)制的眾包任務(wù)推薦算法

本文提出基于屬性的注意力協(xié)同過濾模型AACF(Aspects-Based Attentive Collaborative Filtering)。使用任務(wù)的屬性信息學(xué)習(xí)任務(wù)的表征來代替僅僅使用任務(wù)的id。任務(wù)的屬性分為類別型屬性(任務(wù)類別、任務(wù)形式)、數(shù)值型屬性(報(bào)酬)和文字型屬性(標(biāo)題)。模型結(jié)構(gòu)如圖1所示。

圖1算法結(jié)構(gòu)圖

x1x2分別為任務(wù)類別和形式的category輸入,x3為報(bào)酬金額經(jīng)分桶處理后的category輸入,經(jīng)embed?ding層后輸出各自的特征向量xej(j=1,2,3)。Wi(i=1,2,…,t)是經(jīng)中文分詞處理后的標(biāo)題序列,t為標(biāo)題最大長度,經(jīng)Word2Vec模型后得到標(biāo)題詞向量ei(i=1,2,…,t),其維度為d,那么對(duì)于這個(gè)句子,便可以得到t行d列的矩陣A∈RS×d。作為Text-CNN[11]的輸入最后得到標(biāo)題特征向量c,其維度為k。Text-CNN優(yōu)勢在于與傳統(tǒng)圖像的CNN網(wǎng)絡(luò)相比,網(wǎng)絡(luò)結(jié)構(gòu)更加簡單,只有一層卷積,一層max-pooling,最后將輸出外接Softmax來n分類。由xej和c相加得到任務(wù)的特征向量r。

工人特征向量由其歷史記錄中交互過的任務(wù)rm(m=1,2,…,n)經(jīng)attention模塊分配注意力權(quán)重后加權(quán)相加得到。圖中虛線為attention部分。第i個(gè)工人交互過的任務(wù)注意力權(quán)重為ai由公式(2)得到。

其中W和b分別是隱藏層的權(quán)重矩陣和偏置向量,hT將隱藏層映射到注意力因子,使用ReLU作為激活函數(shù),ReLU在注意力網(wǎng)絡(luò)中有更好表現(xiàn)。

最后將得到的任務(wù)特征向量r和工人特征向量u經(jīng)concat操作后輸入一個(gè)兩層mlp網(wǎng)絡(luò)。

訓(xùn)練使用logloss公式(3)作為優(yōu)化時(shí)的損失函數(shù)。

其中N為正負(fù)樣本總數(shù),λ控制防止過擬合參數(shù)L2正則化的強(qiáng)度,Y+為正負(fù)樣本集合,將工人投標(biāo)并中標(biāo)的記錄作為正樣本。Y-是負(fù)采樣后負(fù)樣本,負(fù)采樣的候選集由工人投標(biāo)但未中標(biāo),且任務(wù)周期包含工人發(fā)生交互行為日期的任務(wù)組成,(顯然,由于眾包任務(wù)的時(shí)效性,工人未發(fā)生交互的任務(wù)不能劃分為工人沒有興趣,很可能僅僅因?yàn)檫@段時(shí)間工人沒有承接任務(wù)的意愿),本文按候選集的15%進(jìn)行負(fù)采樣,采樣后正負(fù)樣本比例約為1:3。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 數(shù)據(jù)集與環(huán)境

本文使用八爪魚工具爬取網(wǎng)站一品威客的已完成數(shù)據(jù),去除沒有中標(biāo)記錄的工人的投標(biāo)記錄后數(shù)據(jù)集詳情如表1所示

表1數(shù)據(jù)集詳情

選取任務(wù)名稱、任務(wù)賞金、任務(wù)分類和任務(wù)形式四個(gè)任務(wù)屬性用于構(gòu)建任務(wù)特征。

實(shí)驗(yàn)環(huán)境為Windows10操作系統(tǒng)16GB內(nèi)存Intel Core i7 8700 CPU@3.20GHz,TensorFlow 1.13.1,Python 3.6.8。

4.2 參數(shù)設(shè)置

實(shí)驗(yàn)室將數(shù)據(jù)集按照任務(wù)發(fā)布時(shí)間分為訓(xùn)練集和測試集,分別占80%和20%。用中文分詞工具jieba對(duì)標(biāo)題分詞,Word2Vec預(yù)訓(xùn)練的標(biāo)題詞向量維度=64,標(biāo)題最長截?cái)?18,任務(wù)和工人的特征維度=16,在利用CNN得到標(biāo)題特征時(shí),卷積核大小=3、通道數(shù)=10,工人最大交互任務(wù)數(shù)量=10。學(xué)習(xí)率=0.0001,批次訓(xùn)練數(shù)條數(shù)=128,為防止過擬合,采用l2正則化懲罰率=0.001,全連接層間dropout rate=0.2。訓(xùn)練中使用Adam進(jìn)行優(yōu)化,Adam通過計(jì)算梯度的一階矩估計(jì)和二階矩估計(jì)而為不同的參數(shù)設(shè)計(jì)獨(dú)立的自適應(yīng)性學(xué)習(xí)率。

4.3 評(píng)估指標(biāo)

推薦系統(tǒng)評(píng)價(jià)是驗(yàn)證推薦系統(tǒng)是否合格的重要環(huán)節(jié)之一,本文采用AUC和HR作為評(píng)估指標(biāo)。AUC(Area under ROCcurve)的物理意義為任取一對(duì)例和負(fù)例,正例得分大于負(fù)例得分的概率。HR(Hit Ratio)即測試集中,能夠落在推薦列表中的top K之中的記錄數(shù),占總測試記錄數(shù)的比例,由公式(4)得到。本文中由于每個(gè)時(shí)間點(diǎn)的負(fù)采樣條數(shù)不同,因此不采用固定的K值,而采用百分比的形式,如K@10為推薦列表前10%的Hit Ratio。

4.4 實(shí)驗(yàn)結(jié)果與分析

本文通過是否加入注意力機(jī)制驗(yàn)證注意力機(jī)制在眾包任務(wù)推薦場景下的效果,并且都通過對(duì)任務(wù)屬性的學(xué)習(xí)得到任務(wù)特征。實(shí)驗(yàn)結(jié)果AUC如圖2,HR如表2所示。

圖2實(shí)驗(yàn)結(jié)果AUC曲線圖

表2實(shí)驗(yàn)結(jié)果HR對(duì)比

可以看到,加入注意力機(jī)制的模型在AUC和HR@10、HR@15都有更好的表現(xiàn),HR指標(biāo)越高代表工人越可能在推薦列表的前面就找到中標(biāo)可能性大的任務(wù)。

5 結(jié)語

本文首先區(qū)別眾包模式下對(duì)工人進(jìn)行任務(wù)推薦和常規(guī)平臺(tái)相比的特點(diǎn)并指出現(xiàn)有工作不足。隨后利用item-CF結(jié)合attention model的方法實(shí)現(xiàn)眾包模式下對(duì)工人任務(wù)中標(biāo)率的預(yù)測,并且使用任務(wù)屬性信息代替id學(xué)習(xí)任務(wù)特征,包括使用Text-CNN學(xué)習(xí)任務(wù)文本特征。利用眾包平臺(tái)真實(shí)數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明,在其他條件一致的情況下,利用任務(wù)屬性特征較id,和融入at?tention機(jī)制在兩個(gè)評(píng)估指標(biāo)上都有更好的推薦效果。

猜你喜歡
機(jī)制特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠的四個(gè)特征
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
抓住特征巧觀察
3D打印中的模型分割與打包
破除舊機(jī)制要分步推進(jìn)
注重機(jī)制的相互配合
主站蜘蛛池模板: 亚洲另类国产欧美一区二区| 好紧太爽了视频免费无码| 精品午夜国产福利观看| 中文字幕啪啪| 日韩欧美综合在线制服| 欧美精品亚洲精品日韩专区va| 在线精品视频成人网| 在线精品欧美日韩| 国产国产人成免费视频77777 | 欧美精品亚洲日韩a| 91在线日韩在线播放| 2021国产v亚洲v天堂无码| 亚洲 日韩 激情 无码 中出| 久久精品人人做人人爽97| 国产97视频在线观看| 高清免费毛片| 精品一区国产精品| 欧美www在线观看| 18禁不卡免费网站| 91色老久久精品偷偷蜜臀| 国产精品免费露脸视频| 色亚洲成人| 日韩资源站| 欧美成人h精品网站| 亚洲性影院| 欧美成人综合视频| 首页亚洲国产丝袜长腿综合| 亚洲欧州色色免费AV| 国产综合精品一区二区| 免费中文字幕在在线不卡| 国产视频只有无码精品| 天天色综网| 欧美成人在线免费| 波多野结衣的av一区二区三区| 欧美不卡在线视频| 欧美日本在线观看| 欧美国产另类| 99久久99视频| 五月天综合网亚洲综合天堂网| 巨熟乳波霸若妻中文观看免费| 国产剧情国内精品原创| 欧美三级视频在线播放| 日韩国产高清无码| 99re在线观看视频| 国产浮力第一页永久地址| 欧美在线三级| 亚洲无码高清视频在线观看| 婷婷色婷婷| 亚洲制服中文字幕一区二区| 欧美怡红院视频一区二区三区| 久久亚洲欧美综合| 久久99久久无码毛片一区二区| 91香蕉视频下载网站| 日本中文字幕久久网站| 扒开粉嫩的小缝隙喷白浆视频| 国产一级做美女做受视频| 91精品专区国产盗摄| 3344在线观看无码| 国产亚洲欧美日本一二三本道| 国产视频久久久久| 高清无码手机在线观看| 欧美在线网| 欧美激情伊人| 香蕉eeww99国产在线观看| 成人中文字幕在线| 国产白浆视频| 毛片免费在线视频| 日韩成人免费网站| 国产在线自在拍91精品黑人| 欧美笫一页| 五月激激激综合网色播免费| 国产精品免费电影| 亚洲美女高潮久久久久久久| 亚洲国产精品人久久电影| 蜜芽国产尤物av尤物在线看| 97一区二区在线播放| 欧美日韩国产在线人| 亚洲一区第一页| 无码不卡的中文字幕视频| 一级毛片不卡片免费观看| 国产在线91在线电影| 18禁黄无遮挡网站|