999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于新型損失函數(shù)的Listwise排序?qū)W習(xí)方法

2018-08-21 02:07:26安,孫輝,喬
關(guān)鍵詞:排序融合方法

龔 安,孫 輝,喬 杰

(1.中國(guó)石油大學(xué)(華東) 計(jì)算機(jī)與通信工程學(xué)院,山東 青島 266580;2.中國(guó)石油大學(xué)(華東) 石油工程學(xué)院,山東 青島 266580)

0 引 言

近年來(lái),排序?qū)W習(xí)方法以其優(yōu)異的性能成為信息檢索與機(jī)器學(xué)習(xí)交叉領(lǐng)域中的“驕子”[1]。排序?qū)W習(xí)方法按照訓(xùn)練樣本的不同分為點(diǎn)方式、對(duì)方式和列表方式[2-4]。研究表明,Listwise是排序?qū)W習(xí)中效果較好的一種算法,為了獲得整個(gè)序列的排序情況,在實(shí)現(xiàn)過(guò)程中將整個(gè)文檔序列看成一個(gè)訓(xùn)練樣本,不僅結(jié)果展示自然,并且實(shí)現(xiàn)了對(duì)不同查詢文檔進(jìn)行區(qū)分的功能[5-7]。在排序過(guò)程中,損失函數(shù)用來(lái)評(píng)價(jià)預(yù)測(cè)結(jié)果與真實(shí)結(jié)果之間擬合程度的高低,所以損失函數(shù)的構(gòu)建尤為重要。

針對(duì)損失函數(shù),研究人員在優(yōu)化改進(jìn)、降低時(shí)間復(fù)雜度等方面取得了比較大的進(jìn)步。文獻(xiàn)[8]提出了一種SHF-SDCG(smoothed hinge function-smoothing discounted cumulative gain)損失函數(shù)融合方法,將Pairwise方法損失函數(shù)與Pointwise方法的損失函數(shù)相融合,效果顯著,但是時(shí)間復(fù)雜度高。文獻(xiàn)[9]提出用位置近似函數(shù)來(lái)平滑文檔位置損失函數(shù),忽視了由單個(gè)文檔位置變化造成的損失。文獻(xiàn)[10]在降低訓(xùn)練過(guò)程時(shí)間復(fù)雜度的同時(shí)只考慮列表前端位置,缺乏對(duì)位置信息的利用。

基于此,文中提出了一種改進(jìn)的Listwise排序?qū)W習(xí)算法,以整排列表作為輸入,通過(guò)引入Pointwise損失函數(shù)及位置加權(quán)因子,對(duì)Listwise損失函數(shù)進(jìn)行融合,并采用效率更高的Top-k訓(xùn)練方法。最后,在LETOR4.0數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),對(duì)算法性能進(jìn)行驗(yàn)證。

1 改進(jìn)的Listwise排序?qū)W習(xí)算法

1.1 Listwise排序?qū)W習(xí)方法

Listwise將整個(gè)文檔序列看作一個(gè)樣本,通過(guò)優(yōu)化信息檢索和定義損失函數(shù)來(lái)得到排序函數(shù)。

Listwise采用概率模型計(jì)算列的損失函數(shù),即通過(guò)概率模型把一列得分映射成概率分布,然后使用概率分布的度量作為損失函數(shù)[11-12]。度量分布通常有兩種方法:組合概率和Top-k概率。當(dāng)文檔數(shù)較多時(shí),組合概率會(huì)增大計(jì)算量,故通常選擇Top-k概率來(lái)解決這個(gè)問(wèn)題。

1.2 損失函數(shù)的融合

排序?qū)W習(xí)的過(guò)程就是不斷優(yōu)化損失函數(shù)的過(guò)程,在確定損失函數(shù)后,對(duì)其不斷優(yōu)化,直到找到損失函數(shù)最小時(shí)的參數(shù),最后得到排序函數(shù)模型。

1.2.1 損失函數(shù)分類

(1)Pointwise損失函數(shù)。

(1)

其中,yj為訓(xùn)練集合中文檔位置為j的對(duì)象的相關(guān)性標(biāo)注分;f(xj)為學(xué)習(xí)排序函數(shù)對(duì)文檔xj的相關(guān)性預(yù)測(cè)值。

Pointwise方法的訓(xùn)練樣例是單個(gè)文檔,它關(guān)注每個(gè)文檔與查詢的相關(guān)性大小,但是忽略了不同文檔與查詢相關(guān)性的大小關(guān)系,同時(shí)它也是人工神經(jīng)網(wǎng)絡(luò)中經(jīng)常用于衡量訓(xùn)練樣例的預(yù)測(cè)值與真實(shí)值之間誤差的函數(shù)。

(2)Pairwise損失函數(shù)。

(2)

(3)

其中,oj=f(xj),ojk=f(xj)-f(xk)。

Pairwise方法的訓(xùn)練樣例是偏序文檔對(duì),它將對(duì)文檔的排序轉(zhuǎn)化為對(duì)不同文檔與查詢相關(guān)性大小關(guān)系的預(yù)測(cè)。

(3)Listwise交叉熵?fù)p失函數(shù)。

(4)

其中,Gk為Top-k前k個(gè)對(duì)象。

Listwise方法將文檔序列作為整體考慮,認(rèn)為用戶關(guān)心的主要是位于文檔序列前列的文檔,從而忽略了每個(gè)文檔與查詢相關(guān)性的大小。

1.2.2 引入位置加權(quán)因子

排序的目的是將每個(gè)文檔按照查詢相關(guān)性進(jìn)行排序,從而獲取文檔在整個(gè)序列的位置。由于衡量排序預(yù)測(cè)效果最明顯的方法是和真實(shí)序列中的每篇文檔所處的位置作比較,因此引入位置加權(quán)因子,即當(dāng)文檔排列出現(xiàn)錯(cuò)位時(shí),就將該文檔所在位置的倒數(shù)乘以位置損失的平方(位置損失就是預(yù)測(cè)得分與實(shí)際得分的差值),就可以使相關(guān)文檔(根據(jù)相關(guān)性得分)的排列更靠前,不相關(guān)文檔更靠后,提高整體的排序質(zhì)量。

訓(xùn)練集中的數(shù)據(jù)包含許多查詢及查詢項(xiàng)對(duì)應(yīng)的文檔,每個(gè)文檔都有相關(guān)性得分,假設(shè)查詢之間服從獨(dú)立分布。例如,{q1,q2,…,qn}是查詢集,qj表示第j個(gè)查詢,Dj={dj,1,dj,2,…,dj,m},其中Dj表示查詢qj所對(duì)應(yīng)的文檔集合,yj={yj,1,yj,2,…,yj,m},yj表示每個(gè)文檔所對(duì)應(yīng)的得分。特征向量xj由特征函數(shù)φ(·)得到,訓(xùn)練特征集可以表示為x={x1,x2,…,xn},排序函數(shù)為f(x),則查詢每個(gè)qj所對(duì)應(yīng)的文檔集的位置加權(quán)因子為:

(5)

1.2.3 融合產(chǎn)生新型損失函數(shù)

綜合上述Pointwise、Listwise方法的優(yōu)缺點(diǎn)分析,引進(jìn)位置加權(quán)因子,依據(jù)SHF-SDCG損失函數(shù)的融合框架,進(jìn)行損失函數(shù)融合,得到新的損失函數(shù):

L=Lpt×Tm+(1-Tm)×(Lls×Tm+(1-Tm)×Lp)

(6)

1.3 改進(jìn)的Listwise排序?qū)W習(xí)算法

文中采用雙層神經(jīng)網(wǎng)絡(luò)模型,借助誤差反向傳播算法以達(dá)到調(diào)節(jié)權(quán)值ω的目的,然后使用梯度下降優(yōu)化損失函數(shù)L得到排序模型。其算法具體描述如下:

輸入:訓(xùn)練集{(x(1),y(1)),(x(2),y(2)),…,(x(m),y(m))}

參數(shù):設(shè)置迭代次數(shù)T,學(xué)習(xí)率η并初始化權(quán)重ω0。網(wǎng)絡(luò)輸入層單元數(shù)為nin,網(wǎng)絡(luò)隱藏層單元數(shù)為nhidden

輸出:改進(jìn)的Listwise排序模型

1.創(chuàng)建nin個(gè)網(wǎng)絡(luò)輸入單元,nhidden個(gè)網(wǎng)絡(luò)隱藏層單元,一個(gè)輸出單元的網(wǎng)絡(luò),按照ω0初始化網(wǎng)絡(luò)初始權(quán)重值。

2.fort=1 tot=T

3.fori=1 toi=m

4.輸入查詢q(i)的對(duì)應(yīng)特征x(i)到神經(jīng)網(wǎng)絡(luò),并且計(jì)算輸出得分f(xi),同時(shí)計(jì)算Lpt、Lls以及Lp

6.更新網(wǎng)絡(luò)權(quán)重ωt+1=ωt-η×ωt

7.End for

8.End for

其中

f(x)=ω·x

(7)

對(duì)損失函數(shù)進(jìn)行梯度計(jì)算:

(8)

(9)

Tm×(1-Tm)2

(10)

(11)

2 實(shí) 驗(yàn)

2.1 數(shù)據(jù)集

實(shí)驗(yàn)采用Letor4.0數(shù)據(jù)集中的TREC 2008,該數(shù)據(jù)集為46維數(shù)據(jù),每一行表示一個(gè)樣本文檔,第一列是樣本相關(guān)度,第二列是查詢qid,其他列包含46維文檔特征索引以及相應(yīng)的特征值,例如:BM25、IF、語(yǔ)言模型等內(nèi)容特征,PageRank等基于網(wǎng)頁(yè)分析的特征。該數(shù)據(jù)集采用5折交叉驗(yàn)證策略,分為5組,每組有三個(gè)學(xué)習(xí)子集:訓(xùn)練集、驗(yàn)證集和測(cè)試集。規(guī)模較小的驗(yàn)證集被用來(lái)確定最佳迭代次數(shù)以及網(wǎng)絡(luò)權(quán)重。

2.2 評(píng)價(jià)標(biāo)準(zhǔn)

采用NDCG(normalized discounted cumulative gain)評(píng)價(jià)指標(biāo),它是用來(lái)衡量排序質(zhì)量的指標(biāo),當(dāng)所有相關(guān)文檔排在不相關(guān)文檔的前面時(shí),NDCG值最大[13-15]。其定義如下:

(12)

其中,Zn為歸一化因子;r(j)為第j個(gè)位置文檔的標(biāo)簽,j為位置。

2.3 實(shí)驗(yàn)設(shè)計(jì)

文中算法實(shí)驗(yàn)設(shè)定隱藏層的權(quán)值為較小的隨機(jī)值[-0.2,0.2],輸入層的權(quán)值設(shè)定為0或者較小的隨機(jī)值[-0.01,0.01],初始學(xué)習(xí)率為0.003,在每次學(xué)習(xí)中,如果上次迭代的平均誤差小于所有樣例的平均誤差,則將學(xué)習(xí)率降為一半。最后將文中算法與Pointwise方法中的Regression算法、Pairwise方法中的RankSVM算法和基于SHF-SDCG改進(jìn)的RankNet算法及Listwise方法中的ListNet算法進(jìn)行實(shí)驗(yàn)對(duì)比。

2.4 實(shí)驗(yàn)結(jié)果對(duì)比與分析

采用NDCG@K,實(shí)驗(yàn)結(jié)果對(duì)比如表1所示。為了使結(jié)果對(duì)比更加直觀,將表1數(shù)據(jù)用直方圖表示出來(lái),如圖1所示。

表1 NDCG@K值的比較

圖1 NDCG@K值的比較

從圖中可以看出,Listwise算法要優(yōu)于其他算法,主要原因是Listwise方法比Pointwise方法、Pairwise方法更加直接自然,可以區(qū)分不同查詢中的文檔。當(dāng)k=1,2,3時(shí),基于SHF-SDCG改進(jìn)的RankNet要優(yōu)于其他算法,主要原因是在Pairwise方法中增加了對(duì)單個(gè)文檔相關(guān)性的考慮,不會(huì)出現(xiàn)因?yàn)槲臋n對(duì)內(nèi)兩個(gè)文檔的相關(guān)性預(yù)測(cè)錯(cuò)誤而導(dǎo)致連鎖反應(yīng)影響最終排序性能的現(xiàn)象,并且當(dāng)k比較小時(shí),改進(jìn)Pairwise方法無(wú)限接近于Listwise方法,并且在排序性能上要優(yōu)于Listwise方法。而當(dāng)k=5,6,…,10時(shí),改進(jìn)Listwise方法的NCDG@k值比較大且穩(wěn)定,主要原因是當(dāng)k較大時(shí),改進(jìn)Listwise方法較其他方法不僅考慮了相關(guān)文檔位置,而且引入了Pointwise損失函數(shù),更加全面地考慮了排序的各個(gè)方面。

綜上所述,改進(jìn)Listwise方法得到的排序列表中的相關(guān)文檔排在列表前面位置的情況要優(yōu)于Listwise、Pointwise、Pairwise等方法。

3 結(jié)束語(yǔ)

通過(guò)對(duì)排序效果最自然、效果較好的Listwise方法進(jìn)行研究,在現(xiàn)有SHF-SDCG損失函數(shù)融合框架的基礎(chǔ)上,引入位置加權(quán)因子以及Pointwise損失函數(shù),分別采用梯度下降算法和多層神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練網(wǎng)絡(luò)權(quán)重值,對(duì)Listwise算法進(jìn)行了綜合改進(jìn)與優(yōu)化,解決了原算法存在的時(shí)間復(fù)雜度高、排序位置信息利用度低等問(wèn)題。為了驗(yàn)證改進(jìn)之后Listwise算法的優(yōu)越性,選用Letor4.0數(shù)據(jù)集中的TREC 2008進(jìn)行實(shí)驗(yàn),NDCG值的對(duì)比證實(shí)了改進(jìn)算法在排序過(guò)程中取得了較好的實(shí)驗(yàn)效果。

猜你喜歡
排序融合方法
排序不等式
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
恐怖排序
節(jié)日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产精品亚洲片在线va| 九九精品在线观看| 欧美一级高清片欧美国产欧美| 国产国语一级毛片在线视频| 欧美一区日韩一区中文字幕页| 国产91透明丝袜美腿在线| 国产午夜小视频| 亚洲水蜜桃久久综合网站| 无码人中文字幕| 久热精品免费| 亚洲视频在线青青| 久久久亚洲色| 午夜国产在线观看| 福利小视频在线播放| 国产成人无码AV在线播放动漫| 国产拍在线| 99精品国产高清一区二区| 欧美国产精品不卡在线观看| 色有码无码视频| 天天色天天综合网| 99视频精品全国免费品| 亚洲一区毛片| 色妞永久免费视频| 国产精品尹人在线观看| 在线观看无码av免费不卡网站| 亚洲熟女中文字幕男人总站| 四虎影视永久在线精品| 国产欧美日韩在线在线不卡视频| 91美女在线| 亚洲爱婷婷色69堂| 日本精品视频| 成人亚洲国产| 人妻出轨无码中文一区二区| 国产色伊人| 午夜三级在线| 97超级碰碰碰碰精品| 国产aⅴ无码专区亚洲av综合网| 福利国产微拍广场一区视频在线| 新SSS无码手机在线观看| 黄色三级网站免费| 看看一级毛片| 欧美午夜网| 精品伊人久久久久7777人| 手机在线看片不卡中文字幕| 亚洲AⅤ综合在线欧美一区 | 国产精品美乳| 无码免费的亚洲视频| 国产拍揄自揄精品视频网站| 国产一区二区三区夜色| 久久无码av三级| 日本草草视频在线观看| 精品欧美日韩国产日漫一区不卡| 亚洲AV永久无码精品古装片| 久久综合干| 欧美色综合网站| 亚洲欧美成aⅴ人在线观看| 欧美亚洲一二三区| 99人妻碰碰碰久久久久禁片| 精品成人一区二区三区电影| 欧美激情首页| 久久动漫精品| 成人午夜天| 亚洲午夜天堂| 国产高清国内精品福利| 亚洲天堂色色人体| 精品日韩亚洲欧美高清a| 色噜噜狠狠色综合网图区| 欧美日韩久久综合| 热99re99首页精品亚洲五月天| 国产在线一区二区视频| 内射人妻无码色AV天堂| 97免费在线观看视频| 久久综合激情网| 美女潮喷出白浆在线观看视频| 欧美成人精品一级在线观看| 欧美日韩国产高清一区二区三区| 国产中文在线亚洲精品官网| 在线观看91精品国产剧情免费| 欧美.成人.综合在线| 亚洲第一天堂无码专区| 黄色福利在线| 亚洲αv毛片|