999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自適應(yīng)動態(tài)加權(quán)圖的會話推薦系統(tǒng)

2023-10-30 07:16:12姜宜鑫吳杰
科學(xué)與信息化 2023年20期
關(guān)鍵詞:用戶策略方法

姜宜鑫 吳杰

遼寧科技大學(xué)計算機(jī)與軟件工程學(xué)院 遼寧 鞍山 114051

引言

對話推薦系統(tǒng)(CRS)的目標(biāo)是通過互動對話的方式了解用戶的喜好并推薦。作為推薦系統(tǒng)重要的研究方向,具有明確獲取用戶偏好和揭示推薦原因的天然優(yōu)勢,CRS已經(jīng)成為推薦系統(tǒng)的研究熱點之一,并受到越來越多的關(guān)注。傳統(tǒng)的推薦系統(tǒng)和交互式推薦系統(tǒng)(IRS)主要解決推薦哪些項目問題,而CRS一般存在兩個核心問題,分別是問題提問的時間和內(nèi)容,通過問題的提問方式,引導(dǎo)用戶提供推薦信息。研究表明,詢問問題對CRS的推薦性能影響巨大。

1 相關(guān)研究

根據(jù)問題設(shè)置的不同,可以將CRS相關(guān)研究分為四種。第一種使用強(qiáng)規(guī)則[1-3],解決用戶推薦中的冷啟動問題;第二種為問題驅(qū)動的方法[4-6],旨在向用戶提問,以獲取關(guān)于他們偏好的更多信息;第三種方法為對話理解與生成,這種方法旨在理解用戶的喜好,從他們的話語中傳遞有效的推薦信息。

神經(jīng)網(wǎng)絡(luò)中基于圖的推薦研究主要包括兩種方法。一是通過圖表示學(xué)習(xí)提高推薦性能,包括利用結(jié)構(gòu)信息進(jìn)行協(xié)同過濾;采用圖嵌入作為豐富的上下文信息。另一種將推薦建模問題轉(zhuǎn)化為路徑推理問題,以構(gòu)建可解釋的推薦系統(tǒng)。神經(jīng)網(wǎng)絡(luò)中基于圖的推薦研究主要包括兩種方法。一種是通過圖表示學(xué)習(xí)提高推薦性能,包括利用結(jié)構(gòu)信息進(jìn)行協(xié)同過濾;采用圖嵌入作為豐富的上下文信息。另一種將推薦建模問題轉(zhuǎn)化為路徑推理問題,以構(gòu)建可解釋的推薦系統(tǒng)。本文研究了基于動態(tài)加權(quán)圖的會話推薦系統(tǒng),綜合了上述模型的優(yōu)點,實驗結(jié)果性能更好。

2 模型結(jié)構(gòu)

本文提出的方法主要包括:基于圖的MDP環(huán)境、圖表示學(xué)習(xí)、行動選擇策略和深度Q-Learning網(wǎng)絡(luò)。MDP環(huán)境負(fù)責(zé)通知代理當(dāng)前狀態(tài)和可能采取的操作,然后根據(jù)當(dāng)前策略觀察用戶交互獎勵代理。在形式上,MDP環(huán)境可以定義為一個元組其中表示狀態(tài)空間,為動作空間,表示狀態(tài)轉(zhuǎn)移函數(shù),表示獎勵函數(shù)。狀態(tài)空間主要為會話推薦的所有信息,包括會話歷史和所有用戶、項目和屬性的全圖。給定一個用戶u,主要考慮兩個元素:

2.1 基于圖的MDP環(huán)境

MDP環(huán)境負(fù)責(zé)通知代理當(dāng)前狀態(tài)和可能采取的操作,然后根據(jù)當(dāng)前策略觀察用戶交互獎勵代理。在形式上,MDP環(huán)境可以定義為一個元組其中表示狀態(tài)空間,為動作空間,表示狀態(tài)轉(zhuǎn)移函數(shù),表示獎勵函數(shù)。

結(jié)合目前的MCR研究,我們的環(huán)境包含五種獎勵:當(dāng)用戶接受推薦項時會獲得一個強(qiáng)獎勵;當(dāng)用戶獲得推薦項時,獲得一個負(fù)獎勵;當(dāng)用戶接受詢問屬性時,獲得一個次級正獎勵;當(dāng)用戶拒絕請求屬性時,獲得一個負(fù)獎勵;當(dāng)達(dá)到最大回合數(shù)時,獲得一個強(qiáng)消極獎勵。

2.2 圖表示學(xué)習(xí)

基于圖的MDP環(huán)境中,將會話推薦作為統(tǒng)一的策略學(xué)習(xí)問題,因此需要將會話和圖結(jié)構(gòu)信息編碼到潛在的分布式表示中。為了利用用戶、項目和屬性之間的相互關(guān)系,采用基于圖神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練方法,對全圖G中的所有結(jié)點進(jìn)行節(jié)點嵌入。

將基于圖的MDP環(huán)境的當(dāng)前狀態(tài)表示為一個動態(tài)加權(quán)圖。定義一個無向加權(quán)圖其中為圖的節(jié)點集合,表示邊的集合,表示節(jié)點集合中的每個元素,間的邊。

除了涉及的用戶、項目和屬性之間的相互關(guān)系,CRS還期望在當(dāng)前狀態(tài)下對會話歷史建模。與啟發(fā)式特征進(jìn)行會話歷史的研究不同,使用Transformer編碼器捕獲會話歷史記錄的順序信息,并參與決定下一個動作的重要信息。

2.3 行為選擇策略

行為搜索空間將在很大的程度上影響策略學(xué)習(xí)的性能。處理巨大的操作空間特征非常重要。本文提出兩種簡單的策略提高候選行動選擇的樣本效率。

對于推薦的候選項目,只考慮從少數(shù)最符合用戶偏好的候選項目中推薦,因為用戶不太可能對所有項目感興趣。而對于要求的候選屬性,期望屬性不僅能夠很好地消除選項的不確定性,而且還能編碼用戶偏好,采用加權(quán)熵作為篩選候選屬性的標(biāo)準(zhǔn)。

2.4 深度Q-Learning網(wǎng)絡(luò)

獲取圖表示和動作空間后,使用深度Q-Learning網(wǎng)絡(luò)完成統(tǒng)一的對話推薦策略。根據(jù)延遲獎勵的標(biāo)準(zhǔn)假設(shè),每一個時間步都要計算對應(yīng)的獎勵,定義表示為狀態(tài)行動的預(yù)期獎勵。Q-network利用兩個深度神經(jīng)網(wǎng)絡(luò)計算價值函數(shù)和優(yōu)勢函數(shù)

模型學(xué)習(xí)后,給定一個用戶和他的對話歷史,遵循同樣的過程來獲得候選動作空間和當(dāng)前狀態(tài)表示,然后根據(jù)最大間隔值Q決定下一個動作。如果選擇的操作指向一個屬性,系統(tǒng)將詢問用戶對該屬性的偏好程度,如果選擇操作指向項目,則將這個項目推薦給用戶。

3 實驗過程與結(jié)果分析

表1顯示了本文提出的方法和UNICORN方法對比,同時比較了在這些數(shù)據(jù)集上的基線模型。總體來說,UNICORN的成功率明顯更高,平均回合數(shù)更少。對于真實的電子商務(wù)數(shù)據(jù)集,SCPR優(yōu)于EAR和CRM,它們的性能在很大程度上受到了電子商務(wù)數(shù)據(jù)集中較大的操作空間的影響。具體分析如下:

表1 不同數(shù)據(jù)集的結(jié)果

由表中的數(shù)據(jù)可以清晰的看到,本文提出的模型訓(xùn)練更加穩(wěn)定,需要更少的交互回合數(shù),就能獲得更好的性能。在這些基線模型中,SCPR曲線是最活躍的,因為它只考慮什么時候詢問和建議決策,而詢問和建議決策是兩個獨(dú)立的組成部分。對于EAR和CRM模型,由于前3個數(shù)據(jù)集的動作空間較大,在模型的訓(xùn)練過程中,并沒有明顯的性能提升,甚至模型性能更差。這些結(jié)果證明了所提出的統(tǒng)一策略學(xué)習(xí)方法的有效性。為了更好地觀察不同方法的差異,表中展示了最先進(jìn)的基線SCPR的推薦成功率。值得注意的是:在所有數(shù)據(jù)集和幾乎每一次對話中,本文提出的模型性能都大大超過了這些基線模型;由于貪婪匹配推薦的方法,對會話的早期階段成功擊中目標(biāo),導(dǎo)致在前幾個回合中表現(xiàn)較強(qiáng),但是,隨著回合的增加,這個性能會迅速下降;本文提出的方法在會話的中間階段表現(xiàn)突出,此時仍然有大量的候選項目和屬性需要刪除。這種現(xiàn)象表明,本文提出的方法在不同的情況下有效處理大型候選空間的強(qiáng)大可擴(kuò)展性;SCPR在對話后期的性能越來越接近本文提出的方法,因為候選項和屬性集越來越小,任務(wù)變得越來越容易;EAR和CRM在具有大型候選屬性集和數(shù)據(jù)集中具有與AbsGreedy相似的性能,這表明他們的政策學(xué)習(xí)只是在遇到大的行動空間時才會起作用。

本文提出的模型和最先進(jìn)的CRS模型相比,從電子商務(wù)數(shù)據(jù)集隨機(jī)抽樣的真實世界交互之間差異明顯。面對巨大的候選操作空間,CRM傾向于只觸發(fā)推薦組件進(jìn)行推薦,而EAR則不斷地詢問用戶不喜歡的問題。盡管SCPR在預(yù)測用戶偏好屬性方面取得了成功,但是SCPR中的策略學(xué)習(xí)只是根據(jù)候選條目數(shù)量決定何時提問或推薦,這導(dǎo)致了一些不必要或冗余的問題循環(huán)。本文提出的模型通過對下一步行動做出全面的評估,系統(tǒng)的解決了這些問題。

4 結(jié)束語

本研究將3種獨(dú)立的CRS決策過程,包括何時詢問或建議、問什么和推薦什么,作為一個統(tǒng)一規(guī)則學(xué)習(xí)問題。為了解決統(tǒng)一會話推薦策略學(xué)習(xí)問題,提出一種基于動態(tài)加權(quán)圖的自適應(yīng)RL框架。此外,本文進(jìn)一步設(shè)計了2個簡單而有效的行動選擇策略處理樣本效率問題,實驗結(jié)果證明,該模型的性能明顯優(yōu)于4個基準(zhǔn)數(shù)據(jù)集,并具有顯著的可擴(kuò)展性和穩(wěn)定性。

猜你喜歡
用戶策略方法
例談未知角三角函數(shù)值的求解策略
我說你做講策略
高中數(shù)學(xué)復(fù)習(xí)的具體策略
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
如何獲取一億海外用戶
主站蜘蛛池模板: 无码丝袜人妻| 九九香蕉视频| 高清欧美性猛交XXXX黑人猛交| 奇米影视狠狠精品7777| 国产毛片高清一级国语 | 日韩精品无码一级毛片免费| 国产激情影院| 亚洲一区二区无码视频| 亚洲日韩AV无码精品| 一边摸一边做爽的视频17国产| 精品久久人人爽人人玩人人妻| 国产乱子伦一区二区=| 中文字幕首页系列人妻| 日本午夜影院| 久久精品亚洲专区| 国产在线98福利播放视频免费| 女同国产精品一区二区| 日本日韩欧美| 日韩东京热无码人妻| 亚洲欧美一区在线| 亚洲天堂日本| 尤物在线观看乱码| 国产成人无码Av在线播放无广告| 免费看av在线网站网址| 中国国产A一级毛片| 国产精品一老牛影视频| 国国产a国产片免费麻豆| 久精品色妇丰满人妻| 精品无码一区二区三区在线视频| 五月六月伊人狠狠丁香网| 国产99热| 国产无码在线调教| 丰满人妻被猛烈进入无码| 久久永久精品免费视频| 激情午夜婷婷| 亚洲AV成人一区二区三区AV| 婷婷色狠狠干| 在线视频一区二区三区不卡| 五月天丁香婷婷综合久久| 六月婷婷激情综合| 青青青国产在线播放| 国产激情在线视频| 成人久久精品一区二区三区| 国产精品私拍99pans大尺度| 97超级碰碰碰碰精品| 在线观看欧美精品二区| 亚洲成a∧人片在线观看无码| 日韩黄色在线| 亚洲人成网7777777国产| 国产噜噜噜视频在线观看| 福利在线不卡一区| 日本精品中文字幕在线不卡| 精品欧美一区二区三区久久久| 久久6免费视频| 亚洲国产成人无码AV在线影院L| 成人在线天堂| 国产又粗又猛又爽视频| 美女潮喷出白浆在线观看视频| 国产视频一二三区| 在线色国产| 日韩福利在线视频| 国产成人a在线观看视频| 国产亚洲视频在线观看| 亚洲视频欧美不卡| 综合天天色| 在线一级毛片| 国产高清不卡| 国产成人综合亚洲欧洲色就色| 91青青在线视频| 野花国产精品入口| 91色综合综合热五月激情| 中国成人在线视频| 精品少妇人妻无码久久| 国产欧美日韩专区发布| 啪啪国产视频| 国产精品综合色区在线观看| 黄色网在线免费观看| 狠狠干欧美| 亚洲永久精品ww47国产| 天天躁夜夜躁狠狠躁躁88| 精品人妻一区无码视频| 污污网站在线观看|