增強非線性特征提取的時間間隔感知序列推薦

2022-08-12 01:54:20寧昱霖

現代信息科技 2022年7期

寧昱霖

（安徽理工大學計算機科學與工程學院，安徽淮南 232001）

0 引言

隨著互聯網技術的迅速發展，全球的數據總量呈井噴式增長。雖然大數據蘊含豐富的信息及巨大的商機，但信息過載造成的問題也隨之而來。如何有效的從海量的數據中提煉出有價值的信息成為當今信息檢索領域發展的一大難題。推薦系統作為緩解信息過載的技術之一，它已經成為電子商務、短視頻、新聞推送等各個互聯網領域的核心技術。

傳統的推薦模型，例如基于內容和基于用戶的協同過濾推薦，它們是以一種靜態的方式建模用戶和項目的交互且只可捕獲用戶廣義的喜好，而在現實生活中用戶的偏好是不斷改變的并且用戶前后的行為都存在極強的關聯性。序列推薦模型就是利用了用戶興趣的動態性，試圖將用戶過去的歷史行為記錄建模成一個項目序列，根據用戶最近交互的項目來預測他們的下一步行動。基于時間間隔的序列推薦模型是在傳統的序列推薦模型中顯式地融入用戶與項目交互時間的間隔。但由于數據集中涉及了復雜的時間間隔信息，單一的前饋神經網絡無法完全提取數據集中蘊含的信息，因此，本文準備使用三階段線性層代替前饋神經網絡以充分提取數據集中蘊含的信息。

1 模型與方法

本文提出的模型是基于基線模型TiSASRec進行改進的，在本節中，將詳細介紹改進后的TiSASRec 模型的各個組成部分，包括個性化時間間隔處理、嵌入層、時間感知自注意力模塊和預測層，模型流程如圖1所示。

圖1 模型流程圖

1.1 問題描述

定義和分別表示用戶字典和項目字典，給定每個用戶∈的歷史行為序列S={s，s，…}，其中s∈，行為序列對應的時間序列可表示為T={t，t，…}。在時間步長時，模型會根據之前的項以及兩兩項目之間的時間間隔預測下一個項目。

1.2 項目序列及時間序列的處理

1.3 相對位置矩陣的計算

為了防止時間間隔過于稀疏，將時間間隔大于的時間間隔替換為，剪裁后的矩陣表示為M。

1.4 嵌入層

首先創建一個項目嵌入矩陣M∈，為嵌入維度。通過檢索用戶項目序列中的項目索引，從M中找到對應的嵌入表達，將其堆疊在一起，形成矩陣E，E∈R，可表示為E=[m，m，…，m]。然后，使用兩個不同的可學習的位置嵌入矩陣E，E∈R分別作為自注意力機制中key，value 矩陣的絕對位置編碼，表示為E=[p，p，…，p]，E=[p，p，…，p]。對于相對位置嵌入矩陣的嵌入表示，同樣采用兩個版本E，E∈R，分別作為自注意力機制中key，value 矩陣的相對位置編碼，表示為：

1.5 時間感知自注意力模塊

1.5.1 時間感知自注意力機制

對于每個用戶∈的項目交互序列E=[m，m，…，m]，計算新的序列=[，，…，z]，對于每個z都是由項目交互序列的嵌入表達經過線性變化后再加權求和得到的。用公式可表達為：

其中，w∈R為自注意力機制中將項目交互序列轉化為value 矩陣的線性層，α是softmax 函數對于權重系數的歸一化操作，可以表達為：

其中，e為結合交互序列中的項目信息，絕對位置信息以及相對位置信息的權重系數，可表示為：

其中，w，w∈R分別為自注意力機制中將項目交互序列轉化為query，key 矩陣的線性層。為了防止模型未卜先知，需屏蔽所有q和k的連接（＞）。

1.5.2 多層線性層

時間感知自注意力機制本質上仍然是一個線性模塊，沒有提取數據集非線性特征的能力，因此，需要在時間感知自注意力機制后面添加一個可以提取數據集中非線性特征的模塊。TiSASRec 模型采用一個前饋神經網絡提取數據集的非線性特征，但由于模型的輸入信息中包含復雜的時間信息，因此，本文選擇使用三層線性層替換前饋神經網絡進行非線性特征的提取，并且使用LeakyReLU 函數作為激活函數。其公式可表達為：