陳彥彬 楊澤華 謝佳



本文引用格式:陳彥彬,楊澤華,謝佳.融合多源特征的電梯廣告推薦系統[J].自動化與信息工程,2023,44(2):27-35.
CHEN Yanbin, YANG Zehua, XIE?Jia. Elevator advertising recommendation system integrating multi-source features[J]. Automation & Information Engineering, 2023,44(2):27-35.
摘要:針對電梯傳媒終端廣告精準投放面臨的采集廣告受眾個人隱私數據難的問題,提出融合電梯交通流量、廣告主行為時空特征、廣告主題特征、廣告主評分行為等多源特征的電梯廣告推薦算法。首先,利用差分函數算法從電梯運行數據中提取電梯交通流量峰值特征;然后,通過廣告主廣告行為數據提取廣告主行為時空特征;接著,將電梯交通流量峰值特征與廣告主行為時空特征融合,并利用ReliefF算法進行特征篩選;最后,設計融合多源特征的電梯廣告推薦系統,實現電梯廣告節目的精準投放。實驗結果表明:融合多源特征的電梯廣告推薦算法的Precision、Recall和ROC曲線的AUC值等評價指標均明顯提高;在一定程度上解決了冷啟動、數據稀疏等問題。該系統無需采集廣告受眾的個人隱私數據,具有較強的實用性。
關鍵詞:多源特征;電梯廣告;推薦算法;精準投放
中圖分類號:TP 301?????????????文獻標志碼:A??????????文章編號:1674-2605(2023)02-0006-09
DOI:10.3969/j.issn.1674-2605.2023.02.006
Elevator Advertising Recommendation System?Integrating ?????????????Multi-source Features
CHEN Yanbin1,?2??YANG Zehua2??XIE?Jia2
(1. Training and Information Center, Jieyang Polytechnic, Jieyang 522051, China
2. General Manager, Guangdong Bohua Technology Co., Ltd., Jieyang 522000, China)
Abstract:?In response to the difficulty in collecting personal privacy data of advertising audiences for precise advertising placement in elevator media terminals, a elevator advertising recommendation algorithm is proposed that integrates multi-source features such as elevator traffic flow, spatiotemporal characteristics of advertiser behavior, advertising theme characteristics, and advertiser rating behavior. Firstly, the difference function algorithm is used to extract the peak characteristics of elevator traffic flow from elevator operation data; Then, extract the spatiotemporal characteristics of advertisers' behavior through their advertising behavior data; Next, the peak characteristics of elevator traffic flow are fused with the spatiotemporal characteristics of advertiser behavior, and the ReliefF algorithm is used for feature selection; Finally, design an elevator advertising recommendation system that integrates multi-source features to achieve accurate placement of elevator advertising programs. The experimental results show that the evaluation indicators such as Precision, Recall, and AUC value of the ROC curve of the elevator advertising recommendation algorithm that integrates multi-source features are significantly improved; To some extent, it has solved problems such as cold start and data sparsity. This system does not need to collect personal privacy data of advertising audiences, and has strong practicality.
Keywords:multi-source features; elevator advertising; recommendation algorithm; accurate placement
0 ?引言
隨著計算廣告尤其是電梯傳媒終端廣告的快速發展,精準投放變得越來越重要。推薦算法是計算廣告精準投放的關鍵,對提高流量分發和廣告效益起到重要作用。傳統的推薦算法主要包括基于內容、用戶、物品、標簽的推薦等[1-3]。李劍鋒等[4]在協同過濾的基礎上,提出融合個性化和大眾化認同度的近相鄰改進算法,在一定程度上改善了推薦算法的效果。王英博等[5]在協同過濾的基礎上,通過處理3種類型的用戶項目子空間,形成3棵鄰居用戶樹,計算相似用戶,實現協同過濾推薦。文獻[6-8]在標準協同過濾框架上整合用戶信任關系,改善了推薦效果。文獻[4-8]提出的推薦算法均基于傳統的推薦算法進行改進,雖然在一定程度上優化了推薦效果,但本質仍是協同過濾思想,需要用戶評分等行為數據作為支撐,因此在冷啟動、數據稀疏等方面存在瓶頸。
目前,針對計算廣告的研究大都集中于對在線廣告點擊通過率的預測;戶外廣告的研究則以出租車LED屏[9]、廣告牌等為主,側重于廣告設計的美化和提升等策略研究[10],較少涉及計算技術。當前大多數電梯傳媒終端廣告的投放,由于采集廣告受眾個人隱私數據難、缺少互動場景等原因,使廣告受眾的行為分析缺乏數據支撐,導致廣告投放精準度及效益相對較低。
基于此,本文從影響電梯傳媒終端廣告投放精準度和個性化的角度進行特征提取,提出融合電梯交通流量、廣告主行為時空特征、廣告主題特征、廣告主評分行為等多源特征的電梯廣告推薦算法。首先,介紹融合多源特征的電梯廣告推薦系統架構;然后,對多源數據進行特征提取和融合;接著,利用ReliefF算法進行特征篩選;最后,設計融合多源特征的電梯廣告推薦系統,實現電梯廣告節目的精準投放。
1 ?系統架構
1.1 ?業務架構
融合多源特征的電梯廣告推薦系統本質就是廣告節目的推薦系統,主要包括電梯、廣告受眾、傳媒終端(客戶端)、廣告主、服務器(廣告運營商)、數據庫等,業務架構如圖1所示。
融合多源特征的電梯廣告推薦系統主要業務流程如下:
1) 廣告主新建廣告主題,并提交廣告節目推薦列表請求至相應的服務器;
2) 服務器調用應用程序接口(application program interface, API)進行廣告節目推薦計算;
3) 服務器將廣告節目推薦列表分發到節目分發服務器;
4) 節目分發服務器按照廣告節目推薦列表順序分發廣告媒體到電梯傳媒終端;
5) 電梯傳媒終端將廣告媒體播出結果及電梯運行數據采集至服務器;
6) 廣告主對廣告節目播放效果進行評分。
1.2 ?系統框架
融合多源特征的電梯廣告推薦系統包括多源數據集、數據預處理及特征提取、特征篩選、模型訓練與預測,框架如圖2所示。
2??多源數據處理
2.1??多源數據
本文采用的多源數據為某公司廣告推薦系統經脫敏處理后的數據,主要包括廣告主、廣告主題、電梯、評分記錄、傳媒終端(電梯)等信息。電梯運行數據表、電梯廣告投放日志、廣告主信息表、廣告主題表、電梯基本信息表、廣告主-廣告主題評分表分別如表1~表6所示。
2.2 ?數據預處理
對多源數據中的缺失值、異常值和重復值進行數據清洗后,采用歸一化、二值化、離散化、編碼等處理方法,分別對表1~表6中的數據進行數據預處理,形成多源數據集。
2.2.1 ?連續型特征
多源數據中的連續型特征,如表3中的規模(enter_scale)、注冊資本(enter_registered_ capital)等,采用歸一化方法進行處理,具體如公式(1)所示。
式中:Vmin為特征值的最小值,Vmax為特征值的最大值。
表5中的電梯載重(elevator_load)需折算為電梯乘客數,作為廣告受眾的流量特征。假定電梯載客為75?kg/人,電梯載重折算為電梯乘客數的計算公式為
利用坐標轉換將表5中的電梯經度(elevator_lon)、電梯緯度(elevator_lat)轉換為百度地圖坐標,與電子地圖匹配。
每個廣告主題根據播放起止時間進行節目的歸屬劃分處理。
根據廣告主行為時空特征的分析結果,利用同類型廣告主評分的均值補齊缺省值,解決評分數據稀疏的問題。
2.2.2??離散型特征
多源數據中的離散型特征,如表3中的行業類型(industry_type)、級別(enter_level)、性質(enter_ property)等,需從非數值型數據轉換為數值型數據,以方便模型訓練。本文采用虛擬編碼的方法,將同個特征中的n個取值轉換為n-1個特征值,以解決虛擬編碼的共線問題,提高模型訓練精度。如廣告主性質(enter_ property)的屬性有國家機關、事業單位、國有企業、集體企業、有限公司、股份公司、三資企業、私營企業、自然人、個體戶及其他企業共11個取值,采用虛擬編碼的方法將其轉換為10個特征值,如國家機關用向量表示為f=?(1,0,0,0,0,0,0,0,0,0),事業單位用向量表示為f=?(0,1,0,0,0,0,0,0,0,0),其他企業用向量表示為f=?(0,0,0,0,0,0,0,0,0,0)。表4、表5中的其他離散型特征,采用同樣的虛擬編碼方法進行預處理。
2.2.3 ?文本型特征
多源數據中的文本型特征,如表4中的廣告摘要(adver_abstract)、廣告評論(adver_com)等,采用手工、自動提取相結合的方法選擇關鍵詞key,并利用詞頻-逆向文件頻率(term frequency-inverse document frequency, TF-IDF)計算其權重值weight,構成新的特征向量(key,weight)。
3??特征提取
3.1 ?電梯交通流量峰值特征
3.2 ?廣告主行為時空特征
廣告主發布廣告主題會形成一系列行為,包括廣告時長、廣告模式、廣告區域、廣告評論等。本文分別從時間和空間進行特征分析,為廣告節目推薦提供基礎依據,同時為新用戶提供聚類均值。
3.2.1 ?時序特征
假定由廣告主題數據集AT、時間窗口t、所有廣告主的行為序列組成語料庫A,訓練得到Skip- gram詞向量模型S(A),則集合相似度計算公式為
3.2.2 ?空間特征
電梯傳媒終端廣告精準投放時,廣告受眾分布的區域特點,使廣告主的行為特征也具有明顯的區域特征。本文采用密度峰值聚類算法對廣告主行為空間特征進行提取。
4 ?特征篩選
為進一步提高模型訓練效率和準確率,利用ReliefF算法對多源數據集的特征進行篩選,選取貢獻度大的特征作為最優特征集。
ReliefF算法進行特征篩選的流程如圖3所示。
本文設定特征權重的閾值為0.4。基于此,本文多源數據集經特征提取后共有154個特征,經ReliefF算法篩選出122個特征作為本文系統的特征集。
5??系統設計
5.1??功能模塊設計
融合多源特征的電梯廣告推薦系統主要包括廣告模塊、受眾模塊、電梯管理模塊、管理員模塊等4個模塊,如圖4所示。
融合多源特征的電梯廣告推薦系統的用戶主要包括廣告商、代理商、操作員、管理員等。該系統可進行廣告節目、廣告主題、廣告交易明細等信息的實時統計,設定定向投放準則,設置頻次控制等。
5.2 ?系統實現
融合多源特征的電梯廣告推薦系統采使用B/S架構設計開發,系統服務器端和客戶端的界面如圖5所示。
系統使用時,需要將電梯傳媒終端的設備號錄入服務器端,客戶端可在后臺注冊設備信息。從廣告節目服務器獲取廣告媒體并進行播放。系統以CatBoost模型為基礎,形成基于廣告節目的時間推薦列表、基于傳媒終端的空間推薦列表、基于終端-節目的時空推薦列表,經過加權融合后,依據CatBoost模型計算結果進行TOP-N推薦,即為廣告節目推薦列表。
6??實驗結果分析
6.1??實驗數據集
為驗證本文提出的融合多源特征的電梯廣告推薦系統的效果,采集某公司廣告推薦系統的2021年3月~8月的平臺數據,經脫敏和預處理后作為實驗數據集,如表7所示。
實驗數據集中的每條數據包括電梯及廣告主基本信息、電梯交通流量峰值特征、廣告主行為時空特征和廣告主與廣告主題的交互信息等共122個特征信息。
將實驗數據集劃分為訓練集和測試集,其中訓練集包含數據224 556條,測試集包含數據56 139條。
6.2 ?評價指標
除了上述基本評價指標外,本文還對推薦列表排序采用P-R曲線和ROC曲線的AUC值等評價指標進行推薦效果分析。
6.3 ?實驗過程及結果分析
為驗證融合多源特征的電梯廣告推薦系統(記為方法1)的推薦效果,進行4組對比實驗。假定只考慮時間特征的算法記為方法2;只考慮空間特征的算法記為方法3;考慮時空特征但是未使用ReliefF進行特征篩選的算法記為方法4。通過以上4種方法對同一數據集進行五折交叉驗證訓練,并進行TOP-20推薦,分別計算Precision、Recall、以及ROC曲線的AUC值等評價指標數值,實驗結果如圖6所示。
由圖6可知:方法1的Precision、Recall、以及ROC曲線的AUC值等評價指標明顯優于其他方法;方法3的各項評價指標優于方法2,主要原因是方法2的電梯廣告推薦系統缺少對電梯流量的統計分析,導致廣告主在投放電梯廣告時僅考慮分布區域;方法4的各項評價指標均最低,主要是由于未經過特征篩選,原始特征維度較多,通過訓練構建的模型復雜度較高,引起過擬合造成了預測精度不準。
同時,對上述4種方法分別進行P-R曲線分析,如圖7所示。
由圖7可知:方法1的P-R曲線較為平滑,優于其他方法,且Precision、Recall在65%左右時,其推薦性能較為穩定;方法2和方法4的P-R曲線多處出現曲折、不平滑,在一定程度上存在過擬合現象;方法3的Precision、Recall在55%左右時,推薦性能相對穩定。
綜上所述,融合多源特征的電梯廣告推薦系統與其他3種方法相比,其Precision、Recall、和ROC曲線的AUC值等多項評價指標均為最優,達到較好的推薦性能。
本文選用CatBoost、XGBoost、ligthBGM算法模型進行測試,分別計算其AUC值,如表8所示。
由表9可知,?CatBoost推薦算法模型的AUC值為0.812?6,高于XGBoost、ligthBGM兩種推薦算法,因此本文推薦算法選擇CatBoost算法模型。
對于新用戶冷啟動的測試,實驗中隨機抽取10位用戶對模型進行訓練;隨后將其數值型特征用均值代替,刪除行為特征,并利用訓練好的推薦算法模型進行預測且與真實值進行對比分析,其ROC曲線的AUC值為0.725,說明本文方法對解決冷啟動具有較好的效果。
7??結論
本文設計一種融合多源特征的電梯廣告推薦系統,通過電梯運行數據分析提取電梯交通流量峰值特征;通過廣告主廣告行為數據提取時空行為特征;運用ReliefF算法進行特征篩選;將特征向量輸入融合多源特征的電梯廣告的推薦系統進行學習訓練,形成基于時間特征、空間特征和時空特征的廣告節目推薦列表。實驗結果表明,本文提出的電梯廣告推薦算法的Precision、Recall、和ROC曲線的AUC值等評價指標均優于其他推薦算法,并且其P-R曲線也較為平滑、穩定,具有較好的推薦性能,同時對解決冷啟動、數據稀疏等問題也具有較好的效果。
參考文獻
[1] ADOMAVICIUS G,?TUZHILIN A. Toward the next genera- tion of recommender systems:?a survey of the state-of-the-art and possible extensions[J].?IEEE Transactions on Knowledge and Data Engineering,?2005,17(6):734-749.
[2] LI X F,?LI D,?YIM J. An improved collaborative filtering recommendation algorithm and recommendation strategy[J]. Mobile Information Systems,?2019:1-11.
[3] KOREN Y, BELL R, VOLINSKY C. Matrix factorization techniques for recommender systems[J]. Computer, 2009,42(8): 30-37.
[4] 李劍鋒,封林慧,于天一.認同度修正下的近相鄰改進推薦算法研究[J].計算機工程與應用, 2022,58(7):116-121.
[5] 王英博,韓國淼,王銘澤.基于子空間聚類的協同過濾推薦算法[J].計算機工程與應用, 2022,58(3):127-134.
[6] MORADI P,?AHMADIAN S.?A reliability-based recommend- dation method to improve trust-aware recommender systems[J].?Expert Systems with Applications: An?International Journal,?2015,42(21):7386-7398.
[7] LI Y M, WU C T,?LAI C Y.?A social recommender mechanism for e-commerce:?combining similarity, trust, and relationship[J].?Decision Support Systems,?2013,55(3):740-752.
[8] ODONOVAN J,?SMYTH B.?Trust in recommender systems?[C]//Proceedings of the 10th International Conference on Intelli-gent User Interfaces,?2005:167-174.
[9]?李科,黨延忠.出租車新運營模式下的LED廣告精準投放策略[J].中國管理科學,2020,28(10):220-230.
[10]?余光華.商場電動扶梯廣告設計的互動性研究[D].成都:西南交通大學,2012.
作者簡介:
陳彥彬,男,1987年生,本科學士,高級工程師,主要研究方向:電子信息系統開發、終端計算廣告等人工智能教學與科研。E-mail:?chenyanbin01@126.com
楊澤華,男,1967年生,本科學歷,總經理、技術員,主要研究方向:計算機技術應用。
謝佳,男,1990年生,本科學歷,技術員,主要研究方向:計算機技術應用。E-mail:?chenyanbin01@126.com