陳彥彬,楊澤華,薛曉桂,黃錦鈿
(1. 揭陽職業技術學院實訓與信息中心,揭陽 522051;2. 廣東博華科技有限公司工程技術研究中心,揭陽 522000;3. 揭陽職業技術學院信息工程系,揭陽 522051;4. 韓山師范學院物理與電子工程學院,潮州 521000)
大數據和人工智能技術的深入發展,極大地方便了人們的生產生活,但個人隱私信息也面臨著泄露的困擾。網絡分眾傳媒廣告和互聯網廣告大多針對市民信息的收集、分析進行精準廣告投放和推送。隨著國家個人信息保護法的出臺,傳統網絡廣告投放、推送存在一定風險。但是電梯傳媒終端廣告領域由于信息傳遞的單向性,存在廣告效率低下、廣告資源浪費等問題[1],使得電梯傳媒終端廣告技術發展緩慢,產業效益低下。
提高電梯傳媒終端廣告效率的方法中,構建個性化推薦系統最為常用[2]。推薦系統中最重要的是推薦算法[3],林振榮等[4]提出基于TF?IDF(詞頻-逆文本頻率指數)與用戶聚類的推薦算法,在計算相似度中通過物品特征的TF?IDF值改進用戶評分數據,從而生成推薦列表。付小飛[5]提出利用VSM 算法構建用戶畫像實現對用戶網絡行為分析,并提出了混合推薦算法。岳志鵬[6]提出利用TF?IDF 對微博用戶進行興趣關鍵詞提取,進而挖掘用戶興趣。Ma 等[7]提出對多源數據進行融合的方法,形成代表用戶興趣的關鍵詞集合。
綜上,目前在計算廣告領域的推薦算法大多數集中于對用戶行為進行挖掘,而對于電梯傳媒廣告來說,在用戶不共享個人信息的情況下很難采集用戶屬性、行為等信息。另一方面,為提高TF?IDF 值計算精度,需要對該算法進行改進。基于上述的思考,本文利用商家評分等行為信息,建立相關推薦算法。
本文提出了改進的TF?IDF,對電梯點周邊POI、居民等情況進行標簽提取,構建了電梯傳媒終端標簽向量模型;通過分析商戶對電梯廣告效果的評分行為,計算商戶對標簽喜好程度和依賴程度,從而計算商戶對標簽的興趣度;利用興趣度與終端標簽向量構建商戶興趣模型,在進行降序排序后將計算結果的TOP-N部電梯數據作為推薦列表。本文通過三組對比實驗對算法模型進行驗證分析。
基于改進TF?IDF 標簽體系提取算法的思路是通過數據標注、商戶基本信息以及電梯點周邊POI 等建立電梯傳媒終端標簽數據庫,然后通過改進TF?IDF 標簽體系提取算法,提取出用于描述電梯傳媒終端的標簽體系關鍵詞。
“標簽化”就是依據現有電梯傳媒終端基本信息、電梯點周邊POI 以及商戶評分數據等信息,通過算法構建電梯傳媒終端標簽體系,實現標簽體系的“低交叉率”[5,8?9]。建立電梯傳媒終端的標簽體系的常用技術包括提取關鍵詞、識別去除停用詞、詞義擴充、詞類擴充、重組等[5],通過設置閾值過濾權重較小的標簽,最終轉化為表示電梯傳媒終端的關鍵詞集合。
電梯傳媒終端的標簽體系采用“層級法”,共設置三級,具體框架如圖1 所示。提取關鍵詞的來源主要為各個電梯傳媒終端的基本屬性信息、周邊POI 以及商戶發布的各個廣告主題標題等。采集到的原始數據經過預處理、數據備份等數據清理環節后,形成唯一用戶數據。

圖1 電梯傳媒終端標簽體系框架
TF?IDF 是一種統計方法,常用于評估一個詞語在文本數據或者文本數據集中的重要程度。TF?IDF的計算公式如下:
式中TFi,j表示候選關鍵詞i在電梯j標簽文本中出現的頻率,IDFi表示逆向文本頻率指數,用于衡量候選關鍵詞在整個數據集詞條庫中的區分能力。ni,j表示候選關鍵詞i在電梯j標簽文本中出現的次數,表示電梯j標簽文本詞條的數量;N表示電梯標簽文本集合的文本數,n表示電梯標簽文本集合中包含電梯j標簽文本中候選關鍵詞i的電梯標簽文本數。
由公式(1)可知,TF?IDF正比于候選關鍵詞在電梯標簽文本中出現的次數ni,j,而反比于電梯標簽文本中候選關鍵詞的電梯標簽文本數n。但在電梯傳媒終端廣告領域,存在有些候選關鍵詞在文本集合中很少出現,n值很小,但計算的TF?IDF 值很高的情況;甚至有時在所有標簽文本中都沒有出現。針對以上問題,本文對TF、IDF兩部分的計算分別進行改進優化。
(1)計算候選關鍵詞i在電梯j標簽文本集合中出現的總次數ni,判斷是否大于設定的標簽過濾閾值n(0本文中n0=2),若是,則按照公式(2)計算TFi,j值;否則TFi,j值為0,具體計算公式如下:
(2)對IDF 改進為電梯標簽文本集合候選關鍵詞總數與候選關鍵詞在待分析標簽文本中出現的次數比求對數,具體計算公式如下:
綜合TF、IDF 兩部分可以得到改進后的公式如下:
在電梯傳媒終端標簽體系框架基礎上,結合已有各類電梯傳媒終端數據(基本屬性、用戶屬性、周邊POI 以及各商戶廣告主題等),用于本文提出的改進算法,可以提高計算精準度,防止總體權值過小的問題。標簽提取算法的具體步驟:
輸入:電梯傳媒終端候選關鍵詞數據集;
輸出:電梯傳媒終端標簽關鍵詞集合I。
(1)設定標簽過濾閾值n0(n0= 2),判斷候選關鍵詞i在電梯標簽文本集合中出現的總次數ni是否小于n0。若是,則TFi,j=0;
(2)計算候選關鍵詞i的TFi,j值;
(3)計算所有候選關鍵詞在電梯標簽文本集合中出現的總次數和電梯標簽文本集合中候選關鍵詞i出現的總次數,并計算IDFi值;
(4)計算候選關鍵詞i的TF?IDF值;
(5)重復步驟(1)至步驟(4),直到計算出所有候選關鍵詞的TF?IDF值;
(6)按照所有候選關鍵詞的TF?IDF 值降序排序,TOP-N個能夠符合電梯傳媒終端標簽體系框架的關鍵詞作為標簽集合I。
張輝等[10]以及李堯[11]所提出的精準廣告推薦方法均是從廣告受眾角度出發,而且需要采集受眾位置、監控視頻等個人信息。本文利用商戶對電梯傳媒終端的評分,構建商戶興趣模型,結合上文提取的電梯傳媒終端標簽向量,形成新的推薦方法。
為建立商戶對標簽的興趣度,需要收集商戶對電梯傳媒終端的評價數據,從而計算出商戶的標簽興趣度。
假設收集到s個商戶對e個電梯傳媒終端的評分數據,則可以構建商戶-終端評價數據集。若該商戶沒有對終端進行評價,其值為0。否則為具體的評價分數。具體數據集見表1。

表1 商戶-終端評價數據集
2.2.1 計算商戶對標簽的喜愛程度
根據上文提取到的終端標簽集合的TF?IDF值,結合商戶對終端的評分數據,可以計算出商戶s對標簽t的喜愛程度,具體公式如下:
式中rate(s, t)表示商戶s對標簽t的喜愛程度,rate(s,e)表示商戶s對終端e的評分,rel(e,t)表示終端與標簽的相關程度(文中為標簽的TF?IDF值),rˉs為商戶s的所有評分的平均值,k為平滑因子,目的是減少商戶評分行為引起的預測誤差,Ie電梯傳媒終端集合。
2.2.2 計算商戶對標簽的依賴程度
商戶對標簽的喜愛程度是商戶的主觀表現,需要引入商戶對標簽的依賴程度對算法進行改進。商戶對標簽的依賴程度利用本文提到的改進TF?IDF 算法進行計算。假設T為商戶使用的標簽集合,通過式(2)計算商戶s使用標簽t的TF 值,記為TF(s,t)。式(2)中的分子表示商戶s使用標簽t的次數,記為n(s,t);分母表示商戶s使用所有標簽的總次數,記為。
為了懲罰熱門標簽越來越熱,利用式(3)計算每個商戶使用標簽的IDF 值,記為IDF(s,t)。假設S為商戶集合,式(3)中的分子表示所有商戶對所有標簽的使用總次數, 記為;分母表示所有商戶對標簽t的使用總次數,記為。
綜合TF(si,t)和IDF(si,t),可得商戶對標簽的依賴程度計算公式為
可得,
2.2.3 計算商戶對標簽的興趣度
綜合式(5)和式(7),可以得到商戶s對標簽t的興趣度計算公式為
本文基于電梯傳媒終端標簽向量與商戶對標簽的興趣度,構建商戶興趣模型,形成電梯傳媒廣告推薦算法。
2.3.1 構建終端-標簽矩陣
基于上文方法對各個終端提取標簽的TF?IDF值,可以構建終端-標簽矩陣,如公式(9):
式中n、m表示終端和標簽的個數,元素tij(1≤i≤n,1≤j≤m)代表終端i中標簽j的TF?IDF 值。如果終端沒有相應標簽,則其值為0。
2.3.2 構建商戶-標簽興趣度矩陣
根據式(8)可以計算出商戶對每個標簽的興趣度,構成了1 行m列的商戶-標簽興趣度矩陣,如公式(10):
式中m表示標簽的個數,元素t1j(1≤j≤m)代表商戶對標簽j的興趣度。
2.3.3 商戶興趣建模
基于式(9)和式(10),可以計算出商戶對所有電梯傳媒終端的興趣程度,具體公式為
對式(11)的計算結果進行降序排序,取TOP?N部電梯傳媒終端給商戶作為候選廣告位,實現廣告的精準投放。
綜上,基于改進TF?IDF 的電梯傳媒廣告推薦算法流程如圖2所示。

圖2 電梯傳媒廣告推薦算法流程
3.1.1 實驗數據集
讀取電梯傳媒廣告系統數據,經過預處理后作為實驗數據集。數據集包括電梯傳媒終端的基本屬性信息、周邊POI 以及商戶發布的各個廣告主題標題等信息,總共99980 條數據。數據集是商戶、電梯傳媒終端、評分、廣告主題和用戶使用標簽數據集等各種類型信息數據集合,其概要信息見表2。實驗數據集分為訓練集70%和測試集30%,采用K折交叉驗證進行訓練,對計算結果采用TOP?N方法進行推薦。

表2 實驗數據集概要信息
3.1.2 評價指標
推薦系統的效果評估通常采用離線評估指標,主要有精確率(Precision)、召回率(Recall)和F測度值(F?measure)。計算公式分別如下:
上述式(12)、式(13)和式(14)中,I表示通過算法推薦的TOP?N部電梯傳媒終端集合,A表示商戶感興趣的電梯傳媒終端集合,|I|表示通過算法推薦的TOP?N部電梯傳媒終端的數量,|A|表示商戶感興趣的電梯傳媒終端數量。
為了驗證基于改進TF?IDF的電梯傳媒廣告推薦算法的實效性,分別采用本文方法(記為方法1)、基于傳統TF?IDF和本文提出的推薦算法(記為方法2)以及采用本文方法但沒有考慮商戶對標簽依賴程度的推薦算法(記為方法3)進行實驗對比分析,分別計算出三種算法的精確率、召回率和F測度值,從而比選最優性能的推薦算法。
實驗結果如圖3、圖4 和圖5 所示。通過對比分析可知,基于改進TF?IDF 的電梯傳媒廣告推薦算法在精確率、召回率和F測度值三項指標上明顯高于其他兩種算法,因此,本文方法具有最優的推薦性能。但是隨著N的增大,精確率會出現下降趨勢,這是由于推薦數量的增加,導致排序靠后的終端也被推薦出來,但是該終端并不是商戶喜愛的。實驗表明,N的最優取值為15。

圖3 精確率對比

圖4 召回率對比

圖5F測度值對比
實驗結果說明采用改進TF?IDF 的電梯傳媒廣告推薦方法提高了終端廣告推薦的精確率,且能夠在不降低精確率、召回率和F測度值的情況下無需采集市民隱私信息就可以實現電梯傳媒廣告的精準推送,具有較好的實效性。
本文提出了基于改進TF?IDF 的電梯傳媒廣告推薦方法,利用改進的TF?IDF 建立電梯傳媒終端標簽向量模型,并構建商戶興趣模型將TOP?N部電梯傳媒終端作為候選廣告位進行排序推薦。為驗證本文提出算法的有效性,以現有廣告系統數據集為基礎開展對比實驗。三個推薦算法的對比實驗表明,基于改進TF?IDF 的電梯傳媒廣告推薦方法能充分考慮商戶興趣,在精確率、召回率和F測度值等評價指標上明顯優于其他兩種算法,具有較好的有效性和適用性。