李天玉,車蕾,丁峰,譚悅
(1.北京信息科技大學 信息管理學院,北京 100192;2.北京尚云環境有限公司,北京 102208)
環境影響評價(以下簡稱“環評”)可定義為:對規劃和建設項目實施后可能造成的環境影響進行分析、預測和評估,提出預防或者減輕不良環境影響的對策和措施.環評行業用戶畫像是畫像技術在環境評估領域的具體應用,它在用戶畫像的基本理念上添加了新的約束條件和應用場景.在大數據時代背景下,用戶信息分散,面對如此豐富的海量數據,將用戶信息抽象成標簽,加以組合利用,挖掘出隱藏在大數據中的信息可以為用戶提供更加精準的、有效的個性化服務.近年來,用戶畫像在推薦算法領域取得了系統性的突破,但基于環評行業特征來解決該行業用戶間資源推薦的研究還有待深入,存在的一些問題還有待去解決.
“環評云助手”是一款服務于環境影響評價行業用戶的APP,其主要功能包括標準政策查詢瀏覽、分類管理名錄查詢等,包含國家和地方發布的法律法規、政策文件、標準規范等22 000余條,100 000余名環評從業者或行業業余人員注冊使用,月活躍度高達40 000余人.
本文充分利用“環評云助手”的行業文本資源和行業用戶行為特征,構建體現行業特征的用戶畫像模型;同時結合深度因子分解機模型,以提高“環評云助手”資源推薦性能,滿足平臺用戶精準獲取有用資源的需求.模型在泛化能力和適用能力等方面都有相應提升.本文主要貢獻度如下:
(1)更有效地利用平臺行業文本資源和用戶行為特征.模型同時考慮行業文本資源中長短文本對用戶畫像、標簽的貢獻性,并通過自定義規則對用戶行為進行評分,多維挖掘行業特征.
(2)將用戶畫像與DeepFM模型結合,更準確地預測資源點擊率(CTR),以提高算法的推薦效率和綜合評價指標.
(3)模型在“環評云助手”數據集上進行實驗并取得了很好的效果.開展與其他模型的對比實驗,實驗結果表明,模型在各評價指標方面均優于其他模型.
本文接下來首先闡述相關研究工作,第2節深入探討行業用戶畫像模型的構建,第3節探討將用戶畫像應用于DeepFM模型,第4節展示并分析實驗工作及結果,最后對全文進行總結并對該研究方向進行展望.
用戶畫像是從海量信息中抽取出用戶信息的集合,用于描述用戶需求、偏好與興趣的模型[1].最早提出用戶畫像概念的是交互設計之父A.Cooper,他將用戶畫像定義為“基于用戶真實數據的虛擬代表”.QUINTANA等[2]也將用戶畫像描述為“一個從海量數據中獲取并由用戶信息構成的標簽集合”,通過這些標簽信息,可以反映用戶的需求、個性化偏好等.用戶畫像方法雖然起源于公安情報,在電子商務領域得到壯大發展,但如今在圖書情報[3]、科技情報[4]、社交論壇等領域都發揮著重要作用.當前,面向基于實證研究平臺的環評行業畫像研究仍是一個較為全新的領域,通過梳理畫像技術在用戶畫像領域的發展,可以為環評行業畫像的研究和應用提供借鑒.
20世紀90年代,協同過濾技術的首次提出[5],標志著推薦系統成為一門獨立的學科而受到廣泛關注.如今,許多學者都在傳統推薦模型的基礎上結合用戶標簽特性和用戶畫像技術提出了新的個性化推薦方法.張亮[6]融合用戶、標簽、資源,利用LDA構建主題模型,通過融合對象間關系與資源內容特征進行標簽推薦.熊回香等[7-9]在此研究基礎上,不僅提出了從資源-標簽-用戶3個維度分別建立推薦組件,還構建了基于社會化標簽的單用戶和群用戶興趣模型,通過協同過濾算法的思想,架構了個性化信息服務流程.李興華等[10]提出了基于興趣-標簽的ITRA推薦算法,將用戶候選興趣集、推薦興趣-標簽集、項目推薦集作為最終的推薦結果.
CTR預估用來估計用戶點擊推薦資源的概率,在推薦系統中極為重要.對于一個基于CTR預估的推薦系統,重要的是學習到用戶行為潛在的特征組合.在不同的推薦場景中,低階組合特征或高階組合特征都可能會對最終的CTR預測結果產生影響.因子分解機(Factorization Machines,FM)是經典的CTR預估模型,通過對每一維特征的隱變量內積來提取特征組合,從而進行點擊率預測,但是FM因為計算復雜度等原因只用到了二階特征組合,不能獲得高階特征交互.為了解決上述問題,JUAN 等[11]在FM的基礎上引入field的概念,提出了領域知識因子分解機模型(Field-aware Factorization Machine,FFM),將每個field的embedding值傳入MLP,從而獲取了高階特征交互.2017年,GUO等[12]為了減少Wide&Deep模型中的特征工程,提出了 DeepFM,將embedding后的特征表示同時傳入淺層網絡和深層網絡,通過端到端的方式同時獲得了淺層特征交互表示與深層特征交互表示.
由于上述文獻方法缺少行業特征的滲透,若直接應用在“環評云助手”APP中,將很難精準構建用戶畫像并準確預測CTR點擊率,以滿足環評行業用戶的資源推薦需求.因此,本文結合行業特征,提出了一種融合文本資源特征和用戶行為特征的畫像模型并結合DeepFM模型實現用戶個性化推薦.
基于APP數據集特征,先后提取“環評云助手”文本資源特征標簽和用戶行為特征進行自定義評分,并通過這兩個維度構建環評行業用戶畫像要素關聯路徑,進而構建“環評云助手”多維用戶畫像模型.
本文基于環評行業文本資源特征,從標題短文本和摘要長文本兩方面進行考慮,多維度構建用戶畫像.從邏輯結構來看,文本標題屬于短文本,具有揭示環評資源內容主旨的作用;文本摘要屬于長文本,闡明了該資源的適用范圍及主要內容.這兩種文本在挖掘行業特征方面都起到重要作用,不僅能從行業文本資源特征中發掘用戶興趣,也充分考慮了文本邏輯結構對畫像模型構建的影響.
2.1.1基于標題短文本的標簽構建
基于標題短文本的畫像標簽融合了行業詞、關鍵詞和主題詞三方面.將行業詞記作Lindustry,關鍵詞記作Lkey,主題詞記作Ltopic,共計m個用戶,則第i個用戶ui基于標題短文本的畫像標簽為:
Li=[Lindustryi,Lkeyi,Ltopici].
(1)基于標題短文本的行業詞.《建設項目環境影響評價分類管理名錄》(以下簡稱《分類管理名錄》)是環境影響評價領域重要的參考指標.該名錄劃分了55個一級分類,如農業、林業、畜牧業、漁業等;一級分類中又下分了173個小類,例如畜牧業類中包括了牲畜飼養、家禽飼養和其他畜牧業.本文統計了資源的分類名錄信息作為該資源的行業詞,一定程度上體現了用戶較為關注和感興趣的行業領域.
(2)基于標題短文本的關鍵詞.使用詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法進行詞頻統計,計算每個候選關鍵詞的綜合權重,從而依據該權重值對候選關鍵詞進行排序,得到高權重的關鍵詞[13].對資源標題文本使用此方法不僅可以生成作為標簽的詞匯,還反映該用戶在環評行業中最關注的領域關鍵詞.例如,某用戶的關鍵詞中,出現“水質”的比例遠遠高于其他詞匯,則考慮該用戶在環評行業中對水質領域的關注程度較高、從事水質方面工作的可能性較大.
(3)基于標題短文本的主題詞.隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型將文檔的主題以概率分布的形式給出,從而通過分析文檔、抽取主題分布后進行主題聚類.環評行業資源的標題文本具有一定的專業性和結構性,可使用LDA主題模型對資源標題文本進行主題聚類,得到每個主題下的行業主題詞.例如,一些標題文本中會出現“水質、光譜法、污染物、排放……”等圍繞環評方面的專業詞,且該領域的專業劃分明確,由此可以通過LDA主題模型生成圍繞環評行業主題展開的主題詞.
2.1.2基于摘要長文本的特征提取
基于摘要長文本的特征提取,其目的要抽取資源摘要中的文本特征,該方法使用TextRank文本摘要抽取算法,衡量每個句子與其他句子之間的聯系,求出該句子的候選權重,從而抽取主要內容作為候選句[14].將用戶記作ui,候選句權重記作wi,候選句記作ci,則摘要生成結果根據候選權重wi排序,結果記為Labstracti=[ci,1,ci,2,ci,3].其主要5個步驟如下所示:
(1)對文本T進行句子分割,即T=[S1,S2,…,Sn];
(2)對每個句子Si∈T,進行分詞,停用詞、無意義的詞過濾等操作,即Si=[ti,1,ti,2,…,ti,n];
(3)識別文本單元之間的關系,分別添加到圖模型中形成節點和邊;
(4)對各節點的權重進行迭代計算,直到計算結果收斂,其公式如下所示:
(1)
其中,In(Vi)表示指向節點Vi的節點集,Out(Vj)表示指向節點Vj的節點集,wji表示節點Vj指向節點Vi的邊權重,d表示阻尼系數,通常取0.85;
(5)對候選句權重倒序排序,將權重排序中前3個句子作為目標文本的摘要句,若目標文本中的候選句數量小于3,則選取當前全部候選句作為摘要結果Labstracti=[ci,1,ci,2,ci,3].
用戶行為評分,可以將用戶與資源的交互行為數值化,體現了用戶對資源的興趣程度.所以通過統計用戶與資源之間的交互行為,分析其行為軌跡,建立行為軌跡與資源評價的關系,把用戶對資源的交互行為轉換成對應的興趣評分,不僅挖掘了用戶感興趣的資源,也在一定程度上改善了算法的矩陣稀疏問題[15].
本文從用戶對環評行業文本資源的瀏覽、收藏、分享和評價行為入手,分別統計用戶對資源的瀏覽次數、評論次數、分享次數與收藏情況.本文采用自定義評分規則,參考付芬等[16]和顧寰等[17]對用戶行為評分的定義規則,定義評分取值范圍為Rjk∈[0,5].具體分值定義規則依據“環評云助手”用戶等級加分規則和APP虛擬貨幣“云貝”累計加分規則,各項評分由這兩方面加權平均得到.具體評分規則如表1所示.

表1 用戶行為評分標準表
(1)定義Rbrowser為用戶瀏覽行為評分,RFbrowser為瀏覽行為的獎勵因子,具體公式如下:
Rbrowser=λ×rbrowser×RFbrowser.
(2)
(2)定義Rcollect為用戶收藏行為評分,RFcollect為收藏行為的獎勵因子,具體公式如下:
Rcollect=λ×rcollect×RFcollect.
(3)
(3)定義Rshare為用戶分享行為評分,RFshare為分享行為的獎勵因子,具體公式如下:
Rshare=λ×rshare×RFshare.
(4)
(4)定義Rcomment為用戶評論行為評分,RFcomment為評論行為的獎勵因子,具體公式如下:
Rcomment=λ×rcomment×RFcomment,
(5)
其中,λ=1時表示用戶發生該行為,λ=0則表示該行為未發生.獎勵因子和用戶行為評分Rjk公式如下所示:
RFbrowser+RFcollect+RFshare+RFcomment=1,Rjk=Rbrowser+Rcollect+Rshare+Rcomment.
(6)
記uj為第j個用戶,ik為第k個資源,rj,k為用戶j對資源k的評分,取值范圍rj,k∈[0,5].用戶行為評分矩陣如表2所示.

表2 用戶行為評分矩陣
綜上所述,通過融合行業資源特征和用戶行為特征兩個維度的特征,構建體現行業特征的多維度用戶畫像模型.基于此脈絡,畫像構建模型分為3部分:特征標簽提取、多維畫像構建、畫像用戶分類與識別,構建“環評云助手”多維用戶畫像模型,如圖1所示.

在特征標簽提取部分,將文本資源分為基于標題的短文本和基于摘要的長文本,進一步從標題短文本中提取行業詞、關鍵詞和主題詞標簽,從摘要長文本中提取綜合摘要標簽;又將用戶行為分為瀏覽、收藏、分享和評論4項,根據自定義規則進行用戶行為評分,最終將文本資源標簽和用戶行為評分合并設定為資源特征標簽.根據提取的特征標簽作為“環評云助手”多維用戶畫像標簽,從而構建用戶畫像.并根據畫像分析和總結對用戶進行分類和識別,主要從“用戶感興趣的方面”“用戶行為表現”兩方面識別和描述用戶.例如“一個愛分享對污水處理方面感興趣的用戶”、“一個愛評論收藏的金屬礦開采行業的用戶”等.
本文的主要任務是給用戶推薦其可能感興趣的行業文本資源,因此需要將用戶興趣與資源信息相關聯,從而進行建模.在第2節中,已經將用戶感興趣的資源信息和用戶對此資源產生的行為數據進行語義提取以及構建評分矩陣,生成標簽和用戶畫像模型.因此,將用戶畫像標簽作為DeepFM的輸入數據.

由于用戶畫像標簽的數據量大且屬性種類繁多,使用one-hot編碼后,數據維度高且稀疏.單個特征表達能力弱、特征組合數據量爆炸、分布不均勻會導致受訓程度不均勻,所以需要通過embedding層將高維稀疏特征轉化為低維稠密特征.但數據維度過高時,傳入embedding層依舊會導致數據量爆炸,出現參數過多的情況.于是先引入field概念,可以將同一個特征經過one-hot編碼生成的數值特征放到同一個field,再將不同filed傳入embedding層.盡管不同field的輸入維度不同,但是embedding之后向量的維度均相同[12],為模型后續FM layer和DNN layer的輸入打下基礎.本文與畫像結合的特征表示結構如圖2所示.
DeepFM是一種基于因子分解機的神經網絡,其目的是學習低階特征和高階特征的交互.因此DeepFM由兩部分組成,分別是因子分解機FM和深度神經網絡(Deep Neural Network,DNN),這兩個部分共享相同的輸入.本文將用戶畫像與DeepFM模型結合,其結構如圖3所示.

DeepFM模型公式為:
y′=sigmoid(yFM,yDNN),
(7)
其中,y′∈(0,1),yFM是FM部分的輸出,yDNN是深度神經網絡部分的輸出.
FM部分能用于學習特征之間的交互,每一個特征可以通過與其潛在的特征向量進行內積運算,來衡量其相關性.因此,FM可以更好地學習數據中從未出現或很少出現的特征交互,有效地解決了本文行業資源特征和用戶行為特征因數據稀疏而導致的特征交互難以表示的問題.FM模型可以表示為:
(8)
其中,wi是特征xi的權重,Vi和Vj分別為特征xi和xj的潛在特征向量.
Deep Layer部分是一個前饋神經網絡,用于學習高階特征交互.由于用戶畫像標簽中特征輸入向量為分類連續混合,具有高度稀疏、數據維度高等特點,經過one-hot編碼后,神經網絡的學習困難,學習效果不佳.因此需要在第一個隱藏層之前加一層embedding層,將長度不同的輸入向量壓縮為長度固定、低維、稠密的向量,再輸入全連接網絡層.同時使用embedding層可以使FM Layer部分和Deep Layer部分共享embedding輸入層,使模型從原始特征中學習低階和高階特征交互.DNN部分最終的輸出結果為:
yDNN=sigmoid(W|H|+1a|H|+1+b|H|+1),
(9)
其中,a0=[e1,e2,…,em](m為filed數量)作為DNN的輸入,sigmoid是激活函數,al、Wl、bl分別是第l層的輸出、模型權重和偏差,|H|為隱藏層數.
本文篩選出“環評云助手”2019年11月到2021年1月期間,2 119名用戶對中華人民共和國生態環境部發表的有關環境影響評價的1 702篇文章產生的21 102條數據,其中文章類型包括技術導則、技術規范、監測規范及相關行業標準等,行為數據包括瀏覽、收藏、評論及分享等.“環評云助手”APP文本資源和用戶行為數據均為未公開數據集,使用權限已由北京尚云環境有限公司授權,可作為論文數據集發表在期刊上.
數據預處理主要包括:過濾數據集中的空數據,根據哈爾濱工業大學實驗室提出的停用詞表,使用jieba分詞庫對數據集進行分詞,并去除停用詞、特殊符號和無意義的詞等.
在上述數據集的基礎上,進一步劃分為資源信息數據集(Resource Information)和環評多維畫像數據集(EIA-UserPortrait),數據集具體屬性如下所示:
EIA-UserPortrait=(industry,key,topic,abstract,R),
Resource Information=(fileName,abstract,classification,flglml,gmjjdm),
其中,fileName為資源名稱,abstract為資源摘要,classification為資源類型,flglml為分類管理名錄,gmjjdm為國民經濟代碼.
本文實驗以AUC和 LogLoss為評價指標0.
AUC(Area Under Curve)為受試者操作曲線(Receiver operating characteristic,ROC)下與坐標軸圍成的面積,是衡量二分類模型優劣的一種評價指標.CTR資源點擊率預測任務作為二分類模型任務,研究表明AUC作為一個評價二分類問題廣泛使用的指標,可作為評價其CTR預測性能的良好評價標準.LogLoss是二分類模型的評價標準,其基于概率度量,用來表示預測值與真實值之間的差距.蔣興渝等[15],GUO 等[12]和LIAN等[18]表示,對于CTR預測算法, AUC提高 1‰也具有意義,因為推薦算法一般用于公司用戶群體之間的推薦,如果用戶數量非常大,它為公司收入增幅也自然會很大.
最后將整個數據集按4∶1的比例分割成訓練集和測試集,并保證正負樣本比例接近1∶1.表3列出了數據集的詳細劃分情況.

表3 實驗數據集統計表
實驗分析主要包括如下內容:
(1)通過多次實驗結果的比對,確定LDA主題模型的最優主題數目;
(2)基于相同參數,使用DeepFM模型分別對Resource Information數據集和EIA-UserPortrait數據集進行實驗,測試多維用戶畫像對CTR預測模型的性能改進情況.與其他CTR預測模型作實驗對比,通過比對實驗結果,證明本文模型的有效性和優勢.
4.3.1LDA最優主題數對比實驗
為確定使LDA算法達到最優性能評價指標所對應的主題數,遍歷了1至51之間LDA主題數目,每次增加的步長為5,共9組實驗.分別統計每組實驗的困惑度值P(D),困惑度公式如下:
(10)
其中,D表示語料庫中的數據集,共M篇文檔,Nd表示每篇文檔D中的單詞數,wd表示文檔d中的詞,p(wd)即文檔中詞wd產生的概率.實驗結果如圖4所示.

從結果可以看出,LDA主題數目為41時, 困惑度值最小,性能綜合評價最好.
4.3.2與其他CTR預測模型對比實驗與分析
為了驗證所提模型的有效性,本文從以下2個類別中選擇基線:(1)基于Resource Information數據集的DeepFM模型(R-DeepFM),(2)基于EIA-UserPortrait數據集的DeepFM模型(EUP-DeepFM).
實驗還將基線對比模型分為兩個部分:淺基線模型和深基線模型.淺基線模型實驗使用Resource Information數據集作為各CTR模型的輸入,深基線模型實驗使用EIA-UserPortrait數據集,測試各CTR模型與用戶畫像結合的模型性能.
本文的淺基線模型為R-(GBDT+LR)、R-FM、R-FNN、R-PNN和R-DeepFM,深基線模型是各CTR模型和用戶畫像的結合,即EUP-(GBDT+LR)、EUP-FM、EUP-FNN、EUP-PNN和EUP-DeepFM.
表4展示了淺基線模型在資源信息數據集上的AUC和LogLoss結果,DeepFM為本文CTR預測任務中使用的淺基線模型,觀察實驗結果可以看出R-DeepFM的性能均優于其他淺基線模型,因此本文CTR預測部分使用DeepFM模型.

表4 淺基線模型實驗性能對比
為了進一步提升模型性能,將用戶畫像與各CTR預測模型結合,組成深基線模型,實驗性能對比結果如表5所示.通過觀察淺基線組與深基線組的模型性能比較可以看出,與用戶畫像模型結合在一定程度上提升了挖掘用戶潛在興趣的能力,使得CTR預測任務更加準確.在與其他CTR預測模型比較中,EUP-DeepFM在AUC和LogLoss兩方面的綜合表現優于其他CTR預測模型,這說明本文提出的模型相比其他模型具有優勢,也體現了用戶畫像和DeepFM模型的結合可以挖掘出更多有潛在價值的信息.

表5 深基線模型實驗性能對比
而且,基于“環評云助手”數據集進行實驗時,EUP-DeepFM模型比R-DeepFM模型在AUC值上提升了0.47%,LogLoss值降低了1.63%.EUP-DeepFM模型的AUC值越接近1并且LogLoss損失值更低,說明該模型真實性更高,模型的預測性能更好,意味著更好的CTR預測和模型性能.其原因在于用戶畫像標簽能挖掘出隱藏在用戶和資源數據中潛在的信息,可以使二分類模型任務具有更高的預測準確率,為用戶提供更加精準的、有效的個性化服務.
本文為“環評云助手”APP構建行業用戶畫像和個性化推薦的研究工作提供了新的思路,部分解決了大數據時代APP中“信息過載”問題,為分析海量文本信息和精準找到信息提供了新的方法.針對“環評云助手”APP中行業資源文本特征利用不充分、資源推薦精準較低的問題,提出了結合用戶畫像與DeepFM模型結合的推薦算法,更充分利用了環評行業文本資源特征和行業用戶的行為特征,提升了推薦算法中CTR點擊率預測率問題.實驗結果表明,本文提出的模型有效提高了APP資源推薦的性能,具有一定的應用價值.
本文雖對“環評云助手”資源推薦存在的問題進行了研究,但本文提出的模型也存在一定的不足.本文使用的數據為用戶歷史數據,模型暫時沒有考慮用戶興趣等特征隨時間推移產生的變化.因此,在后續的研究工作中將進一步考慮用戶的興趣變化對模型的影響.