邵一博 秦玉華 崔永軍 高寶勇 趙彪



收稿日期:2023-05-14;修回日期:2023-07-01? 基金項目:青島市科技惠民示范項目(23-2-8-smjk-20-nsh)
作者簡介:邵一博(1999—),男,山東菏澤人,碩士研究生,CCF會員,主要研究方向為智能信息處理、用戶畫像;秦玉華(1971—),女(通信作者),山東青島人,教授,碩導(dǎo),博士,主要研究方向為智能信息處理(yuu71@163.com);崔永軍(1975—),男,山東青島人,副主任醫(yī)師,主要研究方向為醫(yī)療大數(shù)據(jù);高寶勇(1998—),男,山東壽光人,碩士研究生,主要研究方向為智能信息處理;趙彪(2001—),男,山東菏澤人,碩士研究生,主要研究方向為自然語言處理.
摘? 要:現(xiàn)有用戶畫像方法缺乏不同粒度文本信息表示,且特征提取階段存在噪聲,導(dǎo)致構(gòu)建畫像不夠準(zhǔn)確。針對以上問題,提出一種融合多粒度信息的用戶畫像生成方法(user profile based on multi-granularity information fusion,UP-MGIF)。首先,該方法在嵌入層融合字粒度、詞粒度表示向量以擴充特征內(nèi)容;其次,在改進(jìn)雙向門控循環(huán)單元網(wǎng)絡(luò)基礎(chǔ)上,結(jié)合降噪自編碼器和注意力機制設(shè)計一種特征提取混合模型Bi-GRU-DAE-Attention,實現(xiàn)特征降噪和語義增強;最后,將魯棒性強的特征向量輸入到分類器中實現(xiàn)用戶畫像生成。實驗表明,該用戶畫像生成方法在醫(yī)療和互聯(lián)網(wǎng)兩個畫像數(shù)據(jù)集上的分類準(zhǔn)確率高于其他基線方法,并通過消融實驗驗證了各個模塊的有效性。
關(guān)鍵詞:用戶畫像;多粒度信息融合;特征提?。浑p向控制循環(huán)單元
中圖分類號:TP391??? 文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2024)02-012-0401-07
doi:10.19734/j.issn.1001-3695.2023.05.0234
User profile generation method by fusing multi-granularity information
Shao Yibo1,Qin Yuhua1,Cui Yongjun2,Gao Baoyong1,Zhao Biao1
(1.College of Information Science & Technology,Qingdao University of Science & Technology,Qingdao Shandong 266061,China;2.Qing-dao Hospital,University of Health & Rehabilitation Sciences(Qingdao Municipal Hospital),Qingdao Shandong 266001,China)
Abstract:Most of the existing user profile methods lack different granularity text information representation,and there is a noise problem in the feature extraction stage,resulting in the inaccurate construction of the profile.To address these issues,this paper proposed a user profile method based on multi-granularity information fusion,called UP-MGIF.Firstly,it integrated the character-level granularity and the word-level granularity representation vectors in the embedding layer to expand feature content.Secondly,based on the improved bi-directional gated recurrent unit network(Bi-GRU),it designed a hybrid feature extraction model called Bi-GRU-DAE-Attention by combining denoising autoencoder(DAE) and attention mechanism to achieve feature denoising and semantic enhancement.Finally,it input the robust feature vectors into the classifier to achieve user profile generation.Experiments show that the user profile generation method achieves higher classification accuracy than other baseline methods on two profile datasets in the medical and Internet domains,and validate the effectiveness of each module through ablation experiments.
Key words:user profile;multi-granularity information fusion;feature extraction;bidirectional gated recurrent unit
0? 引言
當(dāng)今,數(shù)字化技術(shù)的迅猛發(fā)展和互聯(lián)網(wǎng)的廣泛普及使得數(shù)據(jù)的生成和存儲量不斷增加,從而導(dǎo)致數(shù)據(jù)爆炸、信息冗余等一系列問題[1]。如何從數(shù)據(jù)中提取有價值的信息,幫助企業(yè)更好地了解用戶的需求、習(xí)慣和興趣等屬性特征,避免資源浪費,依舊是當(dāng)前的研究熱點。
用戶畫像是通過對用戶數(shù)據(jù)進(jìn)行分析,建立一個代表用戶特征的畫像表示,進(jìn)而利用該畫像為用戶提供更加個性化的服務(wù)[2]。用戶畫像研究廣泛應(yīng)用于電商、醫(yī)療、推薦系統(tǒng)等領(lǐng)域,可以幫助企業(yè)更好地了解用戶需求,提高用戶滿意度和忠誠度[3]。
用戶畫像的構(gòu)建過程是將用戶數(shù)據(jù)信息標(biāo)簽化,完善系統(tǒng)中缺失的用戶屬性信息。目前主要有基于統(tǒng)計的用戶畫像和基于模型的用戶畫像兩種生成方式。其中,基于統(tǒng)計的用戶畫像主要利用數(shù)據(jù)統(tǒng)計和分析技術(shù)對用戶的屬性、行為和興趣等特征進(jìn)行描述和分析,以形成一個關(guān)于用戶的整體概況。Yan等人[4]通過統(tǒng)計用戶在線購物和瀏覽日志建立基于使用情況的用戶畫像,從而挖掘用戶之間的行為差異。劉海鷗等人[5]對社交媒體用戶碎片化信息進(jìn)行時間統(tǒng)計特征分析,揭示了在線社交活動中的用戶行為特點。Chen等人[6]基于企業(yè)輿情理論知識,抓取用戶特征標(biāo)簽,將數(shù)據(jù)量化為影響風(fēng)險程度的指標(biāo),構(gòu)建企業(yè)網(wǎng)絡(luò)輿情用戶畫像。然而,基于統(tǒng)計方法構(gòu)建的用戶畫像較為簡單,無法對文本、圖片等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,易造成資源浪費。
基于模型的用戶畫像比基于統(tǒng)計的用戶畫像更具靈活性和準(zhǔn)確性,前者可以通過更深入的分析和更多的數(shù)據(jù)來預(yù)測用戶的行為,這種方法通常將深度學(xué)習(xí)技術(shù)應(yīng)用于自然語言處理領(lǐng)域,建立用戶的預(yù)測模型,并通過訓(xùn)練數(shù)據(jù)對模型進(jìn)行優(yōu)化。陳澤寧等人[7]通過詞向量模型word2vec將文本內(nèi)容表示成向量,并結(jié)合隨機森林算法對用戶的基本屬性進(jìn)行分類構(gòu)建用戶畫像,但針對數(shù)據(jù)特征的表示較為單一,缺乏對多方面信息的有效利用。于偉杰等人[8]采用集成學(xué)習(xí)Stacking的方式結(jié)合LR、SVM、BERT多個模型,通過投票機制獲得最優(yōu)分類效果,但多個模型的累加容易出現(xiàn)過擬合問題。苗宇等人[9]提出一種多層級特征提取的融合網(wǎng)絡(luò)用戶畫像生成方法Multi-Aspect,對用戶的搜索詞數(shù)據(jù)進(jìn)行多角度特征提取融合,使用Bi-GRU(bidirectional gated recurrent unit)和Attention提取文本全文特征和關(guān)鍵詞特征來預(yù)測用戶的匿名屬性標(biāo)簽,但在文本編碼模塊中僅使用word2vec方法,沒有從多粒度的角度出發(fā),特征表示不夠全面,文本語義表示能力較差,用戶畫像屬性預(yù)測準(zhǔn)確率較低。Zhou等人[10]結(jié)合RoBERTa-wwm-ext模型完成中文文本的編碼嵌入,獲得字符粒度的文本表示。辛苗苗等人[11]融合字符粒度、詞語粒等特征信息來擴充特征內(nèi)容,融合多粒度信息比單一粒度準(zhǔn)確率更高,但特征提取階段忽略了文本數(shù)據(jù)中的隨機噪聲影響,分類的效果仍有待提升。為了克服序列數(shù)據(jù)噪聲的影響,段閆閆等人[12]在LSTM的基礎(chǔ)上引入降噪自編碼器(DAE),從而獲取魯棒性更強的特征表示。
綜上所述,現(xiàn)有用戶畫像方法通常只考慮單一粒度信息,忽略了不同粒度組合對用戶畫像的研究,導(dǎo)致文本向量對文本語義的表示能力較差。另外,簡單的特征提取方法容易忽略文本數(shù)據(jù)特征細(xì)節(jié),特征提取階段存在噪聲干擾、過擬合問題,導(dǎo)致用戶畫像屬性預(yù)測時準(zhǔn)確率較低。針對上述問題,本文提出一種融合多粒度信息的用戶畫像生成方法(user profile based on multi-granularity information fusion,UP-MGIF)。首先,構(gòu)建不同粒度的向量嵌入表示,使用word2vec模型獲取文本的詞粒度向量,并使用RoBERTa模型獲取文本的字粒度向量,將兩者進(jìn)行拼接得到融合向量,從而擴充特征內(nèi)容,獲取更加全面的特征信息,增強文本語義表示能力。其次,設(shè)計一種特征提取混合模型Bi-GRU-DAE-Attention(Bi-GDA),將向量輸入到改進(jìn)的雙向門控循環(huán)單元網(wǎng)絡(luò)(bidirectional gated recurrent unit,Bi-GRU)中進(jìn)行初步的特征提取,融合降噪自編碼器(denoising autoencoder,DAE)解決文本序列隨機噪聲的干擾問題,增強特征的魯棒性,并結(jié)合Attention機制進(jìn)一步加強對文本序列中關(guān)鍵因子的關(guān)注以及內(nèi)部相關(guān)性的捕捉。最后,在分類層得到用戶畫像標(biāo)簽的分類結(jié)果。
1? 相關(guān)工作
1.1? word2vec模型
word2vec是一種基于神經(jīng)網(wǎng)絡(luò)的模型[13],可以將單詞轉(zhuǎn)換為固定維度的向量,向量的每個維度表示不同單詞的語義特征。word2vec包括CBOW和skip-gram兩種詞嵌入模型。CBOW模型通過輸入窗口內(nèi)目標(biāo)詞的前后詞語來預(yù)測目標(biāo)詞語。skip-gram模型通過輸入目標(biāo)單詞來預(yù)測該詞前后單詞的概率分布,其訓(xùn)練時間短且效果較好,所以本文采用skip-gram模型。假設(shè)文本由一組詞序列w1,w2,w3,…,wn組成,在輸入層將每個詞進(jìn)行編碼,skip-gram算法的目標(biāo)是計算最大化平均對數(shù)條件概率pn。
pn=1T∑Tn=1∑-m≤j≤mln p(wn+j|wn)(1)
其中:m為訓(xùn)練文本窗口的大小;wn+j為中心單詞wn的前j個;T為文本中的單詞總數(shù)。
在給定輸入單詞wn+1的情況下,輸出單詞wn+j出現(xiàn)的概率為
p(wn+j|wn)=exp(uTwn+jvn)∑Ww=1exp (uTwvn)(2)
其中:vn表示中心詞向量;uTw表示窗口內(nèi)上下文詞向量的轉(zhuǎn)置;W表示單詞的總數(shù)。
通過對語料庫進(jìn)行訓(xùn)練,skip-gram模型為語料庫中的每個單詞生成一個詞向量。將文本中每個單詞的詞向量相加取平均值,可以得到文本的詞粒度向量表示。在詞粒度信息表示方面,word2vec具有更快的計算速度以及更好的單詞含義捕捉能力。
1.2? RoBERTa-wwm-ext模型
RoBERTa的核心架構(gòu)同BERT模型[14]一樣,采用多層雙向Transformer編碼器作為模型的主要框架,這種架構(gòu)能夠更好地處理文本序列輸入,同時充分利用上下文信息,提高模型對文本的理解能力。RoBERTa模型在預(yù)訓(xùn)練階段去除NSP任務(wù),并采用更加靈活的動態(tài)掩碼策略(dynamic masking),每次在輸入文本中隨機選取一部分token進(jìn)行掩碼,而不是像BERT模型固定地選取15%的token進(jìn)行掩碼,這種隨機的方式有助于提高模型的魯棒性和泛化能力,但是原始的RoBERTa模型并不能很好地適用于中文語料庫。因此,RoBERTa-wwm-ext模型在RoBERTa模型的基礎(chǔ)上將動態(tài)掩碼策略變?yōu)槿~掩碼策略(WWM),并增大訓(xùn)練數(shù)據(jù)集的規(guī)模,使用max_len=512的訓(xùn)練模式?;赗oBERTa字粒度的編碼方式相對于基于詞粒度的編碼方式在一些中文語言處理的場景下具有優(yōu)勢,能夠更好地處理未登錄詞、復(fù)雜結(jié)構(gòu)和純口語化的文本,從而提高模型的表征能力。
1.3? 降噪自編碼器
文本數(shù)據(jù)常常受到拼寫錯誤、語法錯誤、噪聲字符等干擾,影響用戶畫像模型的準(zhǔn)確性。通過使用降噪自編碼器,可以學(xué)習(xí)到文本數(shù)據(jù)特征的魯棒表示,減少噪聲的影響,提高文本質(zhì)量。降噪自編碼器是基于自編碼器(autoencoder,AE)的改進(jìn)。AE[15]是神經(jīng)網(wǎng)絡(luò)的一種,由編碼器、解碼器和隱含層組成,可以從原始數(shù)據(jù)中學(xué)習(xí)具有代表性的特征。但原始的自編碼器容易出現(xiàn)對原始數(shù)據(jù)的簡單復(fù)制,無法學(xué)習(xí)數(shù)據(jù)之間的潛在關(guān)系,導(dǎo)致模型提取的特征無效。為了學(xué)習(xí)深層的特征表示,降噪自編碼器引入了一種隨機噪聲的策略,用于減少原始數(shù)據(jù)噪聲的影響,結(jié)構(gòu)如圖1所示。
DAE在編碼器階段通過對原始數(shù)據(jù)添加一定程度的隨機噪聲[16],使得數(shù)據(jù)的表達(dá)更加復(fù)雜。在解碼的過程中學(xué)習(xí)去除噪聲并重構(gòu)原始數(shù)據(jù),從而增強特征學(xué)習(xí)的能力,使得提取的特征更具有魯棒性。對輸入數(shù)據(jù)hv添加隨機噪聲,v為加噪后的特征向量表示,然后通過編碼器對v進(jìn)行編碼操作,獲得隱層特征向量y。最后通過解碼器對其進(jìn)行解碼重構(gòu)操作,z為重構(gòu)后的特征表示,Loss(hv,z)是對應(yīng)的重構(gòu)誤差的損失函數(shù)。
2? 融合多粒度信息的用戶畫像生成模型
用戶畫像生成模型主要由嵌入融合層、特征提取層和用戶畫像層構(gòu)成。如圖2所示,首先對用戶的文本數(shù)據(jù)進(jìn)行預(yù)處理,包括清洗、分詞、去停用詞等操作;其次,在嵌入層對文本數(shù)據(jù)進(jìn)行訓(xùn)練,獲取字粒度和詞粒度的向量表示;然后將兩種粒度向量表示按順序拼接,獲得融合向量,并將其輸入到本文提出的Bi-GRU-DAE-Attention模塊中提取噪聲小、魯棒性強的深層次語義特征;最后,將其輸入到softmax進(jìn)行分類,從而完成用戶畫像標(biāo)簽的預(yù)測。
2.1? 嵌入層
為了擴充用戶文本數(shù)據(jù)的特征信息,對預(yù)處理后的文本數(shù)據(jù)進(jìn)行字粒度和詞粒度的向量化表示,然后將字粒度和詞粒度的向量表示進(jìn)行拼接得到豐富語義的融合向量,嵌入層融合過程如圖3所示。
2.1.1? 字粒度向量
給定一條文本數(shù)據(jù)X,按照字為單位進(jìn)行分詞,得到序列X={x1,x2,x3,…,xm},將其輸入到RoBERTa-wwm-ext模型中。此模型可以在大規(guī)模中文文本數(shù)據(jù)上進(jìn)行自監(jiān)督學(xué)習(xí),從而學(xué)習(xí)到字粒度的表征向量。具體地,通過非線性函數(shù)將每個字符xi轉(zhuǎn)換為對應(yīng)d維向量表示。然后,將這些向量傳入Transformer模型[17]進(jìn)行編碼。本文采用12層Transformer編碼模塊學(xué)習(xí)序列的上下文關(guān)系和語義信息,經(jīng)過第l層Transformer編碼后的輸出如下:
Hl=transformer_block(Hl-1)(3)
其中:Hl-1是第l-1層的輸出;transformer_block表示Transformer塊,由自注意力子層和前向傳播子層組成。
最終,經(jīng)過12層Transformer編碼后,得到文本X字粒度的向量表示:
CRoBERTa=[c1,c2,c3,…,cm]T∈Euclid Math TwoRApm×d(4)
其中:m表示文本中字的數(shù)量;d表示字向量的維度;cm表示第m個字的向量;Euclid Math TwoRApm×d表示m行、d列的文本矩陣。
2.1.2? 詞粒度向量
本文使用word2vec中的skip-gram模型訓(xùn)練文本語料庫,獲得詞粒度向量編碼。首先利用Jieba分詞工具對文本數(shù)據(jù)進(jìn)行切分得到X={x1,x2,x3,…,xn},xi表示第i個詞,n表示總共的詞數(shù)。將其放入skip-gram模型中進(jìn)行訓(xùn)練,模型選取一個中心詞xi。然后在xi的上下文窗口中選取一個詞xi-1,將xi和xi-1分別表示成向量uxi-1和vxi,在當(dāng)前中心詞xi下,計算所有上下文詞出現(xiàn)的條件概率,公式為
p(xi-1|xi)=exp (uxi-1vxi)∑Vw=1 exp (uwvxi)(5)
其中:V表示詞匯表中的所有詞;uw表示詞w在上下文出現(xiàn)的向量表示。在訓(xùn)練過程中,skip-gram模型通過反向傳播算法來更新詞向量,使得目標(biāo)函數(shù)最大化。在訓(xùn)練完成后,每個詞都會被表示成一個固定維度的向量,最終得到詞粒度的向量表示:
Wword2vec=[w1,w2,w3…,wi…,wm]T∈Euclid Math TwoRApm×d(6)
其中:m表示文本中詞的數(shù)量;d表示詞向量的維度;wi表示第i個詞的詞向量。
2.1.3? 多粒度信息融合
字粒度向量考慮文本中每個字的語義信息,而詞粒度向量則考慮整個詞的語義信息。獲取文本字粒度和詞粒度向量表示后,將兩者進(jìn)行拼接得到最后的文本表示向量[18],增加向量的維度和蘊涵的信息量,提高模型的特征表達(dá)能力。兩種粒度向量的拼接公式為
V=Wword2vec⊕CRoBERTa(7)
其中:⊕為拼接運算符,得到融合字粒度和詞粒度的向量V后,將其輸入到特征提取模型中,提取更深層次的特征。
2.2? 特征提取層
文本數(shù)據(jù)中包含豐富的特征信息,只使用Bi-GRU網(wǎng)絡(luò)提取的特征數(shù)據(jù)不僅存在許多噪聲,而且無法突出不同位置語義特征的貢獻(xiàn)程度,模型分類效果不佳。為此,本文提出一種基于Bi-GRU-DAE-Attention(Bi-GDA)的特征提取模型,該模型首先改進(jìn)GRU特征提取單元,并將其與注意力機制結(jié)合改進(jìn)DAE模塊,使得提取的特征噪聲小、魯棒性強,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
2.2.1? 基于改進(jìn)Bi-GRU的初步特征提取
Bi-GRU是基于門控循環(huán)單元網(wǎng)絡(luò)(gated recurrent unit,GRU)[19]的改進(jìn)模型,核心思想是在GRU網(wǎng)絡(luò)的基礎(chǔ)上再增加一層GRU網(wǎng)絡(luò)來反向處理數(shù)據(jù)。在每個時刻,GRU網(wǎng)絡(luò)的狀態(tài)計算包括更新門、重置門、候選值和隱藏狀態(tài),其中,更新門和重置門控制信息的流動,候選值和隱藏狀態(tài)控制節(jié)點的輸出。相較于傳統(tǒng)的長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[20],GRU網(wǎng)絡(luò)具有更簡單的網(wǎng)絡(luò)結(jié)構(gòu)和高效的計算效率。但原始的GRU單元的參數(shù)較多,模型容易出現(xiàn)過擬合現(xiàn)象,使模型的泛化能力較差。因此,本文在GRU網(wǎng)絡(luò)結(jié)構(gòu)中添加dropout層[21]減少過擬合現(xiàn)象。將dropout層設(shè)置在更新門和隱藏狀態(tài)之間的通道上,可以隨機地將隱藏狀態(tài)的一部分元素置為0,以防止過擬合,添加dropout層的GRU單元結(jié)構(gòu)如圖5所示。
將嵌入層的融合向量V輸入到Bi-GRU中,從正向和反向兩個方向?qū)W習(xí)深層次的隱含強依賴關(guān)系特征。具體地,在第t個時間步的隱層表示計算過程如下:
首先,計算更新門zt和重置門rt,其作用是控制GRU單元輸入、遺忘和輸出的比例:
zt=σ(Wzxt+Uzht-1+bz)(8)
rt=σ(Wrxt+Urht-1+br)(9)
然后,計算候選值t,以更好地捕捉當(dāng)前時刻輸入信息xt和前一時刻的狀態(tài)ht-1。
t=tanh(Whxt+Uh(rt·ht-1)+bh)(10)
最后,計算隱藏狀態(tài)時,增加dropout層對部分神經(jīng)元進(jìn)行失活處理,增加模型的泛化性。丟棄率p一般控制在[0.2,0.5]效果最佳[22],在第t步隱層的輸出ht公式變?yōu)?/p>
ht=(1-zt)·ht-1+dropout(t,p)·zt(11)
其中:σ(x)=11+e-x即sigmoid函數(shù),將信息流控制在(0,1); tanh(x)=ex-e-xex+e-x即雙曲正切函數(shù);Wz、Wr 、Wh、Uz、Ur、Uh為門控參數(shù)矩陣;bz、br、bh為偏置參數(shù)。
向量V經(jīng)過Bi-GRU網(wǎng)絡(luò)處理后,得到正向特征信息序列v=[1,2,…,m]和反向特征信息序列v=[m,m-1,…,1],將兩者進(jìn)行拼接得到輸出向量hv。
hv=[v⊕v](12)
2.2.2? 基于改進(jìn)DAE的特征降噪
傳統(tǒng)的DAE結(jié)構(gòu),其編碼層為全連接網(wǎng)絡(luò),節(jié)點之間處于無連接狀態(tài)。雖然該結(jié)構(gòu)能夠降低文本數(shù)據(jù)噪聲問題,但無法有效處理包含上下文信息的序列數(shù)據(jù),也無法突出不同位置的語義重要性。針對此問題,本文將DAE模型編碼器部分的全連接層編碼網(wǎng)絡(luò)更改為Bi-GRU網(wǎng)絡(luò),在提取融合向量特征的同時可以降低噪聲干擾,以保證語義信息的連貫性和魯棒性。在解碼器部分結(jié)合注意力機制,加強不同位置的語義重要性。
首先對編碼層Bi-GRU提取的特征向量hv采用添加隨機噪聲的方式進(jìn)行局部破壞;然后通過線性變換和激活函數(shù)等過程到達(dá)隱層;最終通過解碼器得到重構(gòu)映射向量z。編碼器和解碼器的表示函數(shù)分別為e(v)和d(y)。
y=e(v)=Se(Wv+by+bn)(13)
z=d(y)=Sd(WTy+bz)(14)
其中:Se為編碼器的激活函數(shù);Sd為解碼器的激活函數(shù);W為權(quán)值;by、bz為偏置,bn為高斯隨機噪聲。
重構(gòu)向量的誤差最小取決于損失函數(shù),將其添加到整個網(wǎng)絡(luò)的損失中,并通過反向傳播算法不斷優(yōu)化參數(shù),使得重構(gòu)的誤差達(dá)到最小。具體而言,在重構(gòu)向量部分,本文采用均方誤差損失函數(shù),如下所示。
Loss(hv,z)=1N∑Ni=1(zi-hvi)2(15)
為避免編解碼過程重要信息的缺失,進(jìn)一步融合編碼特征hv和z得到融合向量Z,以減小噪聲因子對原始數(shù)據(jù)的影響,避免重要特征信息遺漏,提高特征的魯棒性。在解碼器之后將融合向量Z進(jìn)一步傳入Attention模塊中計算特征不同位置之間的權(quán)重[23],降低模型對外部信息的依賴,提高模型的性能。通過權(quán)重矩陣將輸入向量Z分別映射為查詢向量Q、鍵向量K和數(shù)值向量V,經(jīng)過注意力加權(quán)得到最終的特征向量H,其計算方式如下:
Z=[hv⊕z](16)
H=attention(ZWQi,ZWKi,ZWVi)(17)
attention(Q,K,V)=softmax(QKTd)V(18)
其中:WQi、WKi、WVi為權(quán)重矩陣;d是鍵向量K和查詢向量Q的維度。
2.3? 用戶畫像層
用戶畫像層是神經(jīng)網(wǎng)絡(luò)模型的一個分類層,其主要作用是將經(jīng)過注意力計算后的向量H轉(zhuǎn)換為每個用戶畫像類別的概率。該層由一個全連接神經(jīng)網(wǎng)絡(luò)和一個softmax函數(shù)組成。具體而言,將向量H傳入全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行線性變換,然后再通過激活函數(shù)ReLU進(jìn)行非線性變換,學(xué)習(xí)更加復(fù)雜的特征表示,從而得到輸出向量F。其中,F(xiàn)i表示屬于第i個用戶畫像類別的得分。最后,通過softmax函數(shù)將F轉(zhuǎn)換為每個用戶畫像類別的概率,選擇概率最高的用戶畫像類別作為預(yù)測結(jié)果。
F=f(WH+b)(19)
pl=exp(Fi)∑nj=1exp(Fj)(20)
其中:n為畫像類別數(shù);W為權(quán)重;b為偏置;exp為自然指數(shù)函數(shù);f為激活函數(shù)ReLU;pl為用戶屬于第l個畫像類別的概率。
3? 實驗及結(jié)果分析
3.1? 實驗環(huán)境及參數(shù)設(shè)置
本文實驗的硬件環(huán)境包括Intel Core i7-12700KF CPU、32 GB內(nèi)存和NVIDIA GeForce GTX 4090顯卡,軟件環(huán)境包括CUDA 11.3、Python 3.7、PyTorch深度學(xué)習(xí)框架和PyCharm集成開發(fā)環(huán)境。在整體網(wǎng)絡(luò)的訓(xùn)練過程中,本文模型的參數(shù)設(shè)置主要包括word2vec、RoBERTa以及Bi-GDA模塊,模型參數(shù)如表1所示。
3.2? 實驗數(shù)據(jù)集及評價指標(biāo)
本文實驗通過兩個數(shù)據(jù)集對模型畫像的效果進(jìn)行驗證,具體的數(shù)據(jù)集信息如下:
a)慢病患者畫像數(shù)據(jù)集。該數(shù)據(jù)集爬取于某知名的在線醫(yī)療咨詢網(wǎng)站慢病患者在線咨詢數(shù)據(jù),數(shù)據(jù)量共計3 294條樣本,根據(jù)慢病患者咨詢內(nèi)容設(shè)計三類畫像標(biāo)簽(年齡、性別、科室)。其中,gender屬性分為2種類別,age和departments為7種類別。選擇2 636條咨詢文本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),658條作為測試數(shù)據(jù)。
b)搜狗用戶畫像數(shù)據(jù)集。該數(shù)據(jù)集來自第七屆中國計算機學(xué)會(CCF)組織的關(guān)于搜狗用戶畫像比賽的數(shù)據(jù),包含用戶一個月內(nèi)在搜索引擎中的搜索記錄和對應(yīng)的用戶畫像屬性標(biāo)簽(年齡、性別、學(xué)歷)共10萬條。其中,gender屬性分為2種類別,age和education屬性分別為7種類別。對數(shù)據(jù)集的缺失或重復(fù)部分進(jìn)行清洗操作,采用隨機采樣的方式選取80%為訓(xùn)練集,余下20%為測試集。
以慢病患者畫像數(shù)據(jù)集為例,各字段詳細(xì)說明如表2所示。
用戶畫像技術(shù)根據(jù)用戶數(shù)據(jù)信息將用戶劃分到對應(yīng)的屬性類別,屬于分類任務(wù)。準(zhǔn)確率是模型預(yù)測正確結(jié)果的占比,是評估分類模型的重要指標(biāo)。因此,本文采用準(zhǔn)確率(accuracy)作為評價指標(biāo),其計算公式為
accuracy=TP+TNTP+FP+TN+FN×100%(21)
其中:TP、FP、FN和TN的含義如表3所示。
3.3? 實驗結(jié)果對比分析
3.3.1? 不同參數(shù)選擇對比
1)隱含層節(jié)點數(shù)? Bi-GRU的隱含層節(jié)點數(shù)會影響分類的結(jié)果,隱含層的節(jié)點數(shù)決定模型的表達(dá)能力。如果隱含層節(jié)點數(shù)較少,則模型不足以很好地捕捉輸入序列中的信息,導(dǎo)致模型欠擬合,預(yù)測準(zhǔn)確率較低。相反,如果隱含層節(jié)點數(shù)過多,則模型可能過度擬合,對訓(xùn)練數(shù)據(jù)過于敏感,導(dǎo)致對未見過的數(shù)據(jù)學(xué)習(xí)能力較差。因此,選擇適當(dāng)?shù)碾[含層節(jié)點數(shù)可以獲得更好的分類結(jié)果。本文實驗隱含層節(jié)點初始數(shù)目設(shè)置為32,間隔大小為32,在兩個數(shù)據(jù)集上的實驗結(jié)果如圖6所示。
可知,當(dāng)節(jié)點數(shù)為128時,分類準(zhǔn)確率最高。節(jié)點數(shù)過高容易增加模型的復(fù)雜度,導(dǎo)致準(zhǔn)確率下降。經(jīng)實驗驗證,本文模型最佳的隱含層節(jié)點數(shù)為128。
2)噪聲比? 在模型的訓(xùn)練階段,加噪程度會影響模型的性能。加噪程度過低,重構(gòu)數(shù)據(jù)與原始特征差距較小,準(zhǔn)確率提升不明顯。加噪程度適中,可以強制模型學(xué)習(xí)數(shù)據(jù)的關(guān)鍵特征,從而提高模型的泛化能力。然而,當(dāng)加噪程度過高時,重構(gòu)誤差也會增高,導(dǎo)致特征提取能力下降。圖7顯示加噪比例對實驗結(jié)果的影響。由圖可以看出,加噪比例為0.3時,分類準(zhǔn)確率有明顯提升,說明模型學(xué)習(xí)到更加魯棒性的特征,隨著噪聲比例的增加,分類的準(zhǔn)確率也越來越低。
3)學(xué)習(xí)率? 學(xué)習(xí)率對模型的效果有重要影響,通過對比實驗調(diào)整以獲得最佳模型性能。學(xué)習(xí)率是梯度下降算法中一個重要的超參數(shù),控制著網(wǎng)絡(luò)權(quán)重更新的幅度。本文選取1E-7、1E-6、1E-5、1E-4、1E-3、1E-2和1E-1共7個學(xué)習(xí)率進(jìn)行實驗,結(jié)果如圖8所示??梢钥吹?,當(dāng)學(xué)習(xí)率為1E-5時模型的效果最佳,所以本文網(wǎng)絡(luò)采用該學(xué)習(xí)率。
3.3.2? 單一粒度與多粒度融合對比
目前用戶畫像的研究大多數(shù)基于數(shù)據(jù)的單一粒度,為驗證融合不同粒度信息對用戶畫像的影響,分別對字粒度、詞粒度和融合粒度進(jìn)行實驗,實驗結(jié)果如表4所示,加粗內(nèi)容為最優(yōu)值。綜合分析兩個數(shù)據(jù)集上的實驗結(jié)果可以看出,嵌入層使用字粒度表示或詞粒度表示時對整體的平均分類結(jié)果相差不大,但融合兩者之后再作分類,分類效果得到較為明顯的提升。因為僅使用單粒度表示時,數(shù)據(jù)特征表示得不夠充分,分類效果相對較差。使用融合粒度可以擴充文本特征實現(xiàn)數(shù)據(jù)增強,從而改善這種弊端。因此,本文后續(xù)實驗采用融合粒度進(jìn)行后續(xù)的特征提取。
3.3.3? 不同畫像模型效果對比
為驗證本文在用戶畫像生成模型中提出的Bi-GDA方法的有效性,將其與SVM[24]、CNN[25]、LSTM[19]、GRU[20]、Stacking[8]、Multi-Aspect[9]和DAE-LSTM[12]七個模型進(jìn)行對比實驗,表5為本文方法UP-MGIF與其他算法的對比結(jié)果,加粗內(nèi)容為最優(yōu)值。
由實驗結(jié)果可以看出,UP-MGIF在用戶畫像的分類性能均優(yōu)于所有基線模型。支持向量機SVM只能對文本特征進(jìn)行簡單提取,無法獲取深層次的語義信息,導(dǎo)致分類效果較差。使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行局部特征提取,雖然能獲得局部細(xì)粒度特征信息,但是會丟失部分全局的樣本特征,不能很好地適用于文本數(shù)據(jù),分類準(zhǔn)確率相對較低。文本數(shù)據(jù)屬于序列數(shù)據(jù),LSTM和GRU模型可以很好地提取上下文信息,分類準(zhǔn)確率有所提升,但缺乏對特征質(zhì)量的進(jìn)一步加強,提取的特征存在噪聲問題,導(dǎo)致模型魯棒性較差。集成學(xué)習(xí)Stacking的方式通過多分類器投票的方式獲得最優(yōu)分類結(jié)果,其分類效果略優(yōu)于LSTM和GRU,但過于依賴某一分類器的性能,分類結(jié)果不穩(wěn)定。多層級特征提取方法Multi-Aspect忽略了特征提取階段的噪聲問題,準(zhǔn)確率有待進(jìn)一步提升。LSTM-DAE結(jié)合降噪模塊后在兩個數(shù)據(jù)集的準(zhǔn)確率比LSTM提高4.31%和4.45%,證明了對數(shù)據(jù)特征進(jìn)行噪聲處理可以進(jìn)一步提高分類準(zhǔn)確率。本文提出的特征提取模塊Bi-GDA使用Bi-GRU作為基礎(chǔ)特征提取模塊,將其作為編碼器改進(jìn)DAE網(wǎng)絡(luò),并結(jié)合Attention機制突出不同位置語義特征的重要性,充分發(fā)揮各模塊的優(yōu)勢,提取噪聲更少、質(zhì)量更高的數(shù)據(jù)特征,尤其是在分類類別較少時準(zhǔn)確率獲得明顯提升。由兩個數(shù)據(jù)集上的實驗結(jié)果可知,在文本內(nèi)容較短的慢病患者畫像數(shù)據(jù)集上,本文構(gòu)建的UP-MGIF模型相較于其他模型平均準(zhǔn)確率分別提升4.81%、5.76%、4.31%、4.00%、3.39%、2.66%和1.90%。在文本內(nèi)容較長的搜狗用戶畫像數(shù)據(jù)集上,相較于其他模型平均準(zhǔn)確率分別提升5.09%、6.30%、4.45%、3.88%、3.24%、3.15%和2.42%。在age屬性分類中準(zhǔn)確率略低于其他屬性畫像,原因在于age屬性類別較多,文本信息關(guān)聯(lián)性差,導(dǎo)致分類誤差率較高。總體而言,UP-MGIF的分類效果提高較為明顯,適用于不同領(lǐng)域的畫像生成。
3.3.4? 消融實驗
為驗證本文特征提取層Bi-GDA模型各個模塊在畫像任務(wù)上的有效性,分別在兩個數(shù)據(jù)集上進(jìn)行消融實驗,結(jié)果如表6所示,加粗內(nèi)容為最優(yōu)值。從表6可知,若去除DAE和Attention模塊,平均準(zhǔn)確率都有所下降。因此,本文設(shè)計的特征提取方法中的每個模塊對用戶畫像標(biāo)簽的預(yù)測均有貢獻(xiàn),Bi-GRU可以從正反兩個方向提取融合粒度的上下文信息,然后輸入到降噪自編碼器中進(jìn)行降噪,獲取更穩(wěn)健的特征表示,加入Attention機制可以進(jìn)一步給不同位置的特征分配不同的權(quán)重來突出關(guān)鍵信息,使得總體分類效果得到明顯提升。
3.3.5? 案例分析
為了更為直觀地展示本文方法的有效性,選取慢病患者畫像數(shù)據(jù)集進(jìn)行案例分析,并與其他算法進(jìn)行對比。本文對比了主流方法Stacking、Multi-Aspect、LSTM-DAE和本文方法在慢病患者畫像數(shù)據(jù)集的表現(xiàn),觀察不同算法預(yù)測正誤情況,選取數(shù)據(jù)集中的兩個樣本分類結(jié)果為例進(jìn)行說明,如表7所示。
從表7中可以看出,在第一個測試樣本中,實際的畫像標(biāo)簽為“25~30歲、女、婦科”,Stacking、Multi-Aspect兩種方法均存在錯誤預(yù)測,這兩種算法的編碼階段采用的是word2vec,僅基于詞粒度信息,沒有充分考慮上下文信息,因此在出現(xiàn)“寶寶”“男孩”時便直接將其預(yù)測為年齡為0~18歲、男、所屬科室為兒科的類別中。LSTM-DAE和本文方法在編碼階段采用了RoBERTa的方式,不僅獲取字粒度信息,且融合了上下文語境信息,因此預(yù)測正確。在第二個測試樣本中,實際畫像標(biāo)簽類別為“19~24歲、男、內(nèi)科”,Stacking、Multi-Aspect、LSTM-DAE三種方法均在年齡屬性預(yù)測錯誤,因為文本中的數(shù)字信息和符號干擾,導(dǎo)致模型無法挖掘更深層信息。本文模型加入了噪聲消除模塊,可以降低文本中的符號噪聲的影響,并通過注意力機制增強不同位置的語義信息,從而得到正確的分類。
男生,22/歲,長期慢性腹瀉怎么回事?出現(xiàn)這樣的情況該做什么呢?
Stacking
Multi-Aspect
LSTM-DAE
UP-MGIF
31~40歲、男、內(nèi)科
31~40歲、男、內(nèi)科
25~30歲、男、內(nèi)科
19~24歲、男、內(nèi)科19~24歲、男、內(nèi)科
4? 結(jié)束語
現(xiàn)有用戶畫像技術(shù)通常缺乏對非結(jié)構(gòu)化數(shù)據(jù)信息的充分利用,存在數(shù)據(jù)利用率低、特征表示魯棒性差等問題,導(dǎo)致構(gòu)建的用戶畫像不夠準(zhǔn)確。因此,針對用戶的非結(jié)構(gòu)文本數(shù)據(jù),本文提出一種融合多粒度信息的用戶畫像生成方法。該方法首先從字粒度、詞粒度兩方面進(jìn)行向量融合,提高文本數(shù)據(jù)的利用率,擴充文本數(shù)據(jù)的特征表示;然后通過Bi-GRU-DAE-Attention特征提取層獲取深層次、高質(zhì)量的特征向量;最后將提取的融合向量輸入分類器中完成用戶畫像,通過消融實驗證明各個模塊的重要性。不同主體的用戶畫像之間存在一定的關(guān)聯(lián)性,用戶畫像的生成應(yīng)該充分結(jié)合主體間各種關(guān)聯(lián)數(shù)據(jù)。因此,下一步嘗試從多主體的角度出發(fā),結(jié)合不同主體信息,更加充分地描述用戶屬性,并構(gòu)建合適的模型進(jìn)一步提高準(zhǔn)確性。
參考文獻(xiàn):
[1]Luan Hui,Geczy P,Lai H,et al.Challenges and future directions of big data and artificial intelligence in education[J].Frontiers in Psychology,2020,11:580820.
[2]Chen Xusong,Liu Dong,Xiong Zhiwei,et al.Learning and fusing multiple user interest representations for micro-video and movie recommendations[J].IEEE Trans on Multimedia,2020,23:484-496.
[3]徐芳,應(yīng)潔茹.國內(nèi)外用戶畫像研究綜述[J].圖書館學(xué)研究,2020(12):7-16.(Xu Fang,Ying Jieru.Literature review of persona at home and abroad[J].Research on Library Science,2020(12):7-16.)
[4]Yan Huan,Wang Zifeng,Li Yong,et al.Profiling users by online shopping behaviors[J].Multimedia Tools and Applications,2018,77:21935-21945.
[5]劉海鷗,孫晶晶,張亞明,等.在線社交活動中的用戶畫像及其信息傳播行為研究[J].情報科學(xué),2018,36(12):17-21.(Liu Haiou,Sun Jingjing,Zhang Yaming,et al.Research on user portrayal and information dissemination behavior in online social activities[J].Information Science,2018,36(12):17-21.)
[6]Chen Tinggui,Yin Xiaohua,Peng Lijuan,et al.Monitoring and recognizing enterprise public opinion from high-risk users based on user portrait and random forest algorithm[J].Axioms,2021,10(2):106.
[7]陳澤宇,黃勃.改進(jìn)詞向量模型的用戶畫像研究[J].計算機工程與應(yīng)用,2020,56(1):180-184.(Chen Zeyu,Huang Bo.Research on user portrait of improved word vector model[J].Computer Engineering and Applications,2020,56(1):180-184.)
[8]于偉杰,楊文忠,任秋如.基于全詞BERT的集成用戶畫像方法[J].東北師大學(xué)報:自然科學(xué)版,2022,54(4):87-92.(Yu Weijie,Yang Wenzhong,Ren Qiuru.User profile method based on improved integration algorithm[J].Journal of Northeast Normal University:Natural Science Edition,2022,54(4):87-92.)
[9]苗宇,金醒男,杜永萍.基于Multi-Aspect的融合網(wǎng)絡(luò)用戶畫像生成方法[J].計算機技術(shù)與發(fā)展,2022,32(8):20-25.(Miao Yu,Jin Xingnan,Du Yongping.A user profile generation method based on multi-aspect converged network[J].Computer Technology and Development,2022,32(8):20-25.)
[10]Zhou Faguo,Wang Chao,Sun Dongxue,et al.Joint big data extraction method for coal mine safety with characters and words fusion[J].Journal of Signal Processing Systems,2022,94(11):1213-1225.
[11]辛苗苗,馬麗,胡博發(fā).融合多粒度信息的文本分類研究[J].計算機工程與應(yīng)用,2023,59(9):104-111.(Xin Miaomiao,Ma Li,Hu Bofa.Research on text classification by fusing multi-granularity information[J].Computer Engineering and Applications,2023,59(9):104-111.)
[12]段閆閆,徐凌偉.融合DAE-LSTM的認(rèn)知物聯(lián)網(wǎng)智能頻譜感知算法[J/OL].計算機工程與應(yīng)用.(2023-03-01).http://kns.cnki.net/kcms/detail/11.2127.TP.20230228.1551.030.html.(Duan Yanyan,Xu Lingwei.DAE-LSTM-fused intelligent spectrum sensing algorithm for cognitive Internet of Things[J/OL].Computer Engineering and Applications.(2023-03-01).http://kns.cnki.net/kcms/detail/11.2127.TP.20230228.1551.030.html.)
[13]Jatnika D,Bijaksana M A,Suryani A A.word2vec model analysis for semantic similarities in English words[J].Procedia Computer Science,2019,157:160-167.
[14]Liu Yinhan,Ott M,Goyal N,et al.RoBERTa:a robustly optimized BERT pretraining approach[EB/OL].(2019-07-26).https://arxiv.org/abs/1907.11692.
[15]Zhang Guijuan,Liu Yang,Jin Xiaoning.A survey of autoencoder-based recommender systems[J].Frontiers of Computer Science,2020,14:430-450.
[16]張敬川,田慧欣.基于 LSTM-DAE 的化工故障診斷方法研究[J].北京化工大學(xué)學(xué)報:自然科學(xué)版,2021,48(2):108-116.(Zhang Jingchuan,Tian Huixin.Fault diagnosis of chemical process based on long short-term memory(LSTM) -denoising auto-encoder(DAE)[J].Journal of Beijing University of Chemical Technology:Natural Science,2021,48(2):108-116.)
[17]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY :Curran Associates Inc.,2017:6000-6010.
[18]聶維民,陳永洲,馬靜.融合多粒度信息的文本向量表示模型[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(9):45-52.(Nie Weimin,Chen Yongzhou,Ma Jing.A text vector representation model merging multi-granularity information[J].Data Analysis and Knowledge Discovery,2019,3(9):45-52.)
[19]Zhang Yonggang,Tang Jun,He Zhengying,et al.A novel displacement prediction method using gated recurrent unit model with time series analysis in the Erdaohe landslide[J].Natural Hazards,2021,105:783-813.
[20]Jang B,Kim M,Harerimana G,et al.Bi-LSTM model to increase accuracy in text classification:combining word2vec CNN and attention mechanism[J].Applied Sciences,2020,10(17):5841.
[21]吳曉建,危一華,王愛春,等.基于融合Dropout與注意力機制的LSTM-GRU車輛軌跡預(yù)測[J].湖南大學(xué)學(xué)報:自然科學(xué)版,2023,50(4):65-75.(Wu Xiaojian,Wei Yihua,Wang Aichun,et al.Vehicle trajectory prediction based on LSTM-GRU integrating dropout and attention mechanism[J].Journal of Hunan University:Natural Sciences,2023,50(4):65-75.)
[22]Cheng Gaofeng,Peddinti V,Povey D,et al.An exploration of dropout with LSTMs[EB/OL].92017-08-20).https://api.semanticscholar.org/CorpusID:3836066.
[23]Suman C,Saha S,Bhattacharyya P.An attention-based multimodal Siamese architecture for tweet-user verification[J].IEEE Trans on Computational Social Systems,2023,10(5):2764-2772.
[24]Sueno H T,Gerardo B D,Medina R P.Multi-class document classification using support vector machine(SVM) based on improved Nave Bayes vectorization technique[J].International Journal of Advanced Trends in Computer Science and Engineering,2020,9(3):3937.
[25]Wan Changxuan,Li Bo.Financial causal sentence recognition based on BERT-CNN text classification[J].The Journal of Supercompu-ting,2022,78:6503-6527.