999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進詞向量模型的用戶畫像研究

2020-01-06 02:15:36陳澤宇
計算機工程與應(yīng)用 2020年1期
關(guān)鍵詞:單詞特征文本

陳澤宇,黃 勃,2

1.上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海201620

2.江西省經(jīng)濟犯罪偵查與防控技術(shù)協(xié)同創(chuàng)新中心,南昌330000

1 引言

互聯(lián)網(wǎng)科技的發(fā)展帶來了互聯(lián)網(wǎng)數(shù)據(jù)爆炸式的增長,用戶在瀏覽網(wǎng)頁的同時會留下大量的行為數(shù)據(jù),分析這些數(shù)據(jù)可以挖掘出用戶基本的屬性信息和潛在的興趣偏好,給企業(yè)的經(jīng)營方面提供了重大的幫助。搜索引擎是一個主流的網(wǎng)絡(luò)平臺,利用搜索引擎來構(gòu)建用戶畫像對于營銷的效果具有更加重要的價值,針對用戶的查詢詞的短文本,傳統(tǒng)的向量空間模型存在特征稀疏的問題,并且缺乏單詞之間的語義聯(lián)系。李雅坤[1]引入詞向量構(gòu)建了基于搜索引擎短文本的用戶畫像。詞向量模型[2]通常使用一個向量來表示一個單詞,無法解決一詞多義和一義多詞的情況。為了解決這樣的問題,Reisinger 等[3]提出了多原型向量空間模型(multi-prototype vector space models),該模型將一個單詞的上下文聚類為一組,然后為每一個類生成一個不同的詞向量。然而,多原型向量空間模型[4-6]在生成詞向量時也存在一些問題,它將同一個單詞的不同上下文聚類為沒有關(guān)聯(lián)的兩簇,但他們的語義可能是相同的。于是,張小川等[7]將文本向量與文本的主題分布相結(jié)合,得到語義表達更豐富的詞向量,但該模型只是簡單地將文本向量和文本的主題向量相連接,在主題信息的表達上還不夠突出。本文提出一種更加強大的多原型向量空間模型,將目標單詞和它所分配的主題共同放入神經(jīng)網(wǎng)絡(luò)中訓(xùn)練得到目標單詞的主題詞向量。

2 相關(guān)工作

2.1 Word2vec模型

Word2vec 是谷歌公司提出的一種神經(jīng)網(wǎng)絡(luò)模型[8]。該模型利用多維的向量來表示單詞,且詞向量的每個維度都代表一個語義特征。word2vec 采用的模型有兩種:CBOW和Skip-Gram。CBOW模型是通過目標單詞的上下文來預(yù)測目標單詞[9],而Skip-Gram 則通過目標單詞來預(yù)測它的上下文[9]。其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1和圖2所示。

圖1 CBOW模型

圖2 Skip-Gram模型

輸入層是One-Hot編碼,每一個詞用一個n 維的向量來表示,這個n 維向量只有一個位置是1,其余位置都是0。給定一個單詞序列W={w1,w2,…,wN} ,該模型的目標是最大化平均對數(shù)概率[10]:

其中,c 表示目標單詞的上下文,k 為上下文的大小。輸出層是一個softmax回歸[11],用來計算P(wi+c|wi)。

其中,vc表示目標單詞上下文wc的詞向量,vi表示目標單詞wi的詞向量。

通過訓(xùn)練得到的詞向量可以計算單詞之間的相似度sim(wi,wj)=vi?vj,將文本中每個單詞的詞向量進行相加再取平均可以得到這篇文本的文本向量。

2.2 LDA模型

隱狄列克雷分配(Latent Dirichlet Allocation,LDA)是一種無監(jiān)督的模型,可用于識別文本中隱藏的主題信息[12]。該模型可以將文本表示為主題的概率分布,且每個主題由詞的概率分布來表示[13],LDA模型如圖3所示。

圖3 LDA模型圖

圖3 中M 表示語料庫中的文本數(shù),T 表示主題數(shù),α 是主題分布的超參數(shù)[14],β 為詞分布的超參數(shù)[14],θ 是文本主題分布θ=Dirichlet(α)[15],φ 是主題詞分布φ=Dirichlet(β)[15],N 是一篇文本中的詞數(shù),t 是詞對應(yīng)的主題,對于一篇短文本m,其中每個詞對應(yīng)的主題t=multi(θd),w 是詞。

通過吉布斯抽樣(Gibbs Sampling)[16]對主題變量t進行抽樣,間接估算中θ 和φ,估算公式如下:

2.3 隨機森林

隨機森林(Random Forest,RF)是一種集成學(xué)習(xí)算法,由多個決策樹組成[17]。RF在決策樹的構(gòu)建過程中,從節(jié)點上所有特征中隨機選取一部分特征,再從隨機選擇的部分特征中選擇最優(yōu)的特征作為決策樹左右子樹劃分的標準,這使得模型的泛化能力得到了提高。一棵決策樹代表一個弱分類器,通過n 次的迭代,獲得n 個弱分類器,最終的分類結(jié)果由這n 個弱分類器的投票決定,票數(shù)多的一類即為這個樣本的類別。

RF的算法:

輸入:樣本集D={d1,d2,…,dm},決策樹個數(shù)n。

輸出:最終的強分類器。

(1)對訓(xùn)練集進行m 次隨機采樣(Bootstrap)[16],獲得n 個包含m 個訓(xùn)練樣本的采樣集。

(2)從所有特征中隨機選取一部分特征,再從中選擇最優(yōu)特征作為節(jié)點建立決策樹。

(3)重復(fù)步驟(1)、(2)n 次,直到建立n 棵決策樹。

3 模型描述

本文針對用戶的搜索記錄,利用基于主題詞改進的詞向量模型來構(gòu)建用戶畫像,使用隨機森林(RF)對用戶的基本屬性進行分類,具體的模型框架如圖4所示。

圖4 用戶畫像模型框架圖

3.1 基于主題詞改進的詞向量模型

為了構(gòu)建能表達一個單詞在不同語義下的詞向量,將主題融入到詞向量中,獲得目標單詞w 在主題t 下的主題詞向量,基于主題詞改進的詞向量模型所使用的神經(jīng)網(wǎng)絡(luò)模型為Skip-Gram 模型。首先通過LDA 模型獲取文本對應(yīng)主題的概率矩陣和主題對應(yīng)詞的概率矩陣,給目標單詞w 分配潛在的主題t ∈T ,將目標單詞表示為單詞-主題對<w,t >。然后對短文本中的每一個單詞進行One-Hot 編碼,再為其對應(yīng)的主題生成主題編碼[P1,P2,…,PT],其中Pi表示目標單詞分配給第i 個主題的概率,將單詞編碼和主題編碼相連接共同作為skipgram模型的輸入。基于主題詞改進的詞向量模型如圖5所示。

對于單詞主題對<w,t >該模型需要最大化平均對數(shù)概率:

輸出層也是softmax 回歸[11],用來計算P(<wi+c,ti+c>|<wi,ti>)。

圖5 基于主題詞改進的詞向量模型

3.2 改進詞向量模型的用戶畫像

根據(jù)主題詞向量vt,可以獲得一些單詞在不同主題下最相近的詞,因此主題詞向量可以更好的表達單詞在不同上下文中的語義信息。例如“栽培”,在word2vec模型中獲得的相似詞有“種植、造就”等;基于主題詞改進的詞向量模型在主題為“農(nóng)業(yè)”時獲得的相似詞有“栽種、種植”等,在主題為“教育”時獲得的相似值有“造就、培養(yǎng)”等。

用戶可以通過網(wǎng)絡(luò)搜索到自己想要了解的信息,這些信息可以側(cè)面反映出用戶的基本屬性和愛好,例如:年齡較小的人會更多的搜索與動畫片和游戲相關(guān)的信息;女性會更加關(guān)注化妝品和流量明星。所以可以通過分析這些搜索文本來對用戶的屬性標簽進行刻畫。

本文利用基于主題詞改進的詞向量模型來構(gòu)建用戶畫像,為了提取用戶特征,傳統(tǒng)的詞向量模型通過對文本中每個詞的詞向量直接相加再取平均來表示用戶特征,這樣不能體現(xiàn)出不同單詞的重要程度。因此,通過對文本中每個詞的主題詞向量進行加權(quán)求和表示用戶特征:

其中,ωk是詞wk∈W 在文本中的權(quán)重,權(quán)重值用單詞w 的TF-IDF[10]值。若文本中某個單詞的TF-IDF 值越大,經(jīng)過加權(quán)求和后得到的向量能體現(xiàn)出該單詞的重要程度,在用戶特征的表達上也會更加突出。當(dāng)用戶特征提取之后,使用隨機森林(RF)分別對三個屬性標簽進行分類。

基于主題詞改進的詞向量模型的用戶畫像算法:

輸入:用戶查詢詞數(shù)據(jù)集。

輸出:用戶基本屬性的分類結(jié)果。

(1)用LDA模型為每個單詞分配一定數(shù)量的主題。

(2)用基于主題詞改進的詞向量模型為文本中的單詞生成主題詞向量。

(3)計算每個單詞的TF-IDF 值,再將TF-IDF 值歸一化。

(4)利用公式(7)對主題詞向量進行加權(quán)求和得到用戶特征。

(5)將用戶特征用隨機森林算法分別對三個屬性標簽進行分類。

4 實驗及結(jié)果分析

4.1 數(shù)據(jù)集

本文采用Python3.7 進行實驗,操作系統(tǒng)為Windows 10,CPU 為CoreTMi7。實驗數(shù)據(jù)集來源于中國計算機學(xué)會(CCF)組織的大數(shù)據(jù)競賽。實驗數(shù)據(jù)包括10萬條,提供用戶的基本屬性標簽和一個月內(nèi)的上網(wǎng)搜索詞。部分數(shù)據(jù)集如表1所示。

表1 實驗數(shù)據(jù)集

表中ID 為加密后的用戶編號;年齡屬性分為6 類,由1~6 表示,0 表示未知;性別屬性分為2 類,由1~2 表示,0 表示未知;學(xué)歷屬性分為6 類,由1~6 表示,0 表示未知。

4.2 實驗結(jié)果對比與分析

將本文使用的方式與只使用詞向量模型和使用LDA 主題模型與詞向量相結(jié)合的方法相比較,三種模型都使用隨機森林分類器對用戶的基本屬性進行分類。其中LDA 主題模型與詞向量相結(jié)合的方法,采用向量連接的方式,該模型先使用詞向量模型訓(xùn)練得到單詞的詞向量,將文本中每個單詞的詞向量進行相加再取平均得到這篇文本的文本向量,然后使用LDA 主題模型中的文本主題矩陣得到一篇文本所對應(yīng)的主題概率,得到這篇文本的主題向量t={t1,t2,…,tT},最后將文本向量與主題向量連接在一起,形成語義表達更豐富的詞向量。

其中,⊕為連接運算符,w 表示文本對應(yīng)的詞向量,t表示文本對應(yīng)的主題向量

將三種不同模型的查準率P、查全率R 和F1 值[17]作為模型的評價,實驗結(jié)果取自五次五折交叉驗證后的平均值。分類結(jié)果的混淆矩陣如表2所示,分別計算性別、年齡、學(xué)歷屬性的分類精確率、召回率和F1 值。實驗結(jié)果如表3及圖6、7所示。

表2 混淆矩陣

表3 不同算法的分類性能

圖6 不同算法的F1 值對比

圖7 不同算法的實驗結(jié)果對比

從上述實驗結(jié)果中可以看出,本文方法的平均分類準確率比Word2vec 模型至少提高了2%,比Word2vec+LDA模型至少提高了1%;平均召回率比Word2vec模型至少提高了1.8%,比Word2vec+LDA 模型至少提高了1.1%;F1 值比Word2vec 模型至少提高了1.9%,比Word2vec+LDA模型至少提高了1%。其中在年齡屬性上發(fā)揮的效果最好,比Word2vec模型至少提高了2.9%,比Word2vec+LDA 模型至少提高了1.4%。單獨使用Word2vec 模型的分類結(jié)果并不是很好,使用Word2vec和LDA相結(jié)合的模型雖然分類的精度要高于單獨使用word2vec模型,但仍低于本文提出的方法。因為傳統(tǒng)的word2vec對于每個單詞只能生成一個詞向量,而本文的方法可以針對單詞不同的主題生成不同的詞向量,使得單詞的表達更加的靈活。

5 結(jié)論

本文研究了關(guān)于構(gòu)建基于搜索引擎的用戶畫像的相關(guān)問題,相比于只利用目標單詞的詞向量,基于主題詞改進的詞向量模型還使用了目標單詞的主題向量,用主題詞向量將代表這個主題下單詞的整體語義,更好地表達了用戶的特征。實驗結(jié)果表明,主題詞向量在處理基于用戶搜索詞的用戶畫像上達到了更好的效果。但還存在一些不足之處,在網(wǎng)民中,年齡大的人群普遍比年齡小的人群少,學(xué)歷高的人群也普遍比學(xué)歷低的人群少,數(shù)據(jù)存在嚴重的不平衡,因此,需要尋找一個數(shù)據(jù)平衡的方法來進一步提高用戶畫像的分類精度。

猜你喜歡
單詞特征文本
單詞連一連
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 日韩欧美视频第一区在线观看 | 国产剧情国内精品原创| a欧美在线| 国产精品久久久精品三级| 在线观看国产精品第一区免费| 免费在线看黄网址| 亚洲六月丁香六月婷婷蜜芽| 日韩色图在线观看| 99精品欧美一区| 亚洲精品中文字幕午夜| 天堂网亚洲系列亚洲系列| 四虎在线高清无码| 日韩精品久久久久久久电影蜜臀| 2021最新国产精品网站| 国产青榴视频| 97国内精品久久久久不卡| 精品国产香蕉在线播出| 操美女免费网站| 91福利免费| 国产精品99久久久久久董美香| 久久精品丝袜| 本亚洲精品网站| 精品无码一区二区三区在线视频| 综合天天色| 国产SUV精品一区二区6| 亚洲另类国产欧美一区二区| 国产欧美高清| 日韩国产综合精选| 99久久免费精品特色大片| 国产亚洲高清在线精品99| 国产无码精品在线播放| 国产日本欧美亚洲精品视| 久久semm亚洲国产| 亚洲成人一区二区| 国产精品网址你懂的| 亚洲综合极品香蕉久久网| 久草视频中文| 国产真实自在自线免费精品| 这里只有精品国产| 女人天堂av免费| 亚洲人成日本在线观看| 国产三级a| 99激情网| 婷婷六月综合网| 精品视频福利| 久久精品亚洲专区| 国产www网站| 高清无码一本到东京热| 久久国产高清视频| 国产jizzjizz视频| a天堂视频| 拍国产真实乱人偷精品| 97视频免费在线观看| 日本午夜三级| 中文字幕在线免费看| 国产呦视频免费视频在线观看| 久久激情影院| 狠狠色丁婷婷综合久久| 国产二级毛片| 国产第一页免费浮力影院| 亚洲欧美日韩成人在线| 91区国产福利在线观看午夜| 日韩毛片视频| 午夜无码一区二区三区| 久久久久人妻一区精品色奶水| 制服丝袜无码每日更新| 毛片免费在线视频| 永久毛片在线播| 特级毛片免费视频| 亚洲天堂视频在线免费观看| AV无码无在线观看免费| 国产成人高清精品免费软件| 成人小视频网| 欧美日韩福利| 国产成人在线无码免费视频| 幺女国产一级毛片| 专干老肥熟女视频网站| 亚洲乱伦视频| 国产欧美日韩在线在线不卡视频| 国产福利免费在线观看| 久久国产精品影院| 狠狠干欧美|