999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模型融合的搜索引擎用戶畫像技術

2020-04-26 00:27:22王佳斌馬迎杰朱新龍
科技與創新 2020年7期
關鍵詞:搜索引擎融合用戶

郭 梁,王佳斌,馬迎杰,朱新龍

(華僑大學 工學院,福建 泉州362021)

1 引言

1.1 研究背景及意義

搜索引擎是互聯網的基礎應用,它是用戶訪問網站的最重要的通道。搜索引擎用戶畫像是分析用戶查詢關鍵詞的一個重要研究領域。搜索引擎通常通過創建用戶畫像來分析用戶的個人偏好[1]。因此它具有極高的商用價值,很多營銷項目或很多廣告主,在投放廣告前,都要求媒體提供用戶畫像。一種新的搜索引擎技術可以根據用戶的興趣、偏好和信息需求,為不同的用戶提供不同的搜索結果[2]。但是由于搜索引擎便捷的特點,用戶在使用時不會留下太多的用戶信息,比如年齡、性別、學歷等用戶的標簽信息,因此也就無法根據用戶屬性對用戶進行分群處理,所以在分析用戶數據時會存在一定的困難。

1.2 國內外研究現狀

早期的用戶畫像構建技術利用數據庫、Web 技術對用戶數據進行統計分類,例如CRM(客戶關系管理系統)。隨著技術的不斷發展,FAWCETT 等人[3]將數據挖掘和機器學習結合,通過用戶行為生成的日志構建用戶畫像來檢測用戶中存在的欺詐行為。ADOMAVICIUS 等人[4]通過用戶瀏覽歷史和交易記錄等建立用戶畫像,并用于推薦系統領域中。這些用戶畫像包含每個用戶的個人行為,其通過各種數據挖掘的技術從用戶歷史行為中提取用戶的偏好和習慣,更具體地說是從用戶的交易歷史中得到他們的用戶畫像。SUGIYAMA[5]在搜索引擎系統中使用基于改進的協同過濾方法構建用戶畫像,可以詳細地分析用戶一天內的瀏覽記錄,然后根據用戶對相關信息的反饋調整搜索結果。王慶福[6]提出用基于Bayesian Network 的用戶畫像來構建互聯網用戶愛好的不同層次。楊雙亮[7]將DNN 算法應用到移動網絡用戶畫像的愛好標簽預測中,實現了用戶的個性化推送。近幾年的研究中,機器學習逐漸被引入NLP(Natural Language Processing)的領域中。本研究在搜索引擎用戶畫像的應用中,提出了基于BP 神經網絡的Stacking 融合模型,并與傳統模型進行對比實驗。

2 用戶畫像簡介

用戶畫像是根據用戶的網絡行為或現實行為產生的數據記錄而抽象出的標簽化的用戶模型,是針對具有某些相同標簽的某一類人的模型表達,并不是特指某一個人的表達。用戶畫像是分析用戶屬性的基本組件[1]。

用戶畫像的構成屬性一般包括用戶的靜態屬性、動態屬性、消費屬性和心理屬性。靜態屬性用來描述用戶的固有屬性,比如用戶的性別、出生年月等;動態屬性指用戶產生的行為屬性,比如用戶的出行習慣、學習偏好、娛樂活動等;消費屬性主要包括用戶的消費偏好、消費水平、消費心理等;心理屬性指用戶的生活、工作、情感趨向,通過這些屬性預測用戶新的行為。根據用戶畫像,公司可以通過用戶的偏好來制定產品的模式與功能,或者修改自己的產品戰略,以適應當前的市場。

用戶畫像的表示方法還可以分為以下幾類:基于本體/概念的用戶畫像,基于主題/話題的用戶畫像方法,基于用戶興趣/偏好的用戶畫像方法,基于用戶行為習慣的畫像方法[8]。用戶畫像的數據可以通過數據挖掘技術來獲取,將用戶上網產生的日志通過合適的模型進行分析,并構建出用戶畫像。

3 用戶畫像的標簽預測模型

3.1 基于TF-IDF 的傳統機器學習模型

實驗選用如今廣泛使用的基于TF-IDF 的傳統機器學習模型進行實驗對比,TF-IDF 即詞頻-逆文本頻率指數,是一種文本挖掘中廣泛使用的特征向量化方法,尤其應用于搜索引擎的特征工程構建中,用來評估一個字詞在語料庫中的重要性[9]。TF(Term Frequency)表示詞頻,即一個詞在一篇文章中出現的次數,但在實際應用中,介詞、語氣詞等沒有實際意義的詞會在句子中大量出現,這些詞語對于判斷文章的關鍵詞幾乎沒有什么用處,即為“停用詞”,在度量相關性的時候不應當考慮這些詞的頻率。所以在數據預處理中已將這些詞剔除。IDF(Inverse Document Frequency)逆文本頻率指數,用總的文章數量除以包含該關鍵詞的文章的數量得到某關鍵詞的IDF 值,結果取對數得到,某關鍵詞的IDF值越大,則區分能力越強,包含此關鍵詞的文檔越少,公式如下:

一個詞語預測主題的能力越強,權重就越大,反之,權重越小,因此一個詞的TF-IDF 公式如下:

對于搜索引擎用戶畫像的分類問題,基于TF-IDF 的傳統機器學習模型如下:先對數據進行預處理,將數據中有用的信息提取出來,再用分詞工具對文本進一步分割;然后將這些處理過的數據用TF-IDF 進行特征提取,其效果與運用的算法有關;最后用分類器訓練和預測,選擇不同的分類器將出現不同的結果。其模型結構如圖1 所示。

圖1 基于TF-IDF 的傳統模型結構圖

3.2 基于BP 神經網絡的Stacking 模型融合

傳統的單個機器學習模型容易發生過擬合,所以本實驗采用模型融合的方法。模型融合方法屬于集成學習,它不是單獨的機器學習算法,而是將許多機器學習算法結合在一起,因此往往比單一的學習器有更優越的泛化性,可提升模型的預測能力。集成學習可以分為三大類,即bagging、boosting 和stacking。bagging 使用裝袋采樣來獲取數據子集訓練基礎學習器,以降低基分類器的方差,但是對提升泛化性能沒有很大幫助;boosting 可將弱學習器提升為強學習器,每個基學習器都是為了最小化損失函數,更注重減少偏差;stacking 是一種分層模型集成框架,可以設置很多層級,包含不同的學習算法,所以比較靈活,有很強的泛化能力,可以明顯提升預測結果。因此研究選擇stacking 構建模型,一般stacking 模型為兩層結構,過多的層級容易過擬合,運用stacking 模型,可以在過程中間結果融合新特征,進一步提升預測能力[10]。Stacking 模型融合結構如圖2 所示。

TF-IDF 算法雖然考慮了單詞在文檔中的詞頻和單詞在整體語料庫中分布的影響,但沒有考慮到單詞在不同類別間的分布差異,而且忽略了單詞之間的語音信息和排列順序,所以實驗采用Doc2Vec 彌補TF-IDF 的缺點。反向傳播(Back Propagation,BP)神經網絡是20 世紀80 年代由RUMELHART 等人提出的,是目前被廣泛應用的神經網絡學習算法[11]。對于Doc2Vec 得到的文本特征向量,實驗使用BP 神經網絡模型對其進行訓練,并用Stacking 模型將TF-IDF 的訓練結果融合,再輸入到Stacking 第二級模型中,其模型結構如圖2 所示。該模型相較Logistic Regression 等模型,其擬合能力更強,并在實驗中進行了對比。

圖2 Stacking 模型融合結構圖

實驗中Stacking 結構第一層使用多分類器訓練TF-IDF特征向量,而不是傳統的單一分類器,考慮到分類速度和分類效率,在分類器的選擇上實驗選擇了SGD Classifier(隨機梯度下降)、Naive Bayes Classifier(樸素貝葉斯)、LinearSVC(線性支持向量機)、Logistics Regression(邏輯回歸)和Hard VotingClassifier(一種集成分類器),多分類器訓練模型如圖3 所示。

圖3 多分類器結構

實驗使用BP 神經網絡訓練Doc2Vec 特征向量,根據訓練特征向量的網絡結構,Doc2Vec 可分為Distributed Memory Model(DM)與Distributed bag of words(DBOW)兩種模型,其中DM 模型不但擁有上下文的語義關聯信息,而且包含了特征詞的詞序信息,DBOW 模型則不考慮特征詞的排序信息,而只關注文檔中的特征詞的語義信息。實驗中同時采用了DM 和DBOW 兩種模型,用BP 神經網絡進行特征訓練,以保證特征構建中信息的完整性,其結構如圖4 所示。

4 實驗和分析

4.1 數據預處理

數據集是由搜狗搜索引擎提供的10 0000 用戶一個月內的搜索引擎查詢詞,其中90 000 作為訓練集,10 000 作為測試集。數據的格式如表1 所示。在測試集中,ID、Age、Gender 均為缺省項。

圖4 BP 神經網絡結構

表1 實驗數據格式

在數據預處理的環節中,通過對訓練數據的統計分析,發現包含空值的行并不多,所以直接舍棄以減小噪聲。分詞使用了jieba 分詞組件,并使用帶有詞性的精確模式進行分詞,結合人們進行日常檢索的先驗知識,在進行分詞處理及特征計算的過程中,保留了名詞、動詞和簡略詞,在該任務中是最具有代表的特征。

4.2 基于TF-IDF 的傳統模型分析

實驗根據TF-IDF 的傳統模型進行了訓練和預測,并選用了不同的分類器進行對比。分類器中,邏輯回歸(Logistics Regression)是最常用的分類方法,其速度快、易于理解,但適應能力有一定的局限性;樸素貝葉斯模型也常用于文本分類,有著較為穩定的分類效果,對小規模數據分類效果很好,實驗選用文本分類常用的多項式分布樸素貝葉斯(MultinomialNB)與伯努利分布樸素貝葉斯(BernoulliNB)進行實驗。作為對比,基于TF-IDF 不同分類器模型的實驗準確率如表2 所示。

表2 基于TF-IDF 不同分類器模型的實驗準確率對比(單位:%)

從實驗結果可知,在基于TF-IDF 特征的分類模型下,選用不同的分類器會對結果產生不同的影響,對于TF-IDF特征向量訓練的任務,使用邏輯回歸分類會有更好的效果。

4.3 基于BP 神經網絡的融合模型分析

為了使結果更加直觀,實驗使用TSNE 對模型的輸出結果進行降維可視化展示,如圖5 所示,Education 和Age 分為6 類,Gender 分為2 類。

圖5 TSNE 降維可視化

根據以上模型結構進行實驗,基于BP 神經網絡的融合模型與其他模型準確率的對比實驗數據如表3 所示。表3 中,TF-IDF(多分類器)表示用多分類器訓練TF-IDF 特征向量,但在Stacking模型中不進行融合Doc2Vec 特征向量得到的結果;TF-IDF&Doc2Vec(LR)表示實驗在Stacking 模型第一層使用TF-IDF 多分類器訓練特征,第二層中融合的是用Logistics Regression 分類器訓練的Doc2Vec 特征向量;TF-IDF&Doc2Vec(BPNN)表示實驗在Stacking 模型第一層使用TF-IDF 多分類器訓練特征,第二層使用BP 神經網絡訓練Doc2Vec 特征向量。

表3 基于BP 神經網絡的融合模型與各模型準確率對比(單位:%)

從實驗結果可以看出,使用TF-IDF 多分類器效果比使用傳統模型中單分類器準確率高,用Stacking 融合模型加入Doc2Vec 特征向量后,效果進一步提升,最后將Doc2Vec 特征向量的訓練方法由Logistics Regression 改為BP 神經網絡后,準確率在一定程度上又有所提升。

5 總結

本實驗構建了用于預測多維用戶標簽的Stacking 模型融合結構,并與傳統的分類模型進行實驗對比。從實驗結果可以看出,選擇不同的分類器對準確率有很大影響,在搜索數據的分類任務中,使用Logistics Regression 分類器要比其他單分類器有更好的效果,而使用Stacking 融合模型中的多分類器可以進一步提升分類效果,如果將基于BP 神經網絡訓練的Doc2Vec 特征詞向量進行融合,則可以在一定程度上繼續提高預測的準確度。所以本文提出的Stacking 模型融合方法對搜索引擎用戶畫像的標簽預測有一定的意義。

猜你喜歡
搜索引擎融合用戶
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
基于Nutch的醫療搜索引擎的研究與開發
主站蜘蛛池模板: 午夜国产不卡在线观看视频| 日韩欧美综合在线制服| 国产精品99在线观看| 欧美天天干| 丁香婷婷激情网| 免费观看欧美性一级| 国产免费精彩视频| 99一级毛片| www.亚洲色图.com| 最新亚洲人成网站在线观看| 国产精品自拍露脸视频| 激情综合网址| 在线无码av一区二区三区| 日本国产精品一区久久久| 亚洲毛片一级带毛片基地| 直接黄91麻豆网站| 国产91麻豆视频| 亚洲六月丁香六月婷婷蜜芽| 免费人成在线观看视频色| 国产男女免费完整版视频| 国产精品一区不卡| 久无码久无码av无码| 青青草综合网| 四虎永久免费在线| 东京热一区二区三区无码视频| 亚洲欧美日韩成人在线| 国产中文在线亚洲精品官网| 在线色国产| 国产精品女主播| 91视频青青草| 国产爽歪歪免费视频在线观看| 国产精彩视频在线观看| 97se亚洲综合在线天天| 欧美亚洲国产一区| 免费观看三级毛片| 欧美日韩资源| 视频二区国产精品职场同事| 无码内射在线| 97在线国产视频| aⅴ免费在线观看| 福利视频久久| 中文字幕va| 久久精品aⅴ无码中文字幕| 亚洲一区免费看| 国产精品主播| 国产成人精品亚洲日本对白优播| 青青青视频蜜桃一区二区| 亚洲精品欧美日韩在线| 国产成人精品无码一区二 | 久久综合九色综合97婷婷| 囯产av无码片毛片一级| 成人午夜网址| 麻豆精品在线播放| 欧美日韩动态图| 亚洲Va中文字幕久久一区| 亚洲高清中文字幕在线看不卡| 一本大道无码日韩精品影视| 国产精品极品美女自在线| 国产小视频网站| 久久精品国产精品青草app| 亚洲黄网视频| 特级毛片8级毛片免费观看| 天堂中文在线资源| 色综合天天操| 欧美午夜理伦三级在线观看| 亚洲第一成网站| 日韩免费毛片| 久久免费精品琪琪| h网站在线播放| 99热这里只有精品在线观看| 18禁色诱爆乳网站| 国内精品久久久久久久久久影视| 亚洲自偷自拍另类小说| 午夜无码一区二区三区在线app| 国产福利影院在线观看| 在线观看欧美国产| 99福利视频导航| 国产午夜不卡| 精品黑人一区二区三区| 亚洲成人77777| 免费无遮挡AV| 在线观看欧美国产|