999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘技術(shù)的用戶畫像設(shè)計分析

2022-01-20 13:29:22張昊
電子制作 2021年24期
關(guān)鍵詞:文本用戶分析

張昊

(湖北第二師范學(xué)院計算機(jī)學(xué)院,湖北武漢,430205)

在互聯(lián)網(wǎng)電子商務(wù)經(jīng)濟(jì)活動不斷發(fā)展的過程中,用戶畫像對于電子商務(wù)企業(yè)來說價值也在不斷增加。電子商務(wù)網(wǎng)站涉及領(lǐng)域廣泛,不只是追求技術(shù),還要對用戶需求進(jìn)行分析。但是,用戶畫像研究還處于初級階段,只要創(chuàng)建完善用戶模型,相關(guān)互聯(lián)網(wǎng)商務(wù)網(wǎng)站才能夠掌握用戶實際需求。用戶畫像要求一定挖掘技術(shù)進(jìn)行保證,以此本文就對文本挖掘技術(shù)和用戶畫像特征進(jìn)行分析。

1 用戶畫像和創(chuàng)建

■1.1 用戶畫像

在設(shè)計產(chǎn)品初期,為了實現(xiàn)產(chǎn)品精準(zhǔn)營銷,企業(yè)使用創(chuàng)建用戶畫像方法,使設(shè)計與開發(fā)人員能夠?qū)τ脩粜枨罄斫狻O嚓P(guān)研究人員提出以用戶為中心設(shè)計,其中就包括對用戶畫像概念的描述。對用戶特征識別,實現(xiàn)用戶類型的細(xì)分,根據(jù)用戶特征對典型用戶進(jìn)行定義,發(fā)現(xiàn)用戶使用產(chǎn)品傾向和需求[1]。

■1.2 用戶畫像創(chuàng)建

用戶畫像能夠理解用戶,使用戶屬性轉(zhuǎn)變?yōu)榉奖阌嬎銠C(jī)存儲、規(guī)則的可持續(xù)數(shù)據(jù)格式,根據(jù)某模型規(guī)范化描述客戶信息。創(chuàng)建用戶畫像模型,為了實現(xiàn)數(shù)據(jù)分析,將用戶需求進(jìn)行挖掘,為用戶推薦感興趣的服務(wù)和物品等功能。

1.2.1 用戶畫像維度

用戶畫像能夠描述用戶靜態(tài)、動態(tài)的信息,用戶畫像模型能夠以用戶所提供數(shù)據(jù)使用合理方法規(guī)范、精準(zhǔn)的描繪用戶屬性和信息,以描繪的用戶信息實現(xiàn)用戶分群,用戶群內(nèi)部充分展現(xiàn)明顯相似性,各用戶群之間具備不同差異性。本文數(shù)據(jù)都是爬蟲和賣家授權(quán)數(shù)據(jù),使用標(biāo)簽方式實現(xiàn)客戶畫像建模,也就是通過不同維護(hù)為用戶設(shè)置標(biāo)簽,對客戶各維度特征進(jìn)行描繪,用戶畫像維度包括:

基礎(chǔ)屬性:指的是用戶基本資料,比如年齡、性別、職業(yè)、單身、身高、尺寸、鞋碼等;

行為屬性:指的是用戶偏好和行為,比如產(chǎn)品、類目、品牌、規(guī)格等標(biāo)簽和細(xì)分人群、購買動機(jī)、顧客滿意度等;

社交屬性:剁手族、夜淘族、吃貨族、囤貨族、收藏族等;

價值屬性:購買頻率、購買時間、單次最高交易額、平均每次交易額[2]。

1.2.2 用戶畫像數(shù)據(jù)的獲取

圖1為用戶畫像的流程,通過圖1可以看出來用戶畫像流程就是閉環(huán)。利用淘寶爬取用戶的場景和賣家授權(quán)用戶數(shù)據(jù)創(chuàng)建數(shù)據(jù)源,使得到的數(shù)據(jù)格式化并且分析,比如對用戶消費(fèi)能力、活躍時間分析,得到用戶初步分析。之后,使用文本挖掘和規(guī)則庫結(jié)合對用戶數(shù)據(jù)開展深度挖掘處理,得出用戶畫像。以用戶畫像開展精準(zhǔn)營銷,根據(jù)用戶畫像對產(chǎn)品改進(jìn)和完善。對客戶推銷,構(gòu)成閉環(huán),使產(chǎn)品更加完善。

圖1 用戶畫像的流程

利用淘寶中API得到用戶購物數(shù)據(jù),采集原始數(shù)據(jù)之后對數(shù)據(jù)進(jìn)行清洗,對分析引擎提交清洗之后的數(shù)據(jù),并且對原始數(shù)據(jù)備份。分析引擎分析數(shù)據(jù),構(gòu)成用戶基本數(shù)據(jù)庫,包括用戶愛好清單、基本數(shù)據(jù),通過挖掘模塊挖掘,構(gòu)成客戶畫像和內(nèi)容推薦模型并且保存[3]。

用戶中的標(biāo)簽根據(jù)通過淘寶手機(jī)的數(shù)據(jù),淘寶數(shù)據(jù)包括最近半年和半年前的數(shù)據(jù)。利用淘寶API得到用戶數(shù)據(jù),比如購買商品ID、用戶ID、商品所屬子類目、父類目、商品標(biāo)價等。因為使用語料為短文本,所以分詞方法使用字符串詞出現(xiàn)概率和字符串左右鄰字中信息熵方法實現(xiàn)分詞。在分詞之后,以指定標(biāo)簽和規(guī)則開展分類,用戶基礎(chǔ)屬性利用淘寶api接口和購買行為分析得出[4]。

1.2.3 挖掘文本數(shù)據(jù)

文本挖掘方法包括語義分析、觀點(diǎn)挖掘、聚類分析等,相關(guān)研究人員所研發(fā)的網(wǎng)頁監(jiān)視工具WebWatcher,能夠利用監(jiān)測用戶點(diǎn)擊操作行為對用戶行為與興趣進(jìn)行分析。世界中最大汽車銷售站點(diǎn)Auto Trader利用數(shù)據(jù)挖掘得到用戶對于產(chǎn)品喜愛偏好,實現(xiàn)指定服務(wù)。我國專家學(xué)者表示文本挖掘指的是通過文本數(shù)據(jù)中得到可用、可理解的知識,并且使用此知識組織信息實現(xiàn)參考。因為用戶在平臺中具備傳播消息、消費(fèi)信息功能節(jié)點(diǎn),大量后臺數(shù)據(jù)樣本能夠為數(shù)據(jù)挖掘提供富余準(zhǔn)備條件。

1.2.4 用戶屬性分析

通過多維度屬性創(chuàng)建用戶畫像,業(yè)界針對用戶畫像屬性課題有大量的研究,使用戶畫像屬性維度定義為六種,包括能力、基本、興趣、行為、心理、社交、興趣等屬性,圖2為屬性標(biāo)簽分類[5]。

圖2 屬性標(biāo)簽分類

1.2.5 提取屬性

為了得到用戶屬性,對已經(jīng)訪問的網(wǎng)頁評分收集,之后通過其開展機(jī)器學(xué)習(xí)用戶畫像的創(chuàng)建本身就是用戶本身。通過用戶自發(fā)在網(wǎng)絡(luò)平臺中寫下留言是商家和企業(yè)得到客戶實際需求的主要途徑,用戶評論具備潛在用戶需求與情感信息。得到文本型數(shù)據(jù)方式比較多,比如web頁面數(shù)據(jù)。首先對html標(biāo)簽處理后開展分詞處理,使其轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化文本數(shù)據(jù)。在文本處理過程中,過濾常用停用詞和出現(xiàn)頻率比較高的信息價值,之后在文本中將可用分詞打標(biāo),利用統(tǒng)計得出高頻詞語片斷,并且邀請專家使此分詞開展評估賦予權(quán)重值,并且將其作為用戶屬性。因為用戶畫像要求將用戶目標(biāo)需求和行為作為屬性創(chuàng)建原型,所以利用文本挖掘技術(shù)通過大量文本抽取潛在用戶信息,使其成為用戶屬性[6]。

1.2.6 聚類分析

為了使用戶創(chuàng)建不同組群,相關(guān)人員提出了通過屬性標(biāo)簽使具備類似思想與共同關(guān)注點(diǎn)的用戶聚類,并且構(gòu)成制定社會群體。聚類分析是以事物自身特點(diǎn)實現(xiàn)個體分類的方法,使數(shù)據(jù)劃分為多個外部差異性比較大的群組,但是群組內(nèi)部具有較高的相似度。目前聚類分析研究領(lǐng)域主要包括模式識別、圖像處理與市場分析。K-means算法與模擬c-均值聚類算法為目前使用最為廣泛的方法,K-means為硬劃分算法,使對象排他地隸為類簇,假如兩個類簇重合度較高,那么就無法區(qū)分。FCM算法具有完善理論,能夠快速處理大數(shù)據(jù)集,但是其目標(biāo)函數(shù)會局限在極小值中無法得到聚類最優(yōu)解,基于此問題可以使優(yōu)化遺傳算法和FCM算法結(jié)合,使算法性能得到提高[7],描述為:

(1)初始群體與編碼的創(chuàng)建。選擇s組作為對象,每組有c個簇,之后根據(jù)類內(nèi)近距離最小,類間距最大原則使N-C個對象在C個簇中劃分,從而產(chǎn)生c個聚類;

(2)適應(yīng)度函數(shù)的計算;

(3)執(zhí)行交叉、選擇和變異操作,保留父代和下一代高適應(yīng)度的個體,從而合成全新的下一代;

(4)假如到設(shè)定繁衍代數(shù),結(jié)束算法;要不然繼續(xù)執(zhí)行第3步驟[8]。

2 用戶畫像的試驗

在用戶畫像屬性聚類分析過程中,模糊聚類理論利用matlab數(shù)據(jù)處理工具實現(xiàn)屬性因子聚類分析,聚類數(shù)目設(shè)置為3-6個。在項目中與企業(yè)溝通,設(shè)置聚類類別c=3。利用遺傳優(yōu)化Fcm算法計算得到表1聚類原型矩陣中心表。

表1 聚類原型矩陣中心表

通過適應(yīng)度函數(shù)執(zhí)行變異、選擇、交叉等操作步驟,將適應(yīng)度高的個體保存構(gòu)成下一代,圖3為適應(yīng)度曲線結(jié)果,通過圖3可以看出來平均迭代30次之后開始適應(yīng)度最佳,100次之后運(yùn)算終止。

圖3 適應(yīng)度曲線結(jié)果

使30個用戶樣本根據(jù)最大隸屬度對象分組,每個樣本針對聚類原型隸屬度和為1,得到聚類樹狀圖,詳見圖4。通過圖4表示,群組內(nèi)部區(qū)具有較高的相似度,群組之間存在差異[9]。

圖4 聚類原型樹狀圖

3 結(jié)束語

在互聯(lián)網(wǎng)信息技術(shù)不斷發(fā)展的過程中,大部分電子商務(wù)網(wǎng)站也得到了更大的發(fā)展空間,在網(wǎng)絡(luò)交易活動中,設(shè)置相關(guān)客戶的用戶畫像,能夠全面掌握客戶信息和需求的主要工具。在規(guī)模不斷擴(kuò)大的過程中,對于大量客戶系統(tǒng)化管理也會越來越復(fù)雜。如何在海量數(shù)據(jù)中利用文本挖掘技術(shù)得到相關(guān)客戶的信息,用戶畫像為最合適的路徑。

猜你喜歡
文本用戶分析
隱蔽失效適航要求符合性驗證分析
在808DA上文本顯示的改善
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統(tǒng)及其自動化發(fā)展趨勢分析
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何獲取一億海外用戶
主站蜘蛛池模板: 亚洲中文字幕手机在线第一页| 国产二级毛片| 久久精品国产免费观看频道| 午夜国产大片免费观看| 2020极品精品国产| 国产网友愉拍精品| 精品人妻一区二区三区蜜桃AⅤ| 久久香蕉国产线看观看精品蕉| 国产乱人视频免费观看| 天天躁狠狠躁| 国产福利小视频在线播放观看| 玖玖免费视频在线观看| 无码精品福利一区二区三区| 亚洲91在线精品| 亚洲第一天堂无码专区| AV天堂资源福利在线观看| 极品私人尤物在线精品首页| 日韩精品成人在线| 成人在线不卡| 国产另类乱子伦精品免费女| 九九热精品视频在线| 国产福利微拍精品一区二区| 九九这里只有精品视频| 999精品在线视频| 欧美精品色视频| 久久国产乱子伦视频无卡顿| 日韩毛片在线视频| 广东一级毛片| 国产免费观看av大片的网站| 91福利片| 熟妇人妻无乱码中文字幕真矢织江 | 久久综合色视频| 亚洲成人精品在线| 国产精品女同一区三区五区| 久久99国产综合精品1| 亚洲第一视频免费在线| 99热在线只有精品| 久久久久亚洲精品成人网| 久久这里只精品国产99热8| 久久精品人人做人人爽电影蜜月| 亚洲午夜国产片在线观看| 亚洲娇小与黑人巨大交| 91麻豆国产精品91久久久| 亚洲欧洲AV一区二区三区| 欧美成人在线免费| 亚洲无码精彩视频在线观看| 亚洲毛片网站| 国产欧美中文字幕| 国产精品国产三级国产专业不| 午夜限制老子影院888| 久热这里只有精品6| 97一区二区在线播放| 免费大黄网站在线观看| 亚洲欧美人成人让影院| 亚洲欧洲国产成人综合不卡| 亚洲黄色视频在线观看一区| 成人福利免费在线观看| 国产高清在线观看91精品| 欧美一级在线看| 制服丝袜国产精品| 亚洲欧洲日韩综合| 亚洲精品国产精品乱码不卞| 欧美色99| 亚洲综合天堂网| 精品三级网站| 国产福利一区在线| 男人天堂亚洲天堂| 性欧美久久| v天堂中文在线| 亚洲一级毛片| 久久久受www免费人成| 亚洲Aⅴ无码专区在线观看q| 国产亚洲精品yxsp| 成人免费视频一区二区三区| 91av成人日本不卡三区| 中文字幕一区二区人妻电影| 日韩无码精品人妻| 久久免费精品琪琪| 欧美成人免费一区在线播放| 欧美97欧美综合色伦图| 欧美一级高清片久久99| 欧美三级日韩三级|