999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖數(shù)據(jù)的電商用戶(hù)特征分析方法

2023-08-18 05:01:27徐曜
中國(guó)新通信 2023年12期
關(guān)鍵詞:特征用戶(hù)

摘要:隨著互聯(lián)網(wǎng)技術(shù)和電子商務(wù)的快速發(fā)展,越來(lái)越多的企業(yè)開(kāi)始涉足電子商務(wù)領(lǐng)域。但由于缺乏對(duì)用戶(hù)行為的深入理解及分析,很多企業(yè)不能很好地把握市場(chǎng)需求并制定營(yíng)銷(xiāo)策略。因此,如何有效地挖掘潛在客戶(hù)群體,發(fā)現(xiàn)其消費(fèi)習(xí)慣及購(gòu)買(mǎi)力,進(jìn)而為企業(yè)提供有價(jià)值的信息就變得尤為重要。本文提出了一種基于圖數(shù)據(jù)的電商用戶(hù)特征分析方法。本文首先介紹了電商用戶(hù)特征研究的背景與意義,接著闡述了該方面相關(guān)工作的現(xiàn)狀,并總結(jié)歸納出當(dāng)前存在的主要問(wèn)題,然后詳細(xì)描述了本研究所使用的理論知識(shí)和數(shù)據(jù)處理方法,最后,介紹了方法的實(shí)現(xiàn)過(guò)程,并對(duì)未來(lái)工作進(jìn)行展望。

一、引言

隨著時(shí)代的發(fā)展,人們對(duì)于生活各方面都提出了新的要求。在其中,電子商務(wù)行業(yè)得到了飛速的發(fā)展,已經(jīng)成為我國(guó)經(jīng)濟(jì)體系中不可或缺的一部分。由于目前市場(chǎng)上存在大量的電商平臺(tái)和商家,所以如何從這些龐大的數(shù)據(jù)當(dāng)中獲取有價(jià)值、有意義的信息變得十分重要。本文旨在解決這一問(wèn)題,通過(guò)有效的分析方法為后續(xù)工作奠定基礎(chǔ)。本文主要分為以下步驟:首先,需要明確電商用戶(hù)數(shù)據(jù)的特點(diǎn);其次,確定相應(yīng)的數(shù)據(jù)分析方式以及相關(guān)算法;最后,結(jié)合實(shí)際情況,選擇合適的工具完成數(shù)據(jù)處理。綜上所述,本文主要解決電商用戶(hù)數(shù)據(jù)進(jìn)行深入挖掘,找出有用的信息,分析用戶(hù)特征,預(yù)測(cè)購(gòu)買(mǎi)行為,以此作為企業(yè)決策制定的參考依據(jù)[1]。

目前,國(guó)內(nèi)外學(xué)者已經(jīng)提出了多種用于分析和處理電商用戶(hù)數(shù)據(jù)的方法,利用多種技術(shù)理論實(shí)現(xiàn)用戶(hù)畫(huà)像的構(gòu)建[2-3]。但由于這些方法都存在著各自不同的局限之處,所以并不適用于所有類(lèi)型的數(shù)據(jù)。例如,在一些特定領(lǐng)域內(nèi),傳統(tǒng)的統(tǒng)計(jì)分析法就無(wú)法發(fā)揮出應(yīng)有的作用。另外,如果想要利用機(jī)器學(xué)習(xí)等先進(jìn)手段來(lái)實(shí)現(xiàn)對(duì)用戶(hù)行為模式的預(yù)測(cè),那么還必須具備足夠多的訓(xùn)練樣本[4-5]。鑒于此,本文擬采用基于圖數(shù)據(jù)的分析方法[6-7](Graph-Based Analysis)結(jié)合數(shù)據(jù)挖掘的相關(guān)技術(shù)[8],對(duì)電商用戶(hù)的基本屬性及消費(fèi)習(xí)慣進(jìn)行分析,以得出更加全面可靠的結(jié)論為目的。

二、相關(guān)技術(shù)概述

在對(duì)電商用戶(hù)數(shù)據(jù)進(jìn)行挖掘時(shí),需要先了解具體情況和需求。因此,可以將這些數(shù)據(jù)與已有的數(shù)據(jù)相結(jié)合來(lái)實(shí)現(xiàn)這一目的。而要想完成這項(xiàng)任務(wù),就必須首先明確哪些數(shù)據(jù)是已經(jīng)存在并且具有一定意義的,然后再?gòu)倪@些數(shù)據(jù)中找出能夠滿足當(dāng)前需求的部分。這樣一來(lái),不僅可以節(jié)省時(shí)間、提高效率,還有助于更好地把握住市場(chǎng)動(dòng)向。本文采用K-means算法[9-10]對(duì)電商用戶(hù)數(shù)據(jù)進(jìn)行挖掘。該算法主要包括以下幾個(gè)步驟:①確定初始化參數(shù);②計(jì)算每個(gè)樣本到質(zhì)心之間的距離;③按照最小距離原則把樣本劃分成若干簇;④更新各個(gè)簇中的中心值并重新計(jì)算新的質(zhì)心;⑤重復(fù)以上操作直到達(dá)到最大迭代次數(shù)或滿足終止條件。在整個(gè)過(guò)程當(dāng)中,需要不斷地調(diào)整k值以使得目標(biāo)函數(shù)取得最優(yōu)解。由于K-means算法具有簡(jiǎn)單、高效等優(yōu)點(diǎn)而被廣泛應(yīng)用于各種領(lǐng)域。例如,在電子商務(wù)行業(yè),它可以用來(lái)發(fā)現(xiàn)不同消費(fèi)者群體所偏愛(ài)的商品類(lèi)型以及他們各自的消費(fèi)習(xí)慣。

三、 基于圖數(shù)據(jù)的電商用戶(hù)特征分析

(一)問(wèn)題描述

在對(duì)電商用戶(hù)進(jìn)行數(shù)據(jù)分析時(shí),首先需要明確研究?jī)?nèi)容以及獲取數(shù)據(jù)的方式。為了更好地滿足用戶(hù)的需求,就必須充分掌握用戶(hù)使用該平臺(tái)的情況、習(xí)慣以及行為等,并據(jù)此制定出合理有效的營(yíng)銷(xiāo)策略[11]。這也就是說(shuō),只有全面深入地理解用戶(hù)的需求,才能真正實(shí)現(xiàn)精準(zhǔn)化營(yíng)銷(xiāo)。為此,本文提出一種基于圖數(shù)據(jù)挖掘技術(shù)的電商用戶(hù)數(shù)據(jù)分析模型,以期達(dá)到這一目標(biāo)。具體來(lái)說(shuō),在構(gòu)建電商用戶(hù)特征分析模型時(shí)需要解決如下三個(gè)問(wèn)題:

①如何對(duì)電商用戶(hù)進(jìn)行準(zhǔn)確分類(lèi);

②如何利用已有的用戶(hù)數(shù)據(jù)對(duì)未來(lái)可能出現(xiàn)的新用戶(hù)群體進(jìn)行預(yù)測(cè);

③如何針對(duì)不同類(lèi)別的用戶(hù)采取相應(yīng)的個(gè)性化推薦措施。

(二)數(shù)據(jù)預(yù)處理

在完成電商用戶(hù)數(shù)據(jù)的收集和整理后,就需要對(duì)這些海量、雜亂無(wú)章的用戶(hù)數(shù)據(jù)進(jìn)行進(jìn)一步篩選。首先,刪除那些無(wú)用或者錯(cuò)誤的數(shù)據(jù);其次,要從大量數(shù)據(jù)中提取出有用的信息,確保所獲取到的信息能夠準(zhǔn)確地反映當(dāng)前用戶(hù)的真實(shí)情況以及他們的需求。為達(dá)到這一個(gè)目的,可以采用一些數(shù)據(jù)處理技術(shù),例如聚類(lèi)算法,以挖掘出擁有相似性的用戶(hù)群體,并利用這個(gè)群體代表整個(gè)電商用戶(hù)群體。另外,也可以使用關(guān)聯(lián)規(guī)則的方式,發(fā)現(xiàn)用戶(hù)的某些潛在規(guī)律,進(jìn)而更好地理解用戶(hù)的行為模式。在對(duì)數(shù)據(jù)進(jìn)行處理時(shí),最重要的是確定哪些數(shù)據(jù)應(yīng)該保留下來(lái),用于分析用戶(hù)的特征,同時(shí)又有哪些數(shù)據(jù)應(yīng)該舍棄不用。本文使用K-MEANS算法,其基本思路為將一個(gè)給定的數(shù)據(jù)集劃分成K個(gè)不同的子集,并計(jì)算每個(gè)子集中各個(gè)樣本之間的距離。

(三)用戶(hù)特征聚類(lèi)

用戶(hù)特征具有一定的穩(wěn)定性,且一些重要特征是影響購(gòu)買(mǎi)意愿的核心因素[12]。選取性別、年齡、職業(yè)、平臺(tái)月登錄次數(shù)以及月瀏覽總時(shí)長(zhǎng)作為用戶(hù)特征屬性,并將每位用戶(hù)使用向量的形式進(jìn)行表示(詳見(jiàn)公式1)。每個(gè)向量包含5個(gè)分量,分別代表不同的特征屬性。在進(jìn)行聚類(lèi)分析之前,需要將性別、年齡和職業(yè)進(jìn)行數(shù)字化處理,然后將所有特征屬性在指定范圍內(nèi)進(jìn)行歸一化處理,使得K-MEANS算法更加順利地執(zhí)行收斂,同時(shí)更加有效地進(jìn)行統(tǒng)計(jì)分析。

①對(duì)于性別屬性,0代表男性、1代表女性;

②我們將年齡屬性分為以下范圍:18歲以下、(18,30]、(30,40]、(40,50]、(50,60]以及60歲以上,并使用1-6代表各年齡段范圍;

③根據(jù)國(guó)家統(tǒng)計(jì)局的行業(yè)劃分標(biāo)準(zhǔn),我們將職業(yè)劃分為20個(gè)類(lèi)別,使用1-20分別代表各職業(yè)類(lèi)別。

接下來(lái),我們使用最小-最大規(guī)范法(詳見(jiàn)公式2)將以上屬性轉(zhuǎn)換至0-1之間。K-MEANS算法根據(jù)數(shù)字化及歸一化處理后的特征屬性值進(jìn)行聚類(lèi),得到的每個(gè)子類(lèi)代表具有相似屬性值的電商用戶(hù)集合。

= [Tsex,Tage,Tjob,Tfre,Ttime]

(公式1:電商用戶(hù)特征屬性向量)

T ' = (Tdata-Tmin)/(Tmax-Tmin)

(公式2:用戶(hù)特征屬性歸一化公式)

(四)用戶(hù)特征表示

在完成數(shù)據(jù)和信息的收集后,可以利用相應(yīng)的數(shù)據(jù)分析工具來(lái)進(jìn)一步挖掘。通過(guò)對(duì)數(shù)據(jù)處理與整合,最終可以得出反映出用戶(hù)行為和偏好的用戶(hù)特征。為了更直觀地展示用戶(hù)特征,本文采用圖建模技術(shù),將這些特征以可視化的形式展示給用戶(hù)。具體來(lái)說(shuō),我們首先建立一個(gè)用于描述用戶(hù)特征的帶權(quán)無(wú)向圖G=(V,E),其中V是節(jié)點(diǎn)集,E是邊集合。其中,每條邊都連接兩個(gè)節(jié)點(diǎn),代表了兩組不同的用戶(hù)群體;然后定義頂點(diǎn)之間的關(guān)系,即用戶(hù)i具有的屬性值Xij表示該用戶(hù)是否屬于某個(gè)特定的類(lèi)別,如果Xij∈{1,-1}則說(shuō)明該用戶(hù)屬于某一類(lèi),否則不屬于任何一種。邊的權(quán)值表示通過(guò)聚類(lèi)后,每個(gè)類(lèi)別之間的相似程度。

(五)用戶(hù)特征關(guān)聯(lián)分析

在對(duì)用戶(hù)特征進(jìn)行挖掘后,需要將其與電商平臺(tái)中已有的相關(guān)用戶(hù)數(shù)據(jù)進(jìn)行匹配,以更準(zhǔn)確地了解用戶(hù)需求、數(shù)量和偏好等。這可以幫助企業(yè)更加準(zhǔn)確地把握市場(chǎng)動(dòng)向和消費(fèi)者的消費(fèi)傾向,為后續(xù)的經(jīng)營(yíng)活動(dòng)提供支持。因此,本文利用Python編程語(yǔ)言構(gòu)建一個(gè)包含有節(jié)點(diǎn)與帶權(quán)邊的用戶(hù)特征關(guān)聯(lián)網(wǎng)絡(luò);然后使用NodeXL庫(kù)讀取已經(jīng)建立好的網(wǎng)絡(luò)結(jié)構(gòu)文件并導(dǎo)入其中,最后調(diào)用Cypher以及Numpy庫(kù)完成對(duì)用戶(hù)特征關(guān)聯(lián)網(wǎng)絡(luò)的可視化操作。通過(guò)這種方式,可以更直觀地展現(xiàn)出用戶(hù)在某一時(shí)間段內(nèi)購(gòu)買(mǎi)了哪些產(chǎn)品及相關(guān)的信息,進(jìn)而挖掘出用戶(hù)潛在的購(gòu)物偏好。

四、 研究方法的實(shí)現(xiàn)過(guò)程

(一)數(shù)據(jù)處理過(guò)程

首先,我們需要對(duì)收集到的電商平臺(tái)中的用戶(hù)數(shù)據(jù)進(jìn)行初步處理。通過(guò)數(shù)據(jù)預(yù)處理,能夠獲取準(zhǔn)確、可靠且高質(zhì)量的數(shù)據(jù),從而提供有價(jià)值的信息,以供后續(xù)的數(shù)據(jù)分析和挖掘。數(shù)據(jù)清洗和數(shù)據(jù)集成是數(shù)據(jù)處理的兩個(gè)重要步驟,數(shù)據(jù)清洗包括去除不相干的信息、噪聲、缺失值和異常值,而數(shù)據(jù)集成則是將不同的數(shù)據(jù)源整合為一個(gè)統(tǒng)一的數(shù)據(jù)存儲(chǔ)格式。

由于電子商務(wù)收集的數(shù)據(jù)通常存在缺陷和噪聲,因此采取了一些措施來(lái)解決這個(gè)問(wèn)題。首先,了解這些缺陷的來(lái)源和形成機(jī)制,然后根據(jù)這些信息來(lái)處理這些缺陷。缺失值可能由多種原因造成,包括人為操作和機(jī)械設(shè)備故障。人為操作可能包括受訪者未能提供有效的個(gè)人信息,或者數(shù)據(jù)輸入人員疏忽大意而造成數(shù)據(jù)的丟失。數(shù)據(jù)丟失的原因可以歸納為完全丟失、偶然丟失和非偶然丟失三種。為處理丟失值,可以采取刪除、插入和不進(jìn)行處理三種方法。然后將得到的數(shù)據(jù)集按照7∶3比例劃分為訓(xùn)練集和測(cè)試集。接著使用Python編程語(yǔ)言分別調(diào)用Matplotlib、Scikit-Learn庫(kù)以及GraphX工具包構(gòu)建用戶(hù)畫(huà)像模型,并計(jì)算其準(zhǔn)確率。最后,比較不同算法下的用戶(hù)畫(huà)像模型,來(lái)驗(yàn)證本文提出方法在電商用戶(hù)數(shù)據(jù)挖掘上的有效性。本文使用AUC指標(biāo)衡量特征分析方法的精準(zhǔn)度,從而方便驗(yàn)證商家市場(chǎng)地位對(duì)于用戶(hù)購(gòu)買(mǎi)行為的影響。

(二)驗(yàn)證過(guò)程

在這項(xiàng)研究中,將比較四組不同模型的預(yù)測(cè)能力。這些模型考慮了商業(yè)地位因素,并使用不同比例的樣本進(jìn)行訓(xùn)練。根據(jù)這四組不同的模型來(lái)評(píng)估它們的預(yù)測(cè)能力,然后,可以通過(guò)計(jì)算均方誤差(MSE)和決定系數(shù)(R2)來(lái)衡量所提出的算法性能。

接下來(lái),從原始數(shù)據(jù)集中提取有價(jià)值的信息以便進(jìn)一步處理。首先,需要確定哪些屬性應(yīng)該保留作為最終的輸入變量。由于本次研究涉及大量的用戶(hù)數(shù)據(jù),因此選擇了一些重要的指標(biāo)來(lái)篩選出最相關(guān)的屬性。例如,發(fā)現(xiàn)人口統(tǒng)計(jì)特征,如性別和年齡,能更好地反映用戶(hù)的真實(shí)情況。此外,用戶(hù)的訪問(wèn)次數(shù)也是重要因素之一,因?yàn)楫?dāng)用戶(hù)瀏覽網(wǎng)站時(shí),他們通常會(huì)留下自己的足跡。

然后使用Logistic回歸、Xgboost、Lightgbm和Catboost分別進(jìn)行了驗(yàn)證。令人驚喜的是,包括商家因素的測(cè)試集AUC結(jié)果優(yōu)于沒(méi)有包括商家因素的測(cè)試集,這說(shuō)明了商家因素對(duì)于消費(fèi)者的消費(fèi)行為有著重要的影響。同時(shí),還發(fā)現(xiàn)平均預(yù)測(cè)準(zhǔn)確率提升了1%-2%,這進(jìn)一步印證了商家因素對(duì)于預(yù)測(cè)的重要性。

五、結(jié)束語(yǔ)

隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和消費(fèi)觀念的變化,越來(lái)越多的消費(fèi)者選擇在線上購(gòu)物平臺(tái)購(gòu)買(mǎi)商品。因此,準(zhǔn)確把握客戶(hù)的需求、提高服務(wù)質(zhì)量成為各商家關(guān)注的焦點(diǎn)。為指導(dǎo)企業(yè)經(jīng)營(yíng)決策,還需要深入挖掘用戶(hù)數(shù)據(jù)背后隱藏的價(jià)值。本文基于圖數(shù)據(jù)提出了一種電商用戶(hù)特征的分析方法。首先在獲取的數(shù)據(jù)中對(duì)用戶(hù)屬性進(jìn)行數(shù)字化處理,再使用K-Means算法進(jìn)行聚類(lèi),最后通過(guò)無(wú)向帶權(quán)圖將各個(gè)類(lèi)別進(jìn)行連接及展現(xiàn)。希望將本文的研究方法與推薦系統(tǒng)相結(jié)合,在綜合考慮用戶(hù)、商品、商家信息的基礎(chǔ)上,深入挖掘電商數(shù)據(jù)的價(jià)值,為電商平臺(tái)的精準(zhǔn)營(yíng)銷(xiāo)提供技術(shù)支持。

作者單位:徐曜 阜陽(yáng)師范大學(xué)經(jīng)濟(jì)學(xué)院

參? 考? 文? 獻(xiàn)

[1]劉嵩.數(shù)字經(jīng)濟(jì)下電商平臺(tái)用戶(hù)購(gòu)買(mǎi)行為的預(yù)測(cè)研究[D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2023.

[2]宋文智,白洪林,官潼筑等.基于數(shù)據(jù)挖掘的跨境電商RCEP國(guó)別用戶(hù)畫(huà)像研究[J].中國(guó)新通信.2021,23(19):66-67.

[3]高月.基于大數(shù)據(jù)的電商用戶(hù)畫(huà)像的研究與應(yīng)用[D].沈陽(yáng):沈陽(yáng)師范大學(xué),2020.

[4]楊帆.基于若干機(jī)器學(xué)習(xí)算法的電商平臺(tái)用戶(hù)價(jià)值研究---以電子書(shū)用戶(hù)畫(huà)像數(shù)據(jù)為例[D].重慶:西南大學(xué),2022.

[5]江麗桃.跨境電商客戶(hù)分類(lèi)研究---以天貓國(guó)際美妝為樣本[D].南昌:江西財(cái)經(jīng)大學(xué),2021.

[6]楊紫荊.面向圖數(shù)據(jù)推理的推薦系統(tǒng)研究[D].上海:華東師范大學(xué),2022.

[7]李宸嚴(yán).基于圖神經(jīng)網(wǎng)絡(luò)的鏈接預(yù)測(cè)及電商智能推薦分析[D].烏魯木齊:新疆財(cái)經(jīng)大學(xué),2022.

[8]黃維雅.數(shù)據(jù)挖掘技術(shù)在電商客戶(hù)粘性預(yù)測(cè)中的研究[J].齊齊哈爾大學(xué)學(xué)報(bào)(自然科學(xué)版).2023,39(01):81-86+94.

[9]王慧麗.基于K-means聚類(lèi)算法的電商數(shù)據(jù)智能分析方法設(shè)計(jì)[J].信息與電腦(理論版).2022,34(14):79-81.

[10]張玉琨.基于K-Means聚類(lèi)分析的電商學(xué)生客戶(hù)細(xì)分研究[J].商場(chǎng)現(xiàn)代化.2022(08):33-35.

[11]陳文匯.基于B公司電商購(gòu)物平臺(tái)用戶(hù)畫(huà)像的營(yíng)銷(xiāo)策略研究[D].綿陽(yáng):西南科技大學(xué),2022.

[12]倪潞燕.基于組合相似度和用戶(hù)特征聚類(lèi)的協(xié)同過(guò)濾推薦算法研究[D].銀川:北方民族大學(xué),2019.

猜你喜歡
特征用戶(hù)
抓住特征巧觀察
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
關(guān)注用戶(hù)
關(guān)注用戶(hù)
關(guān)注用戶(hù)
Camera360:拍出5億用戶(hù)
100萬(wàn)用戶(hù)
主站蜘蛛池模板: 特级欧美视频aaaaaa| 国产一级妓女av网站| 亚洲熟女偷拍| 国内a级毛片| 免费在线a视频| 亚洲天堂2014| 九九九精品视频| www.99在线观看| 成人福利在线观看| 亚洲综合狠狠| 午夜综合网| jizz国产在线| 一级不卡毛片| 国产超薄肉色丝袜网站| 一区二区三区国产| 亚洲欧美另类中文字幕| 日韩成人午夜| 精品国产aⅴ一区二区三区| 又爽又大又黄a级毛片在线视频| 欧美日韩成人在线观看| 亚洲综合色吧| 天天综合网亚洲网站| 亚洲an第二区国产精品| 欧美成人精品一级在线观看| 欧美日韩导航| 亚洲免费黄色网| 久久久久亚洲精品成人网| 亚洲,国产,日韩,综合一区| 久久国产亚洲欧美日韩精品| 911亚洲精品| 国产一级毛片在线| 又粗又硬又大又爽免费视频播放| 国产成人亚洲毛片| 草草影院国产第一页| 欧美性天天| 美女扒开下面流白浆在线试听 | 久久频这里精品99香蕉久网址| 97国产在线视频| 白浆视频在线观看| 国产一区二区福利| 国产在线观看一区精品| 青青青国产视频手机| 亚洲人成网站观看在线观看| 国产99免费视频| a毛片免费观看| 中文字幕久久亚洲一区| 亚洲欧美另类中文字幕| 国产福利免费视频| 久久伊伊香蕉综合精品| 99在线观看精品视频| 国产精品永久不卡免费视频| 国产一区二区影院| 日本午夜影院| 国产特一级毛片| 成人免费午夜视频| 在线国产综合一区二区三区| 精品国产一区91在线| 91免费观看视频| 老司国产精品视频91| 日本精品中文字幕在线不卡 | 亚洲VA中文字幕| 日本尹人综合香蕉在线观看 | 97狠狠操| 欧美成人aⅴ| 亚洲乱码在线播放| 免费人成视频在线观看网站| 久久这里只有精品66| 欧美啪啪精品| 一级做a爰片久久免费| 日韩精品无码免费一区二区三区 | 国产h视频在线观看视频| 99精品高清在线播放| 欧美、日韩、国产综合一区| 国产无遮挡裸体免费视频| 国产99精品久久| 一级成人a毛片免费播放| 免费jizz在线播放| 任我操在线视频| 97超级碰碰碰碰精品| 国产喷水视频| 免费看美女毛片| 无码专区在线观看|