999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種社交電商平臺的用戶行為分析方法

2021-07-30 00:38:02牛少彰
新一代信息技術 2021年9期
關鍵詞:數據挖掘用戶功能

高 昀,牛少彰

(北京郵電大學計算機學院,北京 100876)

0 引言

近幾年來,隨著我國互聯網行業的快速發展和消費者網購習慣的形成,網上購物越來越普遍流行于大眾生活的方方面面。互聯網的高速發展為我國社會經濟的發展和創新提供了基礎,尤其是微信、微博等社交化平臺的興起,為生產商、銷售商帶來了新的發展機遇,為消費者提供了新的選擇,社交電商應運而生[1]。社交電商是一種全新的前所未有的電商模式,在這種新穎的模式下,生產商和銷售商可以利用社交媒體技術和社交網站、社交媒介、網絡媒介等傳播途徑來進行人際關系、商業信息流的互動,通過買家和賣家之間的交流互動、用戶自生內容等方式來幫助商品的營銷和銷售行為[2]。它以十分方便快捷的銷售方式和較低的商品定價,很快地在眾多銷售方式中脫穎而出,在人們的日常生活中得到了普遍的應用,滿足了人們對網上購物快捷、方便的要求。經過這幾年互聯網經濟的推動,社交電商的規模日漸壯大,對社會的貢獻程度逐步加深,社交電商逐漸在中國的經濟社會中占有越來越重要的位置。而與社交電商日常推廣和銷售相適應的各種工具平臺也如雨后春筍般相繼出現。社交電商在使用這些工具平臺的過程中也產生了大量的功能訪問數據。通過對社交電商的行為數據進行分析和研究,能夠較為全面地了解社交電商的行為特征,針對不同種類的社交電商定制不同的服務。

1 相關工作

隨著信息技術的不斷發展,人們對各種網站、各種APP的使用越來越頻繁,在瀏覽網站和使用APP的過程中會生成許多的訪問痕跡,這些訪問痕跡的數據也被稱為網絡日志。生成的網絡日志能夠間接反映用戶的行為信息,蘊含大量的有價值的信息,需要通過數據挖掘進行用戶行為分析才能提取出有價值的信息。前人對用戶行為分析方面做了細致的工作。

Chen等人[3]針對電子商務網站中用戶瀏覽和購買商品的行為數據,將其進行分布式表示,通過利用不同上下文中項目行為的分布式表示之間的余弦距離,借此來預測用戶什么時候會產生下一次點擊商品或者購買商品的行為。

Devineni等人[4]主要是從用戶的社交數據中提取出不同的時間間隔里用戶的社交行為特征,從而分析用戶的社交行為,基于此實現了一個可視化框架用來展現用戶的個性化行為。

Guimaraes等人[5]采用社交中產生的網絡數據,從網絡數據中提取用戶特征,通過深度學習算法對用戶的年齡組進行分類分析。

袁興福等人[6]構建了電商用戶訪問會話模型,并且基于此模型中的行為序列進行聚類分析,可以為營銷方案的制定提供理論依據。

徐赟等人[7]基于實際的淘寶數據集做行為分析,分析了只逛不買的電子商務用戶行為,利用聚類分析的方法總結出四種只逛不買的用戶類型。

毛佳昕等人[8]主要是針對新浪微博中的用戶數據,考慮了社會影響力在微博網絡環境中的傳播情況,探究出用戶行為之間深層次的關系,提出了一種度量社會影響力的方法,該方法主要是根據預測用戶傳播信息能力大小來判定社會影響力的。

李磊等人[9]研究了微博的熱點話題,對微博用戶的行為進行聚類分析,從而將微博用戶大致分為三類:(1)一般關注類,該類用戶是三類中最多的一類,所承擔的角色一般而言是信息的接收者;(2)主動參與類,該類用戶的表現是主動發布輿論信息,該類用戶的人數處于中等;(3)信息傳播類,該類人數最少,主要是作為輿情領袖的角色,傳播重要的信息,擁有很大的話語權。

從相關文獻可以得到結論,用戶行為分析離不開數據挖掘以及聚類分析。數據挖掘是通過采用一定的方法來挖掘出深藏在海量數據表面下的有價值的信息。數據挖掘經常使用的方式多種多樣,包括分類、聚類、機器學習、統計學方法和神經網絡方法等。而從上述的相關文獻也可以看出,分析用戶行為最常用的數據挖掘方法就是聚類分析了。不少用戶行為的研究中會采用K-means這個聚類算法,因為其原理簡單而且比較容易實現,但是它也有自己的弊端,那就是必須提前指定初始參數,比如聚類數k值,這就會導致聚類的結果隨機性比較大,容易出現局部最優解以及聚類結果不穩定的情況。所以在本文中,采用了改進后的K-means聚類算法來對社交電商在工具 APP上產生的日志信息進行用戶行為分析,劃分用戶群體性質。

2 背景知識

2.1 大數據分析技術

大數據分析的整個流程包含三部分,分別是數據預處理、數據挖掘分析和模型效果評估。

第一步要進行的過程是數據預處理,我們能夠獲取到的數據一般來講與所需的數據是不一致的,并沒有我們想象中的完美。我們需要的數據往往來說是標準的,是一個二維表格,表格縱向代表的是每一條數據,表格橫向代表的是每條數據的屬性。然而我們能夠獲取到的數據卻很少情況是標準的,會出現各種各樣的情況,比如異常值和缺失值等情況,不但如此數據格式也是多種多樣的。所以在數據分析之前必須進行數據預處理,以便將雜亂的數據格式轉換成為二維表格的標準數據格式,才能夠更深層次的挖掘數據潛在的價值和規律。數據預處理過程有很多步驟,最關鍵的幾個步驟有:數據清洗、數據集成、數據規約以及數據變換。

處理完數據預處理的工作,緊接著要做的步驟是數據挖掘。數據挖掘指的是對數據進行深層次的挖掘,總結出數據深層次的價值和規律。通常會使用各種機器學習的方法來進行數據挖掘過程,以解決實際問題。機器學習的方法可以根據數據是否有標簽來分為兩種:有監督的機器學習和無監督的機器學習。有監督的機器學習就是在數據標簽的“監督”下,訓練過程中根據標簽內容不斷糾正模型。而無監督的機器學習就是沒有數據標簽,因為在現實中很多情況下是不能預先知道數據的標簽的,所以此時就要通過計算數據集樣本之間的相似性來揭示數據內部規律。而聚類算法是最經典的無監督學習的機器學習算法之一,有著十分廣泛的應用。

在大數據分析過程中得到機器學習模型后,要用一定的指標來衡量機器學習模型的性能優劣。只有在衡量指標上表現良好的模型才具有一定實際應用意義,才可以用來解決生活中的實際問題。

2.2 聚類算法介紹

聚類分析是一種在數據挖掘領域中比較基礎的數據處理手段,通過聚類算法對數據分類能夠將一個數據集劃分為若干個類內對象相似而類間對象相異的類簇[10],因此就可以在數據集中發掘出潛在的數據模式和深層次的內在聯系[11]。聚類的過程就是根據一組定義將一組對象劃分為多個集群的過程,其目的就是將具有相同特征的數據歸于用一個簇中。聚類算法通常屬于無監督學習算法,不僅可以挖掘數據之間的潛在聯系,揭示數據的分布特征,還可以作為一種預處理方式,處理結果用于后續的數據分析。聚類算法已經廣泛應用在很多方面,比如電子商務、市場營銷、信息檢索和模式識別等。

目前,隨著機器學習的發展,已經有很多成熟的聚類算法。比如,基于劃分的聚類算法、基于密度的聚類算法、基于層次的聚類算法,基于網格的聚類算法基于模型的聚類方法等等,但是無論哪種方法都是比較數據集中每個對象之間的性質,將性質相似的對象歸為一簇中,將不相似的對象歸為不同的簇中[12]。

2.3 K-means和Canopy算法概述

K-means是機器學習研究中最經常使用的聚類算法,也是十大經典的數據挖掘算法之一。它是一種基于劃分的聚類算法,同時也是一種無監督學習。相對于其他的聚類算法,K-means以算法原理比較簡單,收斂速度快而著稱。K-means算法必須先提前指定聚類數和初始聚類中心,然后不停更新聚類中心,一步步減少目標函數的誤差值,當目標函數值呈現收斂的狀態時,整個過程終止,獲取到最終的聚類結果。

從算法原理上看,K-means也有自己的局限性。K-means這種聚類算法需要提前設置好參數,也就是需要提前設置好聚類的個數,同時會隨機初始化k個聚類中心。這種實現指定的k值和隨機初始化的聚類中心不僅會降低聚類算法的效率,而且得到的結果也可能是局部最優的。

為了解決上述描述的K-means算法出現的問題,通常能夠采用Canopy算法來輔助K-means算法來做聚類分析。Canopy算法的聚類粒度比較粗略,它采用一種簡單方便的距離計算方法將數據集劃分為多個可重疊的子集 Canopy[13]。這種算法不需要指定k值、但精度較低,可以結合K-means算法一起使用:先由 Canopy算法進行粗聚類得到k個聚類中心,再將這k個聚類中心作為 K-means算法的初始聚類中心,再進行聚類。

從Canopy算法實現的步驟來看,Canopy算法的優點明顯,同時也存在一定的缺點,就是要事先指定合適的 T1和 T2,閾值 T1,T2的選取和確定都比較困難,閾值的大小對聚類結果有很大的影響。根據Zhang等人[14]提出的的基于密度的Canopy算法,提出最大權重乘積法來確定聚類中心,減少隨機性帶來的不穩定性。

3 基于社交電商的工具平臺行為的大數據分析

3.1 數據預處理

對于大數據分析,現實中的日志信息和我們所需要的數據差別很大,為了得到實驗可以使用的標準數據,首先要進行的過程就是數據的預處理工作。

從社交電商使用的某工具 APP中獲取 2020年1月的社交電商的日志數據。通過分析原日志的數據格式和字段含義,進行元數據分割和提取得到格式化數據。考慮進行用戶行為分析所需字段,保留必要字段部分,并且對日志數據進行一定統計計算,功能名稱映射為功能編號,得到用戶id,功能編號,功能圖標點擊次數和功能圖標點擊總次數。該工具 APP為社交電商提供了 18個功能的使用,因此功能編號范圍為1-18。數據的格式示例如表1所示。

表1 APP 功能按鈕點擊信息示例表Tab.1 The sample table of click information on App function buttons

獲取到數據后,要進行一定的數據過濾,過濾掉功能圖標點擊總次數在10以內的用戶,該類用戶一個月內的點擊圖標次數過少,不具有代表性;然后進行數據轉換,引入偏好指數的概念,以“功能圖標點擊次數/功能圖標點擊總次數”表示偏好指數,代表用戶對該功能的偏好,建立用戶偏好模型,構造用戶的特征向量。用戶偏好模型為:

ti表示第i個功能的編號,wi就表示社交電商對第i個功能的“偏好指數”,即社交電商對某個功能的訪問次數和該位社交電商對所有功能的總訪問次數的比值,ni表示社交電商訪問第 i個功能的次數。比如社交電商在某個時間周期內一共訪問了100次功能,其中訪問功能1按鈕20次,訪問功能2按鈕40次,訪問功能3按鈕40次訪問其他功能的次數均為0次,這樣就可以計算出每個功能的“偏好指數”,那么社交電商的訪問特征就可以被表示為:{(1,0.2,20),(2, 0. 4, 40 ),(3, 0. 4, 40 ),(4, 0, 0), … ,(1 8, 0, 0) }。用戶的 i的特征向量可以表示為:

其中:Tin表示用戶i對第n個功能的“偏好指數”。

3.2 數據挖掘分析

由于社交電商數量較多,特征向量的維度比較多,表示結構比較復雜,所以數據內部規律僅僅靠觀察是無法總結出來的,因此就需要針對社交電商的一些特征行為來使用聚類算法對其進行聚類分析。本文就是針對社交電商的功能訪問行為數據來對社交電商種類進行劃分。本文采用的聚類算法是基于密度 Canopy的改進 K-means算法。

Canopy是一種劃分粒度比較粗略的聚類算法,它采用一種簡單、快捷的距離計算方法通過計算數據之間的距離來將數據集劃分為多個可以重疊的子集,這種算法不需要指定k值、但精度較低,可以結合 K-means算法一起使用:先由Canopy算法進行粗聚類得到 k個質心。然后K-means的聚類中心可以直接指定為Canopy算法得到的 k個聚類中心,而不是隨機指定。標準Canopy算法需要指定兩個閾值T1,T2且T1> T2;隨機選擇數據集中的一個數據作為中心。閾值T1,T2的選取和確定都比較困難,閾值的大小對聚類結果有很大的影響。可以對此進行改進,采用基于密度的Canopy算法,采用最大權重乘積法來確定聚類中心,減少隨機性帶來的不穩定性。算法流程如圖1所示。

圖1 基于密度Canopy改進的K-means算法流程Fig.1 Improved k-means algorithm flow based on density canopy

3.3 模型效果評估

為了衡量聚類結果的優劣,可以考慮用輪廓系數來評估聚類模型的效果。輪廓系數是用來評價聚類效果好壞的一個指標。Pete在1986年首次提出這個指標。輪廓系數考慮了內聚度和分離度這兩個指標。它可以被用來在相同原始數據集的基礎上評價不同算法、或者算法不同運行方式對聚類結果所造成的影響。輪廓系數的值是處于[–1,1]之間的,它的值越大就代表內聚度和分離度都越好,分類的結果越好。

針對簇中的每個向量,各自計算各個向量的輪廓系數。然后將所有點的輪廓系數求平均,就是該聚類結果的輪廓系數。第 i個樣本的輪廓系數計算公式為:

其中,a(i)代表向量與同一簇中其他向量的差異程度的平均值,被稱為簇內不相似度;a(i)為向量i到其他簇中的向量的平均差異程度的最小值,被稱為簇間不相似度。

4 實驗及結果分析

4.1 算法改進前后性能對比

本次實驗實現了原始的K-means算法和基于密度 Canopy改進的 K-means算法,并首先對經典數據集 wine進行迭代計算,對比了改進前后K-means算法的迭代次數,運行時間和輪廓系數,實驗結果如表2所示。

表2 改進前后算法聚類效果對比Tab.2 Comparison of clustering algorithms before and after improvement

從實驗結果中可以看出來,基于密度Canopy改進的K-means算法消耗了更短的運行時間并且在較少的迭代次數下就達到收斂,由此可以說明改進后的K-means算法性能優于原始的K-means算法性能。不僅如此,改進后的K-means算法的輪廓系數大于原始的K-means算法,也就是說改進后的算法的聚類效果更好。總而言之,改進后的算法能在更少的時間內達到更優的聚類結果。

4.2 社交電商聚類結果分析

在本次實驗中,將基于密度的Canopy算法和K-means算法結合起來來改進K-means算法,對本文社交電商數據集進行迭代計算。數據集中共有2708個社交電商的數據,聚類算法的分類情況如表3。

表3 社交電商數據聚類算法的分類結果Tab.3 Classification results of the clustering algorithm based on social e-commerce data

將每一類的訪問偏好向量取平均值,求得每類的平均訪問特征向量,為了直觀觀察,將每類的平均訪問特征繪圖如圖2所示。

圖2 三類社交電商的功能訪問特征Fig.2 Functional access characteristics of three types of social E-commerce

從聚類結果可以看出,可以將社交電商分為三個大類,分別為“單一功能偏好者”、“功能使用均衡者”和“部分功能愛好者”。

社交電商群體1:“部分功能愛好者”。該群體總共有1 959人,占總人數比例為72.23%,人數占比最大,在功能1,功能6和功能10上訪問較多,均在10%以上,尤其是功能6可以達到30%,對其他功能的訪問比較少,在10%以下。可以推測,大部分社交電商日常工作中使用最多的也就是某幾個功能。該類APP開發者需要對社交電商使用頻率多的功能進行重點研究,不斷改進這些功能使用的體驗感,提供穩定的技術支撐,才能留住大部分社交電商。

社交電商群體2:“功能使用均衡者”。該群體總共有724人,占總人數比例為26.74%。該類社交電商對所有功能的訪問都比較平均,偏好程度均不超過10%,沒有特別明顯的功能訪問偏好,但是每一功能都有一定的使用。推測該類社交電商所需功能種類比較多,日常工作中涉及到的需求比較多,APP的功能種類豐富與否會影響該類社交電商對該類APP的選擇。

社交電商群體3:“單一功能偏好者”。該群體總共有25人,占總人數比例為0.92%,該類社交電商群體人數占比最少,該類顯著特征是80%以上的功能訪問都集中于功能12上,對其他功能的訪問少之又少。也就是說該群體偏向使用某一特定功能。推測該類社交電商是為了功能12這一特定功能來特地使用該工具APP的。

5 結論

本文以社交電商在工具APP上產生的日志數據為數據集,然后利用機器學習中的聚類算法對社交電商的行為特征進行大數據分析,通過改進后的K-means聚類算法預測社交電商的分類,從功能訪問的角度對社交電商的行為展開分析。利用這一課題的研究為對社交電商群體進行用戶行為分析提供新思路。

猜你喜歡
數據挖掘用戶功能
也談詩的“功能”
中華詩詞(2022年6期)2022-12-31 06:41:24
探討人工智能與數據挖掘發展趨勢
關于非首都功能疏解的幾點思考
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
中西醫結合治療甲狀腺功能亢進癥31例
主站蜘蛛池模板: 97国内精品久久久久不卡| 亚洲色图欧美一区| 亚洲一级无毛片无码在线免费视频| 国产精品偷伦视频免费观看国产 | 在线免费观看a视频| 中文字幕日韩视频欧美一区| 亚洲区一区| 专干老肥熟女视频网站| 91精品伊人久久大香线蕉| 欧美国产精品拍自| 久久久久久尹人网香蕉| 日韩激情成人| 麻豆精品在线视频| 中文字幕第1页在线播| 天天色天天综合| 国产在线精彩视频二区| 小说 亚洲 无码 精品| 国产亚洲美日韩AV中文字幕无码成人| 波多野结衣一区二区三区88| 无码网站免费观看| 青青操视频在线| jijzzizz老师出水喷水喷出| 国内嫩模私拍精品视频| 午夜性刺激在线观看免费| 日韩在线中文| 毛片卡一卡二| 欧美国产视频| 99尹人香蕉国产免费天天拍| 久久久久中文字幕精品视频| a级毛片免费看| 国产男女免费视频| 亚洲中文字幕在线观看| 国产成人夜色91| 久久青草视频| 久久人体视频| 色网站在线免费观看| 国产亚洲视频免费播放| 无码一区18禁| 视频二区中文无码| 91在线激情在线观看| 久久国产精品国产自线拍| 精品综合久久久久久97| 97视频精品全国在线观看| 久久无码av三级| 99草精品视频| 免费视频在线2021入口| 欧美精品不卡| 欧美精品高清| 久久人人爽人人爽人人片aV东京热 | 色吊丝av中文字幕| 亚洲国产成熟视频在线多多| 日韩国产高清无码| a级毛片免费看| 日本免费一级视频| 一级毛片高清| 九九九国产| 国产a网站| 中文字幕免费播放| 日韩成人高清无码| 欧美另类视频一区二区三区| 国产精品粉嫩| 亚洲日韩精品无码专区97| 精品无码人妻一区二区| 国产二级毛片| 久久久久免费精品国产| 中文字幕1区2区| 亚洲高清日韩heyzo| 欧美成人a∨视频免费观看| 国内精品自在欧美一区| 精品久久777| 久久久久久高潮白浆| 四虎成人精品| 国产高潮流白浆视频| 久久国语对白| 亚洲国内精品自在自线官| 亚洲大尺码专区影院| 爆乳熟妇一区二区三区| 国产91小视频| 又猛又黄又爽无遮挡的视频网站| 免费在线色| 国产乱论视频| 人妻丰满熟妇AV无码区|