楊笑笑,單桂華,田 東,余敏櫧
1(中國科學院 計算機網絡信息中心,北京 100190)
2(中國科學院大學,北京 100049)
隨著互聯網技術的迅速發展,網絡已成為日常生活中的重要組成部分,網絡購物已成為趨勢.各種購物平臺每天都在進行交易,進而不可避免地產生龐大的數據,這些數據復雜多維,并與時間有緊密聯系.通過對這些數據的可視化分析,可以了解消費者的購買性格,購物偏愛等喜好.目前已有較多研究人員針對系統應用數據分析工作提出了多種文本分析、挖掘等研究工作[1-3],但對分析結果的可視化展示仍存在不足.
本文呈現一種實現多維層次數據在時序上信息可視化的設計思想,主要貢獻如下:
(1)基于商品引力將商品與消費者之間的聯系以分層的可視化形式展現出來,細化商品類別屬性與消費者消費行為,提出體現層級結構數據的方法.
(2)挖掘消費者購買商品的過程與時間之間的聯系,提出體現時序數據的方法.
目前已經有很多針對層級結構的可視化研究,針對網絡數據,可采用聚集點、線,設置閾值,或者省略某些細節信息的手段來簡化數據,以線圖、節點圖、矩陣圖來展示[4].大多研究表現的是樹形結構,也就是說,他們經常將樹結構表示成大量的節點以及連接父節點與子節點的邊,例如節點-連線和空間填充.根樹描述的是一種父節點、子節點以及連線連接多個節點之間的關系[5].雷達樹是一種根據眾多節點在樹中的深度,來把它們都放在同心圓中的布局.氣球樹是一種表達將所有節點包含在圓圈中的并連接到父節點的節點與線的表現關系.樹圖表達的是一種通過圈畫的外殼展現大樹的空間填充布局[6].
針對時序數據,在ODSP流程中,基于信息熵的流量特征來有效度量網絡活動的隨機特征,過濾符合條件的IP地址與端口,提取有意義的時序數據[7].直方圖的條狀也可以很明顯地展現出來,人們根據時間從左邊到右邊流動的圖表來描述時序數據.在堆疊流圖中采用堆疊基準函數和堆疊序列函數將時序數據進行分析,并綜合比例、曲線方法、排序、著色和標簽布局構建可視化效果[8].還有一些其他的方式,像螺旋圖,基于像素的技術等.
商品數據是同時具有多層結構與時序的數據,它是復雜且多維的,與時間有很強的關聯性[9].理解并細分消費者的購買行為是眾多電商及分析人員的研究熱點.在目前多數的購物網站中,在消費者的角度下,所能查看的以往訂單與購物車中的商品大多以表格的形式呈現,其中對商品的展示分類不甚明顯,這樣容易造成人的視覺疲勞.然而,針對層級結構與時序數據的結合的商品購物的研究仍不多,如Keim主要分析時變的規律與異常的購買行為[10]等.
本章主要介紹的是基于商品引力的網絡購物可視化系統交易日志數據的描述和分析.
消費者通過網絡進行購物,在這個過程中所產生的數據復雜多變,包括消費者信息、與消費者相關聯的商品屬性、消費者的購物行為,以及它們與時間的關聯[11].本文重點研究商品在結構層次上的分類,并與時間、消費行為的關聯可視化展示以及以消費者個體為中心的研究[12,13].
在此之前,需要把得到的樣本數據進行預處理.這些數據的主要屬性特征如下:
(1)商品:商品數據具有顯著的層次結構,本文主要將其分為了三個層級,它們是商品分類、分類細化、商品型號.舉個例子,某位消費者可能會購買食物,具體的分類下(即分類細化)的水果,然后該件商品是十公斤重的富士蘋果.
(2)時間:研究時間上的三個層級劃分的數據,時間粒度分別是月、日、時.
(3)消費者的購物行為:根據實際經驗,在本文中將消費者的購物行為細化為五種,它們分別是瀏覽商品,將商品加入到購物車中,將商品從購物車中刪除、購買商品、將商品退貨.
本章主要介紹網絡購物可視分析系統的設計思想,系統主要研究基于商品引力的商品層級分類與消費者的消費行為之間的聯系,展示一系列相互關聯的可視化視圖,并且提供豐富的交互手段.
系統根據數據的特點,聯系了消費者消費行為與時間兩個重要因素,使分析者能夠從多維度對購物主題進行全面的分析.
該系統的整體界面如圖1所示,系統主要包含5個視圖:(1)購物主視圖;(2)商品分類及消費行為視圖;(3)用戶信息及行為細節視圖;(4)消費月歷視圖;(5)消費時段視圖.
本節將會重點介紹系統中各個視圖的設計思想.
商品的種類多種多樣,例如電子類、服裝類、食品類,等.并且,在每一類的商品下,都有更加細化的分類,例如,電子類下細分電腦、手機、手表等,而電腦下還可以細分具體的品牌和型號,因此把有關商品的節點劃為三個層級:商品分類、分類細化、商品型號,它們分別對應視圖中的第二、三、四層節點,而第一層級節點代表消費者節點,即不同層級的節點代表以上不同的隱喻.
購物主視圖是本系統的核心,首先定義消費者坐標,如式(1),其中H是主視圖高,W是主視圖寬.

consumer_x和consumer_y是根據主視圖視口大小定位的初始化坐標.之后,根據圓的極坐標表達式定位第二層節點,如式(2).

圖1 系統概覽

以此類推,后級層次節點坐標為:

center_x和center_y是上一層父節點的橫縱坐標;R取主視圖寬W的1/6,可以調整不同層級節點間的距離;angle控制后層節點圍繞前層節點的角度,取每層級節點個數平分15度角的值;trim為同等級節點的不同下標加1,以此判斷不同的角度.圖2描述了各層級節點之間的初始化的關系,例如節點1處于第一層級;節點2、3處于第二層級;節點4、5是節點2的子節點,處于第三層級;節點6、7是節點5的子節點,處于第四層級.

圖2 各層級節點初始化定位示意圖
在物理上,有一條眾人皆知的定律——萬有引力定律,它表述的是物體間相互作用的一條定律,任何物體之間都有相互的吸引力,這個力與物體間的質量成正比,與它們之間的距離成反比.
引申到本文的購物系統當中來,每相鄰兩個層級節點之間也有彼此之間的吸引力——商品引力K.同一層級的節點,當K值越大,則與父層級節點的距離越遠;反之,距離越近.在圖3的示意圖中,節點4、5都處于第三層級,它們的父層級節點是處于第二層級的節點2,針對第三層級的節點來說,當該層級的K接近于0時,層級中的節點越趨近于虛線b(如節點4),當K接近于1時,該層級上的節點越趨近于虛線c(如節點5),K值的范圍是0到1之間,這樣可保證節點4、5始終處于第三層級中.
如圖4,受商品引力K值的影響,根據式(3)定位的處于第n+1層級的節點A,橫縱坐標同時乘以K值之后,變成B點的定位,于是,該節點距離處于父層級(第n層級)的父節點的距離跟隨K值的變化而變化.
各節點基于商品引力K的重定位公式如下:

A點坐標的(x',y'),在K的作用下,重定位到點B(x,y).

圖3 各層級節點在商品引力K作用下的定位示意圖

圖4 商品引力K的原理圖
如圖5所示,第二層級上的節點代表的消費額數據是處于第三層級上的所有子節點代表消費額數據之和;同理,第三層級上的節點代表的消費額數據是處于第四層級上的所有子節點代表消費額數據之和;每個節點的商品引力K值與該節點所隱喻的消費額數據成正比.在第四層節點上,即具體的商品型號的隱喻描述,規定了5種顏色(該5種顏色與圖6中的商品分類及消費行為視圖、圖8中的用戶信息及行為細節視圖的動作數據的圖例顏色相吻合),依次對應該件商品的最后動作:瀏覽、加入購物車、從購物車中刪除、購買、退貨.例如,針對小米5S這件商品,消費者瀏覽了5次,加入購物車1件并購買了這一件,所以對這件商品的最后動作,消費者停留在了“購買”,這也意味著消費者購買了一件小米5S之后,并無退貨意愿.

圖5 第四層節點顏色隱喻商品的最后行為
本文的商品數據類別為5個大類,分別是:食品類、服裝類、電子類、生活日用品類和其他.
如圖6所示,右側可視化圖表的縱軸顯示商品分類,各個商品的分類彼此之間是相互獨立的,橫軸表示該年的時間軸.每個面積圖分別針對相應商品類別,來統計橫坐標所選擇時間段下的消費額.左側的可視化圖表和右側的可視化圖表共用一個商品分類坐標軸和時間軸,其橫坐標軸對應每類商品下五種消費行為(瀏覽、加入購物車、從購物車中刪除、購買、退貨)的數據統計,橫軸上的數值是由左向右依次變大的,其展示的數據隨右側可視化圖表下的時間軸中選擇的連續時間段的變化而變化,隱喻所選連續時間段中對應商品類別的五種消費行為的數據累積統計.比如說,在6月到11月之間,圖6中的左側可視化圖表顯示該消費者對服裝類的購買數最多,右側可視化圖表則表明在這個時間段下,這位消費者主要集中在6月和11月購買服裝,而9月和10月購買較少.

圖6 商品分類及消費行為視圖
該視圖中可以根據操作展現四種不同的可視圖形:消費者對應的信息列表和3種環形圖.
消費者的購物行為是時常變化的.比如一位消費者瀏覽了某件商品3次,然后將該件商品加入了購物車,但是這位消費者又很快地將該件商品從購物車中刪除,在這個過程中便會產生很多數據.為了更細化地表現消費者的消費行為,系統為購物主視圖中的各個節點加入了點擊查看的功能.例如,點擊圖5代表的主視圖中的消費者節點,在圖7所展示的用戶信息及行為細節視圖中會顯示消費者相關的細節信息,其中包含了消費者在本系統中的序號、消費者的年齡段以及年消費總額;點擊圖5中的第四層節點,則在用戶信息及行為細節視圖中顯示三環圖,針對該點擊節點所代表的型號商品的五種購物行為進行數據統計,如圖8所示;相應的,點擊圖5的第二、三層節點時,用戶信息及行為細節視圖中顯示對應的單環圖和雙環圖,如圖9所示,為單環圖.

圖7 點擊主視圖第一層節點后對應的細節可視視圖

圖8 點擊主視圖第四層節點后對應的細節可視視圖
多環圖隱喻是由外向內依次展現主視圖的第二、三、四層節點所代表商品類或型號的五種消費行為的數據統計.在這里需要強調的是,其中外層的節點對里層相應節點的數據具有包含關系,也就是說,外層節點的數據包含了內層節點的數據.例如,某位消費者購買的第三層節點如電腦類下的所有商品的購物數據都被統計到了該電腦類節點中.

圖9 點擊主視圖第二層節點后對應的細節可視視圖
消費月歷視圖:聯系商品分類及消費行為視圖(圖6)中的時間軸,此視圖顯示該時間軸上的選擇時間段內的所有日期,并按行從上到下顯示,每月數據顯示一行、每個月的數據從左到右均勻排列[14],如圖10所示.消費月歷視圖中的每個日期模塊都渲染一定的顏色,該顏色根據所表示日期中該消費者的消費額映射得來,右上角配以顏色表圖例,白色代表日消費額為零,藍色代表日消費額較低,紅色代表日消費額較高,這樣可以使選擇時間段下的日消費額情況一目了然.

圖10 消費月歷視圖
消費時段視圖:聯系上面的消費月歷視圖,選擇圖10中某一天,則可在消費時段視圖中將該天都細化為24小時,以小時為時間粒度,將這24小時劃分為夜間休息時間段與其他時間段,觀察該日下的消費額所發生的時間段,數據為該小時下的消費額.如圖11所示,凌晨開始到一點的時間段內,顏色填充最多,代表這一天中該消費者在這個小時內消費額最多,大部分時間段下顏色填充區域全為灰白色,代表這些時間段下沒有發生消費.

圖11 消費時段視圖
可視化并非僅僅只是靜態的形式,交互式可視化可以挖掘出更多的數據細節,便于分析者主動地去探索與分析數據,發揮人的主觀能動性.因此本系統也提供了豐富的交互式操作.
在購物主視圖中,如果鼠標在任意節點上點擊,即會在用戶信息及行為細節視圖上顯示細節信息.如點擊消費者節點,即第一層節點后,會顯示該消費者在本系統中的序號、消費者的年齡段以及年消費總額,如圖7;點擊第四層節點后,會顯示該節點代表的具體商品型號為中心的三環圖,如圖8.
如果鼠標懸浮在某節點上,即可高亮顯示與該節點直接相連的節點與連接線,并在提示框中顯示被懸浮節點的相關信息;在連線上懸浮,則高亮顯示該連接線,且連線的提示框顯示兩端連接節點的名稱.圖12所表示的是鼠標懸浮在第四層節點上,出現提示框顯示該節點代表商品魅藍note2,五種購物動作的數據代表該消費者針對這件商品,曾經在眾多的網絡購物平臺中瀏覽過5次、加入購物車2次,之后并沒有從購物車中刪除,但是購買過1次,并將其退貨.
本系統的數據是基于商品引力,以消費者為中心,在某位消費者的前提下挖掘其購物信息的.因此首先需要在消費者人群下拉框中(在主視圖左上角)選擇所要研究的消費者對象.
之后在主視圖中即可顯示該消費者默認時間段下的購物信息.點擊不同的節點,在用戶信息及行為細節視圖中顯示相應的表格或環圖.

圖12 鼠標懸浮在某第四層節點上
在商品分類及消費行為視圖中,選擇不同的時間段,該視圖中的眾多商品分類面積圖、消費行為折線圖、主視圖以及消費月歷視圖都會產生隨之變化的互動展示,可以表示該消費者在此選定的時間段內的購物行為及購物量.
消費者的購物數據具有強烈的時間屬性,包含所研究年份下的月、日、時.在商品分類及消費行為視圖中,主要選擇的是“月”,經過濾后,在消費月歷視圖中,顯示的是特定的日期,通過點擊消費月歷視圖的日期模塊,在消費時段視圖中顯示某日下24小時下的消費額情況.
在購物主視圖中,為了使分析者更加清晰地挖掘數據,系統提供了對主視圖的縮放功能.將鼠標移至到主視圖上,鼠標滑輪上下滾動即可實現對視圖的放大與縮小.
如圖1所示,這是一個九零后的網上購物數據的展示.不難看出,這位消費者基本上在每月都有消費,大多數是隔一周左右進行一次購物.
研究6月到11月共半年的時間段,在月歷視圖下,11月份的某一天(雙十一)消費額較為偏大.鼠標點擊該天,在關于消費時段視圖中,可以看到,該消費者主要在這一天的凌晨一點購物量最大,上午八九點和晚上八點也有一些消費額產生.聯系實際情況,通常各大主流購物網站上,步入雙十一這一天的凌晨開始,所有促銷活動開放,人們習慣于雙十一之前將欲購買的商品提前放入購物車,在雙十一凌晨付款,所以在凌晨一點鐘的消費額非常大.
在商品分類及消費行為視圖中,右邊的面積圖與左側的折線圖綜合顯示,該消費者偶爾購買電子商品,對食品類和生活用品類商品的需求量也不大,對服裝類商品購買量較為偏多.但是,商品引力K值與節點隱喻的消費額成正比,第二、三層節點距離各自父層節點大體一致,可見各節點的K值大小十分接近,由此可推斷出該消費者對服裝類的購買量較大且平均單價不高,其他產品類購買量少但平均單價較高,例如購買過的電腦及配件等價格較為昂貴的電子類產品.在購買商品之前,該消費者習慣多次瀏覽,且退貨量較少,也可體現出該消費者購物沉著謹慎.
圖13展示的是一位80后消費者的網絡購物情況,同樣重點分析其在6月至11月的消費情況,該消費者對商品的瀏覽數和購買數基本保持一致,可見其購物習慣是干脆利落型,且購物偏好為電子類商品和食品類,經常連續性小額度購物.同樣,在雙十一的時候,重點在步入凌晨至一點的時間段中,大量下單成交商品,雙十一的消費致使11月的消費額加大.

圖13 一位80后消費者網絡購物情況
消費者的購物行為復雜多變,商品信息也具有多層次結構,由此綜合的數據既多維又具時序性.
本文基于商品引力將商品的信息按層次結構進行可視化分析,并對以消費者個體為中心的購物行為的時序數據進行了研究,同時挖掘出商品層次結構數據與消費者行為的時序數據之間的聯系.因此,基于本系統的設計思想,可以使分析者更方便地觀察每位消費者的消費行為,從而得到他們的購物特點.
不同的消費者會有不同的購物習慣與偏好,在未來的工作中,將重點研究消費者之間的消費行為差異,以消費者特征碼的形式表現在購物主視圖上.
1Chen CC,Warren J,Evans J.‘Qualities’ not ‘quality’—text analysis methods to classify consumer health websites.Electronic Journal of Health Informatics,2009,4(1):1-7.
2Chen CC,Warren J,Riddle P.Semantic space models for classification of consumer webpages on metadata attributes.Journal of Biomedical Informatics,2010,43(5):725-735.[doi:10.1016/j.jbi.2010.06.005]
3Tausczik YR,Pennebaker JW.The psychological meaning of words:LIWC and computerized text analysis methods.Journal of Language and Social Psychology,2010,29(1):24-54.[doi:10.1177/0261927X09351676]
4Becker RA,Eick SG,Wilks AR.Visualizing network data.IEEE Transactions on Visualization and Computer Graphics,1995,1(1):16-28.[doi:10.1109/2945.468391]
5Itoh T,Yamashita F.Visualization of multi-dimensional data of bioactive chemicals using a hierarchical data visualization technique “Heiankyo view”.Proceedings of the 2006 Asia-Pacific Symposium on Information Visualisation.Tokyo,Japan.2006.23-29.
6Herman I,Melancon G,Marshall MS.Graph visualization and navigation in information visualization:A survey.IEEE Transactions on Visualization and Computer Graphics,2000,6(1):24-43.[doi:10.1109/2945.841119]
7趙穎,王權,黃葉子,等.多視圖合作的網絡流量時序數據可視分析.軟件學報,2016,27(5):1188-1198.[doi:10.13328/j.cnki.jos.004960]
8趙穎,樊曉平,周芳芳,等.多源網絡安全數據時序可視分析方法研究.小型微型計算機系統,2014,35(4):906-910.
9Shneiderman B.Tree visualization with tree-maps:2-d space-filling approach.ACM Transactions on Graphics,1992,11(1):92-99.[doi:10.1145/102377.115768]
10Keim DA,Hao MC,Dayal U,et al.Value-cell bar charts for visualizing large transaction data sets.IEEE Transactions on Visualization and Computer Graphics,2007,13(4):822-833.[doi:10.1109/TVCG.2007.1023]
11Chen SM,Chen S,Wang ZH,et al.D-Map:Visual analysis of ego-centric information diffusion patterns in social media.Proceedings of 2016 IEEE Conference on Visual Analytics Science and Technology.Baltimore,MD,USA.2016.41-50.
12Liu QS,Hu YF,Shi L,et al.EgoNetCloud:Event-based egocentric dynamic network visualization.Proceedings of 2015 IEEE Conference on Visual Analytics Science and Technology.Chicago,IL,USA.2015.65-72.
13Fisher D.Using egocentric networks to understand communication.IEEE Internet Computing,2005,9(5):20-28.[doi:10.1109/MIC.2005.114]
14廖志芳,彭燕妮,李永,等.AirVis:一個基于Web的空氣質量數據可視分析系統.計算機工程與應用,2015,51(15):174-178.[doi:10.3778/j.issn.1002-8331.1308-0203]