黃靖越
(中國傳媒大學 動畫與數字藝術學院,北京100024)
據艾瑞咨詢 2019 電子商務行業發布的報告顯示,2019年Q2中國網絡購物市場的交易規模達2.4萬億元,環增長 10.9%,較去年同期增長 26.5%。[1]可見,在電商平臺進行購物已經成為大部分用戶的習慣,在此背景下,各個電商平臺的產品信息和用戶評論呈現爆炸增長。對電商平臺怎么能高效管理和組織產品、用戶評論等信息,充分挖掘信息的價值提出了挑戰。因此我們需要深挖信息和信息之間的關聯,從海量信息中提取有效信息,滿足用戶的信息需求,推動用戶行為發生。而知識圖譜技術能很好的挖掘有效信息并建立聯系。知識圖譜的廣義內涵可以從兩方面來說:知識圖譜作為一種語義網絡,是大數據時代知識表示的重要方式之一,當知識圖譜作為一種技術體系,是大數據時代知識工程的代表性進展。概念、屬性、關系是人類認知的基本框架是認知的基石,而知識圖譜富含實體、概念、屬性、關系等信息,通過節點和邊來描述真實世界的概念、屬性、關系,并能推理發掘新的知識和觀點,使得機器理解與解釋真實世界成為可能。
相較于傳統商務行業,電子商務平臺的消費者無法切身體驗產品,消費行為必須依靠網站上展示的信息進行判斷,因此產品信息成為消費者購物決策的重要影響因素,特別是對于美妝產品,直接涂抹于消費者面部,首先,產品是否可靠安全,消費者在利用產品信息選擇評估產品時會更加謹慎;其次,美妝產品屬于體驗型產品,體驗型的產品所包含的信息受各種因素影響較大,簡單的產品信息已經無法滿足網購消費者的信息需求,消費者經常在無法實際感受情況下需要從其他各個渠道中花費時間搜尋信息,評估產品,因此利用知識圖譜技術組織各個來源的彩妝產品信息,挖掘信息和信息之間的關系,形成彩妝產品知識圖譜,將更利于用戶直觀搜索和獲取產品信息。
要建立美妝產品信息知識圖譜,按邏輯架構的維度可以劃分為知識圖譜的模式層建立和數據層處理。[2]知識圖譜的數據層是由具體的、真實的事實組成,模式層規定了知識圖譜數據層的規則,知識圖譜模式層是整個知識圖譜的基礎,模式層的構建就是對知識的概念、概念和概念之間的關系進行一系列的描述,是經過提煉的知識。[3]知識圖譜的模式層通常由本體庫來管理。
美妝產品信息知識圖譜本體的構建既可以通過人工手動構建、通過數據驅動自動構建以及半自動構建。[4]自動構建需要大量的數據進行訓練,對數據量的需求較大。在本體的作用下,知識圖譜在不斷地收集、整合數據庫的執行效率更高。本文知識圖譜數據樣本小,因此更適合采用人工編輯的方式手動構建,首先從最頂層的概念開始,然后逐步進行細化,形成結構良好的層次結構,定義好知識圖譜的模式層后,再將數據層中的對象一一添加。本體的構建不是一個從零到一的過程,構建時可以考慮復用現有的本體,通常信息管理專家都會對某一領域的知識進行分類的分層,以便于領域的研究。本文通過分析淘寶電商平臺的美妝產品信息分類和組織方式,把美妝產品信息構成要素分為四大類:美妝產品的固有信息、美妝產品物流信息、美妝產品店鋪信息、美妝產品評價信息。
本文構建的美妝產品知識圖譜以口紅產品為例,其原因主要有兩方面,一方面口紅產品相比于其他美妝產品,例如粉底、眼影等彩妝產品,口紅的色號更多,消費者需要評估的選擇更多。另一方面,口紅顏色能夠用一定的原理較為客觀、準確的量化,更適合可視化。以口紅產品為例子,口紅產品的固有信息包括口紅品牌、口紅價格、口紅顏色、口紅包裝、口紅質地、口紅產地、口紅銷量七個子類;口紅產品物流信息包括:物流價格、物流速度、物流公司三個子類;口紅產品店鋪信息包括:售后服務、店鋪評分、是否是熟悉的店鋪三個子類;口紅產品評價信息包含商品好評率、商品評價內容、商品差評數三個子類。口紅產品知識圖譜模式層中的類、子類、屬性、值之間大致包含四種關系,即:包含關系:包含關系是根據區間劃分,兩個或者兩個以上的概念或者子概念在同一區間。例如:
將口紅產品信息知識圖譜模式層概念、關系定義好之后,需要對爬取收集的數據進行處理,獲取數據主要有結構化、半結構化和非結構化三種類型,將不符合知識儲存格式的數據進行處理,把數據處理成符合知識儲存規則的格式,數據包括實體屬性的提取、相似處理包括顏色的判斷、評論內容的分詞、去停用詞、提取關鍵詞,經過這一步,數據才成為了知識,最后處理好的知識,用三元組<實體、關系、實體>的形式表示,以CSV和TXT格式儲存在數據庫NEO4j中,方便可視化時提取和使用。
在實際應用中,口紅產品信息知識圖譜的所有概念、實體、關系并不能全部可視化出來,需要通過對口紅產品消費者的研究,按照用戶需求有重點、有選擇地展示信息。
根據圖1所示用戶在電商平臺網購時行為路徑,可以看到產品信息對用戶的行為決策起到關鍵性的作用。對于口紅產品,要提供哪些產品信息,哪些產品信息對用戶的決策影響更高,需要進行用戶研究。本研究通過調查問卷的方式調查消費者對不同口紅產品信息的關注程度,截止2020年10月30日,一共收集到調查問卷259份,其中有效問卷為242份。

圖1 用戶網購行為路徑
本文用戶需求研究主要使用的是spss進行數據分析,包含了兩個方面:一是信度效度的分析和因子分析。
通過KMO和巴特利特檢驗,一般認為數值大于0.7,證明問卷具有良好的結構效度,說明適合做因子分析,數值越接近1,各個變量之間的聯系就越強;當數值小于0.5時,則不符合做因子分析的標準。分析結果如表1所示。
本次KMO和巴特利特的檢驗結果為0.648和0.733,基本符合因子分析的標準,巴特利特的球形檢驗中近似卡方值為2025.145和1875.287,自由度為105,sig值小于0.01,說明各個變量之間相關性強。綜上所述,說明本次研究的問卷效度良好。
由表1所示,前五個公共因子的初始特征值均大于1,累計方差貢獻率達74.510%,因子1的方差占總方差的22.608%,因子2的方差占總方差的20.522%,因子3的方差占總方差的13.586%,因子4的方差占總方差的9.568%,因子5的方差占總方差的8.226%說明五個公因子代表的信息基本能解釋原始信息,所以可以用前五個公因子代替原來15個影響因素。

表2 旋轉成分矩陣

續表
為了更深入的解釋各個公共因子的具體的含義,本文按照極大方差法對因子旋轉,得到了旋轉成分矩陣圖。
綜合得分可反映出消費者在進行網購時哪一部分的因素對購買決策影響最大。
綜合得分計算公式:

Fi=w1Pi1+w2Pi2+w3Pi3+w4Pi4+w5Pi5
權重公式(1)中的Wj為表1中的“方差百分比”表示各主成分之間的方差貢獻率,各個方差貢獻率相加為“累計方差貢獻W”,根據權重公式(1),由方差貢獻率和累計方差貢獻率,可計算出五個公因子的權重,由公式(2)可計算出15個影響因素綜合得分,由表3所示。

表3 因子得分與綜合得分
根據用戶網購產品行為路徑,口紅產品信息知識圖譜可以為用戶提供兩大功能,一是產品信息展示,二是產品信息對比。由表3因子綜合得分所示,口紅產品信息中的商品好評率、口紅顏色、口紅品牌、商品評價內容是綜合得分最高的四個因素,因此在進行口紅產品信息可視化設計的時候,要著重展示口紅產品這四個信息中的聯系和關系。
將信息設計成能被用戶輕松理解的樣式是信息可視化的目的。針對不同量級數據的可視化設計需要考慮不同的幾個方面,對輕量級數據可視化需要關注數據的深層關系,在處理大型多變量數據集時,需要考慮有效內容的提取和數據的降維,把大量信息精簡提煉,讓用戶能快速分析,并能迅速做出判斷。
可視化是一種用圖形表達數據的方式,可視化設計的中心流程就是信息的映射,信息的映射是指將數據轉化用圖形表示的。可視化映射需要以人的視覺認知為基礎,可視化映射包括三個元素:空間基質、標記、視覺通道。[5]Card、Mackinlay、Sheniederman在《閱讀信息可視化:用視覺思考中》種定義了這三個元素。首先,空間基質可視化元素種的空間基質是指設計師在可視化中需要打造的可視化空間,在早期的可視化作品種,主要都會將信息布局在二維空間中,但隨著大數據的發展,數據量越來越大,數據關系越來越多,也會有三維甚至超維的表現方法。因此,如何在多維空間中進行可視化布局是現今可視化設計的一個難點。[6]其次是標記,標記是指在空間中出現的一些圖形元素,例如:點、線、面、體等,根據數據、信息的類別、屬性也可以用別的圖形元素來表現。[5]最后是視覺通道,視覺通道是指用于控制數據、信息的標記的展示特性,常見的視覺通道有標記的位置、大小、形狀、方向、色調、飽和度、亮度等。[5]可視化設計過程中要注意數據和圖形轉換映射關系要合理,圖形要能夠準確反映數據性質和數據關系。
用戶的信息需求不是一成不變的,尤其在信息更新換代速度越來越快的今天,在不同階段用戶對信息的復雜性、深度和形式的需求各不相同,可視化設計需要給用戶提供能夠進行探索和交互的空間,能夠進一步深入發現信息,而不是單純的信息輸出。
(1)同類色系口紅關系的建立與可視化設計:
通過軟件和手工爬取電商平臺和口紅官方網站,采集了7個品牌、35個系列的口紅RGB值與口紅評論。按照Card等人在《Readings in information visualization using vision to think》中提出以步驟為中心的信息可視化流程模型,對數據進行清洗和規范。由于RGB色彩規則并不適用于人認識色彩的規則,故這里將RGB色彩轉化為HSL,H代表色調、S代表飽和度、L代表亮度,據HSL顏色模型可得,H的取值范圍在0~360,通過整理收集的口紅顏色數據,五個品牌口紅顏色H值集中在(0-65)和(295-360),呈現出由正紅到偏黃和正紅到偏紫,用戶可滑動色環,選擇心儀的口紅色調。
一個顏色最終的準確呈現必須由H、S、V三個參數決定,色環體現色相的選擇,中間的方塊呈現口紅的明度和飽和度變化,用戶在選擇色調后,中間的方塊呈現出該色調的所有口紅數據的分布,用戶可在其中了解信息。
(2)相似口紅顏色關系的建立與可視化設計:
在這部分的可視化設計中,主要展示各個品牌之間口紅顏色的相似關系,利用大小不同的原點表示每個品牌目前口紅數量的比例關系,在每個品牌和品牌之間有顏色相似的口紅則建立起聯系,比較兩個顏色的相似關系主要是通過計算顏色距離,HSV色彩空間模型為圓錐體,其中r為圓錐底面半徑,具體公式為:
x=r×S×cosH
Y=r×V×sinH
Z=h×(1-V)
根據公式計算出兩個顏色在HSV色彩空間中的坐標點(x,y,z),再計算出兩個顏色的距離,距離小于一定數值,則兩個顏色相似,可建立相似鏈接。
遵循可視化設計中的準確原則,不同的用戶色彩感知不同,每個人對色彩的相似判定也不同,將色彩相似度劃分為5-10分,按照色彩距離數值的大小,可視化呈現比分,由圖2可見。

圖2 口紅顏色相似關系可視化
(3)口紅評價內容觀點的提取與可視化設計:
口紅評價內容是所有數據中最難處理的部分,首先評論都是非結構性的文本,內容的語義、關系復雜,其次文本中存在許多噪音數據,對用戶的購物決策沒有任何意義,因此要對評論內容進行預處理,預處理分為兩部分,一是將評論的句子進行分詞處理,二是將評論中的停用詞去除,評論中常見的評論詞包含三類:標點符號、特殊符號、無意義的虛詞。這里用的是jieba中文分詞組件對評論進行預處理。
評論的內容包含了用戶對口紅產品評價的各個維度,要遵循可視化減少用戶理解時間,直觀的原則,要將復雜維度的數據進行降維,這里對評論中的關鍵詞進行提取,統計詞頻出現最高的TOP30。
根據詞頻所見,將評論內容劃分為五個維度:物流、服務、產品屬性、性價比、包裝。可視化由圖3所見。

圖3 口紅評論觀點可視化
本研究通過知識圖譜技術,用戶研究等方法,將美妝產品信息知識圖譜進行可視化,提出基于知識圖譜的美妝產品信息可視化設計方法,展示產品信息可視化的部分實例,對更高效、直觀的產品信息可視化設計進行了實踐探索和討論。