基于多源數據融合的移動商務個性化服務研究

2018-05-24 05:44:18陳志剛

圖書館理論與實踐 2018年4期

陳志剛，方卉

（湖北工業大學經濟與管理學院）

伴隨著互聯網、移動智能終端和大數據技術的高速發展，海量的結構化或非結構化數據不斷滲入移動商務企業的日常運作中，大量學者開始關注基于多源數據融合的移動商務個性化服務研究，使之發展成為學界探討的主流問題。移動終端具有動態感應位置、無線信息交流、情境狀態演變的特點，如何從各類智能傳感設備獲取的數據以及移動商務平臺生成的交易信息和社交網絡用戶實時分享的地理位置等多源數據中挖掘出對用戶集群有用的信息，提取用戶特征并對其使用行為進行感知，從而實現個性化的推薦與定制服務成為當前亟待研究的課題。

近幾年移動商務個性化服務在國內外被普遍關注，應用范圍涵蓋醫療業、娛樂業、服務業等各個領域，而面向多源數據融合的移動商務個性化服務研究在國內外的進展差異較大。隨著信息融合技術的不斷發展，多源數據融合（Multi-source Data Fusion）應時而生，并被各國視為重點開發的核心技術之一。Choi等人提出根據用戶的情景化偏好、互動結果等多維度計算每一個偏好屬性的權重來實現用戶的個性化服務。［1］Tuzhilin等人提出了一種基于數據倉庫的多維推薦方法，在傳統二維用戶推薦系統的概念上進行了全面的概要剖析和聯機分析處理以表達復雜情境的語句查詢，使用戶更加靈活的與推薦系統進行交互。［2］劉晶等人針對移動商務用戶位置、情境特性，提出大數據平臺下的多源關聯個性化模型，為用戶的偏好、決策提供精準的推薦服務。［3］縱觀當前的理論成果，國內移動商務個性化服務對多源數據融合的探討不夠深入，在時下大數據平臺上提供的技術服務較少，大多依靠單一的推薦算法或有限的數據來源進行模型構建，缺乏對多源數據的處理研究和情景應用。由于這些異構、復雜的數據在共享發展的時代下難以實現關聯互享，導致形成了一個個信息孤島，因此，基于多源數據融合的移動商務個性化服務研究十分必要。

1 多源數據分析

大數據背景下，僅靠單源信息無法保障商務平臺的競爭實力，不能滿足當前階段的信息需求，因此，對多源數據的處理分析十分必要。各類終端、傳感器、瀏覽頁面等渠道所產生的海量數據具有不可估量的挖掘價值，但數據規模龐大，傳統的挖掘技術難以采集、互聯和處理，而通過多源數據的交叉融合，可以實現數據的精準識別與標準化管理，保證了數據在多維度上的一致性，也挖掘出大數據的潛在價值。

1.1 數據收集

傳統方法上，移動商務的數據收集主要集中于結構化或半結構化數據，如，用戶的個人信息、訪問日志等內容。然而，這類數據僅是大數據的冰山一角，大量隱匿于用戶社交活動和情景環境的多模態數據（如，GPS、藍牙、評論內容、瀏覽足跡等）尚未被挖掘利用。

在本文中，針對用戶行為的數據收集分為顯性數據收集和隱性數據收集兩部分。① 顯性數據是指用戶在網絡訪問或現實生活中通過信息或商務交易等一系列活動所產生的特征數據（行為特征及個人信息），具有顯著的分析價值，能夠直接被電商平臺采集、存儲和運用。如，電信營業廳會對前來辦理業務的用戶登記個人信息，包括其姓名、電話、住址等基本內容，并且會結合用戶以往或現有的業務數據為其提供新的服務方案；線上線下商家可以通過問卷調查或詢問交流來獲取用戶的消費滿意度，了解用戶當前的消費喜好和未來的購物傾向。② 隱性數據是指用戶在社交網絡、頁面平臺等環境下實時留下的情景數據（自然情景、社會情景、應用情景），與用戶動態的興趣愛好及心理狀態密切相關，需要通過特征化處理和關聯運算來挖掘數據背后隱藏的價值，其收集主要通過各種智能穿戴設備、移動終端等多模傳感器獲得。如，手機、腕表上的GPS定位功能可以挖掘用戶的運動軌跡，利用空間位置的相似程度來分析用戶的行為特征；微信、Facebook等社交軟件能夠借助網絡平臺分享的朋友圈、通訊錄等情境信息，融合用戶評論、發表內容以及瀏覽痕跡來挖掘其社交行為，進而預測其個人需求。

1.2 數據清洗

在經過用戶數據收集的階段后便進入到數據清洗。當前，大數據時代的數據清洗分為三個方面：數據濾重、數據除雜和數據糾正（見圖1）。海量用戶數據的來源多樣、結構各異，存在噪聲和冗余的干擾，需要對這些多源數據進行過濾來糾正錯誤、排除雜質，保證數據的一致與完整。如，用戶在社交平臺（微博、臉書）更新的評論、說說、收藏等內容，其中可能包含移動商務平臺所需的用戶偏好、個性特征。當然，大量的數據可能是異構、零碎的，且不易被完整清洗，因此，從多維度、多來源去融合各類數據才能獲得高價值的用戶信息。

圖1 多源數據收集－清洗模型

1.3 數據融合

多源數據融合被定義為一種處理多格式、多維度的同質或異構數據的綜合信息技術，通過對數據多層的分析，使不同的數據優勢互補和去除冗余，獲得魯棒性高、可信度強的目標數據。HU Jiaqi提出了基于數據層、特征層、相似度層和決策層的四層數據融合思路。［4］李廣建等人總結了大數據環境下信息融合的理論框架，包括形式上的多元表示、語法結構的相關聯系等，利用唯一識別、異構加權等手段實現多源信息融合進而投入到企業的生產運作中。［5］基于多源數據融合的理論基礎，移動商務用戶的數據融合可以優化為三個環節：首先，對用戶數據（實時與非實時數據）進行清洗，包括用戶的個人信息、行為數據和情景數據；其次，對清洗后的用戶離線數據和預測數據進行特征提取，確定特征向量，并與知識庫（用戶、商品及情景知識）中的信息匹配；最后根據行為向量得出最終的決策判斷，建立融合多源數據的用戶行為模型（見圖2）。

圖2 多源數據融合模型

2 用戶行為感知

近年來，手機網民的數量不斷增加，互聯網上大量關于商品信息基于文本、圖像的數據交融復雜，使得用戶對智能終端多元個性化的服務愈加重視。相關研究發現，移動用戶的興趣喜好與其使用行為聯系密切，移動商務用戶行為感知即是通過對用戶行為活動的研究分析，來感知并預測其行為意向，從而掌握用戶特征，實現個性化推薦的手段。

通過對知網、萬方等數據庫中有關用戶接受行為文獻的整理發現，在移動商務初始接受階段，常用的理論及模型有理性行為理論（TRA）、創新擴散理論（IDT）、規劃行為理論（TPB）、技術接受模型（TAM）、價值接受模型（SVAM）和整合型科技接受模式（UTAUT）。而在持續使用階段，期望確認模型（ECM）及其擴展架構是主要的分析手段。當前，大多學者認為影響用戶使用態度的因素不外于有用性、易用性、主觀規范和信念，而態度決定了其行為意圖，促使實際行為的產生。然而，伴隨著研究的不斷深入，人們發現用戶的需求態度是多維復雜甚至是有沖突的，可能在初始接受階段用戶傾向于移動商務的高效便捷，但在持續使用階段可能更傾向于其成本、風險的大小。［6］當用戶的心理發生改變，或自身特性具有差異時，僅依靠上述理論模型顯然已不能適應用戶不斷改變的需求。因此，近年來不少學者在用戶行為感知的研究中引入情景因素，通過利用實體的情景信息、感知當前情景（地理位置、情緒狀態、目標和任務等）來識別用戶的動態特征，有效應對用戶需求的實時變化。為了實現規范的感知并收集用戶的情景數據加以利用，采取基于本體的語義描述，形成統一的語義化用戶情景。依據本體的表示技術能夠將用戶語義信息轉化成共識的形式化信息，從而全面、有序地闡述用戶的行為模式。因此，在用戶行為模型構建中，可以借助本體與情景結合的感知方法，來設計基于情景本體的行為感知模型。① 通過傳感設備、互聯網或其他數據源來收集用戶的情景數據，包括在線情景（空間位置、瀏覽交易、評論轉發）和離線情景（個性特征、知識服務信息、社交環境、歷史行為記錄）；② 對獲取的情景數據采取語義化處理，將統一的情景本體與商品本體關聯融合，并進行用戶相似度計算，以提高本體的解釋力度；③ 構建情景本體模型，通過分析不同用戶的情景狀態來了解用戶態度，解釋其行為意圖，最終感知用戶的動態行為（見圖3）。

圖3 基于用戶情景本體的行為感知模型

3 個性化推薦算法

隨著移動商務逐漸被人們熟知，業務規模不斷擴大，用戶想要在海量信息中找到心儀的商品十分困難。因此，為了能夠更好地滿足用戶需求，電商開始利用個性化推薦技術向用戶推薦其可能感興趣的產品，并將推薦結果及時精準地進行反饋。目前，常用的推薦算法有四種。① 協同過濾算法：通過對不同對象（用戶或商品）之間的相似度計算，選取與目標對象最貼近的匹配對象，根據匹配對象的偏好特征對目標對象實施個性化推薦。② 基于內容特征的推薦算法：通過用戶已經購買或瀏覽過的商品相似性，向其推薦特征相似的商品。③ 基于關聯規則的推薦算法：根據用戶的行為數據（已經購買的或瀏覽、收藏的商品）生成關聯規則，向用戶推薦當前環境下的關聯商品。如，許多電商網站會利用關聯規則對用戶的消費行為進行挖掘，將分析后的常買商品捆綁銷售，既方便了用戶的交易過程也促進了商品銷量。④ 混合推薦算法：結合多種技術理論的優點，彌補了單一算法的不足，形成優勢互補。混合推薦算法的種類有很多，可以是協同過濾和基于內容相結合的推薦算法，也可以是關聯規則和協同過濾相融合的推薦算法。而在大數據時代下，僅靠傳統的推薦算法不能應對多源數據的復雜性，需要利用大數據分析算法，如，聚類、神經網絡、Web數據挖掘、回歸分析等來增強計算的可信度，使用戶獲得最精準的個性化推薦服務。因此，本文提出了融合關聯規則和聚類分析的推薦算法。

3.1 關聯規則算法

根據韓家煒等［7］的觀點，關聯規則定義為：假設是項的集合。建立一個商務活動的數據集A，其中的每個對象E均從屬于集合C，因此每項活動都有與之對應的標識符ECA。運用關聯規則討論活動A的支持度，即A中同時發生M和N的概率；活動A的置信度即是在發生M的前提下，又發生了N的條件概率。關聯規則的價值程度取決于其是否達到設定的最小支持與置信度閾值，如果符合這兩種標準則證明規則是有意義的。用一個簡單的例子說明。下表是用戶商務交易的數據集A，含有6個對象。項集C={碗，筷子，水杯，盤子}。

表用戶商務交易的數據集A

根據關聯規則可得：碗和筷子，活動a、b、c、d、f包含碗，活動 a、b、f同時包含碗和筷子，M^N=3，A=6，支持度（M^N）/A=0.5；M=5，置信度（M^N）/M=0.6。當設置最小支持度 minα=0.5，最小置信度minβ=0.6，則說明用戶購買碗和筷子的動機是具有聯系的。

3.2 聚類分析算法

聚類分析（ClusterAnalysis）是針對目標事物的具體特征，依據設定的劃分標準將目標事物歸類為相似特質的群體分析方法，使得同一組內的數據性質相似，而不同群組的數據性質各有差異。最常見的分類方法是依據數據樣本間距進行分組，用A＝{ai|i=1,2,…,n}代表數據集，其中，ai用c維特征向量ai=（ai1,ai2,…,aic）來表示，aih（h=1,2,…,c）表示c個描述屬性B1，B2，…，Bc的實際數值，通過樣本間距映射其相似程度。樣本ai和aj的間距為c（ai,aj），通常用歐氏距離、曼哈頓距離和明考斯基距離來進行計算。

3.3 混合算法

關聯規則的兩大要素是置信度和支持度，置信度代表規則的可信程度，支持度表示規則前后項均在數據集中顯現的概率，要素概率越大說明其間的關聯性越強。大數據環境下，各類數據海量的積累、算法的迭代導致執行時間逐漸加長，關聯規則數量的激增也會促使虛假無用規則的產生。而聚類算法正好可以克服關聯規則的缺點，依靠改進數據集和區域細分來提高算法的精確性。［8］基于聚類分析與關聯規則融合的推薦算法，首先，要分析用戶的交易、瀏覽等行為，根據其特征相似度對用戶采取分類，使得偏好相同的用戶聚集在同一類別中；其次，對用戶在行為過程中產生的數據進行預處理分類，其結果即為算法的輸入值，產生的數據集被區域細化，方便了下一步的數據關聯；最后，對每類數據關聯處理，產生的關聯規則一定是事物集中用戶共同偏好的規則，減少迭代的頻數，提高推薦的準確性。

4 面向多源數據的移動商務個性化服務實現方案

實現用戶的個性化服務即是通過前期用戶特征數據的多源收集、融合，對其行為進行感知進而向不同用戶提供差異化的服務過程。如，最常見的手機APP定制，用戶的私人行程記事、健康飲食等應用均可以輕易實現，讓用戶不斷獲得比自身需求更多的個性化服務，真正做到比用戶更了解自己。

4.1 面向多源數據的云計算平臺

實現個性化服務最重要的是推薦系統的構建，包括算法（數據處理與推薦算法）和平臺架構的搭建。大數據環境下，移動商務用戶數據結構各異、數量龐大，具有在空間、語義全面共享的屬性，需要高技術的計算平臺支撐。大量云計算環境中，Hadoop分布式計算平臺以其高效性和高可靠性使得用戶能夠便捷構建并運行處理多源數據。Hadoop最核心的組成部分是分布式文件系統（Hadoop Distributed File System，HDFS）和 Map Reduce引擎，位于底部的HDFS用于存儲集群節點的全部數據，它的上層Map Reduce則用于創建索引。當前，為了從網絡數據膨脹的環境下實現海量多源數據的挖掘，基于Hadoop平臺的提出能夠為多源數據的分析與存儲提供有效保障，為移動商務企業在大數據時代站穩腳跟提供可靠助力。

4.2 移動商務個性化服務方案設計

綜上所述，本文設計了基于Hadoop處理平臺、Map Reduce計算框架和大數據可視化分析的個性化定制方案，其核心部分包括數據采集、數據融合、算法實現和應用服務這四個模塊（見圖4）。

圖4 面向多源數據的移動商務個性化服務實現方案

（1）數據采集。① 通過部署在低廉硬件上的HDFS分布式文件系統，對來源于PC機、移動終端、云終端和傳感器的用戶數據日志進行實時處理、更新。HDFS包容繼承式的文件結構，文件系統之間的屬性特征極為相似，用戶可以將文件存儲到創建的目錄中，也能將文件在不同目錄中轉移與重命名。② HDFS系統內的DFS Shell接口可以讓用戶接觸其中的數據，高吞吐量的特性允許大數據集的程序輕松被訪問。

（2）數據融合。利用MapReduce對采集的多源數據進行融合處理。① 清洗用戶數據，濾掉噪音、消除冗余；② 采取標準化處理，統一規范數據結構；最后，交互分析數據特征，實現信息轉換與組合，挖掘出最有用的用戶行為數據。MapReduce可以利用普通的服務器構建不等數量節點的計算集群，能夠在集群節點上自主劃分計算數據并進行處理，由系統對數據定位、容錯優化等計算任務中細小繁瑣的內容，減輕了系統開發人員的工作。并且它依據計算機語言設計Lisp的概念，搭建簡易的運行與計算接口，結合Map和Reduce兩種函數程序實現了大數據集的編程與并行計算任務。

（3）算法實現。利用Hadoop批處理系統和可視化工具對大數據環境下的多源用戶數據進行挖掘處理。大數據挖掘算法主要包括6種：① 分類是將目標對象按照性質特征進行劃分，使得各數據項能夠匯聚到對應類別中，通常被用于數據分類、偏好預測；② 聚類所面對的類別是未知的，跨類別的數據相似度很低而同類型的數據關聯度很高；③ 回歸分析反映了數據變量之間的相關性及相關強度，可運用于預測預報、誤差控制的研究；④ 關聯規則的結果是挖掘數據項之間的交互關系，然后依靠單個數據項推測出相關的隱藏對象，通常被用于用戶的需求預測；⑤神經網絡是模擬人思維的人工智能技術，其特點在于大量神經元匯聚而來的網絡系統能實現信息的自行處理和分布式存儲，具有較高的學習與泛化優勢；⑥Web數據挖掘是利用挖掘技術從海量的網絡知識中找出隱藏的、有價值的信息與模式，對Web頁面的內容架構和活動信息實施全面的分析處理，具有高并行性、實時動態性等特點。

大數據處理中，最為常見的可視化工具有Processing和Gephi。Processing是數據可視化過程中的經典工具，根據程序員編寫的基本數據代碼并編譯為Java語言即可執行于系統平臺上，讓用戶能夠便捷享受聲光具備的交互體驗。Gephi是基于Java語言的數據可視化分析工具，可以處理大規模數據集，主要用于探索性信息挖掘、分層圖表構建、社交環境分析等方面。

（4）應用服務。平臺的前端應用即是移動商務個性化服務，通過個性化的推薦、推送、檢索來實現用戶的偏好定制。［9］個性化推薦是依據收集的用戶數據，向用戶提供建議，幫助他們找到合適的商品并作出決策。推薦的內容要符合用戶實時的情景狀態，能夠精準感知用戶的行為，同時兼具新穎性和及時性。如，用戶最近經常在網站上瀏覽護膚品，推薦服務便可以根據用戶的年齡、收入以及以往的購買偏好來進行。個性化推送是通過移動終端向用戶推送可能感興趣的商品及服務，吸引新客戶并留住老客戶。個性化檢索是為了讓用戶在輸入查詢內容后得到準確的需求信息，并且能夠在用戶表述之外為其顯示關聯的知識內容。如，用戶在搜索引擎中輸入“奶粉”，需要判斷用戶想買的是嬰兒奶粉、成人奶粉還是中老年鈣奶等，并且除了滿足用戶的檢索需求，還可以向用戶提供可能接受的關聯結果。［D］．Troy：RensselaerPolytechnicInstitute，2008.

［參考文獻］

［5］李廣建，化柏林．大數據環境下多源信息融合的理論與應用探討［J］．圖書情報工作，2015（16）：5－10.

［6］程曉璐．移動商務用戶接受模型研究［J］．江蘇商論，2010（33）：26.

［7］（加）Jiawei Han，et al．數據挖掘：概念與技術［M］．范明，孟小峰，譯．北京：機械工業出版社，2012.

［8］孫世文．基于關聯規則和聚類分析的個性化推薦系統的研究與實現［D］．長春：吉林大學，2015.

［9］柳益君，等．大數據挖掘在高校圖書館個性化服務中應用研究［J］．圖書館工作與研究，2017（5）：23－29.