陳國凱
(重慶大學計算機學院,重慶 400044)
隨著互聯網的高速發展,人們的生活越來越依賴于網絡,人們最基本的衣食住行都已經與網絡緊密關聯。基于此,網上購物越來越主流化,網商也越來越盛行,并逐漸成為新興產業的中堅力量。但商品種類的多樣化,使得網商的推薦信息變得越來越重要,導致推薦系統的研究逐漸成為一類研究課題。
至今,各種各樣的推薦系統層出不窮,包括基于內容的推薦原理,關聯推薦、協同過濾算法、混合推薦等,這一類的商品推薦系統一般是站在用戶的角度,通過用戶的瀏覽記錄或者是商品的瀏覽量等,以用戶的體驗等,來推薦更能夠讓用戶滿意的商品,但鮮有站在網商的角度來分析的。
本文致力于通過對往屆銷售數據的分析,站在網商的角度,通過獲利的情況,來實現對商品價值的預測分析,以及對商品的推薦功能。通常情況下,一種商品的實際獲利,不僅僅是出價、進價還有銷售數量的簡單運算,可能還有其他的一些因素的干擾。而一件商品的屬性值有很多種,不可能都拿過來作為模型的輸入來分析,并且很多屬性是完全對利潤沒有影響的,還有一些屬性對利潤的影響很小,小到可以忽略不計,故而需要對屬性進行約簡。
粗糙集理論是一種刻畫不完整性、不確定性的數學分析工具。影響利潤的因素有很多,利用粗糙集理論對影響的因素進行約簡,得到相對重要的一些因素。但是,傳統的聚類,只有聚類,沒有關于各個因素的重要性的因子。而實際上,不同的因素,造成的影響不同,應該賦予不同的權值系數。
基于此,本文提出了如下方法:利用粗糙集對影響商品的多種因素進行屬性約簡,得到優化后的數據,以及其相關的權值系數,其次采用基于屬性重要性的加權歐氏距離對數據分析,建立各個聚類的預測模型,并提取相似性較高的數據作為訓練樣本,然后對測試數據進行聚類。實驗結果表明,該方法具有一定的參考價值。
現如今,各種各樣的商品信息充斥著人們的眼球,但是如何能夠更有效地吸引來自網絡上形形色色的消費者,一直是各類人士的一個研究課題。各種各樣的推薦系統層出不窮,但是說到為什么要做推薦呢?答案是,信息的展示形式一定程度上影響著人們的決策過程。
Kleinmuntz和Schkade在1993年通過研究發現,信息的展示方式,整體表現出如下三個基本特征:信息表現出來的形式、信息組織形成一個整體的方式以及信息的相關排列順序。本研究中的商品排版就是根據商品利潤的獲益大小來進行的商品信息排列。
在如今的大數據背景之下,龐大的商品信息展示在人們的眼前,相較于傳統的購物方式,網上購物需求變得更加的迫切。不僅僅是消除了時間和地域的限制,更重要的是消費者從被動的信息接收者變成了主動地信息搜索者。而在信息的瀏覽過程中,基于用戶的固有習慣,對商品的瀏覽一般是遵循自上而下的順序,這種展示方式很大程度上影響了用戶的行為操作。
很多人和機構針對這個方向進行過一些研究,通過實實在在的數據來說明排名的先后是否對用戶的行為有影響。如Russo和Hogarth等人曾先后通過對數據的研究,發現用戶的信息處理過程一定程度上受到了排列順序的影響。而隨后,Hogue和Lohse的研究表示,相較于紙質目錄,電子目錄的排名情況更能引起消費者的關注。
2001年,Infospace曾做過一個統計,根據針對網絡用戶的調查報告顯示,89.8%的用戶只記得瀏覽過的網頁首頁的內容,而對其他的印象不深。
而Granka曾在2004年針對搜索結果頁做過一些相關的實驗,其結果表示,人們視線在結果也上停留的時間與搜索結果頁的排名呈現正向相關的聯系,即相關搜索的排序顯示越靠前,得到的搜索者的關注力度則會顯得越高。
Baye等人在2008年通過對贊助商列表的研究,發現其中商家鏈接的排列位置對點擊率有著很大的影響。商家鏈接的位置排名每下降一位,與其相關的點擊率便會跟著降低17.5%。
綜上所述,我們認為,信息的呈現影響著用戶的行為。人們習慣于瀏覽信息時自上而下,商品排版越靠前,消費者的關注度會越高。
粗糙集理論作為一種處理模糊的不確定知識的數學工具,是在1982年,由著名的波蘭數學家Z.Pawlak
所創立。它創建的目的就是直接進行數據的分析處理,找到數據背后隱藏的知識和規律。得益于成熟的數學基礎和易用性,并且不需要先驗知識,使得粗糙集理論成為了處理各種不完備信息的有效工具。整個理論的核心就在于通過等價關系,對對象集合進行劃分。在屬性約簡方面,它可以揭示條件屬性對決策屬性的重要性,并刪除不必要或者不重要的屬性。
屬性約簡,就是通過刪除條件屬性之中,沒有必要或者重要性不高的屬性。而具體的評判,就是根據屬性的依賴度增量來進行的。本文采用的就是屬性約簡的一種經典算法,QuickReduct算法。如圖1所示,表示的就是該算法的偽代碼。主要的一個思路就是通過增加屬性,來看依賴度的變化情況,通過依賴度的變化,決定屬性的約簡與否。

圖1 QuickReduct算法偽代碼
在研究事物的某些屬性時,一般是采用聚類方法將具有較高相似性的進行聚類,來研究其中存在的規律。同樣的道理,在分析商品的獲利情況時,也可以通過聚類的方式,依據商品利潤對商品進行分類處理。而分類的依據,就是不同對象之間的差異性,如何去評價和計算這個差異性,很多前輩為此做出過不少的貢獻。一般可用的度量方式有明考斯基距離、歐幾里德距離、曼哈頓距離函數等。而最常用的度量則采用的歐氏距離函數,其相關的表達式為:

式中:d(i,j)為對象xi、xj間的歐氏距離;xik、xjk(k=1,2,…,n)分別為對象 xi、xj第k個屬性值。
在傳統聚類方法中,屬性之間,不存在所謂的差異性,都會被看做具有相同的重要性。但相較于實際的生活和應用,很多情況下,這個想法顯然是不合適的,現實情況下,不同的對象,表現是不同的,重要性也會有差異。若仍然通過傳統的方式來處理,則會出現莫名的問題。對此,我們引入權值系數這一概念來表示屬性的重要性指標,來解決重要性不均等的問題。此時,我們用加權的歐氏距離公式來取代傳統的歐氏距離,相關表達式如下:

式中wk(k=1,2,…,n)為對象第k個屬性的權重。
由公式(2),可以清晰的看到對象的屬性所起到的作用。但該方法需要知道各個屬性的權重。故而選用了粗糙集的理論來解決這個問題。基于粗糙集的特性,在不知道先驗知識的條件下,通過歷史數據,能夠比較輕松地得到各個屬性的權值系數。
影響商品利潤的因素是多方面的,一種商品的實際獲利,不僅僅是商品出價、商品進價還有銷售數量的簡單運算,還有其他的一些因素的干擾。而一件商品的屬性值有很多種,不可能都拿過來作為模型的輸入來分析,并且很多屬性是完全對利潤沒有影響的,還有一些屬性對利潤的影響很小,小到可以忽略不計,引入粗糙集利潤,對影響因素進行約簡,刪除一下沒有必要或者不重要的因素,其中基于粗糙集的約簡算法的步驟如下:
(1)根據以往的商品數據作為模型輸入,決策因素為商品利潤,其他條件屬性有進價、出價、銷售數量、銷售日期等。
(2)利用QuickReduct算法并結合模糊粗糙集相關理論對可能影響決策利潤的屬性進行約簡,然后計算約簡之后,各個條件屬性相較于決策屬性的重要性。
采用粗糙集對影響商品利潤的多種因素進行約簡,得到優化后的數據,然后利用基于加權歐氏距離的改進聚類方法對訓練樣本進行實驗,相關的步驟如下:
(1)利用基于屬性重要性的加權歐氏距離聚類方法,對數據進行處理和聚類分析,并將其分成k類,使得每一類都具有較高的相似度,并提取其中的簇中心Ci(i表示聚類,取值為 1到 k);
(2)對于上面的k個聚類,分別建立一個神經網絡預測模型,然后針對每一類模型,根據各類的歷史數據進行訓練;
(3)通過計算當前商品與各類簇中心之間的加權歐氏距離,對商品進行分類。
由于無法拿到網上商店的一些具體數據,本文以某小超市的供銷存數據為例,該數據中保留的商品數據包含大類、中類、小類的編碼及名稱,銷售日期、銷售數量、商品單價等信息,包含的是2015年1月到4月的商品銷售數據。
通過數據進行實驗,不同類別的商品,銷售情況可能有區別,故而商品的大類編碼、中類編碼、小類編碼都應該作為影響因素。商品的利潤可能和時間有關,具體的銷售日期和銷售月份也應該列為影響因素。然后就是商品的類型,不同的類型,可能對銷售利潤有影響。其次,對于商品利潤來說,影響因素還應該包括表示具體賣出了多少的銷售數量,總共賣出了多少錢的銷售金額,單件商品的商品單價、商品進價。以商品的銷售利潤為決策屬性,選擇上面的10個可能影響商品利潤的因素作為條件屬性,這樣就確定了初始決策表的輸入數據。由于拿到的不是實際的網上銷售數據,條件屬性不是很完全,但該方法,后續可以通過補充的形式來更新決策表。
首先,由于實際拿到的數據很亂,有很多數據表示重復了,需要先進行一下數據的清理工作,例如,商品編碼和小類編碼,都表示的是同一個意思,沒有必要同時存在。然后提取其中的部分數據來進行試驗,利用QuickReduct算法,并結合模糊粗糙集的相關知識,對上面的條件屬性進行約簡。為了克服某些沒必要的或者是不太重要的屬性的影響,故而,設定了一個依賴度增量閾值θ=0.01來進行篩選,計算各個條件屬性對應的依賴度增量,只有當其大于θ時,才可以將該條件屬性列入約簡屬性列表之中。如下表1則是顯示了約簡之后,各個條件屬性對決策屬性的重要性的統計表。

表1 約簡后各個條件屬性的重要性
在實驗樣例中,由于銷售利潤對銷售時間的依賴度過小,在θ之下,故而對銷售日期、銷售月份進行了屬性的約簡。由表1可以看出,銷售金額對銷售利潤的影響最高,其次分別為商品的單價和商品的進價以及商品銷售數量。根據上表得出的數據,然后賦予加權歐氏距離不同的權值系數。接著對選取的數據進行聚類分析,并最終選取300組歷史數據為訓練樣本訓練k類神經網絡預測模型。在該案例中,當k取值為6時,效果相對明顯。并在此次的案例中,熟牛肉的銷售利潤最高,其次為干貨蝦蟹貝和豬肉。
本文針對網上商店利潤的問題,站在網商的角度,提出了基于粗糙集和改進聚類的方法,來對獲利更高的商品進行推薦排版。以網商為出發點,來使得商家獲得的收益最大化,同時通過采用粗糙集的理論,對商品屬性進行約簡,反映出不同的屬性對商品利潤的重要性,并且通過引用神經網絡來建立預測模型,更加系統地分析數據。但是由于數據來源的問題,并不一定能完全地表現網商的收益情況,仍然需要繼續去優化,此外,關于如何選擇更加合適的樣本,如何去選擇更加優化的模型也是本課題需要進一步研究的內容。
[1]孫濤.個性化商品推薦系統的設計與實現[D].吉林:吉林大學碩士學位論文,2015.
[2]羅俊.粗糙集理論約簡算法及其應用研究[D].武漢:武漢理工大學工學碩士學位論文,2009.
[3]吳雅軒.基于大數據的網絡商品推薦信息對消費者購買行為影響的實證研究[D].遼寧:遼寧大學碩士學位論文,2015.
[4]胡新明.基于商品屬性的電子商務推薦系統研究[D].武漢:華中科技大學博士學位論文,2012.
[5]時瑞.基于數據挖掘的商品推薦系統研究和實現[D].上海:上海交通大學工程碩士專業學位論文,2013.
[6]劉興杰,芩添云.基于模糊粗糙集與改進聚類的神經網絡風速預測[J].北京:中國電機工程學報,2014.