蔣建洪,羅 玫
(1.桂林電子科技大學商學院,廣西 桂林 541004;2.桂林理工大學,廣西 桂林 541004)
基于C2C交易的賣方信用增長模式分析*
蔣建洪1,羅 玫2
(1.桂林電子科技大學商學院,廣西 桂林 541004;2.桂林理工大學,廣西 桂林 541004)
針對目前缺乏有效區分賣方信用增長類型的問題,提出了一種賣方交易數據轉換的方法,并提出了C2C交易信用增長模式分類算法。通過引入監督的XYF網絡方法對電子商務交易數據進行分析,能夠對處于同一行業中、具有不同信用增長模式的賣方分類,為賣方的虛假信用識別提供了一種有效的途徑,也為賣方的交易模式進行分類識別提供了一種新的思路。
電子商務;C2C交易;賣方信用;神經網絡;模式
C2C為電子商務中的客戶對客戶交易形式,目前國內很多從事C2C交易的賣方為了短期的利益,通過虛擬的買賣行為提高在電子商務網站中的交易信用。賣方可以通過這種虛假的高信用獲得買方的信任,提高銷售額,從而達到銷售業績和利潤的提升。這種行為對正常的市場秩序造成了非常惡劣的影響,也增加了買賣雙方交易糾紛的可能性。因此,有效鑒別投機的賣方對于買方的合法利益與整個市場的良性發展是非常有必要的。
關于影響信用的因素和虛假信用的問題,目前有較多的研究。Shen Zhi-hao等[1]基于信任關系的特性分析,提出了C2C電子商務中的信任評價原則,認為分析包括交易時間、交易額、商品類別和個人的關系等因素往往被忽視。You Wei-jia等[2]在C2C市場研究中發現,銷售商可以操縱自己的聲譽,雇用大量的傀儡購買人提供虛假交易的積極反饋。Zhang Yu等[3]通過時間衰減系數等因素,建立信用欺詐檢測模型。此外,不少學者通過歷史數據或者時間序列數據對用戶行為進行分析,Zhang Li-fang等[4]認為,平臺的信用機制和歷史交易對消費者決策有著重要的影響。在分析方法上,Jiang Yuan-tao等[5]研究采用數據挖掘的原理,通過各種電子商務網站的 Web日志使用KMeans算法分類客戶群。Nasraoui O等[6]研究了發現和跟蹤不斷變化的用戶行為的方法,以及從Web日志數據中提取的搜索查詢中如何發現用戶行為,使用遺傳算法原理來進行分析。Fu Takchung等[7]提出了從時間序列模式中發現聚類的方法。Halawani S M[8]的研究中,通過序列模式挖掘的幫助來提升銷量和分析客戶行為,為網絡購物管理提供快速的分析,提供更高效的決策支持管理。張洪祥和毛志忠[9]提出了基于多維時間序列數據的信用評價方法,在上市公司的一個長期經營周期中對其信用狀態進行分析。在對人群行為分類的研究中,陳伯成等[10]對自組織神經網絡在客戶分類中的應用進行了探討,討論了客戶分類的概念、指標選取、分類方法選取,給出了一種基于自組織映射SOM(Self-Organizing Map)的客戶分類方法。李綱等[11]使用SOM聚類方法分析電子商務賣家的自身特點與其銷售商品之間的匹配程度對交易活躍程度的影響。Melssen W等[12]使用X-Y融合的網絡來解決分類問題。
從現有的研究來看,對于賣方的交易數據的研究主要集中在通過交易歷史數據分析用戶的行為,國外主要偏向基于拍賣的C2C交易分析,對于類似于一口價交易的方式所關聯的信用狀況研究較少;在國內的研究中,對通過交易歷史所反映出的賣方信用增長特點,特別是從賣方信用增長趨勢的角度來進行分析的還較少。本文首先通過對Web頁面中的賣方交易歷史數據進行獲取和轉換,然后試圖通過監督的XYF神經網絡對交易數據進行分析,最終得到具有不同信用增長模式的賣方類別,為區分可能具有虛假信用的賣方提供有效的參考。
賣方交易的數據來源通常有兩個渠道,一是電子商務平臺提供的數據,二是電子商務網站頁面的數據,前者由于不同的平臺提供商的隱私政策而難以獲得,后者可以自定義網絡數據抓取工具從Web頁面中獲取信息,具有較好的靈活性。本文的研究采用了第二種途徑,使用Web挖掘工具獲得賣方的交易評價數據。在賣方的交易行為數據里,評價意見、評價人、評價人信用、商品名稱、商品價格對于賣方的交易行為數據來說,包含的信息量過多,因此只保留評價和評價時間兩項信息。通過抓取頁面所獲得的評價和評價時間信息,便能夠得到在固定的時間周期內賣方所得到的信用評價數。在實際數據中還需要考慮到買方的評價是否有效,這一約束與電子商務平臺相關,例如淘寶網評價規則的規定,買方可能存在對信用沒有影響的評價。必須過濾掉無效的評價,這些評價不計入賣方的累計信用好評中。
下面對一些概念進行形式化描述:
定義1時間周期Ti為[ti-1,ti],為從ti-1時刻到ti時刻的時間段。
定義2每一賣方交易的信用時間序列集合S={〈T1,R1〉,〈T2,R2〉,…,〈Tn,Rn〉},為從時間T1到時間Tn賣方的信用交易記錄,其中Ri為第Ti個時間周期內,賣方交易累計的有效信用值。
定義3時間節點的信用序列S′={〈T1′,〉,,〉,…,〈,〉},為這一時間節點上,累計的所有信用值,其取值可以通過下面的公式求出:

例如,從1月1日開始,賣方在1月1日,時間周期T為1月1日零時到23:59分,得到了十位買方的評價,有八個好評(其中七個是有效評價)、一個中評、一個差評,而1月2日得到了三位買方的評價,有三個好評。那么1日的有效信用值R為7,累計信用值R′為7,中評和差評不計入信用評價;2日的信用值R為3,累計信用值R′為前一天的評價值累加當天的評價值即7+3=10,依此類推。
根據不同賣方的評價和獲得評價時間的數據,依據信用增長的公式計算出不同時間節點的信用值R′,繪制出賣方信用增長曲線圖。如圖1a所示,只列出四個典型賣方的信用增長曲線,橫坐標為時間,縱坐標為賣方的累計好評數量。可以看出,不同的賣方獲得信用評價的時間也不同,賣方A獲得信用評價的時間最早,賣方D獲得的時間最晚。通過分析查看原始數據可知,A的開店時間早于后三者,因此A獲得好評的時間也早于其它賣方。而賣方B和C雖然開店時間較晚,但是信用增長明顯快于賣方A。而賣方D開店時間較晚,因此在信用增長曲線圖中曲線長度較短,其信用增長也不明顯。分析原始信用增長曲線,由于獲得信用的時間不一致,到達某一信用值的時間也不同,無法通過數據進行分析,因此需要對數據進行進一步的處理。選取每一個賣方的第一筆信用增長作為該賣方曲線的原點,以固定的間隔天數作為橫坐標,以買方好評總數作為縱坐標,將不同的賣方曲線作平移,從而得到新的曲線,如圖1b所示,B1、C1、D1為賣方B、C、D根據時間點平移后的新曲線。平移之后,不同賣方之間的信用增長趨勢比之前的曲線圖更為完整。

Figure 1 Curve of seller’s credit growth圖1 賣方信用增長曲線圖
為了獲取賣方交易的特征,必須依據時間節點獲取賣方的信用評價數量,如果以較短的時間間隔來統計,如每小時統計信用評價數量,會造成在凌晨時段取到的信用評價幾乎不發生變化,而在傍晚的高峰時段信用評價可能會有很大的增長。同時,由于時間粒度太小會使得信用分析所需要的計算量變大,因此最小時間周期應不低于24小時。
通過上文的分析,數據轉換的步驟是首先取得該賣方的所有評價數據,初始化評價信息數組;按時間順序,查詢當天的信用評價;如果信用評價的間隔時間大于某個間隔閾值,則放棄獲取該賣方數據;逐條判斷是否是有效好評,如果是則買方信用評價數加1,存入評價數組中。令總時間長度為L,時間間隔為P,tk為一次有效交易的時間,則這次交易對應的時間節點標號為:

其中ceil為下取整運算。然后,通過遍歷所有的歷史記錄,根據交易對應的時間節點標號,就可以得到在時間節點上的總信用值,將其轉為二維點數據,這些轉換后的數據可作為分析的基本數據。數據轉換方法如公式(3)所示:


自組織映射SOM網絡是由Kohonen T最早提出的一種人工神經元網絡[13],隨后得到了廣泛的應用研究。它是對生物神經系統進化過程的計算機模擬,能把任意維的輸入信號變換到一維或二維的離散網格上。
常用的聚類方法如劃分和層次的聚類方法,在處理高維的數據集時,由于數據集具有分布稀疏和存在大量無關屬性的特點,聚類的效果通常較差。與常用的聚類分析方法K-Means比較,當樣本量不足夠大時,K-Means聚類要比SOM網絡聚類的效果好。但是,在高維的聚類分析時,K-Means難以處理高維度數據。因此,在大數據集和高維數據中采用基于SOM的算法較為適用。本文對數據處理的思路是使用監督的Kohonen網絡方法,對交易數據進行分析訓練,得出相對準確的訓練集,再以此訓練集對新的數據集進行分析,以實現交易模式分類的功能[14]。
在建模探索研究階段,需要得到輸入數據與輸出數據之間的聯系,本文引入監督的Kohonen網絡SKN(Supervised Kohonen Network)技術來解決輸入輸出數據的聯系問題,對賣方的信用模式進行分類分析。該網絡的特點是能夠以直接和簡潔的方式處理與數據的拓撲結構和相應的類成員之間的關系(非線性)。監督的Kohonen網絡(SKN)的缺點是使用者必須事先在輸入和輸出對象的影響之間確定適當的平衡。一般來說,正確的縮放輸入輸出變量最為重要。此外,輸入和輸出對象的數量比在很大程度上決定了SKN網絡是否能夠被輸入和(或)輸出對象支配。輸入和輸出之間的不平衡可能導致性能不佳甚至是錯誤的預測模型。為了解決這些問題,目前可以應用X-Y融合的網絡 算 法 (XY-Fused),該 算 法 利 用 了 Xmap 和Ymap中的相似性。XYF網絡(X指輸入空間,Y指輸出空間)由兩個獨立的Kohonen映射組成,一個是模型的輸入映射,其嵌入了輸入空間的結構;另一個是輸出映射,獲取在輸出中的拓撲結構。XYF算法能夠用簡單的方式來處理數據的拓撲結構和相對應的類成員之間的(非線性)關系。如果輸入和輸出對象之間具有明顯的非線性關系或無序的拓撲關系,會導致建模失敗,當數據包含相當數量的離群點時也會出現問題。
在SOM相關的算法中,網絡包含輸入層和輸出層。輸入層對應一個高維的輸入向量,輸出層由一系列組織在二維網格上的有序節點構成,輸入節點與輸出節點通過權重向量連接。學習過程中找到與之距離最短的輸出層單元(獲勝單元)并對其更新,同時將鄰近區域的權值更新,使輸出節點保持輸入向量的拓撲特征[15]。輸入層只有一個節點,對應于輸入矢量x:

其中,d為輸人數據維數。輸出層由一系列組織在低維網格(通常是一維或者二維)上的有序節點組成。每個節點對應一個權矢量m:

基本的SOM網絡訓練步驟描述如下[16]:
步驟1給輸出層每個節點賦予初始權值。定義訓練結束條件,采用兩次訓練的權值誤差限,或者預定義一個訓練長度。
步驟2從訓練數據集中選取一個樣本x,計算樣本與每個輸出節點之間的距離,距離函數可以選用歐氏距離、曼哈頓距離等,對于只有連續數值屬性的數據集通常采用歐氏距離。選出與樣本x距離最近的節點,該節點稱為輸入樣本的最匹配節點BMU(Best-Match Unit),記為mc:

步驟3根據預先定義的鄰域函數確定處于BMU鄰域內的節點,調整BMU及鄰域內節點的權值:

其中,mi(t)代表第t步的i節點的權值,a(t)為第t步的學習率,hci(t)為鄰域函數。學習率通常隨著訓練的進行而逐漸減小,可以選擇按線性減小、指數減小等;鄰域函數選用高斯函數,如公式(4)所示:

其中,rc、ri分別為獲勝節點與節點的位置,σ(t)為核的寬度。
步驟4如果未達到最大訓練長度,則返回步驟2繼續訓練。
XYF網絡可以由X映射與Y映射的相似性直接反映。X與Xmap中的所有單元相似性記為S(X,Xmap),Y與Ymap中的所有單元相似性記為S(Y,Ymap),融合相似性是通過S(X,Xmap)與S(Y,Ymap)的加權組合來度量。X與Y的獲勝單元由融合相似性SFused(i,k)來確定。融合相似性度量SFused(i,k),對象組合(Xi,Yi)以及在Xmap與Ymap中的單元k可以表示如下[17]:

相似度S(X,Xmap)通過歐氏距離計算:由于XYF應用是歸類的問題,因此S(Y,

Ymap)可以通過Tanimoto距離計算得到:Xmap、Ymap的權值調整計算公式如下所示,

選擇按指數減小的學習率。

其中,t為訓練次數,T為最大訓練次數,DB、DE為常數,這里分別定為1和23。
Ymap的計算公式與Xmap相同。普通的獲勝單元通過SFused(i,k)的最小值所在位置確定。參數α(t)調節相似度S(X,Xmap)與S(Y,Ymap)之間的相對權重。α(t)中的t表示在訓練過程中的迭代次數,一次訓練就是將數據集中包含的所有對象X(或Y)傳入XYF網絡。α(t)為學習率,隨時間的增加而線性遞減。公式定義如下:

對于XYF訓練算法來說,α(t)在一段時間內線性減小,說明在訓練初始階段,對象X與Xmap中單元的相似度將主要影響普通獲勝單元的確定。在訓練結束階段,S(X,Xmap)以及S(Y,Ymap)對確定共享的獲勝單元的貢獻是相同的。原始數據經過公式(1)~公式(3)進行處理得到所示的曲線集合,再根據XYF網絡訓練的步驟,最終得到信用增長模式分類。算法如下:
算法 信用增長模式分類算法
輸入:數據庫數據。
輸出:聚類結果數組。
步驟1抽取數據;
步驟2數據轉換,去除無效信用值;
步驟3網絡初始化,對輸出層每個節點權重賦初值;
步驟4在輸入樣本中隨機選取輸入向量,找到與輸入向量距離最小的權重向量;
步驟5定義獲勝單元,在獲勝單元的鄰近區域調整權重使其向輸入向量靠攏;
步驟6提供新樣本、進行訓練;
步驟7收縮鄰域半徑、減小學習率;
步驟8跳轉步驟4,直到學習率小于允許值;
步驟9輸出聚類結果。

Figure 2 9different growth mode of seller’s credit圖2 九種不同的賣方信用增長模式
從已有的賣方交易網頁信息數據庫中抽取符合條件的類似的8 234條數據。然后從數據中找到部分具有相似特征的賣方,也就是經營的行業相同或相近,沒有較大的差別,將這些賣方單獨抽取出來作為研究對象。首先抽取賣方數據中的一部分作為訓練數據集,抽取出8 034條賣方數據。本文將網格設置為10×10,訓練長度設為500。然后將剩余的200條賣方信用數據導入訓練數據集中進行預測,將預分類結果與預測結果相對應,預測矩陣如表1所示。

Table 1 Prediction matrix表1 預測矩陣
如表1所示,將正確結果與預測映射到矩陣中,行標號表示正確的類別,列標號表示預測的類別,對角線中的數值表示預測與正確類別相符的數量。如第一行第一列數值為6,表示預測正確為類別1的賣方數量為6;而第4行第一列數值為1,表示賣方的正確類別為第4類,而預測類別為第1類的次數為1次。圖2為提取出的9種典型的信用增長模式類別,每個小圖的橫坐標為累計天數,縱坐標為累計信用。從圖像上分析,分別為前中期快速增長、中期快速增長、平緩增長、階段性增長、階段性快速增長、穩步增長、前期高速增長后期平緩型增長模式以及階梯式增長模式等。通常情況下增長速度過快的賣方,其制造虛假信用的可能性越大,所以1、7、8、9類的賣方是在購買前需要買方重點檢查的對象。如第8類其信用增長在初期的時間段增長速度非常快,很短的時間內就增長到了一定程度,而后期的增長呈階梯形。該賣方有可能在前期的經營采用了一些虛假信用手段如虛擬的交易,提高了成功交易的數量,使信用以一個很快的速度增長。因此,該類賣方應作為虛假信用的懷疑對象,消費者需要對其提高防范意識。
由于這200條賣方數據在事先已經對其進行了分類,因此只需要分析使用XYF方法預測所得到的結果和原分類結果進行比較確定其分類預測的正確率。通過常用的聚類算法K-Means與Hclust層次聚類與監督的XYF方法的聚類結果作為比較,統計正確聚類的數量,結果如表2所示。

Table 2 Result comparison表2 分析結果比較
從分析結果可以看到,200條測試數據中有161條數據符合原來的分類結果,準確率為80.5%。與SOM分類結果比較,在SOM分類結果中,劃分正確的類別為133條,正確率為66.5%。從分類的效果來看,XYF的方法與參照的類別更為接近,使用XYF監督的方法明顯優于SOM,其他聚類方法在某些類如第三類的差別較大,沒有XYF方法準確。XYF方法更適宜于分析高維的數據。
本文從賣方信用增長模式的角度出發,對賣方的信用增長的行為和途徑進行了探討,對具有相同經營類型的賣方進行分析。在分析賣方交易特征的基礎上,建立了基于XYF網絡的賣方信用模式分類算法,對C2C電子商務網站中賣方的信用數據進行識別。該算法能夠發現具有相同或相似交易信用增長模式的賣方,以及可能有虛假信用的賣方。最后,結合實際數據做出了相關的測試分析,與常用的聚類分析方法K-Means和層次分析法相比,本文方法是有效的,在分析高維數據方面分析結果更為準確;同時,也存在著一些不足,該方法只是反映了增長類別不正常的一類,相對于其他的類別具有更大的可能性參與虛假信用操作,對于分析的準確率還需要在今后的研究中進一步地提高和完善。
[1] Shen Zhi-hao,Shen Bei-jun.Trust evaluation method handling multi-factors for C2Ce-commerce[C]∥Proc of 2010 IEEE International Conference on Progress in Informatics and Computing(PIC),2011:1236-1240.
[2] You Wei-jia,Lu Liu,Mu Xia,et al.Reputation inflation detection in a Chinese C2Cmarket[J].Electronic Commerce Research and Applications,2011,10(5):510-519.
[3] Zhang Y,Bian J,Zhu W.Trust fraud:A crucial challenge for China’s e-commerce market[J].Electronic Commerce Research and Applications,2013,12(5):299-308.
[4] Shandan Z,Dan F,Yunyun X,et al.Influencing factors of credibility in C2Cecommerce web sites[J].Procedia Engineering,2012,29:509-513.
[5] Jiang Yuan-tao,Yu Si-qin.Mining e-commerce data to analyze the target customer behavior[C]∥Proc of the 1st International Workshop on Knowledge Discovery and Data Mining,2008:406-409.
[6] Nasraoui O,Soliman M,Saka E,et al.A web usage mining framework for mining evolving user profiles in dynamic web sites[J].IEEE Transactions on Knowledge and Data Engineering,2008,20(2):202-215.
[7] Fu Tak-chung,Chung Fu-lai,Ng V,et al.Pattern discovery from stock time series using self-organizing maps[C]∥Workshop Notes of KDD2001Workshop on Temporal Data Mining,2001:26-29.
[8] Halawani S M,Shaik S,Prasad E V.Sales promotions system in e-commerce using data mining techniques[C]∥International Journal of Computer Science and Network Security,2010,10(5):103-109.
[9] Zhang Hong-xiang,Mao Zhi-zhong.Research of multidimensional time series credit evaluation based on gray-fuzz analysis model[J].Journal of Management Sciences in China,2011,14(1):28-37.(in Chinese)
[10] Chen Bo-Cheng,Liang Bing,Zhou Yue-bo,et al.An appli-cation of SOM neural network in customer classification[J].Systems Engineering—Theory &Practice,2004,24(3):8-14.(in Chinese)
[11] Li Gang,An Lu.Clustering analysis of e-commerce transactions with self-organizing map[J].New Technology of Library and Information Service,2008(9):70-77.(in Chinese)
[12] Melssen W,üstün B,Buydens L.Sompls:A supervised self-organising map--partial least squares algorithm for multivariate regression problems[J].Chemometrics and Intelligent Laboratory Systems,2007,86(1):102-120.
[13] Kohonen T.The self-organizing map[J].Proceedings of the IEEE,1990,78(9):1464-1480.
[14] Jiang Jian-hong.Research on seller’s credit data mining of C2Ce-commerce[D].Xi’an:Northwestern Polytechnical University,2012.(in Chinese)
[15] Faber V.Clustering and the continuous k-means algorithm[J].Los Alamos Science,1994(22):138-144.
[16] Yang Li-gang,Su Hong-ye,Zhang Ying,et al.A method of data mining based on SOM clustering and its application[J].Computer Engineering&Science,2007,29(8):133-136.(in Chinese)
[17] Melssen W,Wehrens R,Buydens L.Supervised kohonen networks for classification problems[J].Chemometrics and Intelligent Laboratory Systems,2006,83(2):99-113.
附中文參考文獻
[9] 張洪祥,毛志忠.基于多維時間序列的灰色模糊信用評價研究[J].管理科學學報,2011,14(1):28-37.
[10] 陳伯成,梁冰,周越博,等.自組織映射神經網絡(SOM)在客戶分類中的一種應用[J].系統工程理論與實踐,2004,24(3):8-14.
[11] 李綱,安璐.基于SOM的手機電子商務交易聚類分析[J].現代圖書情報技術,2008(9):70-77.
[14] 蔣建洪.C2C電子商務網站賣方信用數據挖掘研究[D].西安:西北工業大學,2012.
[16] 楊黎剛,蘇宏業,張英,等.基于SOM聚類的數據挖掘方法及其應用研究[J].計算機工程與科學,2007,29(8):133-136.
Growth pattern analysis of seller’s credit based on C2Ctransactions
JIANG Jian-hong1,LUO Mei2
(1.Business College,Guilin University of Electronic Technology,Guilin 541004;2.Guilin University of Technology,Guilin 541004,China)
For the current problem of lack of a valid distinction between the seller credit growth patterns,a seller transaction data conversion method is proposed,and the classification model of C2Ctrading credit growth pattern is proposed.By analyzing the E-commerce transaction data through the supervision XYF network,the different seller’s credit growth patterns in the same category can be classified.It provides an effective way to identify the seller's fake credit,and also provides a new thought of classifying the seller’s transaction mode.
e-commerce;C2Ctransactions;seller’s credit;neural network;pattern
TP391
A
10.3969/j.issn.1007-130X.2014.04.032
2012-10-24;
2013-01-24
廣西壯族自治區教育廳人文社科研究項目(SK13YB036);桂林電子科技大學博士啟動基金資助項目(US12010Y)
通訊地址:541004廣西桂林市金雞路1號桂林電子科技大學商學院
Address:Business College,Guilin University of Electronic Technology,1Jinji Rd,Guilin 541004,Guangxi,P.R.China
1007-130X(2014)04-0758-07
蔣建洪(1982-),男,廣西桂林人,博士,研究方向為信息系統和電子商務。E-mail:jjhome@guet.edu.cn
JIANG Jian-hong,born in 1982,PhD,his research interests include information system,and e-commerce.
羅玫(1982-),女,陜西漢中人,博士,研究方向為信息系統。E-mail:aubrey.luo@gmail.com
LUO Mei,born in 1982,PhD,her research interest includes information system.