李 鋒, 胡錦亞
(華南理工大學 工商管理學院, 廣東 廣州 510640)
加權符號網絡(weighted signed network)是復雜網絡領域中一類更加難以刻畫的網絡形式。從定義上說,加權符號網絡兼具符號網絡和加權網絡的特點,即網絡中所有節點之間的關系/連線有正有負——符號網絡,且節點之間的連線權值有大有小——加權網絡。因此,加權符號網絡中的連線權值包含更多的信息量,對于節點的分析和評價更加復雜。
現實中,多數社交電子商務平臺上的關系網絡都是加權符號網絡。在這些網站上,用戶進行買賣交易之后,買家通常會對購買的商品或賣家的服務進行評價。這些評價有好有壞、有高有低,構建出了一個復雜的加權符號網絡。由此延伸出一個非?,F實的熱點和難點問題:如何評價社交電子商務網站上的用戶?隨著二手交易平臺的興起,如“轉轉”網站、“閑魚”網站、京東“拍拍二手”,有研究表明二手交易市場用戶規模達到4 000萬,交易規模達到5 000億元,且交易額以每年30%的速度增長。而平臺上的賣家或買家在選擇交易對象時,如何評價與交易對象交易的風險成為他們普遍關心的一個社會問題。
當前,對于社會關系網絡的研究還主要是針對無權、無向網絡進行,即假定網絡中節點之間的連線是雙向的,且連線的權值統一為1;而對于加權符號網絡,研究工作還處于初期和基礎研究階段。本文即是在此研究現狀和市場需求的雙重驅動下,結合具體加權符號網絡的應用背景進行分析。通過分析,我們找出了交易網站中存在潛在交易風險的幾類用戶的網絡行為特征,據此能夠鑒別出存在潛在交易風險的用戶特征。
當前,對于加權符號網絡的研究工作還主要集中在基礎領域,而應用研究相對較為簡單[1]。
在基礎研究領域中,研究重點包括運用結構平衡理論(structural balance theory)去分析實際符號網絡的平衡性[2],并從平衡性的角度對網絡中連線的正、負符號進行修訂[3-4]和預測[5];對復雜網絡社團劃分的模塊化指標Q進行改造,實現符號網絡中的社團結構劃分[6];根據節點的網絡結構屬性(中心度、相似度、參與度等)進行節點聚類分析,采用不同的路線實現網絡社團劃分[7-8];借鑒PageRank算法對網頁的評價,采取類似的算法對符號網絡中的節點進行重要性評價[9-10];借鑒HIT算法將網絡中節點的評價指標分為兩個對立的指標,從而對網絡中的連線進行預測[11]等。除此之外,還有一些學者在研究符號網絡的網絡生成算法[12]。
但是,結合具體的應用問題和應用背景,將所研究的網絡構建成為一個加權符號網絡,并從應用層面上對其解釋和分析的研究尚不多見。前期工作包括:采用模擬退火算法搜索出使得符號網絡上信息擴散最廣的源頭節點集合[13];根據兩支股票收益率的相關系數,得到股票之間正、負關系的符號網絡,分析網絡的平衡性以及度分布等指標,并從股票類型上對網絡進行解釋[14];將線上評價系統構建為一個符號二分網絡(signed bipartite network),并從二分網絡的角度對網絡進行分析[15]。其中,與本文研究最為接近的是文獻[15],即同樣對一個線上評價系統進行符號網絡建模并分析。但不同的是,文獻[15]中將網絡中的用戶節點定義為買方和賣方,即二分網絡;而本文所研究的線上評價系統中用戶既可以是買方,也可以是賣方,含義更加復雜。同時,文獻[15]將網絡構建成為一個符號網絡,即網絡中連線只是正號或負號;而本文所研究的網絡是一個加權符號網絡,即網絡連線不僅有正、負號的區別,還有數值上的差異。這兩點都使得本文所研究的應用問題更加復雜。
本文研究的社交電子商務平臺為一個比特幣交易平臺——Bitcoin OTC(https://www.bitcoin-otc.com)。在此P2P平臺上,用戶可以直接進行比特幣的買賣交易,不需要平臺的審核和介入。根據該網站政策,網站不對用戶進行資格審查,也不對用戶交易承擔任何責任,所有交易風險由買賣雙方自行負責。因此,在此網站上注冊的用戶既可能是比特幣的買家和賣家,也可能是非誠信用戶——騙子(impostor and scammer)。
為了幫助用戶降低交易風險,網站同時提供了一個用戶評價機制,即用戶在交易之后可以對本次交易的交易對象進行評價。評價分數的范圍從-10到+10(整數值,且不能取值為0),分數越高代表該用戶對交易對方越信任,分數越低則表示認為交易對方越不誠信。例如,10分表示用戶對交易對象非常信任,網站建議這是用戶對線下的好朋友或同事才給予的評價(You trust this person as you trust yourself. Reserve this for close friends and associates you know in person);5分表示用戶與交易對象進行了多次可靠的交易(You’ve had a number of good transactions with this person);-10分表示交易對象收了錢之后并沒有完成交易,是一個騙子(Person failed to hold up his end of the bargain, took payment and ran, fraudster)。因此,如果一位用戶被他人評價分數越高,且被多人評價較高,則可以初步認為其更加誠實,交易的可信度越高。
簡而言之,對社交電子商務平臺上平臺用戶的信用風險評價主要基于以下幾個直覺和觀點:①其他用戶評價分數越高的用戶,其信用越好,交易風險越??;②其他用戶評價分數越低的用戶,其信用越差,交易風險較大;③其他用戶評價分數有正有負,其信用和交易風險也較大。
但是,由于網站用戶并非都是誠信用戶,用戶之間的評分也存在作假的可能。例如,多個騙子賬號可以先對一個賬號集中打高分,從而提高該賬號的可信度,再以此賬號騙取不知情用戶的信任,最終實施詐騙。
如圖1所示,對于某指定用戶而言,在2013年2月28日和3月1日連續兩天中,有14位用戶對其評價,且評價以+8和+10為主。而在5月14日,該用戶因不正常的行為企圖,被他人評價為潛在的騙子。如果僅根據該用戶的評分判斷其信用等級,那么根據其“被其他用戶評價的分數均值”為8.2143(115/14),會得出交易風險較低的結論??梢姡唵蔚馗鶕脩舻脑u分判斷用戶的誠信并不一定有效。

圖1 網站上典型的騙子賬號行為
本文以斯坦福大學的網絡分析項目所提供的名為“bitcoin-otc”的數據集來構建用戶之間加權符號網絡。該數據集有35 592條評價信息,總共涉及5 881個用戶。根據數據集合定義,每條數據包括四個字段:評價者(source)、被評價者(target)、評價分數(rating)和評價時間(time)。為避免評價時間因素的引入使得網絡分析更加復雜,本文忽略了評價時間,僅以評價者、被評價者和評價分數三個字段構建加權符號網絡。
在構造的加權符號網絡中,每個節點代表了一個系統用戶,而每條有向邊描述了一個用戶對另外一個用戶的評價,邊的權值則定義為用戶評價的實際評價值。所得到的加權符號網絡的基本統計信息如表1所示。

表1 加權網絡的基本信息
忽略網絡中連線的方向性和權值,做出加權符號網絡的無向網絡。對該無向網絡采取標準的社團劃分(community partitioning),以Q值作為評價社團劃分的指標[16],并將節點按照社團進行聚類展示(如圖2所示)。
從圖中,我們可以看出除了一些分散在網絡外圍的邊緣節點,核心區域中節點分群特征明顯,即同屬于相同社團的節點連接緊密,不同社團的節點連接較弱。

圖2 展現社團特征的用戶評價網絡
根據用戶評價系統的描述,當一個用戶被其他用戶以負值評價時,表明該用戶在交易過程中表現“異常”;如果用戶選擇與此類用戶進行交易,存在較高的交易風險。相反,當一個用戶被其他用戶都以正值評價時,表明該用戶在交易過程中表現“良好”;如果用戶選擇與此類用戶進行交易,交易風險較低。
因此,我們根據用戶是否被其他用戶給予負值評價為規則進行節點分類,得到曾經被其他用戶負值評價的節點1 254個(簡稱為N類節點),未被其他用戶負值評價的節點4 604個(簡稱為P類節點)。另外,有23個節點沒有被其他用戶評價的記錄(簡稱為Z類節點)。
借鑒該評價系統中對用戶的評價指標——用戶對其他用戶評價的次數(number of total ratings sent),評價指標代號為CI-1,對P類節點進行指標統計(如圖3所示)。根據評價系統的有向網絡定義,該指標值實際上統計了節點的出度(out-degree)指標。

(a)整體統計分布

(b)剔除極大值點影響后的統計分布
從該指標值的統計來看,P類用戶在此指標上存在明顯的分類特征,即用戶指標值多數小于15,但是在數值25左右有著顯著聚集。如果忽略極值點的影響,此特征更加明顯,如圖3(b)所示。
對于P類節點的另外3個基本指標,即用戶被其他用戶評價的次數(number of total ratings received)、用戶對其他用戶評價的分數均值(mean of ratings sent)、用戶被其他用戶評價的分數均值(mean of ratings received)進行統計。同樣,根據定義,節點的“被其他用戶評價的次數”指標實際上是有向網絡中節點的入度(in-degree)指標值。

(a)用戶被其他用戶評價的次數(指標CI-2)

(b)剔除極大值點影響后的 用戶被其他用戶評價的次數

(c)用戶對其他用戶評價的分數均值(指標CI-3)

(d)用戶被其他用戶評價的分數均值(指標CI-4)
從圖4可以看出,P類用戶同樣存在明顯的子類集合。
根據圖3和圖4中的統計分布結果,可以看出對于P類用戶而言:①如圖3(b)和圖4(b)所示,多數用戶的交易頻率不高(評價其他用戶的次數和被其他用戶評價的次數),但是有部分用戶相對活躍,交易次數超過20次;②如圖4(c)和圖4(d)所示,多數用戶對其他用戶的評價分數均值多為1~3,因此用戶被其他用戶評價的分數均值也多為1~3;③如圖4(c)所示,少數用戶對其他用戶的評價分數均值為-10,表明用戶在交易中遇到了問題用戶,因此評價對方為“騙子”;④如圖4(d)所示,還有少數用戶對其他用戶評價的分數均值為+10。這個評價分數偏離多數用戶的評價分數均值,表明這類用戶自身也存在問題,有可能為“騙子”。
對1 254個N類節點進行相同的統計分析,如圖5所示,我們可以發現N類節點同樣具有明顯的分類特征。

(a)用戶對其他用戶評價的次數(指標CI-1)

(b)用戶被其他用戶評價的次數(指標CI-2)

(c)剔除極大值點影響后的用戶對其他用戶評價的次數

(d)剔除極大值點影響后的用戶被其他用戶評價的次數

(e)用戶對其他用戶評價的分數均值(指標CI-3)

(f)用戶被其他用戶評價的分數均值(指標CI-4)
更加明顯的是,對于N類節點而言,用戶被其他用戶評價的分數均值較大比例大于0(圖5f所示),有的甚至接近了+5。
為了進一步發現P類節點和N類節點的整體特征,我們對其中與其他用戶節點差異較大的節點進行特征挖掘。
1.P類節點分類
由圖4c可知,在P類節點中有部分節點對他人的評價分數均值趨近于+10。表明這類用戶可能是在幫助騙子賬戶提高其該指標均值,目的在于提高其信用等級,協助其達到欺騙的目的。
同時,圖4d也發現P類節點中部分節點被他人評價的分數均值也接近+10。這表明此類節點可能是正在由騙子賬戶幫助其提高信用等級,等待不知情用戶上鉤的騙子團伙。
根據統計信息,4 604個P類節點的指標“用戶對其他用戶評價的分數均值”平均值為1.539 3,標準方差為1.896 5。因此,我們以3倍標準差為分界線(7.228 8=1.539 3+3×1.896 5)對P類節點進行劃分,即將該指標值大于7.228 8的節點篩選出來,作為異常用戶節點。為了描述方便,下文稱此類節點為PS-1類節點。
同理,對P類節點的指標“用戶被其他用戶評價的分數均值”,根據其平均值1.665 3和標準方差1.279 4,以其3倍標準差5.503 5進行節點劃分,即將該指標值大于5.5035的節點篩選出來。為了描述方便,下文稱此類節點為PS-2類節點。
另外,有一些節點既屬于PS-1類節點,也屬于PS-2類節點,我們稱此類節點為PS-12類。而那些既不屬于PS-1類,也不屬于PS-2類節點的P類節點,我們定義其為PS-0類節點。
2.N類節點分類
由圖5e可知,在N類節點中有部分節點對他人的評價分數均值趨近+10,表明這類用戶可能是在幫助騙子賬戶提高其信用等級,協助其達到欺騙的目的。與P類節點中PS-1類節點不同的是,此類節點是已經被識別的騙子賬號。
從圖5f可以看出,多數N類節點被其他用戶評價的分數均值主要集中在-6~+4,但是存在部分節點的該指標值集中在-10。結合P類節點中的PS-1類節點的行為,可以認為多數N類節點是先被其他用戶(騙子同伙)給予接近+10的評價,之后被受騙的用戶給予接近-10的評價。從評價分數的統計值上來看,該節點的被評價分數平均值趨向于0。
相比之下,N類節點中被其他用戶評價的分數均值為-10的用戶,可能是該用戶的同伙數量較少,給其正值評價較少;或該用戶同時欺騙了多位用戶,導致其評價分數的和較低。
根據以上分析,結合PS-1類用戶的分類標準,我們同樣以該指標值(CI-3指標)大于7.228 8的節點篩選出異常的節點集合,并定義其為NS-1。
從圖5f中可以看出,N類節點在CI-4指標上取值較為分散。因此,本文簡單地以CI-4指標值為-9對節點進行分類,得到CI-4指標值趨近于-10的異常節點集合NS-2。
類似的定義節點集合NS-12為同時屬于NS-1和NS-2的節點集合,而集合NS-0為不屬于NS-1和NS-2的N類節點。
根據分析,我們可以確定網絡中被標記為NS-1類、NS-2類、PS-1類、PS-2類的節點都是異常節點,與其交易的風險較高。因此,下文嘗試采用簡單實用的分類方法發現這些異常節點的特征并從整個網絡中進行區分。
1.基于節點指標值的分類
通過分類,我們發現無論是PS-1類節點、PS-2類節點,還是NS-1類節點、NS-2類節點,都具有明顯的行為相似性。例如,圖6分別給出了這4類異常節點的指標CI-1(用戶對其他用戶評價的次數)的統計分布情況。

(a)PS-1類節點

(b)PS-2類節點

(c)NS-1類節點

(d)NS-2類節點
從圖6可以看出,這4類節點的聚類特性非常明顯。因此,可以用節點的整體特性來描述這一類節點的特征。
我們以節點的CI-1指標(用戶對其他用戶評價的次數)和CI-2指標(用戶被其他用戶評價的次數)對節點進行可視化展示,如圖7所示。因為CI-1指標和CI-2指標的取值都為整數,所以圖7中節點呈離散分布。
顏色更加淺的點表示此處節點數量較多。從圖7可以看出,采用多個指標對這些節點分類,可以發現節點的聚類特性更加明顯。并且,這4類節點都相對集中在圖形的左下角,這表明這四類節點的CI-1指標和CI-2指標值都較小,它們之間具有較高的相似性。因此,將這4類節點放在同一張散點圖上,結果如圖8所示。

(a)PS-1類節點

(b)PS-2類節點

(c)NS-1類節點

(d)NS-2類節點

圖8 4類異常節點整體的散點圖
可以看出,這4類節點都具有較強的相似性。將少數節點刪除之后,多數節點都聚集在圖形的左下角。
根據以上數據分析和展示,可以較為清晰地看出這4類節點區別其他節點的特征為這4類節點各項指標的均值,即PS-1類、PS-2類節點和NS-1類、NS-2類節點的指標均值可以作為區分這些節點的屬性。
2.四類節點指標特征的顯著性
在發現這4類異常節點的特征模式之后,我們將這4類節點放入普通節點集合之中,觀察這4類節點的特征顯著性。
將P類節點以CI-1指標和CI-2指標展示在散點圖上,如圖9所示。
從圖9(a)可以看出,相比于PS-0類節點,PS-1類節點和PS-2類節點非常集中(圖中PS-1/2標記所示的節點為PS-1或PS-2類節點的位置)。
類似地將N類節點以CI-1指標和CI-2指標展示在散點圖上。從圖9(b)上也看出了與圖9(a)中相同的現象,即NS-1或NS-2類節點的特征非常明顯,即使是放在整個數據集合中,其特征也能夠清楚發現。
如果將這4類節點放在整個網絡中,如圖10所示,我們亦然可以看到這些節點特征明顯,聚集在所有節點集合的中心。這表明這4類異常節點具有明顯的特征,可以從整個網絡中篩選出來。

圖10 網絡所有節點的散點圖
3.異常節點的相似性
為了檢驗異常節點特征屬性的識別特性,下面分別以不同類別異常節點的平均值作為此類節點的整體模式,并計算所有節點與該平均值之間的相似性。
以PS-1類節點為例,此類節點指標CI-1、CI-2、CI-3和CI-4的平均值分別為:
(1)
接著計算每個PS-1類節點i與該指標值的相似性(在計算相似性之前,首先根據指標的極大值和極小值對屬性數據進行標準的歸一化處理):
(2)

作為對比,同樣計算PS-0類節點k與該指標值的相似性:
(3)
圖11給出了PS-1類節點屬性的相似度。

(a)PS-1類節點

(b)PS-0類節點
從圖11可以看出,PS-1類節點與整體屬性之間的相似性多數都超過85%,而PS-0類節點與PS-1類節點整體屬性的相似性全部都低于85%。這也驗證了采用PS-1類節點整體屬性進行節點分類的有效性。
圖12~圖14分別給出了PS-2類節點、NS-1類節點和NS-2類節點的相似度計算結果。

(a)PS-2類節點

(b)PS-0類節點

(a)NS-1類節點

(b)NS-0類節點

(a)NS-2類節點

(b)NS-0類節點
可以看出,這4類節點的整體特征能夠較好地代表這些節點(相似性指標較高),并與其他節點可以區分開來。但是,在未被劃分為這4類的節點(PS-0類節點和NS-0類節點)中,也有部分節點與這4類節點相似度非常高。這說明,還有部分有潛在風險的節點特征尚未被識別出來。
4.小結
通過以上的數據分析和挖掘,我們可以得出以下結論:
第一,網絡中用戶的交易行為具有明顯的整體特征,而那些偏離整體特征的異常節點多為問題節點,與這些異常節點進行交易存在較大的風險。
第二,根據節點在加權符號網絡中的連線權值、符號和數量,能夠簡單并有效地區分出網絡中的異常節點。
第三,由于異常節點行為特征的相似性,可以根據已經被他人證實的異常節點特征(NS-1類節點和NS-2類節點)去識別那些未被他人證實的潛在異常節點。
本項研究是以加權符號網絡的模型構建比特幣交易網站上的用戶評價網絡。通過用戶之間評價的符號和數值,我們識別出網絡中那些具有交易風險的用戶的行為特點。通過數據分析,發現了這些行為特征模式,能夠作為區分和判斷存在潛在網絡交易風險的用戶節點的標準。作為交易平臺,雖然并不為用戶提供信用擔保,但是可以提供類似的用戶查詢功能,幫助用戶降低交易風險,同時也能保證平臺的健康發展。