文/姜開(kāi)達(dá) 孫強(qiáng)
“六度空間理論”(Six Degrees of Separation)是一個(gè)數(shù)學(xué)領(lǐng)域的猜想,又名“六度分割理論”,又稱(chēng)“小世界理論”。該理論指出:任何兩個(gè)陌生人之間所間隔的人不會(huì)超過(guò)六個(gè),也就是說(shuō),你最多通過(guò)六個(gè)人就能夠認(rèn)識(shí)任何一個(gè)陌生人。
當(dāng)今流行的新浪微博、人人網(wǎng)、開(kāi)心網(wǎng)等社交網(wǎng)絡(luò)服務(wù)(簡(jiǎn)稱(chēng)SNS)的理論基礎(chǔ)正是“六度空間理論”。人們通過(guò)社交網(wǎng)絡(luò)服務(wù)提供的人際關(guān)系網(wǎng),在找到老同學(xué)、老同事的同時(shí),也可以繼續(xù)結(jié)識(shí)新朋友,擴(kuò)展自己的人脈。
這種現(xiàn)象并不是說(shuō)任何人與其他人之間都必須通過(guò)六個(gè)間隔才會(huì)產(chǎn)生聯(lián)系,而是表達(dá)了這樣一個(gè)重要的概念:任何兩個(gè)原本素不相識(shí)的人,通過(guò)一定的方式,總能夠產(chǎn)生必然的聯(lián)系或關(guān)系。
2011年12月5日,F(xiàn)acebook和意大利米蘭大學(xué)Web算法實(shí)驗(yàn)室共同宣布了關(guān)于六度理論的研究成果:經(jīng)過(guò)對(duì)7億多Facebook用戶(hù)(相當(dāng)于全球10%以上人口)的研究,確定任何兩個(gè)獨(dú)立用戶(hù)之間平均所間隔的人數(shù)少于5人(4.75);而當(dāng)把觀察范圍縮小到美國(guó)一個(gè)國(guó)家的時(shí)候,大部分用戶(hù)之間的間隔只有三度。
在對(duì)高校大學(xué)生社交網(wǎng)絡(luò)使用情況的研究過(guò)程中,發(fā)現(xiàn)六度空間實(shí)際上低估了社交網(wǎng)絡(luò)中群體內(nèi)人與人之間的距離之近。通過(guò)對(duì)人人網(wǎng)內(nèi)上海交通大學(xué)用戶(hù)的好友關(guān)系進(jìn)行研究,發(fā)現(xiàn)其中任何兩個(gè)獨(dú)立用戶(hù)之間平均所間隔的人數(shù)為1.82,也就是1.8度。
利用Python編寫(xiě)的爬蟲(chóng),我們從若干個(gè)大學(xué)生用戶(hù)節(jié)點(diǎn)出發(fā),順著他們的好友關(guān)系節(jié)點(diǎn)一步步深度爬行獲得了海量的人際關(guān)系信息。在若干個(gè)爬行線程全部結(jié)束之后,對(duì)爬行得到的信息使用awk、grep、sort等Linux 腳本語(yǔ)言和數(shù)據(jù)庫(kù)操作來(lái)消除重復(fù)信息并根據(jù)分析需要進(jìn)行格式轉(zhuǎn)換、存儲(chǔ)和分析。
社交網(wǎng)站的核心資源是人際關(guān)系網(wǎng),其為了避免被人為批量抓取也采取了一系列監(jiān)控保護(hù)措施,但是手機(jī)人人網(wǎng)這方面的限制還不夠到位,因此本次選擇了模擬手機(jī)去訪問(wèn)手機(jī)人人網(wǎng)(http://3g.renren.com/)的接口來(lái)快速批量獲取用戶(hù)好友關(guān)系信息。
我們從爬行得到的信息中最終選取了12717名上海交通大學(xué)人人網(wǎng)用戶(hù)的人際關(guān)系作為基礎(chǔ)研究數(shù)據(jù)。選擇這些用戶(hù)的原則為:
1. 抽取的對(duì)象為上海交通大學(xué)的大學(xué)生群體,并且被抽取的用戶(hù)要明確知道其全部好友列表和直接好友數(shù)量;
2. 抽取的人人網(wǎng)用戶(hù)直接好友也要有部分存在這些用戶(hù)當(dāng)中,不能全部存在這一群體之外。


表1 好友關(guān)系基本信息結(jié)構(gòu)

表2 大學(xué)生群體任意兩用戶(hù)之間的最小間隔人數(shù)
每個(gè)用戶(hù)基本信息結(jié)構(gòu)如表1所示,包括了人人網(wǎng)分配全局唯一的UID,群體內(nèi)好友數(shù)量,好友列表(數(shù)組存放其所有好友的UID)信息。
在這一萬(wàn)多個(gè)用戶(hù)構(gòu)成的群體當(dāng)中,每個(gè)用戶(hù)的平均群體內(nèi)好友數(shù)為82.68個(gè),但如果計(jì)算群體外好友數(shù)量,則為401個(gè)。這些用戶(hù)通過(guò)彼此之間的好友關(guān)系互相連接,形成了一張非常復(fù)雜的人際關(guān)系網(wǎng),最終產(chǎn)生了所有可能的161709372(約1.6億)個(gè)兩兩用戶(hù)對(duì)。在人人網(wǎng)上兩個(gè)普通個(gè)人用戶(hù)之間,好友關(guān)系具有雙向性而不是單向性,也就是說(shuō)如果A成為了B的好友,那么B也會(huì)是A的好友,他們之間是強(qiáng)好友聯(lián)系而不是單向關(guān)注的弱聯(lián)系。達(dá)成好友關(guān)系需要雙方的共同意愿和許可,而不會(huì)單方面達(dá)成。但是對(duì)于公共主頁(yè)用戶(hù),則會(huì)存在允許單向關(guān)注的現(xiàn)象,因此公共主頁(yè)用戶(hù)已經(jīng)被排除在了此次研究的對(duì)象之外。
經(jīng)過(guò)對(duì)任意兩個(gè)用戶(hù)所有可能最小間隔人數(shù)的計(jì)算,結(jié)果如表2所示。任意兩個(gè)用戶(hù)之間只有四度間隔的概率是99.999%,只有三度間隔的概率是99.827%,只有兩度間隔的概率是90.967%,只有一度間隔的概率是26.271%。
大學(xué)生群體任意兩用戶(hù)平均間隔人數(shù)與所占比例如圖1所示,橫坐標(biāo)為平均間隔人數(shù),縱坐標(biāo)為對(duì)應(yīng)所占百分比,可見(jiàn)間隔數(shù)為2(也就是兩度)的占65%,占據(jù)明顯優(yōu)勢(shì)。研究數(shù)據(jù)顯示,任意兩個(gè)用戶(hù)之間六度間隔的概率是100%,已經(jīng)完全覆蓋了所有用戶(hù)群。這次研究的內(nèi)容再一次成功驗(yàn)證了六度空間理論。
對(duì)這1.6億個(gè)兩兩關(guān)系統(tǒng)計(jì)下來(lái),任何兩個(gè)獨(dú)立用戶(hù)之間平均所間隔的最小人數(shù)為 1.82294。研究表明,用六度來(lái)描述社交網(wǎng)絡(luò)中大學(xué)生群體之間聯(lián)系的間隔顯得有點(diǎn)過(guò)大,實(shí)際對(duì)本次研究對(duì)象的一萬(wàn)多大學(xué)生用戶(hù)群體來(lái)說(shuō),其之間的關(guān)系為 1.8度,人與人之間的關(guān)系是出于意料的如此之近。
人類(lèi)學(xué)家羅賓·頓巴(Robin Dunbar)研究,人類(lèi)大腦的邏輯和記憶力結(jié)構(gòu),注定了大腦可以容納148人的穩(wěn)定社交關(guān)系。若每個(gè)人平均認(rèn)識(shí)150人,其經(jīng)過(guò)六度傳遞之后就可以到達(dá)11萬(wàn)億的規(guī)模。但實(shí)際上好友的好友是有重疊的,并且不同好友也存在有差異。有的人雖然直接好友個(gè)數(shù)不多,但是這些直接好友產(chǎn)生的間接好友數(shù)量眾多;有的人雖然直接好友個(gè)數(shù)很多,但是這些直接好友產(chǎn)生的間接好友數(shù)量卻并不多。
信息會(huì)伴隨著人際關(guān)系進(jìn)行傳播。研究人際關(guān)系實(shí)際上也在某個(gè)層面上研究信息在社交網(wǎng)絡(luò)中的傳播擴(kuò)散過(guò)程。
表3 隨機(jī)抽取了20個(gè)大學(xué)生用戶(hù),觀察以其為起點(diǎn),順著其好友關(guān)系,擴(kuò)展最大六度之后的人際關(guān)圈影響用戶(hù)數(shù)。為了避免影響范圍的無(wú)休止擴(kuò)大,把最大影響范圍也設(shè)定在這12717這個(gè)群體。同樣出于隱私保護(hù)考慮,這里的用戶(hù)ID用*隱去了最后一位。

表3 隨機(jī)抽取的10個(gè)獨(dú)立用戶(hù)的N度之后的影響用戶(hù)數(shù)

圖1 大學(xué)生群體任意兩用戶(hù)平均間隔人數(shù)與所占比例

圖2 大學(xué)生用戶(hù)的N度影響范圍

圖3 不同度數(shù)下平均影響到的用戶(hù)趨勢(shì)圖
從表3中我們可以觀察到前兩個(gè)用戶(hù)雖然直接好友都同為2個(gè),但是一度的時(shí)候影響到的用戶(hù)數(shù)差異就非常明顯,相差38倍;二度的時(shí)候影響到的用戶(hù)數(shù)差異雖然還很大,但已經(jīng)下降到了4.6倍;但是到了三度之后,影響用戶(hù)數(shù)差異就并不明顯,幾乎相同;到了四度、五度,基本上已經(jīng)影響到了其群體全部用戶(hù)。不論起始用戶(hù)的直接好友是幾個(gè),在三度后其影響用戶(hù)范圍已區(qū)別不大。即使有的用戶(hù)直接好友很少,其二度后影響范圍也并不比擁有上千直接好友的用戶(hù)少多少。

表4 不同度數(shù)下平均影響到的用戶(hù)
研究中發(fā)現(xiàn),只有兩個(gè)用戶(hù)之間需要經(jīng)過(guò)六度才能產(chǎn)生聯(lián)系。雖然這種情況相對(duì)于1.6億關(guān)系對(duì)的比例只有億分之一,但是分析這種情況的出現(xiàn)原因也有實(shí)際意義,這兩個(gè)用戶(hù)信息見(jiàn)表3最后兩個(gè)用戶(hù),我們可以看出他們的直接好友(零度)都比較少,只有兩個(gè)。這樣從統(tǒng)計(jì)角度上來(lái)看,間接導(dǎo)致了其一度好友和二度好友的數(shù)量增長(zhǎng)速度相對(duì)較慢,也就是從他們出發(fā)的人際關(guān)系擴(kuò)展較慢。并且無(wú)論是從他們開(kāi)始出發(fā),還是找到他們的過(guò)程路徑都會(huì)相對(duì)較長(zhǎng)。即使這樣,但是當(dāng)增長(zhǎng)到四度的時(shí)候,以他們?yōu)槠瘘c(diǎn)出發(fā)的好友仍然可覆蓋98%以上的用戶(hù)。
通過(guò)計(jì)算全部以12717個(gè)用戶(hù)為起點(diǎn)的N度影響范圍,我們可以得到圖2。圖2中橫坐標(biāo)為度數(shù),縱坐標(biāo)為滿足該度數(shù)下可以覆蓋全部群體的用戶(hù)個(gè)數(shù)。13.8%的用戶(hù)在三度的時(shí)候其影響范圍就擴(kuò)展到了全部群體,82.9%的用戶(hù)在四度的時(shí)候其影響范圍也擴(kuò)展到了全部群體,只有3.3%的用戶(hù)在五度的時(shí)候其影響范圍才擴(kuò)展到了全部群體,僅有2個(gè)用戶(hù)需要六度才能把其影響范圍擴(kuò)展到全部群體。
如果我們以單個(gè)用戶(hù)為起點(diǎn),觀察其N(xiāo)度之后的平均影響用戶(hù)數(shù)以及其在研究群體中所占的比例,計(jì)算了全部12717個(gè)用戶(hù),可以得出表4的數(shù)據(jù)。
根據(jù)表4的數(shù)據(jù)得到不同度數(shù)下平均影響到的用戶(hù)趨勢(shì)圖,如圖3所示。我們可以看到前期增長(zhǎng)速度非???,一度的時(shí)候只能覆蓋到26%的用戶(hù),但是在二度的時(shí)候已經(jīng)迅速增長(zhǎng)到91%,在三度的時(shí)候更增長(zhǎng)到99.8%。此后由于已經(jīng)接近了100%,增長(zhǎng)的空間非常小,六度的時(shí)候終于達(dá)到了100%。這項(xiàng)研究也在大學(xué)生群體這一微觀群體層面上部分驗(yàn)證了六度空間理論,雖然大部分群體二度即可達(dá)到,但是覆蓋全體仍然需要六度。
在社交網(wǎng)站上面發(fā)布的一條消息,可能會(huì)通過(guò)作者的朋友,以及朋友的朋友不斷擴(kuò)散開(kāi)來(lái)。這種通過(guò)熟人口碑傳播的信息傳遞擴(kuò)散成本低,而且速度快,效果好。
假設(shè)我們要向一個(gè)上萬(wàn)規(guī)模的特定群體傳遞信息,比如發(fā)一個(gè)通知或消息。一種做法是每個(gè)人都一一通知到,這種方式成本高,效率低。另一種做法是選擇其中的若干個(gè)獨(dú)立個(gè)體進(jìn)行單獨(dú)通知,然后讓這些信息通過(guò)這些個(gè)體的關(guān)系鏈,口口相傳的模式進(jìn)行傳播,最終擴(kuò)大到整個(gè)整體。
為了以最小代價(jià)達(dá)到最大傳播范圍的目的,如何選擇最少的但是最有價(jià)值的獨(dú)立個(gè)體作為起始點(diǎn)?信息中間傳播幾次就可以結(jié)束?直覺(jué)告訴我們選擇他們中直接好友最多的人開(kāi)始。零度上可以,但是一度,二度之后,情況就發(fā)生了變化。本次研究對(duì)這些問(wèn)題給出了答案,并且通過(guò)研究,可以明確給出每個(gè)人的N度具體影響范圍,從而為選取合適的起始傳播個(gè)體給出了參考。