在中關村3w咖啡與王煜全、KESO等聊《爆發》,其中一個主題談的就是冪律。我總的感覺在巴拉巴西建立的SCale尺度(degree-rank function)之外,還需要一個以Scope為尺度的計量標準,在因大而美之外,把握因小而美的世界。這樣的冪律分布,才會讓世界更美好。
冪律分布(Power law distribution)是一種常見的統計現象。具有冪律分布的數據,表現為一條斜率為冪指數的負數的線。在這里,冪的含義是指乘方,例如x的n次方,其中n就為冪的指數。具體到冪律分布,出現連接數為k的概率p(k),反比于k的n次方。其中,n稱為冪數。
對互聯網來說,冪律分布具有特殊的意義。因為互聯網中一些核心的現象,都與它有關。冪律分布不僅在技術現象中體現出來,而且在經濟現象中體現出來。因此理解冪律分布,對于深入把握互聯網特征,具有技術與經濟、理論和實踐雙重意義。
冪律分布在互聯網技術和經濟現象上的表現
1、冪律分布揭示了互聯網典型的技術結構特征。
無尺度網絡(scale-free networks)理論首先對此進行了深入研究。無尺度網絡理論是復雜網絡權威巴拉巴西對互聯網研究做出的一個重要貢獻。冪律分布是無尺度網絡最核心的現象。冪律分布告訴人們,網絡兼具“大世界”與“小世界”兩種屬性。后來的六度空間理論,就是在小世界網絡理論基礎上發展起來的。這和人們在SNS實踐中的發現十分吻合。象《六度分隔》作者瓦茨就說,“不是由人群中的個人直接相互選擇,面是他們簡單地選擇加入數個群組”。現在,這種小世界網絡思想,已成為SNS、微信等算法的重要基礎。
在發現冪律分布之前,人們對互聯網有一種典型的誤解,認為網絡是扁平化的,把扁平化與無結構等同起來。隨著實踐和理論的發展,人們認識到這是一種錯誤的看法,網絡相當于是介于扁平化(如市場組織)與結構化(如分層組織)之間的一種結構,兼具二者特征,但又不同于二者。
這種不以金字塔方式進行組織的結構,到底是以什么結構來運作的呢?與工業組織結構存在于管理幅度與管理層級的關系中不同,互聯網的結構存在于聯結與節點的關系之中,其中映射著圖論中頂點與邊的關系的隱含范式。冪律分布歸納的正是頂點與邊的關系。
無尺度網絡的典型特征是,在網絡中的大部分節點只和很少節點連接,而有極少的節點與非常多的節點連接。在統計上,這種技術現象特征就表現為冪律分布。
冪律分布在互聯網結構認識上的意義在于,人們終于找到了機械組織與生態組織的區別所在。互聯網是有結構的,只不過這種結構不是工業組織那種機械結構,而是生態結構。生態結構具有自組織、自協調的性質。節點與節點雖然只是隨機鏈接,表面上是無組織的,但放在大世界尺度看,卻呈現出冪律分布特征。有人提出,“凡有生命的地方,有進化、有競爭的地方都會出現不同程度的無標度現象”。抓住了背后的規律,人類對可進化的結構才開始入門。人們在哲學上常說的涌現和生成,終于落到了地面上,從空想變為現實。
2、冪律分布揭示了互聯網典型的經濟結構特征。
令人稱奇的是,冪律分布在互聯網經濟現象中同樣呈現出來。著名的長尾理論,就建立在冪律分布的統計發現的基礎之上。長尾曲線就是冪律分布的另一種說法。
此前,帕累托在19世紀已經發現,美國財富的分布服從冪律分布,這被稱為帕累托分布。隨后的數據表明,歐洲各國的財富分布同樣服從冪律分布。而且諾貝爾獎獲得者西蒙提出的齊普夫(Zipf)法則已相當接近巴拉巴西的發現。錢德勒則從規模(SCALE)與范圍(SCOPE)的對比中,首先從商業上捕捉到冪律的實質性的經濟含義。
在整個工業化時代,冪律分布與信息革命深層次的聯系,并沒有被發現。到了互聯網時代,情況終于產生轉機,以太網的發明人梅特卡夫開始產生了冪律的感覺。他提出網絡價值等于節點平方的法則(Metcalfe’sLaw)。第一次用乘方來表示網絡的經濟性。冪的本質就是乘方,這里的平方就是冪的指數,而指數是直線的斜率。安德森《長尾理論》則直接發現了冪律分布的商業模式含義。
長尾理論揭示的冪律分布是,少數大熱門產品構成短頭,而大量小批量產品構成長尾,互聯網將推動經濟重心從前者轉向后者。安德森實際上把冪律分布解釋為托夫勒所說的從單一品種大規模生產轉向小批量多品種的生產方式轉變。這比巴拉巴西的發現要深刻了許多。
冪律分布的技術經濟本質及觀測尺度
1、冪律分布還可以從更深層次理解,首先要看它把握的對象到底是什么。
無尺度這個詞比較特別。它的原文是scale free。Scale固然有度和尺度的意思,但應該譯為度的是degrees,比如六度空間中的六度(Six Degrees)。我個人認為Scale還是應譯為它的本義“規模”。scale free實際是“規模無限”的意思。
在冪律分布中,立軸應該是scale,即節點的連接數,表示連接規模。橫軸應該是節點數。所謂冪律分布在這里是指有少數“爆發”性的節點,獲得很大規模的連接;而大多數節點,只有很小規模的連接。所謂scalefree,指少數熱門節點規模大得超過了——相對于正態分布和泊松分布而言的——限制。
有人不是這么理解的,而認為是指冪律分布不斷延伸,沒有盡頭,所以叫無尺度。“不斷延伸,沒有盡頭”,在安德森對冪律分布的解釋中,是對曲線的長尾部分的描述。與這里節點對應的,是品種數,是異質性程度的刻度而非規模刻度,換成錢德勒的語言,應是對SCOPE(范圍)而非sCALE(規模)的計量。所以無尺度如果要指向橫軸而非豎軸,應該叫Scope Free,而不應叫scale free。
2、這就涉及對冪律分布更深層次理解的問題,即尺度本身的問題。
無尺度網絡(實際是規模無限網絡)雖然測出了冪律分布,也發現了小世界網絡向大世界網絡自然進化的模式,其中對路由在互聯網中的特殊作用(短連接)有深刻認識,并對P2P網絡發展有直接指導作用,但巴拉巴西同安德森不同,他思維還比較傳統,看重的主要還是冪律分布中的短頭,而不是長尾。因此觀察節點的尺度,還主要是scale,而非Scope。事實上,冪律分布本身是客觀的,它可以顯示出對它的主觀解釋之外的內容。巴拉巴西所描述的冪律分布本身已顯示,其長尾部分面積(相當于節點數乘以規模數)的總和,并不亞于短頭部分面積的總和,這個面積實際上可視為利潤的積分,表現的是冪律分布的流量價值。
以技術為例,WEB的分布式技術特點一旦發揮,將來可能導致P2P、WEB APP等小微網絡的興起,它們未必非依靠爆發形成的權力管控中心而活。再以大數據為例,巴拉巴西認為可以通過大數據,把握用戶93%的行為,特別是爆發性的行為。這看起來把用戶的短頭需求把握住了,但是如果通過技術和機器就可以自動做到這一切,在十年以后大數據成熟階段,會造成93%的部分服務的價格競爭,導致利潤下降;而剩下的7%——可以歸于用戶自由意志支配的部分——會具有極高的附加值和升值空間。我把這歸結為宿命論與自由意志之間的博弈。
這讓我們把注意力又投回到安德森方法的優點上。安德森利用冪律分布關注的焦點和得出的結論,與巴拉巴西幾乎是反的。如果換算成巴拉巴西的語言,安德森長尾理論相當于認為,所謂7%,只是scale軸上的刻度,是規模經濟的尺度;但如果把這個7%對應的scope軸上的節點數計量進來,這里還有另外一個93%(只是比喻)沿橫軸展開的空間,是scale非常不Free,但Scope非常Free的空間。這一方向,隨著時間的進展,將具有越來越重大的意義。