王春娟,林振權
(溫州大學物理與電子信息工程學院,浙江 溫州 325035)
人類通信行為中的標度律
王春娟,林振權
(溫州大學物理與電子信息工程學院,浙江 溫州 325035)

對錢學森書信的響應時間和信件長度進行統計分析,發現信件長度服從系數為0.005的負指數分布,同時信件響應時間和信件長度在一定范圍內存在標度關系。該結果揭示了人類通信行為的一個內在規律,為通信機制的進一步挖掘提供了實證依據。
人類動力學;通信模式;冪律分布;標度特性
最近幾年里,通過對人類活動歷史(包括通訊、工作和娛樂)的海量數據庫的分析,越來越多的證據顯示人類許多行為的時間統計特性無法用泊松分布刻畫。2005年,Barabási和他的同事對3 188位用戶收發的共129 135封電子郵件進行了統計分析,發現用戶相繼發送兩封郵件的間隔時間服從的不是指數分布,而是冪函數分布。表現為郵件發送會密集出現在一段很短的時間內,然后會有很長一段時間沒有任何郵件發出[1]。Oliveira和Barabási,以及Vázquez等[2-3]對達爾文、愛因斯坦和弗洛伊德的書信通信記錄的研究發現,一封信在τ天被回復的概率可用指數為α=1.5的冪律尾衰減分布很好地近似。

而針對電子郵件的研究顯示,人們發送電子郵件的間隔時間和響應時間服從α=1的冪律尾衰減分布。Vázquez等[3]經過研究指出人類動力學存在兩大普適類,分別對應冪指數為α=1和α=1.5。緊接著許多學者就人類系統的普適性發生了激烈的爭辯,認為在人類系統中提出的重尾分布的漸近冪律行為是否有足夠的統計證據?簡單地根據冪指數劃分普適類的假設合理嗎?對于有爭議的普適類討論話題和冪律問題,人類通信是很好的范例,在文獻中被廣泛關注。2008年,李楠楠等[4]對錢學森、魯迅書信進行統計,發現錢學森信件的響應時間分布也服從冪律分布,但冪指數為2.1,據此對普適類的說法提出了質疑。2009年,曹盼盼等[5]選取了中國近代的茅盾、傅雷、陶行知和胡適等文化名人的書信,分析他們的通信行為同樣得到了時間特性的冪律分布,且提出了社會環境對冪指數的影響。與此同時,Malmgren等[6]對16位作家、演員、政治家、科學家的電郵和通信數據進行分析,認為冪律的時間間隔是人類行為周期性、重復性和需求量變化的結果,隨著年齡增長和社會角色的確定,人們趨向于每天周期性的重復某些活動,不會有太大程度的改變,并由此建立了一種級聯式的非齊次泊松過程來描述這種行為的產生。該模擬結果對16位用戶的電子郵件和書面通信行為有個很好的解釋,揭示了不同通信活動可能存在著相似的驅動機制,為人類通信行為的研究提供了方向。
對于人類各種行為表現出來的冪律特性的起源,眾多學者從不同的角度進行了嘗試。Barabási等率先給出了基于個人決策的排隊論解釋,通過改變模型參數的取值使其適應不同的情況,盡管該模擬結果對于電子郵件和書面通信的重尾分布有個很好的解釋,但還是存在著部分缺陷,該模型的核心與實質是把人類的行為看做執行一系列的任務,然而任務選擇型機制并不能解釋真實生活中全部的人類活動,比如瀏覽網頁[7],在線電影點播[8],手機短信[9]等等。但是這些活動也展現出一些相類似的統計規律(胖尾時間間隔分布)。同時所研究的數據中也并沒有包括一個人所參與的所有任務,于是有學者又在排隊論的基礎上提出了其他交互模型[10]。Kentsis等[11]注意到一封電子郵件或者書面信件的響應時間還依賴于通信發生時的社會內容,個體信件語義內容,任務的難度和社會關系等一系列復雜的影響機制。由此對Barabási的排隊模型進行了深入探討,隨后根據許多實際情況國內學者提出了自身的生理活動[12]、興趣[13]、截止時間[14]、記憶[15]等諸多影響機制,但始終沒有得到統一共識。這些研究工作表明人類行為潛在的規律性和復雜性。
書面通信有別于人們在網絡上的通信行為,它更能反映出人在社會中與人交流的真實情況,為進一步挖掘其內在統計規律,除研究信件的發信時間間隔和響應時間統計分布規律外,本文還提出信件長度這一屬性,以反映人們在寫信時難以察覺的心境和外部事件的影響。因此本文中將結合信件長度和響應時間兩方面分析人類通信行為,并且將全部信件按其字數分為不同長度段,分析各不同長度段信件的響應時間分布之間的關系,為建立人類通信行為模型提供實證依據。
本文采用了錢學森從1955年至2000年的通信數據,其中有1 782封信標注了信件的收信時間和回復時間,把它定義為響應時間τ,以天為單位。當同一個人在一段時間內發送了幾封信件時,以最近一封信為收錄時間計算響應時間,假設最后一封信激起回復,前面的信件并沒有得到真正的回復,把它看做是信件的遺棄,以避免響應尺度的大量重疊。舉個例子,在發短信時你收到了很多條來自同一個人的信息,人們不會逐條進行回復,而是就上一封內容做出回應,連帶著告知前面信息有收到。然而在研究短信、郵件的時間特性時,由于個人隱私受法律保護,無法了解個體信件的語義內容,以至于無法明確是否是對此封信件的響應,導致不清楚是上段話題未完還是已經開始下一個話題,故等待時間不明確,把話題的完結當做長時間的響應做了處理[16]。而本文研究的錢學森書信中內容已經公開,且都標有收錄時間,如10月4日的信收讀,通過語義分析也能明確是否是對上封信件的響應,使響應時間的計算更精確。
以往學者在確定冪指數時,用了極大似然估計方法,結果一般依賴最小值的選取,在數據量有限的情況下冪指數會偏離真實值。本文對響應時間分布使用了補函數[17-20]。

對于冪律分布(1),在α>1時有

補分布不僅可以消除尾部波動,還可以避免對數裝箱方法中難以準確確定裝箱寬度的問題,不丟失任何信息,在數據點較少的情況下,補分布統計更準確,對冪律特性有較好的表達[19],在大量的實證研究中被廣泛使用[5-6,12,17,20-21]。
由于間隔時間分布受個人決策的優先級影響[1-3],不能作為人類動力學的適當量度,因此要實現最終成功預測響應的統計性質,本文將注意力放在響應時間的統計上。首先是對錢學森信件的響應時間分布采用補分布函數,如圖1所示,響應時間分布在雙對數坐標下為冪律衰減尾分布,τ表示響應時間的橫坐標,以天為單位。縱坐標用p(t≥τ)表示響應時間所對應的補分布概率。直線是對數據點的線性擬合,其中5≤τ≤100,負相關系數R=-0.996,響應時間的冪律衰減尾分布形式(1),其冪指數為α=2.6±0.02。與[4]相比偏大,這與本文收集數據和處理的方法有關,回信機制在整體上較快,隨著統計方法的發展,其精確度會略有波動。而響應時間大于100天的只有17封信,只占大約總量的1%。
在分析人們在互聯網上的行為時,認為傳輸文件大小分布屬于帕累托分布,從而導致互聯網上通信量的胖尾特性[21]。對此,本文對錢學森具有確切響應時間的信件按信件長度進行統計分析。信件長度數據來源于人工計數,為避免人為誤差影響,數據以20字為統計字數段,每個統計字數段內各信件字數的加權平均值作為該字數段內信件的長度k。圖2畫出長度在63≤k≤1 490范圍的通信量分布N(k),在數據中除去下垂頭部的影響作線性擬合,結果在單對數坐標下為指數衰減分布。

其中λ=0.005。在圖2的插圖中給出了相應的補分布圖,補分布線性擬合指數值與直接擬合結果一致。可以這樣解釋,在早期人們基于寫信習慣和交流條件的限制,會按照相對穩定的模式進行書信往來,交流中輕易不會長篇大論。該結果與當前人們在即時交流通訊中表現出的規律并不相同,例如QQ群用戶在線交流行為中每次發送QQ消息的字符數呈現出冪律尾分布[22],類似地人們在互聯網上傳輸文件的大小分布也是冪律形式[21]。可見現代通信的便利性使得人們的交流方式在不斷改變。

圖1 錢學森書信響應時間的補分布Fig.1 Response time complementary cumulative distribution function of Qian Xuesen’s correspondence

圖2 信件字數長度分布Fig.2 Empirical response size distribution of Qian Xuesen’s correspondence
進一步考察不同長度段信件的響應時間分布,并分析各不同長度段信件的響應時間分布之間的關系。以錢學森書信的響應時間分布為例,本文將錢學森有確切回復時間記錄的全部信件按其字數分為不同長度段,其中72%的信件字數在165~572字之間,將此范圍的信件分成4個字數長度段,每個統計字數段內各信件字數的加權平均值kc代表該字數段內信件的長度,如表1所示。
通過對k1~k4區間內錢學森寫信響應時間的統計,分別得到其書信響應時間服從冪律尾分布,且冪指數與總體分布都接近α=2.6,隨k的增大依次向下,如圖3所示。說明在k1~k4區間的信件對響應時間的冪律尾分布做出了主要的貢獻,而大于k4的范圍由于數據不足沒有明顯的分布關系,除去這部分信件對整體的響應時間分布幾乎沒有影響。
在圖4中,通過重新定標揭示了不同長度段信件的響應時間分布之間存在標度律,它們在相同的有特定標度指數的曲線上塌縮。橫坐標為響應時間,縱坐標為累計通信量與信件長度補函數的比值。該結果可以表示為

表1 各字數段范圍及kc取值Tab.1 The every word scope and kcvalue

這里排除了偶爾寫短信和長信的概率,假設個體寫信內容長度是穩定地控制在k1~k4范圍內。不同長度段信件的響應時間分布之間存在的標度律(5)反映了在統計范圍中的信件存在一個特征字數長度,s=200,對應圖2中的峰值。

圖3 不同信件長度下的響應時間補分布Fig.3 Response time distribution for communication scales

圖4 信件長度與響應時間的標度關系Fig.4 Collape of I distributions for correspondence pattern
本文統計了錢學森一生中與人交流的通信數據,發現信件長度服從系數λ=0.005的負指數分布,其特征字數長度約200字。該結果不同于快捷的群用戶聊天中字符數的分布[22]或者互聯網傳輸文件的大小分布[21],書信較注重思想上的交流,字數跨度大多集中在165~572字的范圍內,而QQ即時通訊在交流時可以簡單的回復“Yes”或者“No”,使得字符少的占總體比重較大,對于錢學森書信字數一般不少于63個字,這更類似于人們寫日記的長度。通過對錢學森書信響應時間的分析,發現響應時間的冪律尾分布受多方面因素影響,如地理位置、節假日、出差、由他處轉來、任務難度等。舉個例子,錢學森在1985年2月11日給夏振坤的一封信中寫到:“您在去年5月14日寫給我的信和兩篇尊著收到后就細讀過,但您提出的問題我也一時說不出來什么,所以就放下了。一放就是九個月!請您原諒!”。這也符合Oliveira等對通信模式復雜性的探討[2-3,11]。
本文還分析了在不同信件長度下信件的響應情況,發現在信件長度相對穩定的區間分別表現出依次向下的冪律尾分布,且冪指數與總的響應時間分布近乎一致,也就是說在這段穩定的交流中人們趨向于相似的通信機制,信件響應時間的冪律特性主要由字數在165~572的信件貢獻,大的信件長度對響應時間的分布幾乎沒有影響。通過重訂標得到了數據的塌縮,暗示了響應時間和信件長度之間潛在的標度關系,對文獻[1]中電子郵件大小和等待時間關系的探討給予進一步的實證依據。相信隨著信息挖掘的發展,在足夠的信息量情況下,可能會有更豐富的標度關系。那么設想在紛繁多樣的個體行為模式下可能隱藏著某種共同的人類通信機制,并且這種潛在的模式可能不區分古今時代,對不同的個體和通信方式普遍適用,是一種潛在的人類通信普適模式。對它的深入研究將有利于優化資源配置,便于商家制定商業決策,如郵政通信行業可以采取相應的策略提高其性能指標。其應用價值和商業潛質在不斷興起的新型服務行業中也會不斷地體現。對于其他通信領域這只是一個初探,有待于有興趣的學者們進一步挖掘。
[1]Barabási A L.The origin of bursts and heavy tails in human dynamics[J].Nature,2005,435(7039):207-211.
[2]Oliveira J G,Barabási A L.Human dynamics:Darwin and Einstein correspondence patterns[J].Nature,2005,437(7063):1251-1253.
[3]Vázquez A,Oliveira J G,Dezs?Z,et al.Modeling bursts and heavy tails in human dynamics[J].Physical Review E,2006,73(3):036127.
[4]李楠楠,張寧,周濤.人類通信模式中基于時間統計的實證研究[J].復雜系統與復雜性科學,2008,5(3):43-47.
Li Nannan,Zhang Ning,Zhou Tao.Empirical analysis on temporal statistics of human correspondence patterns[J].Complex Systems and Complexity Science,2008,5(3):43-47.
[5]曹盼盼,閻春宇.人類通信模式的冪律分布和Zipf定律[J].復雜系統與復雜性科學,2009,6(4):51-56.
Cao Panpan,Yan Chunyu.The power law and Zipf's law in human communication patterns[J].Complex Systems and Complexity Science,2009,6(4):51-56.
[6]Malmgren R D,Stouffer D B,Campanharo A S L O,et al.On universality in human correspondence activity[J].Science,2009,325:1696-1705.
[7]趙庚升,張寧,周濤.網頁瀏覽中的標度行為研究[J].統計與決策,2009(1):18-19.
Zhao Gengsheng,Zhang Ning,Zhou Tao.Study on scaling behavior in webpage visiting[J].Statistics and Decision,2009(1):18-19.
[8]Zhou T,Kiet H A T,Kim B J,et al.Role of activity in human dynamics[J].Europhys Letters,2008,82(2):28002.
[9]Hong W,Han X P,Zhou T,et al.Heavy-tailed statistics in short-message communication[J].Chinese Physics Letters,2009,26(2):028902.
[10]Rybsli R,Buldyrev S V,Havlin S,et al.Scaling laws of human interaction activity[J].PNAS,2009,106(31):12640-12645.
[11]Oliveira J G,Barabási A L.Correspondence patterns:mechanisms and models of human dynamics(replay)[J].Nature,2006,441:E5-E6.
[12]Nakamura T,Kiyono K,Yoshiuchi K,et al.Universal scaling law in human behavioral organization[J].Physical Review Letters,2007,999(13):138103.
[13]韓筱璞,周濤,汪秉宏.基于自適應調節的人類動力學模型[J].復雜系統與復雜性科學,2007,4(4):1-5.
Han Xiaopu,Zhou Tao,Wang Binghong.The model of human dynamics based on adaptive interest[J].Complex Systems and Complexity Science,2007,4(4):1-5.
[14]鄧竹君,張寧,李季明.截止時間對人類動力學模型的影響[C]//郭近利,周濤,張寧,等.人類行為動力學模型.香港:上海系統科學出版社.2008:29-34.
Deng Zhujun,Zhang Ning,Li Jiming.The impact of deadline on human dynamics model[C]//Guo Jinli,Zhou Tao,Zhang Ning,et al.The Dynamics of Human Behavior.Hongkong:Shanghai system science press,2008:29-34.
[15]Vázquez A.Impact of memory on human dynamics[J].Physica A,2007,373(1):747-752.
[16]Wu Y,Zhou C S,Xiao J H,et al.Evidence for a bimodal distribution in human communication[J].PNAS,2010,107(44):18803-18808.
[17]Ethan P W,Brian J E,Jessica L G.On estimating the exponent of power-law frequency distribution[J].Ecology,2008,89(4):905-912.
[18]Clauset A,Shalizi C R,Newman M E J.Power-law distribution in empirical data[J].SIAM Review,2009,51(4):661-703.
[19]史定華.網絡度分布理論[M].北京:高等教育出版社,2011:34-40.
[20]Newman M E J.Power laws,Pareto distribution and Zipf's law[J].Contemporary Physics,2005,46(5):323-351.
[21]Crovella M E,Bestavros A.Self-similarity in world wide web traffic:evidence and possible causes[J].IEEE/ACM Trans Networking,1997,5(6):834-846.
[22]王洪川,郭進利,樊超.基于群聊天記錄的人類行為動力學分析[J].計算機應用與軟件,2012,29(7):9-10.
Wang Hongchuan,Guo Jinli,Fan Chao.Group chat records based human behavior dynamics analysis[J].Computer Applications and Software,2012,29(7):9-10.
Scaling Law in Human Communication Pattern
WANG Chun-juan,LIN Zhen-quan
(School of Physics and Electronic Information Engineering,Wenzhou University,Wenzhou 325035,China)
Through the statistics from Qian Xuesen's communication,we present that the size distribution of the letters obeys an exponent distribution with the best fitting exponentλ=0.005.In addition,we reveal a scaling law relating response time and the size of replied letter within a certain range.It is possible to characterize inherently statistical regularities in communication behavior.Our findings provide theoretical evidence for the future excavation of the communication mechanism.
human dynamics;communication pattern;power-law distribution;scaling-law
N94
A
1672-3813(2013)03-0025-06
2012-12-12
國家自然科學基金(10875086,11175131)
王春娟(1987-),女,吉林榆樹人,碩士研究生,主要研究方向為人類動力學。
(責任編輯 耿金花)