999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

開源社區雪崩效應實證研究:以Sourceforge為例

2015-07-18 11:11:59潘向東楊建梅
復雜系統與復雜性科學 2015年4期
關鍵詞:關聯研究

潘向東,楊建梅,白 樺

(1.北京交通大學中國產業安全研究中心博士后科研工作站,北京 100044;2.華南理工大學工商管理學院,廣州 510641;3.鶴壁市發展和改革委員會,河北 鶴壁 458030)

開源社區雪崩效應實證研究:以Sourceforge為例

潘向東1,2,3,楊建梅2,白 樺2

(1.北京交通大學中國產業安全研究中心博士后科研工作站,北京 100044;2.華南理工大學工商管理學院,廣州 510641;3.鶴壁市發展和改革委員會,河北 鶴壁 458030)

以SourceForge社區為例,研究了開源項目開發過程中的風險傳遞和崩塌級聯反應,對開源社區的雪崩效應進行了實證研究。分析發現,技術關聯與合作關聯是開源項目之間風險傳遞的兩種主要模式,基于上述關聯模式,某個項目的失敗會引發一定規模的雪崩級聯反應。針對SourceForge開源社區的實證研究結果顯示,雪崩規模呈冪律分布,最大雪崩規模僅為18,但規模持續變大,這意味著社區處于創建期到成長期的演化階段。

開源社區;雪崩;級聯反應;Sourceforge社區

0 引言

開源社區是一種分布式開發軟件的新型社會組織形式。在開源社區中實行“集體開發、合作創新、對等評估”的開發機制,被譽為當代最先進、最具創新能力、最有成效的一種開發機制和形式。作為一種實踐中已經取得成功的新現象,對其進行正面研究,提煉成功經驗,自然是科研方向的主流。然而,科學研究不應僅僅限于總結和推廣經驗,發現潛在的風險和問題,以便未雨綢繆也是科學精神之所系。目前在開源現象研究中,很少有人關注不成功的項目[1],大家對于失敗等負面研究漠不關心。事實上,在不同的開源社區,每年都有大量的項目因為各種原因而被遺棄,有關這種問題的研究對于開源現象的健康發展具有重大的理論意義和現實意義。

本文針對當前開源現象研究的不足,以Sourceforge.net社區為實證研究對象,著眼其發展過程中的風險因素,重點研究開源項目在開發過程中遇到挫折時的風險傳遞和崩塌級聯反應,以期為開源現象的健康發展提供有價值的建議。

1 雪崩級聯故障模型

網絡上發生的雪崩現象對于網絡安全而言,是一個重大的威脅,尤其是當網絡的節點和連邊對于過載敏感的情況下,這種威脅更是突出。美國歷史上曾經在1996年夏天發生過兩次大停電事故,這些事故的發生往往是由于某個輸電環節的故障最終導致了整個電力系統的崩潰,其中,7月2日的事故起因于一座200萬千瓦的發電廠,而8月10日的事故則起因于一條潮流達到1 300MW的電線[2-3]。

一些學者對于網絡上的雪崩現象進行了研究,提出了一系列連鎖故障模型。Motter等[4]引入一個簡單的過載故障級聯模型,在這個模型里,當一小部分點甚至是單個點被移除以后,網絡上各節點的負載重新分配,那些過載的節點隨即移除并再次引起網絡剩余節點的負載調整,直至一個全局性大規模雪崩的出現。Crucitti等[5]的模型沒有考慮過載節點永久性移除,他們假設過載節點之間的通訊效率會出現衰減,并最終導致相當數量的信息或者能量從其它節點通過,這種情形下,一個節點的移除將改變節點之間最佳通訊路徑,進而影響到負載的分布,使得部分節點出現過載并進一步調整剩余節點之間的最佳通訊路徑,最終引起系統的大擁塞。Kinney等[6]運用Crucitti等提出的模型,模擬了北美電網發生的連鎖故障,結果發現高負荷節點出現故障對于整個電網系統的影響明顯高于隨機節點發生故障所帶來的影響。Carreras等[7]認為Kinney等的研究過于簡化,他們的模型考慮了電網節點的最大輸出功率和網絡連邊可承載的最大電流,研究發現模擬結果較好地吻合了上世紀北美電網大停電事故。

大規模的連鎖故障不僅僅發生在電網系統,社會、經濟以及生物界等各個領域。Bak等[8]運用元胞自動機研究了沙堆模型,模擬大規模沙崩(雪崩)的形成過程,提出了自組織臨界理論。此后,一些學者還運用自組織臨界理論研究了森林火災[9]、地震[10]、生物演化[11]以及經濟領域的市場波動[12]等問題。

開源社區是一個規模巨大的自組織系統,每天都有新的程序開發人員參與進來,或者老的人員失敗;每天都有新的項目產生,也會有失敗的項目被淘汰。這些失敗人員和失敗項目是否也會引發開源社區發生類似電力系統的連鎖故障或者沙堆的崩塌,甚至驅使系統自組織演化至臨界狀態?本文試圖對此進行實證研究。

2 實證對象的選取

2.1 實證對象選取的考量

本文實證研究選取的對象為Sourceforge.net社區。由于本文關注的焦點在于社區的演化問題,因此相關的研究數據必須能夠跨越較長時段,這就要求在研究對象選取時需要尋找那些有較長發展歷史的社區,Sourceforge.net社區正是滿足這種要求的少數社區之一。該社區從1999年創立至今,已經擁有32.4萬個開源項目,340萬開發者,每天的下載次數達到了400萬,成為當之無愧的開源運動的主陣地。

2.2 實證數據及來源

成功的項目會促進社區發展,相反的,失敗的項目會對社區發展形成拖累。本文實證研究的內容主要是開源社區上的雪崩級聯現象,研究數據主要涉及開發失敗的項目。

本文關注的失敗項目是那些停止開發項目,這些項目不發布新的文件和信息,沒有用戶下載和使用。具體的,當一個項目在一年內沒有任何新文件發布時,本文就認定其為失敗項目。由此,社區上的項目將被分為兩類,即活躍項目和失敗項目。

Sourceforge.net上提供了每個項目的基本信息,這些信息包括:項目的注冊日期、最新文件的發布日期、排名、活躍度、下載量等。其中,最新文件的發布日期將是判斷項目類別(是否為失敗項目)的直接依據。根據項目的最新文件發布日期整理以后,本文收集到的失敗項目共有52 276個(數據采集于2009年7月5日至7月12日)。

3 基于社區的雪崩動力模型

3.1 開源社區上軟件項目的崩塌級聯現象

在開源社區上,人員、知識、信息頻繁流動,各個項目之間存在千絲萬縷的聯系,從而使得社區成為一個關聯網絡。但是,緊密的連接有時候也可能會帶來負面影響。當一個項目在發展演化過程中遇到挫折的時候,會對相關聯的項目形成沖擊和影響。在系統內在的正反饋動力作用下,小的問題也可能會導致一場難以預料的大風暴,從而引發“漣漪效應”[13-14]。本文將這種漣漪效應稱為級聯效應,將其產生過程看作是雪崩動力過程。

作為大型社區組織,開源社區存在關聯性和層次性特征,項目(團隊)之間由于長時間的相互作用,逐步形成了亞文化群體。群體內,成員們通常具有相似的價值觀念、開發理念[14]。因此,當群體成員在受到某種擾動的時候,級聯效應就會在圈子內傳播,從而使得系統處于亞穩定狀態[15]。一旦擾動的影響超過某個閾值,系統的亞穩定狀態將會被打破,并由此引發較大規模的雪崩過程。

Sourceforge.net上項目的崩塌級聯現象亦常有發生,下面的例子就是其中之一。

“Lopica”、“Petra”、“Luxor Contributions”、“XUL”、“Viva”、“Luxor XUL”是SourceForge.net上的6個開源項目,它們的基本情況如表1所示。“Lopica”項目創立于2002年10月,其主要參與人員是vamp201和rosbaldeston兩位程序開發人員。其中vamp201是項目的管理者,他在掌管該項目的同時還是“Petra”、“Luxor Contributions”、“XUL”、“Viva”、“Luxor XUL”等多個項目的參與者或管理者。

表1 項目基本情況

注:*表示該成員為項目管理者;資料來源:Sourceforge.net。

通過對“Lopica”項目的郵件列表分析,發現該項目在技術細節上存在一些問題(這些問題源于開發人員的程序設計理念或習慣),所以在歷時一年后該項目于2003年10月停止開發。受此影響,vamp201獨立開發的“Luxor Contributions”和參與合作的“Petra”、“XUL”、“Viva”等項目也先后失敗,并由此導致項目“Luxor XUL”最終也難逃失敗厄運。圖1反映了上述項目相繼失敗退出社區的級聯過程,從最初的一個項目“擾動”到最終的6個項目失敗,開源社區經歷了一個項目崩塌級聯的雪崩過程。在這個過程中,程序開發人員vamp201起到了至關重要的作用。

3.2 項目崩塌級聯現象的雪崩動力

本文關注的是開源社區上的雪崩動力過程,因此分析的重點在于那些阻礙項目發展的因素。網上開源社區一般都會為開發人員和用戶等提供交流的平臺,通過郵件列表、論壇等,開發者與開發者、開發者與用戶都可以就關心的問題進行討論。通過對這些討論內容的分析,可以找到影響項目發展的各種因素和力量。本文對Sourceforge.net社區上的項目信息進行了分析和研究,運用石川圖法對這些因素進行了整理如圖2所示。

?:開發人員;○:項目;→:級聯傳遞圖1 項目崩塌級聯效應Fig.1 The avalanche dynamics about collapsed projects

圖2 阻礙項目發展的因素分析Fig.2 Analysis of factors hindering the development of the project

由圖2可見,影響開源項目發展的力量可以歸結為兩類因素:技術因素和人員合作因素。軟件是一種相互依存度很高的產品,比如,應用軟件需要在系統軟件上運行,獨立的軟件需要中間件來進行連接,如此形成的軟件網絡才可以提供有效的功能。因此,從技術角度看,一個缺乏配套和支持的孤立項目是很難獨自生存和發展的。由于軟件存在上述緊密關系,當其中任何一個環節出現問題的時候,其他相關軟件都會或多或少地受到影響。一旦這種影響超過了某個閾值,項目就會存在失敗的風險。此外,軟件作為一種典型的知識產品,其更新速度很快,當新的技術出現以后,原有的落后技術就會面臨淘汰的危險。

軟件產品的開發通常要由多人合作完成,在長期的合作過程中,開發人員會形成共同的設計理念、共享的知識體系,會形成相似的開發技巧和程序編寫習慣,會形成合作生產的協同效應。當外部因素影響到上述合作基礎,諸如:團隊成員流失、開發者動機轉移、合作管理失敗或者受到新的設計理念沖擊,項目開發就有可能會因此而失敗。事實上,人員合作因素導致的項目失敗常有發生。由于開發者意見分歧而出現“分叉”已經成為項目發展的主要障礙之一;開發人員動機的變換甚至離去對項目發展構成致命打擊[15];合作開發形成的技術路徑依賴不僅會在面對新技術沖擊時表現脆弱,而且還會將這種影響在群體內廣泛傳播。

在技術和人員合作兩類因素的作用下,開源社區上項目之間的雪崩級聯關系主要表現為兩種模式,即技術關聯模式和合作關聯模式。

3.3 崩塌級聯的技術關聯模式

如前所述,軟件項目之間會因為技術關聯而形成一個軟件群體。這個群體通常以某個核心軟件為中心,以配套軟件為輔助,表現出網狀結構。一般地,處于中心位置的項目往往是某個用戶認可度高的軟件,其他一些外圍項目則為核心項目提供支持和擴展功能。

eMule是用戶比較熟悉的一個開源項目,俗稱“電騾”。該項目創立于2002年5月13日,起初僅僅是因為一個電腦黑客Merkur對原始的eDonkey2000(電驢)客戶端感到不滿而開發的項目。但是,項目創立之后迅速吸引了很多優秀的開發人員,取得了巨大的成功。由于eMule是基于GNU通用公共許可證發布的開源軟件,任何組織和個人都可以在遵守GNUGPL的基礎上下載使用eMule的源代碼,對eMule進行修改并發布,于是便有了很多eMule修改版。其中比較知名的包括:eMule Xtreme,eMule Magic Angel,ScarAngel Mod,NeoMule,這些項目都集中在SourceForge.net社區。由此,這些軟件項目便形成了以eMule為核心的項目群體(見圖3)。

可以設想,假如一個新的技術(項目)出現,導致eMule遭到淘汰,那么其他相關的外圍項目必定也難以獨善其身。由此,便會從一個原發項目開始,沿著技術關聯網絡發生項目的崩塌級聯現象。直觀地看,這樣的技術關聯性雪崩可能會在局部范圍內廣泛傳播,但其涉及深度卻要受到技術關聯縱深程度的影響。

3.4 崩塌級聯的合作關聯模式

在開源社區上,軟件開發項目通常由多個程序設計人員合作完成。在這些開發者中,有一部分人員參與了多個項目。這樣一來,軟件項目之間就產生了合作關聯關系。圖4a作了適當的簡化,假設有兩個項目A,B,它們分別由3個程序設計人員合作開發。其中,人員c同時參與項目A和B的開發工作。

假設某一時刻,c由于動機缺失,離開了社區,那么這一事件分別會對A,B兩個項目開發團隊產生沖擊。如果c是兩個項目的主要貢獻人員或者管理者,那么他的離去勢必對兩個項目的開發工作造成重大影響,甚至直接導致項目失敗。即使c僅僅是普通開發人員,他的離去也會使得原有的分工體系遭到破壞,其他開發人員需要承擔起c離去所造成的“空缺”。這種情況會嚴重影響項目開發進程,此時如果再遇到競爭對手(項目)的“進攻”,失敗淘汰已無懸念。圖4b反映了c的離去對a,b和d,e產生影響,這種影響發生在項目內部,本文稱之為內部效應;在內部效應作用下,項目A和B均停止了開發工作,由此便會顯示出本次雪崩過程的級聯效應(A,B兩個項目先后失敗),如圖4c所示。

圖3 eMule的技術關聯網絡Fig.3 The technical co-relation network of eMule

圖中項目或者開發人員變為陰影即表示受到影響。圖4 合作關聯情形下開發者離去引發的級聯效應

項目開發人員離去顯然會對項目造成影響,但除此之外,團隊協作出現問題也會導致上述級聯效應。圖5中的項目A和B各擁有3名開發人員,其中b和c分別參與了A和B的開發工作。如果b,c在協作開發過程中產生矛盾或分歧,那么這種情形將會影響到兩個項目的發展,其結果就表現為項目A和B的崩塌級聯,如圖5b。

另外一種由合作關聯所引致的級聯效應是源于群體行為模式的解體。人們在長時間的工作和互動過程中,會自發地形成一定的群體規范和行為模式[16-17]。在開源社區上,那些具有共性特征的項目結成連接緊密的社團結構[18],社團內的項目在開發技術、設計理念等方面具有較強的一致性[18-19]。當受到外部技術、開發模式等因素影響時,就會在社團內部形成連鎖反應。這種反應通常是藉以開發人員的合作關系而傳遞,因而也是合作關聯所引發的一種級聯效應。

圖6反應了合作關聯情形下,當群體行為模式(如開發技術)發生改變時,項目之間的崩塌級聯反應。在開始階段,開發人員a改變了自己的開發技術(見圖6a),這種改變對項目A內部的所有成員形成了沖擊,并最終影響到項目A的開發質量和進程(見圖6b)。在這個過程中,開發者c作為A的成員受到了影響,但他同時又是項目B的成員,因此他將這種影響帶到了項目B團隊,并最終影響到項目B的開發質量和進程(見圖6c)。

圖5 合作關聯情形下協作失敗引發的級聯效應

圖6 合作關聯情形下群體模式解體引發的級聯效應

3.5 崩塌級聯的混合關聯模式

前文分析了開源社區上崩塌級聯的技術關聯模式和合作關聯模式,分別討論是由于兩者機理不同,但是在現實中,雪崩級聯在傳播時不會對此加以區分。因此,本文認為開源社區上的雪崩傳播是基于兩種關聯模式的混合。

圖7中,項目A由a,b合作開發,項目B由b,c合作開發,b是兩個項目的共同參與人。項目C由d單獨開發,它與B存在技術關聯(見圖7a)。假設開發者b的動機發生轉變,并先后導致了項目A和B停止開發;而C在技術上要受B影響,因此B的失敗又導致C的淘汰。由此便引發了A,B,C 3個項目先后淘汰的連鎖反應。在這個級聯反應中,A,B級聯源于合作關聯,B,C級聯源于技術關聯。從整體上看,A,B,C級聯則對應于混合關聯(見圖7b)。

4 實證方法設計與模型的有效性檢驗

4.1 雪崩規模的度量方法

在開源社區上,關聯項目之間存在崩塌級聯關系,那么由此導致的雪崩及其規模如何進行度量?我們知道,針對沙堆模型進行的實驗,可以通過控制外部沙粒流入沙堆系統的速度,從而清晰地觀測出每次雪崩的規模[20]。但是在開源社區上,幾乎每天都在發生著項目坍塌事件,不可能對每次雪崩都進行跟蹤研究。

回到沙堆模型,假如在實驗中只能夠觀測到沙粒的崩塌結果,而無法獲知其發生過程,那么應該怎樣對數據進行處理?圖8是沙盤在某個時點的快照,在此時點上有7粒沙子落在沙盤上。根據BTW模型所作的假設,沙粒的每次脫落都會掉入相鄰點位。因此,相鄰點位的沙粒通常是一次雪崩的結果。從圖8的情形來看,有可能發生了4次雪崩,分別是{1,2},{3,4,5},{6},{7},雪崩規模依次為2,3,1,1。當然也有可能是發生了5次雪崩,分別是{1,2},{3,4},{5},{6},{7},沙粒5是一次獨立雪崩的結果,其恰好落在了沙粒4的點位上。那么圖8究竟是多少次雪崩的映射結果?我們考慮,如果沙盤的面積足夠大,那么作為一次獨立雪崩的沙粒5就很難巧合地落在沙粒4的點位上,從而形成偽關聯的情況。因此,當沙盤面積較大時,就可以用第一種方案,即4次雪崩來近似地反映雪崩結果。

在開源社區上,項目數量極大,兩次獨立的項目失敗事件發生偽關聯的可能性極低,所以本文就近似地將失敗項目的所有關聯項目看作是一次雪崩的結果。

圖7 混合關聯情形下的級聯效應

圖8 雪崩規模度量的沙盤模型

4.2 開源社區雪崩規模的度量

按照本文提出的雪崩規模度量方法,文章對混合關聯模式下的雪崩規模進行分析。當某個項目失敗后,考察它的混合關聯項目,如果關聯項目也為失敗狀態,就認定他們之間存在傳遞關系,即它們處于同一個雪崩過程。

基于混合關聯網絡,本文對收集的52 276個失敗項目進行了分析處理。結果發現,最大的雪崩規模為6 477,此次雪崩牽涉到的項目占整個項目數量的12.39%;規模為1的雪崩次數最多,達到了28 364次。從總體上看,雪崩規模的分布極不平均。圖9顯示,除最大規模的雪崩之外,其他雪崩的規模分布在雙對數坐標軸上呈現為一條直線。

以上分析結果中,有一個問題需要特別指出。從圖9可以明顯看出,最大的雪崩規模6 477遠遠偏離了規模分布曲線。事實上,通過直觀的判斷也可以發現,一次雪崩的規模達到6 477是不符合客觀實際的。那么是什么原因造成了這種錯誤的出現呢?

本文依然希望可以通過分析沙堆實驗來找到答案。傳統的沙堆實驗進行的是縱向數據分析,每一次雪崩過程被單獨剝離完整記錄[20]。現在假如只能通過快照記錄下相隔時點上的雪崩過程,情況就會有所不同。在每個時點上,人們所能觀察到的都是歷史數據,第n次雪崩和第n+1次雪崩的結果可能會在同一個區域發生重疊,這樣一來觀測數據實際上就是多次雪崩過程的總和,從而使得觀測數據所反映的雪崩規模遠大于真實情形。解決這個問題需要引入時間控制變量,明顯地,一次雪崩過程在相鄰沙粒之間的傳遞必然是在較短時間內完成的。如果能夠對沙堆實驗中每次雪崩過程的傳遞時間做出合適的限定,那么對快照這種橫向數據進行分析,依然可以還原出沙堆雪崩過程的真實情況。

這里對于開源社區的分析,同樣是采用增加時間限定的方式,對真實的項目雪崩傳遞過程進行還原。具體地,選擇何種時間尺度作為限定標準,必須充分考慮實際情況。時間過長將會增加噪聲,過短則會將真實的雪崩級聯過程中斷。因此,在確立限定時長標準的時候,就應該盡可能短一些,以有效剔除噪聲。具體地,時長標準只要能夠涵蓋一次雪崩傳遞過程即可。按照這個要求,本文以項目更新周期為時長標準。

本文按照項目排名進行了分層隨機抽樣,抽取了40個項目,其中排名在0~1 000之間的項目12項,1 000~10 000之間的項目11項,10 000~100 000之間的項目11項,排名在200 000以后的項目6項。針對隨機抽取的項目,考察了它們的版本控制系統(CVS或者SVN)中有關文件更新的統計信息——“Total Files Updated”。從樣本數據看,絕大多數項目的更新周期都比較短,在兩個月以內有更新的項目占比達到了81.5%,最長的周期為5個月。故此本文選取6個月(180天)作為限定時長。

增加了時間限定之后,重新對項目進行了分析處理。此時,最大的雪崩規模為18,規模為1的雪崩次數則達到了42 941,占比為82.1%。總體上,雪崩規模的分布情況依然滿足冪律(見圖10)。

4.3 雪崩動力模型有效性檢驗

項目雪崩通過合作關聯網絡和技術關聯網絡傳遞,從而發生級聯效應,只是一種理論分析和假設,它是否與實際相符還需要進行有效性檢驗。

如果項目關聯關系確實會引發雪崩的傳遞,那么真實的項目雪崩規模相對于隨機崩塌導致的雪崩規模而言,必然會表現出更強的關聯性特征。基于這樣的假設,本文引入與真實崩塌規模相同的隨機崩塌事件。本文從152 402個樣本數據(項目)中隨機選取52 276個,作為崩塌(失敗)項目。基于混合關聯網絡,考察這些隨機選取項目之間存在的關聯,并作為雪崩規模的衡量。如果隨機崩塌對應的雪崩規模大于或者接近等于真實發生的崩塌規模,那么就意味著本文提出的關聯模式并不是引起雪崩傳遞的內在機制,即無法通過有效性檢驗。相反,如果隨機崩塌對應的雪崩規模顯著小于真實發生的崩塌規模,那么就說明該關聯模式確實是引起雪崩傳遞的內在機制,有效性檢驗成立。

圖9 混合關聯模式下雪崩規模分布

圖10 混合關聯模式下引入時間限定后的雪崩規模分布

最大雪崩最小雪崩最小雪崩占比平均規模標準差Real18182.141.120.472Rand16198.001.020.170Rand26197.801.020.175Rand36197.801.020.170Rand44197.901.020.162Rand55197.801.020.172Rand65197.701.020.173Rand74197.701.030.173Rand87197.901.020.172Rand95198.001.020.163Rand106197.801.020.179

本文用計算機仿真程序進行了10次隨機模擬,結果如表2所示。

數據顯示,混合關聯模式下實證所得的雪崩最大規模為18,10次仿真中雪崩的最大規模為7,平均最大規模為5.4,兩者差異明顯。從雪崩的最小規模角度看,實證結果中規模為1的雪崩占比為82.1%,而隨機仿真對應的規模為1的雪崩占比則高達97.8%。顯然,隨機仿真的結果與實證結果差異較為顯著,因此本文提出的基于混合關聯模式的雪崩傳播假設能夠通過有效性檢驗。

5 實證結論與發現

5.1 實證研究方案設計

有效性檢驗的結果表明,項目混合關聯關系確實是影響雪崩傳播的重要模式,因此可以基于混合關聯網絡對開源社區上的雪崩動力行為進行實證研究。

對開源社區上的項目雪崩過程進行分析研究,除了要去除干擾數據分析的雜聲之外,還要有科學的方法對結果進行準確衡量。本文在之前部分已經粗略介紹了雪崩過程相關數據的收集整理方法。由于真實環境下,人們能夠收集的數據是一些截面數據,它們只是真實情況在不同時點上的快照。要對真實雪崩過程進行還原,必須對相關問題進行深入理解。

在沙堆實驗中,可以收集到每次雪崩的完整過程,這些獨立的雪崩過程都有一些共同特點[8,20]:1)崩塌傳遞的時空相關性。這就是說,每次的沙粒崩塌都是在相鄰區域之間、在相隔時間之內傳遞。空間的相關性是本文選取混合關聯模式進行雪崩動力模型研究的基礎,時間相關性是本文選取“時間限定”約束有效過濾噪聲的理論基石。2)崩塌傳遞過程的完整性。每一次雪崩過程都有開始、持續、終結等幾個完整的階段,這是本文進行定量研究的衡量尺度。雪崩的規模事實上就是從第一個移動的沙粒開始,直至整個崩塌傳遞完成所涉及到的所有沙粒。在開源社區的雪崩過程分析中,每一次雪崩都由一個失敗項目開始,到最后一個關聯項目失敗結束。在對截面數據進行分析時,需要注意:截止到研究時點所形成的雪崩規模未必是真實的雪崩規模,因為在下個時點雪崩過程可能還會繼續,雪崩規模可能也會隨之發生改變。這就要求我們在對數據進行處理的時候,需要剔除掉這些尚未終止的雪崩過程。

本文在對Sourceforge.net社區上的數據進行實證研究時,以半年(180天)為時間間隔,連續提取相應雪崩過程的截面數據。接下來,對這些不同時點上的截面數據進行比較,進而確定有效數據。具體的方法是:比較某時點與上個時點的雪崩過程快照數據,如果某次雪崩結果在兩個時點上一致,則意味著該次雪崩已經終止,或者說該數據反映了一個完整的雪崩結果。

5.2 實證研究結果分析

表3 雪崩規模的擬合結果

通過實證研究發現,開源社區的雪崩規模分布具有兩個特點:

1)規模的分布不均勻。從實證結果看,雪崩規模呈現有偏(右偏)分布,其Skewness值為6.48,Kurtosis值為82.37。雪崩規模的分布接近于冪次函數,結果如表3所示。

2)社區演化過程較為穩定。為了研究社區演化的動態變化規律,本文以1年為時間單位,研究了雪崩規模分布的變化情況。由此得到了8組有關雪崩規模分布的截面數據(見表4)。

表4 雪崩規模分布的截面數據

表5是8組截面數據分析的結果。從表中可以看出,最大雪崩規模持續、穩定地增長,冪指數大致上穩定在-3.9上下。

表5 雪崩規模分布的時間演化

5.3 實證研究的發現與結論

實證研究的結果表明,社區上項目之間基于混合關聯關系,通過級聯效應使得雪崩規模呈現出冪律分布。但是,最大雪崩規模僅為18,相對于項目總數152 402來說是一個非常小的數字,這意味著社區系統還遠未達到臨界狀態。1)社區尚未達到臨界狀態。判斷一個SDIDT系統是否達到自組織臨界狀態,需要看臨界性參數的數值[21]。在沙堆系統中,這樣的臨界性參數是沙堆的斜率,當斜率達到某個數值時,沙堆系統進入自組織臨界狀態[8]。此時,系統將具有各種尺度的雪崩規模。鑒于大規模雪崩與臨界態伴生的事實,本文主要通過研究雪崩規模來近似地判斷系統的演化狀態。前文的實證研究數據顯示,在Sourceforge.net社區上,當前發生的最大雪崩規模僅為18,僅相當于項目總數152 402的萬分之一,根本算不上是大規模雪崩。另一方面,從最小雪崩規模1到最大雪崩規模18,它們基本上處于一個尺度之下,因此也談不上無尺度問題。據此,本文認為,當前Sourceforge.net社區尚未達到臨界狀態。

2)社區將趨向于臨界態,并且正處于這樣的成長階段。系統在向臨界態發展的過程中,存在著不同的階段。借用生命周期的概念,可以將這些階段分為創建期、成長期、成熟期和衰退期[22],這4個階段的劃分可以依據臨界參數或者最大雪崩的規模。在系統的創建期,臨界參數增長很快,但最大雪崩的規模相對于總體而言非常之小。隨著系統進入成長期,臨界參數的增長速度放緩,最大雪崩的規模逐漸變大。到了成熟期以后,臨界參數穩定到臨界值附近,系統進入臨界狀態,此時系統中將存在各種大小的雪崩規模。這種臨界狀態將會持續很長一段時間,直到大規模雪崩的出現足以撼動系統的根基為止,此時系統進入了衰退期階段。筆者通過模型仿真研究,發現社區可以自發地向臨界狀態演化,而實證研究的結果印證了社區當前正處于創建期到成長期的過渡階段。

6 結語

對于一個可以自發達到臨界狀態的系統而言,大事件和小事件都是由相同的因素引起的,并沒有特別的“大”因素。如果系統處于臨界狀態,則任何規模的雪崩都會發生。這說明大規模雪崩的出現“純屬偶然”,并無其他的特殊因素,因此是不可預測的。模擬研究表明,對于這樣的系統如果采取強制的干預措施,就會適得其反[23]。開源社區作為一個典型的自組織演化系統,其產生和發展正是源于各種各樣的因素,大的、小的力量共同匯集,推動社區不斷走向成熟,直至達到臨界狀態,從而使得社區展現出豐富多彩的多樣性特征和充滿激情的創造活力。對于這樣的系統,人為干涉不遜于拔苗助長,對社區成長反而有害無益。

[1]Michlmayr M. Quality Improvement in volunteer free and open source software projects: exploring the impact of release management [D]. Cambridge: University of Cambridge, 2007

[2]Carreras B A, Newman D E, Dobson I, et al. Initial evidence for self-organized criticality in electric power system blackouts[C]//Proceedings of the 33rd Annual Hawaii International Conference on System Sciences IEEE. Hawaii, 2000: 6.

[3]Sachtjen M L, Carreras B A, Lynch V E. Disturbances in a power transmission system[J]. Phys Rev E, 2000,61(5):4877.

[4]Motter A E, Lai Y C. Cascade-based attacks on complex networks[J]. Phys Rev E, 2002, 66(6): 065102(R).

[5]Crucitti P, Latora V, Marchiori M. Model for cascading failures in complex networks[J]. Phys Rev E, 2004, 69(4): 045104 (R).

[6]Kinney R, Crucitti P, Albert R, et al. Modeling cascading failures in the north american power grid[J]. The European Physical Journal B-Condensed Matter and Complex Systems, 2005, 46(1): 101-107.

[7]Carreras B A, Lynch V E, Dobson I, et al. Critical points and transitions in an electric power transmission model for cascading failure blackouts[J]. Chaos, 2002, 12(4): 985-994.

[8]Bak P,Tang C,Wiesenfeld K. Self-organized criticality [J]. Phys Rev A, 1988, 38(1):364:374.

[9]Bak P,Chen K,Tang C. A forest-fire model and some thoughts on turbulence[J]. Physics Letters A,1990,147(5-6):297-300.

[10] Olami Z,Feder H J S,Christensen K. Self-organized criticality in a continuous, nonconservative cellular automaton modeling earthquakes[J]. Physical Review Letters,1992,68(8):1244-1247.

[11] Bak P,Sneppen K. Punctuated equilibrium and criticality in a simple model of evolution[J]. Physical Review Letters,71(24): 4083-4086.

[12] Bak P, Chen K, Scheinkman J A, et al. Aggregate fluctuations from independent sectoral shocks: self-organized criticality in a model of production and inventory dynamics[J]. Ricerche Economiche,1993,47(1):3-30.

[13] Jensen C, Scacchi W. Process modeling across the web information infrastructure[J]. Software Process-Improvement and Practice, 2005, 10(3):255-272.

[14] Scacchi W. Free/open source software development: recent research results and methods[J]. Advances in Computers, 2007, 69: 243-295.

[15] Katsamakas E, Georgantzas N C. Open source software development: a systems dynamics model[DB/OL].[2014-01-02].http://www.systerndynamics. org/conferences/2007/proceed/proceed/papers/KATSA472.pdf.

[16] Pan X D, Feng J Y, Yang J M. Research on the evolution of corporate culture based on naming game [C]//2008 ISECS International Colloquium on Computing, Communication, Control, and Management. Guangzhou, 2008, 1: 659-663.

[17] 潘向東,楊建梅. Naming Game 模型的研究進展及應用[J]. 復雜系統與復雜性科學,2009,6(2):87-92. Pan Xiangdong,Yang Jianmei. A survey of the development and application of naming game model[J]. Complex Systems and Complexity Science, 2009, 6(2):87-92.

[18] Xu J,Christley S,Madey G. The open source software community structure [DB/OL].[2014-01-02].http://researchgate.net/publication/237940105_The_Open_Source_Software_Community_Structure.

[19] González-Barahona J M, López L, Robles G. Community structure of modules in the apache project[C]//Proceedings of the 4th Workshop on Open Source Software Engineering. 26th International Conference on Software Engineering. Edinburgh, Scotland, UK, 2004.

[20] Held G A,Solina D H,Solina H, et al. Experimental study of critical-mass fluctuations in an evolving sandpile [J].Physical Review Letters, 1990, 65(9):1120-1123.

[21] Jensen H J. Self-Organized Criticality: Emergent Complex Behavior in Physical and Biological Systems [M]. Cambridge: Cambridge University Press, 1998.

[22] Lattemann C, Stieglitz S. Framework for governance in open source communities[C]//Proceedings of the 38th Annual Hawaii International Conference on System Sciences. IEEE, Hawaii, 2005: 192a.

[23] Malamud B D,Morein G,Turcotte D L. Forest fires: an example of self-organized critical behavior [J]. Science, 1998, 281(5384):1840-1842.

(責任編輯 李進)

Empirical Study of Avalanche Dynamics on Open Source Community: the case of Sourceforge.net

PAN Xiangdong1,2,3, YANG Jianmei2, BAI Hua2

(1.Postdoctoral Programme of China Industrial Economic Security Research Center of Beijing Jiaotong University, Beijing 100044, China; 2.School of Business Administration of South China Universityof Technology, Guangzhou 510641, China; 3.Hebi Development and Reform Commission, Hebi 45030, China)

To verify avalanche dynamics of open source community, the paper offers an empirical study on SourceForge.net, which is the largest open source community in the world. It researches risk transfer between projects and the cascading phenomenon, finds there are two kinds of mechanisms, through which to transfer risk and trigger an avalanche, they include technical co-relation and cooperative co-relation. We measure the distribution of the avalanche size on the Sourceforge.net. The results show that the avalanche sizes follow power law distributions and the maximum size is only 18. However, based on the analysis of the dynamic evolution results of the cross section data, we find that the maximum massive avalanche size continues to get bigger, which means that Sourceforge.net is evolving into the growth stage.

open source community; avalanche; cascade; Sourceforge. net

1672-3813(2015)04-0061-10;

10.13306/j.1672-3813.2015.04.009

2014-02-08;

2014-09-18

國家自然科學基金項目(71273093)

潘向東(1976-),男,河南焦作人,博士,主要研究方向為產業經濟與復雜系統理論。

楊建梅(1946-),女,陜西富平人,博士,主要研究方向為復雜系統理論與產業經濟。

N945.25

A

猜你喜歡
關聯研究
FMS與YBT相關性的實證研究
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
“一帶一路”遞進,關聯民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
EMA伺服控制系統研究
奇趣搭配
新版C-NCAP側面碰撞假人損傷研究
主站蜘蛛池模板: 视频二区亚洲精品| 国产美女自慰在线观看| 国产福利影院在线观看| 一级毛片无毒不卡直接观看| 亚洲最大在线观看| 成年人午夜免费视频| 99视频全部免费| 国产精品微拍| 亚洲水蜜桃久久综合网站| 不卡午夜视频| 在线观看国产精品日本不卡网| 国产精品免费久久久久影院无码| 国产日韩欧美精品区性色| 国产小视频a在线观看| 国产91av在线| 激情無極限的亚洲一区免费| 免费在线播放毛片| 天天操天天噜| 亚洲精品无码久久毛片波多野吉| 欧美日韩中文字幕在线| 精品自窥自偷在线看| 在线亚洲小视频| 性做久久久久久久免费看| 久久99国产综合精品1| 精品小视频在线观看| 亚洲精品欧美日本中文字幕| 伊人婷婷色香五月综合缴缴情| 国产精品久久久久久影院| 99久久无色码中文字幕| 国产簧片免费在线播放| 国产97视频在线| 亚洲无码91视频| 高清无码手机在线观看| 97国产精品视频自在拍| 亚洲日本中文字幕乱码中文| 99久久精品免费看国产电影| 亚洲首页在线观看| 999精品在线视频| 十八禁美女裸体网站| 日本久久免费| 国产美女自慰在线观看| 在线国产毛片手机小视频| 尤物特级无码毛片免费| 色AV色 综合网站| 国产综合网站| 欧美a级完整在线观看| 婷婷色婷婷| 亚洲日本中文综合在线| 国产精品一区二区国产主播| 高清无码一本到东京热| 久久成人免费| 最新国产网站| 国产一区二区三区精品欧美日韩| AV无码国产在线看岛国岛| 一级毛片免费不卡在线| 影音先锋亚洲无码| 久久国产热| 久久精品中文无码资源站| 丁香婷婷激情综合激情| 日韩天堂视频| 狠狠色香婷婷久久亚洲精品| 极品国产在线| 免费AV在线播放观看18禁强制| 国产精品成人免费视频99| 久久国产精品国产自线拍| 国产精品专区第1页| 3p叠罗汉国产精品久久| 粉嫩国产白浆在线观看| 色婷婷天天综合在线| 国产无码高清视频不卡| 亚洲无码电影| 91福利在线看| 天天躁狠狠躁| 国产精品手机在线播放| 国产在线自乱拍播放| 国产96在线 | 免费一级全黄少妇性色生活片| A级全黄试看30分钟小视频| 国产欧美成人不卡视频| 日本亚洲欧美在线| 久久精品国产999大香线焦| 人妻无码中文字幕一区二区三区|