秦可欣 李海剛
(上海交通大學 安泰經濟與管理學院,上海 200030)
眾包是企業和組織通過公開征集的方式,將原本由內部員工完成的工作,外包給社會大眾群體來解決和承擔。研究表明,在創新性和顧客利益方面,大眾產生的想法甚至會優于內部專家,因此眾包模式為企業提供了有價值的知識補充。近年來,開放式創新正在逐漸成為企業創新的主導模式,推動企業通過眾包獲取有創意的想法和解決方案。
虛擬社區以計算機網絡技術為基礎,強調社區成員之間的互動、交流與聯系,進而建立友好的關系。在眾包虛擬社區中,成員之間持續且高效的知識共享行為是促進社區繁榮發展的重要因素,但并非所有社區成員都愿意積極主動地貢獻知識,用戶知識共享的數量和質量仍是阻礙虛擬社區可持續發展的一大挑戰,因此探究眾包社區中用戶知識共享行為的影響機理具有重要的意義。
已有對虛擬社區知識共享的實證研究主要集中在探究用戶知識共享和信息交換過程的影響因素。Yu et al.研究了社區文化與用戶知識共享行為的關系,他們指出社區資源分配公平、互動過程公平和人際交互公平能夠提升用戶滿意度。黃維將虛擬社區中用戶參與知識共享的動機分為內部和外部動機兩方面,內部動機包括自我價值感知、利他動機、社區認同和感知優勢等,外部動機主要指聲譽、外部獎勵和社會支持等變量。另外有研究表明,個體特征也是影響用戶知識共享行為的重要因素。Zhang et al.研究發現用戶自我效能、知識共享經歷和個人使用社區的習慣與用戶知識共享行為呈正向相關關系。
眾包模式的普及逐漸吸引了學術界的關注,國內外學者從社會學、管理學和心理學等角度對眾包社區相關問題開展研究,研究焦點主要體現在用戶參與動機和眾包績效兩個方面。關于用戶參與動機,Lakhani和Panetta對全球知名創新眾包網站InnoCentive上具有項目成功經驗的用戶進行了調研,通過特征統計分析發現樣本用戶大都具備相關專業的博士學位,而且獲取獎金和滿足感是這部分用戶的主要參與動機。在眾包績效方面,Frey的研究表明,內在動機影響實質性貢獻的數量,外在動機影響非實質性貢獻的數量,而參與者個體的知識多樣性無論是對實質性貢獻還是對非實質性貢獻都有正向作用。
用戶在網絡社區中的發帖、回帖行為,是用戶間進行信息交互和知識共享的重要方式,而社會網絡分析關注的是人們之間的互動和聯系,因此從社會網絡視角研究在線社區,對理解用戶個體行為和推動虛擬社區治理都很有意義。國內外學者基于弱連接強度、小世界模型和隨機圖理論等社會網絡分析方法,對用戶網絡結構特征、個體節點屬性以及節點間的交互影響進行了大量實證研究。Ahn et al.對在線互聯網社區Cyworld進行度分布、聚類系數、平均路徑長度等網絡特征分析,證明人際關系網絡具有小世界和冪律分布特性。Girvan et al.的研究發現網絡用戶在互聯網社區中傾向于形成具有強聯接的社團結構。
總體而言,國內外研究者對虛擬社區中用戶關系網絡的結構特征和網絡演化開展了大量研究,但少有學者探究網絡結構生成的影響機制。此外,雖然有研究表明個體特征與用戶知識共享行為之間存在一定關聯,綜合考慮用戶特征屬性和網絡結構特征對在線社區用戶知識共享行為的交互影響幾乎未被研究。
本研究分析了知識共享網絡中三種關系生成機制的作用,即優先連接、三元閉包和互惠性。優先連接機制研究的是知識共享網絡中用戶的全局結構(如度數、吸引力)會如何影響回帖關系的建立;三元閉包機制研究的是知識共享網絡中用戶的局部結構(如一階鄰居和二階鄰居)如何影響回帖關系的生成;互惠性是指知識共享網絡中用戶互相回帖的傾向性。
優先連接機制是指網絡中具有高度數的節點間更傾向于建立聯系,它解釋了社交網絡和信息網絡中關系的形成,包括科研合作網絡、供應鏈網絡和微博用戶互動網絡等。另外,已有實證研究表明,節點的度數和吸引力都會影響其接受連接的概率。在眾包社區的知識共享網絡中,節點的入度/出度意味著用戶收到回帖/給他人回帖的數量,節點的吸引力是指用戶在眾包社區中的影響力。因此,本研究提出以下假設:
H1a:大量給他人回帖的用戶更容易獲得其他用戶回帖。
H1b:影響力越大的用戶越容易獲得其他用戶回帖。
三元閉包是網絡最基本的局部結構和重要的關系生成機制。在許多網絡中,如果節點i與節點j相連,節點j與節點k相連,那么節點i很有可能與節點k相連。Peng研究發現,三元閉包機制與引文網絡中鏈接生成的概率有正相關關系。Romero et al.對Twitter中的用戶關注關系進行研究,證明了三元閉包對在線社區中有向網絡連接的形成有重要影響。在許多研究中,三元閉包也被稱作傳遞閉包。眾包社區中的知識共享網絡是一種有向網絡,用戶間可以進行知識傳遞和交流。因此,本研究提出以下假設:
H2:知識共享網絡具有傳遞性
在社會交換理論中,互惠性意味著任何獲得幫助的人都應該回報他人。社交群體中的成員更愿意幫助那些使他們受益的人。研究表明,具有高互動性感知的在線社區用戶更愿意主動進行知識共享。在眾包社區中,互相回帖有助于促進用戶間的知識共享和合作、提高用戶的持續參與意愿。因此,本研究提出以下假設:
H3:用戶傾向于互相回帖
國內外學者對用戶節點屬性和網絡連接形成的關系做了廣泛的研究。宋曉龍研究表明,同質性對在線健康社區中朋友關系的形成具有顯著影響。Song et al.分析了虛擬社區中用戶聲望對點贊關系形成的促進作用。左賢莉驗證了用戶的情感傾向與回帖關系之間有顯著相關性。
用戶的參與水平主要體現在參與程度和價值貢獻兩個維度,高參與度用戶在社區中經常提供信息、分享信息、積極參與社區互動。已有研究表明,虛擬社區中用戶的參與水平對知識共享有顯著正向影響。在眾包社區中,用戶的等級和活躍度是其參與水平的體現。因此,本研究提出以下假設:
H4a:等級越高的用戶會獲得更多其他用戶回帖。
H4b:活躍度越高的用戶傾向于向他人回帖。
同質性是指網絡中在某些方面有相似性的節點間更容易建立聯系,國內外學者對此進行了廣泛的實證研究,如種族同質性、教育同質性、社會經濟地位同質性等。Thelwall通過研究在線社交網站MySpace中同質性對用戶參與行為的影響,發現在價值觀、年齡、婚姻狀態和加入MySpace的原因等方面,同質性對用戶間互相交流有顯著影響,而性別同質性并未得到驗證。考慮到現實世界與虛擬社區的不同,同質性對眾包社區中知識共享網絡的鏈接形成也會有不同的影響。因此,本研究提出以下假設:
H5:相同地域的用戶更易形成回帖關系。
用戶在社區中的經歷和經驗會影響未來的參與行為。具有高聲望的用戶更有可能獲得更多的社會資源和他人的信任。在社會學理論中,這也被稱作“馬太效應”,即先前獲得過認可的人比后來者更易獲得信譽。與聲望類似,高人氣意味著來自他人的喜愛和對能力的認可。因此,本研究提出以下假設:
H6:人氣越高的用戶傾向于獲得更多回帖。
本研究選取Kaggle.com作為研究對象。Kaggle成立于2010年,是全球最大的數據挖掘和機器學習競賽平臺,舉辦了300多場數據競賽,各大公司和非營利性機構都在Kaggle上發起過競賽,是典型的眾包平臺。每一個數據競賽下都設有“Discussion”板塊,參賽者可以在此通過發帖與回帖的方式進行交流。競賽設有開始日期和截止日期,開始日期是報名和組隊的最后期限,截止日期是最后可提交模型及數據結果的日子。根據競賽中的兩個時間節點,本文將發帖-回帖行為按照時間線分為三個階段:1)準備階段,從競賽發布到組隊報名截止的階段;2)提交階段,在此期間,參賽者可以重復提交數據和模型;3)討論階段,競賽結束后,用戶通常會互相討論競賽結果和參賽心得。由于不同階段用戶關注和討論的話題有所不同,參與發帖-回帖行為的動機可能存在差異,因此本文將把眾包競賽劃分為不同階段來探究知識共享網絡的影響機理。
本研究的數據來源是Kaggle平臺中已結束的競 賽 “Santander Customer Transaction Prediction”,收集了“Discussion”板塊中所有發帖和回帖信息以及相關用戶的屬性數據。在剔除了屬性不完整的用戶數據后,最終得到908名用戶和3753條發帖-回帖關系,圖1是網絡整體的拓撲結構。根據時間節點對發帖-回帖關系進行劃分,分別構建了準備階段、提交階段和討論階段的知識共享網絡。三個階段的網絡均為有向網絡,如果用戶i向用戶j回帖,那么網絡中就會建立一條從i指向j的有向連接。

圖1 知識共享網絡
根據研究假設,本文獲取的用戶節點屬性包括用戶等級、發帖/回帖總數、地域和被關注數。用戶等級為分類變量,每一個等級為一類,等級是用戶在平臺中參與程度和貢獻價值的綜合體現。發帖/回帖總數=發帖數+回帖數,是連續變量,反映了用戶在“Discussion”板塊的活躍度和積極性。地域為分類變量,每一個國家為一類。被關注數為連續變量,是用戶被其他用戶關注的人數,表現了用戶在平臺中的受歡迎程度,用以衡量人氣。由于發帖/回帖總數和被關注數的方差較大,不便于直接代入模型進行驗證,根據已有研究方法,本研究將這兩個連續變量處理為0~1分類變量,發帖/回帖總數和被關注數高的前25%取值為1,其余取值為0。表1展示了每個假設對應的變量及網絡結構。

表1 研究假設及網絡結構
本研究采用指數隨機圖模型(Exponential Random Graph Model,ERGM)來探究不同網絡結構和節點屬性對網絡形成的影響。與大多數廣義線性模型的獨立性假設不同,ERGM假設網絡連接的形成相互依賴,并通過測量協變量來捕獲關系數據的相互依賴性。因此,ERGM經常用于分析具有多屬性節點和相互關聯連接的網絡數據。
ERGM是網絡分析中一種常見的模型,主要用于研究各種網絡變量對網絡邊生成的影響效應。指數隨機圖模型的一般形式為

其中,Y是模型生成的網絡,是網絡中二元關系(有邊或無邊)的隨機集合;y是真實的觀測網絡;κ是歸一化因子,用以確保所有可能網絡樣本出現的概率和為1;A是觀測網絡中所有可能的網絡結構的集合;ηA是網絡結構A對應的網絡參數;g A(y)是對應的網絡統計值。ERGM基于觀測網絡中的網絡統計量模擬生成隨機網絡,并將觀測網絡和隨機網絡進行比較,兩者結構越相似,ERGM參數估計越準確。
社會網絡結構是行動者之間存在或潛在的一種關系模式,通過對社會網絡的基本屬性進行分析,可以把握網絡結構的整體特征。本研究通過對比分析準備階段、提交階段和討論階段的發帖-回帖的網絡結構,從宏觀角度探究知識共享網絡在不同時期的結構特征和演化趨勢。表2展示了三個階段知識共享網絡的網絡結構。
網絡密度是網絡成員間彼此聯系的緊密程度,準備階段、提交階段和討論階段的網絡密度分別為0.0036、0.0071和0.0063,說明網絡中節點關系較為松散。提交階段處于競賽的核心時期,參賽者更傾向于與其他成員交流,因此網絡密度最大。此外,知識共享網絡的互惠指數隨著時間呈遞增趨勢,三個階段的互惠指數分別為0.0126、0.022和0.023,表明隨著競賽的進行,參賽者間交流的互惠傾向越來越強。

表2 三個階段知識共享網絡的網絡結構
小世界效應有利于促進網絡間的知識流動以及信息傳遞的準確性與有效性,其特征是較大的聚類系數和較小的平均路徑長度。在知識共享網絡中,三個階段的聚類系數分別為0.062、0.074和0.126,平均路徑長度分別為3.989、3.786和3.241,說明 Kaggle中具有明顯的小世界效應,有利于用戶間進行交流與知識共享,推動創新合作和實現。
入度和出度中心性表示網絡的整體中心性和集中程度,中間中心性和特征向量中心性表示網絡中節點對信息流動和傳播的控制作用。三個階段的知識共享網絡中心性指標之間有顯著的正相關關系,并且呈現出明顯的長尾分布。其中,提交階段的知識共享網絡更具有集中趨勢,并且網絡中大部分節點需要少部分中心度高、“權力”集中的節點作為橋接,以進行知識交流和共享。
ERGM同時包含模型的內生變量和外生變量,本研究運用馬爾可夫鏈蒙特卡羅極大似然估計(MCMC MLE)方法,通過多次迭代對模型參數進行估計,然后利用擬合優度(Goodness of Fit,Gof)值來評估模型的擬合效果。為了確保模型擬合效果,本研究選擇準備階段的知識共享網絡,通過比較不同變量組合下赤池信息準則(AIC)和貝葉斯信息準則(BIC)的值來選擇最優模型,AIC和BIC的值越小,說明模型越簡潔、擬合效果越好。
表3給出了ERGM的擬合結果。模型1是僅考慮網絡連接的零模型,模型2和模型3分別是內生變量(網絡結構特征)和外生變量(用戶節點屬性)的模型擬合結果,模型4綜合考慮了內生和外生變量對網絡連接形成的影響。模型4的AIC和BIC值最小,說明擬合效果最好。本研究通過可視化圖形的方法給出了擬合優度圖,見圖2。實線代表觀測網絡的測量結果,虛線代表仿真網絡在95%的置信區間時的測量結果,當實線落在虛線之間時,說明仿真網絡能夠較好地代表觀測網絡的結構特征。由圖2可以看出,模型4能夠較好地解釋入度(in degree)、出度(out degree)、邊共享伙伴 (edge-wise shared partners)和二元組共享伙伴(dyad-wise shared partners)等特征。因此,本研究選擇模型4驗證三個階段的知識共享網絡生成機制。

表3 準備階段知識共享網絡的ERGM結果

圖2 擬合優度圖
表4給出了準備階段、提交階段和討論階段的ERGM參數估計結果。
ERGM結果顯示,三個階段的gwodegree參數估計值均顯著為負,說明大量給他人回帖的用戶并不會獲得更多其他用戶回帖,因此H1a沒有得到驗證。同時,影響力越大的用戶越容易獲得其他用戶回帖,eigenvector centrality的參數估計值在三個階段均顯著為正,因此H1b得到驗證,眾包社區中用戶間的吸引力和影響力差距越大,兩者建立回帖關系的可能性越高。檢驗H2的參數為正且結果顯著,說明知識共享網絡具有很強的傳遞性,H2得到驗證。另外,三個階段的gwesp參數估計值分別為1.2566、4.3222和7.2693,表明隨著時間變化,不同階段知識共享網絡的傳遞性越來越強,有利于用戶間進行充分的信息交流和知識傳遞。三階段的mutual參數值分別為0.1267,3.6466和4.2689,說明用戶間互相回帖的傾向越來越強,因此H3得到驗證。
關于用戶節點屬性對知識共享網絡中連接形成的影響,EGRM結果顯示,只有準備階段的progression參數估計顯著為正,提交階段和討論階段的用戶等級對用戶回帖均無影響,這可能是因為在準備階段,帖子主題主要集中在組隊找隊友和對競賽題目的理解,高等級用戶往往代表著知識水平高且競賽經驗豐富的群體,更容易獲得來自其他用戶的回帖,因此H4a得到驗證。檢驗H4b的參數均為正且結果顯著,表明眾包社區中用戶更傾向于向活躍度高的用戶回帖,因此H4b得到驗證。ERGM結果顯示,在眾包社區中,相同地域的用戶間并不存在建立回帖關系的傾向,因此H5沒有得到驗證,說明與線下社交不同,在線社區為用戶進行知識交流和信息傳遞打破了地域限制,地域的同質性不再是用戶間建立聯系的影響因素。檢驗H6的參數均顯著為正,表明人氣越高的用戶越容易獲得其他用戶回帖,H6得到驗證。其中,提交階段的followers參數估計值最大,人氣對回帖關系的形成有顯著影響。
本研究選取眾包平臺Kaggle為研究對象,收集了發帖和回帖信息以及相關用戶的屬性數據,構建了知識共享網絡,并運用ERGM從網絡結構特征和用戶節點屬性兩個角度綜合探究眾包社區中知識共享網絡的生成機制。本文按照競賽的時間順序,將用戶回帖分為準備階段、提交階段和討論階段,探究不同階段網絡結構特征的演化趨勢和差異,并驗證不同階段影響回帖關系形成的因素。研究結果表明,在網絡結構特征方面,知識共享網絡具有傳遞性和互惠性,并且隨著時間變化不斷增強,優先連接機制得到驗證,用戶傾向于與影響力大的用戶建立回帖關系;在用戶節點屬性方面,活躍度高和人氣高的用戶更容易獲得其他用戶回帖,用戶等級對回帖行為的影響僅在準備階段成立。

表4 三個階段知識共享網絡的ERGM結果
本文基于社會網絡理論,將眾包社區中知識共享行為的影響因素分為網絡結構特征和用戶節點屬性兩類,從社會網絡分析、同質性、用戶參與等角度探究知識共享網絡的生成機制,對社會網絡、眾包社區的知識共享行為等方面的研究進行了補充。另外,基于本文的研究結果,對眾包社區提出了參考建議,比如鼓勵活躍度高和人氣高的用戶多發帖,對影響力大的用戶提供積分翻倍獎勵、用戶抽獎概率增加等激勵手段。
本研究僅利用發帖-回帖行為來構建知識共享網絡,但知識共享行為可以從不同方面定義和理解,例如李立峰將知識共享關系網絡定義為社區成員在參與產品創新過程中關注過相同的主題數量的描述;另外,本研究探究了眾包社區用戶進行知識共享的影響因素,未來研究可以進一步探索用戶在社區里的知識共享行為對其參與競賽的成績和表現是否存在關聯。