顧瑞春,王靜宇
(內蒙古科技大學,內蒙古 包頭 014010)
學術社交網絡,是一種基于社交網絡(social network services)的科研信息共享與協作平臺,用戶可以通過各種網絡終端參與其中,進行在線交流、信息交互、技術協作等線上活動,社交網絡用戶可通過某種網絡聯系進一步將線下關系遷移到線上,形成在線虛擬社區。隨著Web2.0技術和移動互聯網的迅猛發展,社交網絡正極大地改變著人們獲取信息和使用互聯網的方式,并已經逐漸成為連接現實信息社會與虛擬網絡社會的重要橋梁。
社交網絡發展迅猛,國內外有不少社交網絡已經具有較大規模,著名的社交網站Facebook目前用戶數大約為22億,活躍用戶數超過13億,并且Facebook旗下的移動端社交平臺WhatsApp的月活躍用戶數已經突破10億大關,Twitter的用戶量也已經突破了6億,國內的騰訊網也已經有近8億用戶,新浪微博用戶量約為4億,新晉社交網絡Instagram用戶量也已經超過4億。
如此多的用戶在進行信息交流、轉發、評論的同時,也會產生大量的數據。調查顯示,國內平均每人每天花在社交網絡上的時間,大約為60分鐘。由于社交網絡具有強大的交互性和實時性,大量用戶不斷地創建、轉發、評論相關信息時,大數據(big data)便隨之產生了。全球各大社交網絡中每天生成新的數據量約為2.5 EB。深度挖掘與分析這些大數據中潛在的有用信息,成為數據挖掘領域新的研究方向,社交網絡中社會關系識別、社會影響力挖掘已經成為數據挖掘研究中新的熱點。
社交網絡的用戶總會受到其他用戶的影響,同時也會影響到其他用戶。在傳統社交網絡中,利用高影響力的用戶的強大的號召力來進行相應的商業推廣或品牌推薦,已經成為商業廣告、企劃營銷的重要手段。高影響力用戶的在線言論、行為等網絡活動,能夠形成社交網絡中的主流輿論導向,并可引導其粉絲推動一輪新的輿論熱點。社交網絡中的用戶影響力分析,已經成為目前數據挖掘與大數據研究領域的新方向。
近年來,學術社交網絡的興起,逐漸吸引了眾多科研與學術人員的加入,進行科研成果的在線共享、學術問題的線上研討以及科研項目的線上協作等。如Aminer.org,SoScholar.com,Academia.edu,ResearchGate.net,ResearcherID.com等。與其他社交網絡相同,學術社交網絡同樣能夠產生大量的數據,這些數據具有更加重要的研究價值和實際意義。
學術社交網絡中的用戶影響力分析,是以學術社交網絡中的海量數據為依據,結合用戶的科研領域的相關指數,如科研人員的H指數,其發表論文的他引數量、影響因子總和,以及項目經費,獲獎級別,成果轉化等數據。文中結合用戶的各類科研貢獻在社交網絡中的傳播情況,如文章的引用數、轉發數、好評數,以及用戶的粉絲數量與粉絲級別等多元化數據,對科研人員進行綜合的影響力分析,提出一種多元化的學術社交網絡用戶影響力分析模型—SARank,為現有的科研評價體系建立一種新的參考指標,還能夠為科研管理人員提供一套可靠的評判依據。
著名的Google PageRank算法[1]是一種根據網頁之間相互的超鏈接數量來進行網頁排名的技術,該算法使用一種基于馬爾可夫的隨機游走思想來模擬用戶瀏覽網頁的行為。其核心思想是:某個網頁被越多的優質網頁所指向,則該網頁的排名就越靠前。其具體計算公式如下:
(1)
其中,R表示要計算的網頁的PageRank值;B表示所有指向即將計算排名頁面的網頁集合,即該頁面的鏈入頁面集合;N表示該頁面的鏈出網頁數;c為常數。
PageRank算法最初僅是應用在搜索引擎中,用來計算網頁排名,但隨后,部分學者將PageRank算法引用到社交網絡中,認為PageRank算法是社交網絡用戶個體影響力分析的基礎算法。2009年,Tunkelang[2]將PageRank算法應用到著名社交網絡Twitter中的用戶影響力計算中,使用粉絲的影響力來衡量個體用戶的影響力,擁有高影響力粉絲的用戶越多,且該粉絲關注的其他用戶越少,則粉絲對該用戶的影響力貢獻越大。
與搜索引擎不同,社交網絡中的影響力考慮的是某位用戶個體,而不是一個靜態頁面。當然,PageRank算法并沒有考慮到具體個體用戶特征參數,Haveliwala等[3]在PageRank的基礎上,結合社交用戶個體特征因素,提出了Personalized PageRank算法。在該算法中,作者使用了用戶個性化特征向量,如個體對社交網絡話題的偏好程度、個體發布信息的新穎程度與敏感程度等[4]。
針對社交網絡用戶個性化的問題,不少學者均提出了面向不同屬性的影響力分析方法,如Weng等[5]提出的TwitterRank算法,針對知名社交網站Twitter,根據賬戶連接結構和用戶話題相似性等參數來計算個體在不同領域的影響力。
在研究PageRank算法時,研究人員發現某些網頁僅僅因為存在時間較長,才獲得了較多的指向入鏈接,反而使其PageRank值高于某些較新的頁面的問題,通過分析新浪微博中用戶轉發行為時間間隔分布,通過轉發時間間隔來確認粉絲對用戶的關注度,認為關注度越高的粉絲對用戶的影響力貢獻越大。并認為,在同一時刻或同一事件中,粉絲將不同的關注度分配給不同的被關注用戶。代表性研究有陳少欽等[6-7]提出的基于新浪微博的用戶影響力分析模型WURank等。
在學術領域,傳統的科研人員的學術排名主要根據如下兩種方式進行計算:
(1)根據科研人員成果質量來計算。如發表科研文章的數量,文章被引數量,以及由被引數量而產生的H-指數和G指數等。
(2)根據科研成果所在期刊質量來計算。如發表文章所在期刊的年度影響因子等。
但是上述評價方式均存在問題。文章引用次數與文章發表年限有關,因此很難通過他引次數將真正有影響力的文章分辨出來,而且僅統計引用數量,并不統計施引文章在引用時對該文章的評價信息。一篇文章需要經過較長時間后才會有相應的引用數量的積累;至于所謂的所在期刊的影響因子,更是至少經過1年之后,才能評定出該期刊上一年度的平均影響因子,影響因子統計時間不僅慢,而且無法通過影響因子了解該期刊具體單篇文章在相應學術領域的影響力。在2016年湯森路透出售了其知識產權和科學信息業務后,影響因子的權威性可能會在未來受到沖擊。
隨著Web2.0技術及社交網絡的發展,Priem等[8]提出一種多元化科研人員評價體系Altmetrics[9],意為使用更多的社交網絡參數來進行學術聲望評判。Altmetircs認為,下一步,科研評價指標將會是綜合性的多元度量,即將社交網絡中的多元化元素融合到科研協作平臺中,通過社交網絡的相關參數,優化傳統的評價指標來形成新的多元化科研績效計量體系。自從Altmetrics提出后,得到了大量科研人員[10-13]的支持與肯定。國際上對科學研究人員的影響力評價體系已經逐漸從傳統的以引用量、H-指數等固態指標為基礎的評價系統轉向以科研成果的使用(被下載)量、同行評議情況、引用量,以及Altmetrics量為基礎的創新型綜合社會化評價體系。其中Altmetrics量包含社交網絡中的存儲、連接、標簽以及評述指標。
基于社交網絡的用戶影響力分析模型,國內外各大學術社交網絡中針對其科研用戶也推出各類影響力排名算法,由清華大學唐杰等開發的Aminer[14]研究人員社會網絡,通過統計科研人員的文章數量、引用數量、H指數、A指數、G指數等信息,生成專家統計信息雷達圖,并可分別通過上述指數進行專家排名。截至目前,Aminer系統已收集了2.3億多論文信息,1.4億份研究者信息,7.5億論文引用關系,879萬知識實體以及3萬多學術會議/期刊。吸引了全球220多個國家的276萬多獨立IP訪問。Aminer系統還集成了自動信息抽取、賬號自動關聯、重名排歧、專家發現以及跨語言聯系等技術,該系統是目前較為先進的高水平科研人員搜索和發現平臺。
目前,國際上較為著名的科研社交網絡ResearchGate.net,是一個可以在線分享研究成果、學術著作以及進行討論的社交平臺。其通過一個名為RG Score的研究者評分方式對科學家進行排名,RG Score是一種通過研究人員的成果被同行在線認可程度來確定科研人員學術聲譽的多元化度量方式。具體是通過如下幾種方式來確定研究人員的RG Score值:
(1)學術貢獻:研究人員在ResearchGate.net上發布自己的文章、講稿、實驗結果和數據等。上傳數量越多,RG Score值越高。
(2)同行互動:高RG Score值的同行對某用戶的評價,會直接影響該用戶的RG Score值。
(3)聲譽傳播:個人學術聲譽會在整個社交網絡中傳播,并隨著對社交網絡的貢獻增加而不斷提高RG Score值。
RG Score是一種通過在線同行認可并快速構建學術聲譽的科研人員評價體系,現已成為學術領域評判科研人員聲望的一個重要指標。
將社交網絡的有關技術融入到科研共享平臺中,通過社會化網絡將科研信息進行在線分享,這種開放型科研共享協作平臺,已經成為下一步在線科學研究的發展趨勢,目前國內外較為成熟的科研社交網絡平臺已經不少。用于用戶影響力分析的計算模型也較多,但還沒有一種有機結合科研領域和社交網絡相關指數進行科研用戶影響力分析的計算模型。這里介紹的SARank就是一種基于科研社交網絡的多元化用戶影響力分析模型。
SARank的具體計算模型為:
(1)將科研用戶影響力的影響因素分為學術影響參數A與社交網絡影響參數S兩部分。
(2)引入PageRank算法進行社交網絡用戶影響力分析,用于分析用戶之間相互關注情況;同時引入用戶間評論情況,用于不同用戶間評論情況分析。
根據PageRank公式,SARank模型中的S參數定義如下:
(2)
其中,R為要計算的科研用戶粉絲關注情況值;B為該用戶的關注數和粉絲數(被關注數)總和;F為粉絲數;c為常數。
該模型認為擁有越多高影響力粉絲的用戶,該用戶的學術影響力值也就越高。λ(λ=1)為避免F過小時產生的偏差而引入的平滑因子。
(3)
其中,T表示某用戶的用戶評論情況值;G表示好評數;N表示差評數;C表示所有評論數。
該公式指出,其他用戶對某用戶的好評越多,該用戶的影響力越高;差評越多,影響力越小。為避免N比較小時出現對T的干擾和過擬合問題,在分母中引入拉普拉斯平滑因子λ(λ=1)進行平滑處理。
確定社交網絡影響參數為用戶關注情況與評論情況之和:
S(i)=qR(i)+pT(i)
(4)


(3)將學術領域用戶學術聲譽計算參數定義為A。科研領域學術評價影響因子確定為基本影響參數與合作者影響參數兩部分。基本影響參數引入用戶的H-指數、總影響因子和所發文章總數三個參數?;居绊憛档木唧w公式定義為:
(5)
其中,A為用戶學術影響參數值;H為H-指數;I為影響因子總和;P為作者所發文章數量。該公式表示,在用戶發的論文總數相同的情況下,作者的H-指數和引用數和總影響因子越高,說明該用戶的科研聲望值越高。
SARank將合作者影響力參數引入到研究人員影響力值中,認為文章合作者的影響力會對用戶的影響力有較大的影響。最終確定公式為:
(6)
其中,U表示合作用戶的影響力值;L表示該用戶在文章中的署名位置,第一作者為1,第二作者為2,以此類推。由于科研用戶的文章以及合作者較多,此處僅考慮用來確定該用戶H指數的文章中相關用戶的合作者影響情況。H為用戶i的H指數。
上述公式表示用戶的學術影響因子為基本學術影響參數與合作者影響參數之和。合作者影響參數確定為該用戶的H篇文章的所有合作者影響力之和,單篇文章的合作者用戶為合作者的影響力值除以在文章中的署名位置。用戶影響力與合作者影響力成正比,與合作者署名位置成反比。
(4)定義科研社交網絡中多元化用戶影響力模型SA,公式為:
SA(i)=aS(i)+bA(i)
(7)
其中,SA表示科研社交網絡中用戶影響力值;S表示用戶社交網絡影響參數值;A表示學術影響參數值;a與b表示兩類影響因子權值,a+b=1。
為充分體現社交網絡因子在整個SARank模型中的重要性,暫時將a與b均設置為0.5。
為測試SARank的實際計算情況,又礙于目前大多學術社交網絡均不公開API,因此,實驗數據是通過python的爬蟲框架Scrapy從ResearchGate.net,Aminer.org以及SoScholar.com抓取大量科研人員的相關數據,然后通過ETL工具集petl來進行數據處理。為保護數據的隱私性,這里隱去科研人員姓名。
進行SARank驗證的主要步驟分別為:
1.獲取用戶數據。確定需要獲得的用戶數據主要包括:
(1)用戶的關注與被關注數據,即該用戶關注的用戶數和關注該用戶的用戶數(粉絲數),以及每一關注和被關注用戶的關注情況值R;
(2)用戶的評論數據,即其他用戶對該用戶的好評數和差評數,以及來自互為好友用戶的評論數據;
(3)用戶的H指數;
(4)用戶發表的文章影響因子總和;
(5)用戶發表的文章總數;
(6)用戶H(H指數)篇文章中合作者影響力值。
2.數據歸并。將通過3個不同社交網站獲取的相應數據進行歸并,將同一用戶的信息進行合并,去除重復信息。歸并時,這里取三個不同網絡數值的平均值。
3.通過SARank進行計算,得出用戶SARank值。
實驗一:將用戶的SARank值和PageRank值以及H指數進行比較。
PageRank值由式(2)進行計算,即通過用戶的關注數和被關注數計算用戶的社交網絡排名值,用來表示用戶的社交排名。
H指數為用戶歸并后的H指數平均值,用來表示用戶的學術排名。
SARank值由式(7)進行計算,這里由于用戶的SARank值與其粉絲以及合作者的相關值有關,因此需要一個逐漸迭代計算的過程,文中暫時僅計算2層迭代。
分別對2 000用戶、5 000用戶和10 000用戶關于上述3個數值的平均值進行了比較,具體見表1。
由表1可以看出,與H指數和PageRank值一致,SARank值隨人數變化的波動不大,具有較好的穩定性。

表1 SARank計算值與H指數及PageRank值對比
雖然將三個社交網絡數據整合在一起進行計算具有一定的差異性,由于某位科研人員傾向于僅使用某一種社交網絡的原因,SARank中需要獲取的某些數值可能無法獲得,從而導致部分計算結果出現偏差,通過取3個社交網絡的SARank的平均值,能夠較好地避免由于差異性帶來的數值偏差。
實驗二:將SARank的計算值與Researchgate.net的RGScore值進行比較。
通過在Researchgate.net獲取的用戶數據使用SARank模型進行計算后,與Researchgate.net的RGScore值進行比較。RGScore是Researchgate.net中科研人員的總體貢獻分數,主要通過用戶上傳文章、解決其他用戶提問等相關參數進行確定。
該實驗采用獲取數據中的5個用戶,使用SARank模型進行計算后,與其相應的RGScore進行了對比,具體如圖1所示。

圖1 SARank計算值與RGScore值對比
由圖1可見,SARank與RGScore值的走向基本一致。第四個用戶中的SARank值偏高,是因為該用戶的社交活躍性較高,S因子影響了整個SARank的值?,F實中,如果某位科研用戶的社交活動較廣,也在一定程度上擴大了其學術影響力。因此,此類現象符合實際情況。
結合用戶在社交網絡中相關信息的不同參數,對科研用戶進行綜合的學術影響力分析,提出了一種多元化的學術社交網絡用戶影響力分析模型——SARank,為現有的科研評價體系建立一種新的參考指標,并為科研管理人員提供一套可靠的評判依據,可為
下一步研究提供有力支持。經實驗測試,該模型能夠得出較為穩定,并具有代表性的結果。
另外,該方法在實際應用中還有部分問題需要完善。例如,如何完善模型參數以優化計算結果;文中僅抓取了3個學術社交網絡中的數據,僅將這3個網絡中的數據進行融合,還不能很好地表達科研人員的相關信息;能否將同一科研人員各類其他非學術社交網絡中相關信息有機整合到該模型中一并進行學術聲譽度量等。這些問題還有待進一步研究。
[1] PAGE L.The PageRank citation ranking:bringing order to the web[J].Stanford Digital Libraries Working Paper,1998,9(1):1-14.
[2] DANIE T.A Twitter analog to PageRank[EB/OL].(2009-01-13).http://thenoisychannel.com/2009/01/13/a-twitter-analog-to-pagerank.
[3] HAVELIWALA T,KAMVAR S,JEH G.An analytical comparison of approaches to personalizing PageRank[R].Stanford:Stanford InfoLab,2003.
[4] 丁兆云,賈 焰,周 斌,等.社交網絡影響力研究綜述[J].計算機科學,2014,41(1):48-53.
[5] WENG J,LIM E P,JIANG J,et al.TwitterRank:finding topic-sensitive influential twitterers[C]//Proceedings of the third ACM international conference on Web search and data mining.New York,NY,USA:ACM,2010.
[6] 陳少欽,范 磊,李建華.MURank:社交網絡用戶實時影響力算法[J].信息安全與通信保密,2013(3):50-52.
[7] 陳少欽.基于PageRank的社交網絡用戶實時影響力研究[D].上海:上海交通大學,2013.
[8] PRIEM J,TARABORELLI D,GROTH P.Altmetrics:a manifesto[EB/OL].(2011-09-28).http://altmetrics.org/manifesto/.
[9] BHUE S,SINGH K,BISWAL S K.Altmetrics:article level metrics makes easy for user community[J].Social Science Electronic Publishing,2016,6(2):1-7.
[10] TORRESSALINAS D,CABEZASCLAVIJO A,JIMENEZCONTRERAS E.Altmetrics:new indicators for scientific communication in Web 2.0[J].Comunicar,2013,41(41):53-60.
[11] HOLBROOK J B,BARR K R,BROWN K W.Research impact:we need negative metrics too[J].Nature,2013,497(7450):439.
[12] PRIEM J.Scholarship:beyond the paper[J].Nature,2013,495(7442):437-440.
[13] LISTED N.The maze of impact metrics[J].Nature,2013,502(7471):271.
[14] 唐 杰.AMiner[EB/OL].(2006-09-06).http://aminer.org.