程潔瓊 萬小萍 劉向



摘 要:[目的/意義]技術軌道可以用于發現特定技術領域內連續性和非連續性的創新變化。[方法/過程]本文提出基于邊鏈接影響力流的主路徑搜索算法,該方法首先采用引文網絡中影響力傳遞算法對引文網絡路徑的影響力流進行計量和賦值,然后通過主路徑全局搜索算法得到影響力總和最大的技術主路徑。[結果/結論]相比傳統的主路徑分析方法,該方法對于引文鏈接權值度量的描述更加明確合理。對海水淡化領域的實證表明,相比傳統的主路徑分析法,該方法能夠在主路徑中找到更早的起源節點,技術主路徑的演化過程更加明晰。
關鍵詞:主路徑分析;技術路徑;影響力傳遞;PageRank;引證網絡
DOI:10.3969/j.issn.1008-0821.2019.05.003
〔中圖分類號〕G306 〔文獻標識碼〕A 〔文章編號〕1008-0821(2019)05-0024-06
Abstract:[Purpose/Significance]Technological path can be used to discover innovative changes of continuity and discontinuities in specific technological fields.[Method/Process]In this paper,a technological main path searching algorithm based on the influence flow of links in citation network is proposed.Firstly,the influence flow of the citation network path is measured and assigned by the influence transfer between two nodes algorithm in the citation network,and then using the global search method to extract the technology main path with the largest total influence flow is obtained.[Result/Conclusion]Compared with the traditional main path analysis method,this method is clearer and more reasonable for the description of the value of the influence flow in the citation link.We adopt the data in the field of desalination and the results show that compared with the traditional main path analysis method,this method can find the earlier origin node in the main path,and the evolution process of the technical main path is clearer.
Key words:main path analysis;technological path;influence flow;PageRank;citation network
最早由經濟學家Dosi G提出的技術路徑又被稱作技術軌道、技術演進路徑,可用于發現特定技術領域內連續性和非連續性的創新變化[1]。特定領域內的技術突破和革新往往被視為社會變革的基礎,通常伴隨著持續的技術改進以及通過知識傳播衍生出的多條技術路徑[2]。這些特定領域內的原有技術會通過發展而不斷的分化和融合,原有技術雖然最終會被新的技術所取代,但也會成為這個領域內技術主路徑上的一個節點。
技術主路徑是技術發展的主干,它包含技術發展過程中的最關鍵節點以及這些關鍵節點之間的鏈接關系。專利文獻包含關于專利創新的詳細描述,從中提取出的主路徑更能夠體現技術的繼承和發展關系[3]。2007年,Verspagen B在專利引證網絡中通過主路徑分析方法得到了燃料電池領域內80年代前后不同階段的演進主路徑[4],由此開啟了將主路徑的演進和專利引證網絡相結合的研究。
傳統的主路徑分析的方法主要基于SPx算法獲得,分別是節點對投影數(NPPC,Node Pair Projection Count),搜索路徑節點對(SPLC,Search Path Link Count)和搜索路徑節點對(SPNP,Search Path Link Count)[5-7]以及搜索路徑數(SPC,Search Path Count)算法,這4種算法都是基于遍歷計數思想將網絡中的邊賦權重值[8]。雖然傳統的SPx算法被廣泛應用在不同學科的引文主路徑分析中,但基于邊遍歷賦值的計算存在以下問題:被引頻次高和參考文獻多的文獻會獲得更多的遍歷計數,被引頻次高表明受到較多的關注和肯定,是衡量節點和邊重要性的主要指標,然而參考文獻多卻不一定反映經由此節點的邊很重要。同時,被遍歷次數相同的邊在引證網絡中的重要性也是不同的,傳統的SPx算法中的邊遍歷思想賦值未考慮邊初始值差異對整個引證網絡帶來的影響[9]。
本文提出了一種有別于傳統主路徑的基于邊遍歷計算權重值的算法,根據在專利引證網絡中影響力由施引專利到被引專利傳遞的思想,提出了邊鏈接影響力流指標,通過對引文網絡的每條路徑的影響力流傳遞值計算賦值,然后采用主路徑全局搜索方法得到影響力流總和最大的技術主路徑。最后,我們通過實證比較分析該方法與傳統主路徑分析方法的異同。
1 相關研究
1.1 主路徑分析
引證關系往往體現了知識流在網絡中的流動過程[10]。SCI的創始人Garfield E于20世紀60年代提出引證網絡(Citation Networks),他指出引證網絡可以反映出知識的延續性和繼承性,從而可用于研究科學知識發展的歷史、脈絡和結構[11]。引證網絡通常由節點和有向邊表示,有節點i指向節點j的有向邊表示節電i被節電j引用,如圖1所示。
主路徑分析方法可以發現隱藏在引證網絡中的技術發展脈絡,找到在某一段時間內對此領域產生特定推動作用的節點。最早的提出者Hummon N P等認為主路徑分析可以很好地識別出DNA引證網絡的重要發展,并提出3種給引證網絡的邊賦權重的算法NPPC、SPLC、SPNP,這3種算法都是通過優先搜索(Priority First Search)出引證網絡中緊密的子網絡,再進行窮盡路徑搜索(Exhaustive Path Search)的方法識別出主路徑。
2003年,Batagelj V在前3種遍歷算法基礎上進一步將主路徑分析法應用于大型引證網絡,提出了SPC算法。SPC算法通過遍歷某條邊所有從源節點到尾節點的次數計算出這條邊的權重值。相比于NPPC、SPLC和SPNP,SPC可以更快地計算出每條邊的權重,提高了運算效率。Choi C等[12]在2009年提出FCNP(Forward Citation Node Pair)算法,通過正向引證關系將被引用節點出度值加1的乘積作為邊的FCNP值實現邊賦值,并將此方法作用于閃存系統網絡中得到技術的發展路徑。Persson O[13]通過在引證網絡中出現的共現和耦合的關系提出了WDC(Weighted Direct Citations)和NWDC(Normalized Weighted Direct Citation)方法計算邊的權重值,其中WDC為兩個節點的直接引證關系中共同被引和共同引用值的和,而NWDC在WDC的基礎上標準化了共同被引和共同引用值進行計算。主路徑分析除了對算法的研究外,還需要通過合適的搜索方法提取主路徑。Hummon N P等在1989年提出的優先搜索又被稱為局域搜索(Local Search),在篩選邊的過程中總是篩選出一個節點到另一個節點權重最大的邊。搜索出網絡內擁有最大邊權重值總和主路徑的全局搜索(Global Search)可避免局域搜索可能帶來局部最優問題[14]。但是無論是局域搜索或全局搜索都不可避免地將一些權重值大的邊篩除出搜索到的主路徑內,Liu J S等[15]在2012年提出關鍵路徑搜索(Key-route Search)的概念解決了這一問題。不同于局域搜索和全局搜索結果通常只為一條主路徑,關鍵路徑搜索將網絡中所有重要的邊全都包括在搜索的主路徑中,先找到整個網絡中權重最大的邊再去進行局域或全局搜索選擇多條關鍵路徑。
為發現技術路徑的發展變化和趨勢,主路徑分析被學者應用于各種不同領域的網絡。Zhu H M等[16]將主路徑分析方法應用在線上社交網絡中,結果顯示每個有影響力的用戶都可以通過一條短的主路徑訪問另一個用戶,主路徑的分布顯示出顯著的社區效應。Hatatchiyski I等[17]通過主路徑分析方法研究了線上學習社區維基學院中生物和電氣工程兩個領域內的關鍵主題、對應的范圍和結構的發展,并分析了在線學習社區中協同知識工具和學習過程的關系。Mina A[18]等人通過對冠狀動脈領域美國專利數據集統計,揭示了醫學領域內醫學的科學性和技術性的共同演進。Harris J K等[19]通過主路徑研究了二手煙領域內從風險因素的發現到干預措施的實施。
1.2 PageRank算法
PageRank由谷歌公司創始人Page L等于1998年提出,用于衡量www網頁的重要性程度的排序算法。該算法基于這樣的假設:如果一個網頁被另一個重要的網頁鏈接,那么此網頁也是一個重要的網頁[20]。所以PageRank算法的本質是根據網頁之間的相互鏈接對所有網頁的重要性程度進行排序。假設有A、B、C和D4個網頁,B、C、D網頁分別都指向網頁A,此時網頁A的PR值為A、B、C3個網頁的PR值之和,即PR(A)=PR(B)+PR(C)+PR(D)。假設網頁B也同時鏈接到另外兩個網頁,網頁C也鏈接到網頁D,此時的PR(A)=PR(B)3+PR(C)2+PR(D)。
但是在計算機網絡中同時存在只對自己出鏈或者沒有出鏈的頁面,為了避免這些特殊頁面導致的PageRank值無法收斂的情況,PageRank算法引入了阻尼系數q,通常q=0.85,表示隨機瀏覽頁面的用戶總會以1-q的概率跳轉到網絡中任一個隨機的網頁。所以PagreRank算法實質上是一個隨機游走過程,若計算機網絡中的有向圖表示為G(V,E),V表示節點的集合,E表示網絡中有向邊集合,節點vi,vj,vk,vh…∈V,eij∈E,eij表示網頁i指向網頁j的有向邊,任意網頁i的PR值可以表示為:
PageRank(i)=q*∑j∈VPR(i)L(i)+1-qN
其中L表示節點的出鏈數量,N表示網絡中節點的總數量。PageRank算法至今還被Google當作識別重要網頁的標志性方法之一[21]。
引證網絡和WEB網絡有相似的拓撲結構,引文關系和網頁鏈接在本質上有相近之處[22],體現的都是相鄰節點之間的指向關系和影響作用關系。PageRank通過網頁之間的鏈接關系計算網頁的重要性程度,引文網絡通過引用鏈接傳遞影響力值,PageRank算法也是本文提出的基于邊鏈接影響力流的路徑搜索的主要原理來源。
2 基于邊鏈接影響力流的路徑搜索
2.1 方法描述
在專利引證網絡中,施引文獻的影響力越大,被引節點的影響力也越大;同時,施引文獻的參考文獻越多,每篇參考文獻(被引文獻)所分的影響力越少。我們不妨將引用關系看作是一種投票,施引文獻引證其它文獻,相當于向那些文獻投票,施引文獻越重要,則其投出的票的重要性也越大;但是,如果施引文獻引證的文獻越多,則每篇被引文獻所分得的票數越少。節點的邊鏈接影響力傳遞規律可以表示為:施引節點的影響力越大,被引節點的影響力也越大;節點的被引次數越高,節點的影響力越大;節點的出邊越多,每條邊分得的影響力越小。
我們把引用鏈接視為節點影響力的流動路徑,施引節點通過鏈接傳遞部分影響力到被引節點,施引節點傳遞的影響力的大小與自身的影響力成正比,與自身參考文獻的數量成反比。而每個節點所獲得的影響力來自于其引證節點所傳遞影響力之和。通過圖1來描述以上關系:當節點F引用節點B時,F向B傳遞了一定比例的影響力,鏈接(F,B)上傳遞的影響力與節點F的影響力成正比,與F的出邊數量成反比,即節點F越重要時,被其引節點A、B、C也越重要,而倘若它引用的節點過多時,則每個分支所分得的重要性越少,傳遞的影響力流也越小。
2.2 操作步驟
第一步:數據預處理。處理專利數據得到專利網絡中的每個專利的專利號,專利引文、發表年份和專利發表國家,如表1所示。
第二步:構建專利引證網絡。將收集到的數據集以及每個數據的引文文獻通過引證關系構建出本文的專利引證網絡。
第三步:迭代計算專利引證網絡中所有節點的影響力IF值。首先給引證網絡內的節點隨機賦初始值,根據馬爾可夫收斂定理可知[23],無論專利引證網絡中的初始值為多少,基于邊鏈接影響力流傳遞算法不斷迭代計算出的節點IF值最后都會收斂到一個穩定值。在本文中采用0.5、0.6、0.7、0.8、0.9五個阻尼系數進行實驗,發現不同的阻尼系數對應的技術主路徑上的節點完全重合,所以在本文中不多對算法的阻尼系數做過多討論。
第四步:根據專利引證網絡中每個節點的影響力值IF,計算專利引證網絡中所有有向邊的權重值T(ij),即通過邊鏈接傳遞影響力流的大小。一個節點傳遞給被引節點影響力值被視為同時均分給多個被引用節點,表示在引證網絡中施引節點對被引節點無差異地傳遞影響力值,從施引節點i傳遞到被引節點j的影響力流可表示為:T(j)=∑j∈VT(ij)=∑j∈VIF(i)L(i)。如圖1所示的引證網絡圖,將圖中的6個節點的關系看作為投票過程計算:節點F引用了節點B、D、E可以看作是將一票投給了B、D、E的過程,由于只有1票,所以B、D、E分別獲得1/3票。但是節點B同時接受了節點D給它投的1/2票,此時T(FD)=T(FE)=T(FB)=13IF(F),T(B)=13IF(F)+12IF(D)。而被節點E引用的節點只有C一個,則節點E將1票全部投給了節點C,即邊鏈接傳遞的影響力流大小為節點E的影響力值,T(C)=IF(E),傳遞的過程如圖2所示。
第五步:搜索主路徑。本文采用全局搜索的方法,通過篩選出擁有最大邊權重和的路徑的搜索方法得出研究領域內的技術主路徑。
2.3 實驗數據
本文選取海水淡化(Desalt)領域的美國授權專利進行分析。選擇海水淡化作為本文的研究領域的原因,一是由于如今的淡水資源短缺,海水淡化技術作為提取淡水的下一個具有前景的方法被相關科研人員高度重視[24],海水淡化技術的技術路徑能夠幫助相關研究人員理清核心技術的發展脈絡,因此對其研究具有一定的理論意義和實踐意義;二是海水淡化最早可以追溯到公元前1400年[25],在20世紀80年代海水淡化技術得到迅速的發展,這就說明在海水淡化領域內已經存在著幾十年的技術積累,專利文獻的數據量大,發現技術主路徑的演化也會更加明顯。
在美國授權專利數據庫中采用“Desalt*”兩個搜索詞對專利的標題和摘要部分進行搜索,最終得出的專利題錄結果為1 348篇專利文獻。
3 實驗結果
將本文得到的1 348篇專利文獻和它們的引文構成專利引證網絡,然后進行兩種方法的對比實驗,第一組將按照實驗操作步驟得到基于邊鏈接影響力流傳遞路徑搜索算法的技術主路徑,第二組采用SPLC算法得到技術主路徑。
3.1 路徑形態
實驗結果如圖3所示,圖3左圖和右圖分別為采用基于邊鏈接影響力流傳遞路徑搜索算法和SPLC算法,再用全局路徑進行搜索得到的主路徑。圖3左右兩圖的縱坐標表示專利申請年,橫坐標沒有特殊意義,圖中的節點大小表示節點的被引頻次,邊的粗細表示邊的權重值也就是邊鏈接傳遞影響力值的大小。
從路徑形態對比觀察圖3左右兩種算法進行全局搜索得出的主路徑,可以看出采用基于邊鏈接影響力流傳遞路徑搜索算法得到的主路徑的節點提取會更偏向于老節點,從技術主路徑顯示看來最早的節點可以追溯到1948年,而對比右圖中技術主路徑源節點申請年對應的1978年,足足早40年時間。同時,對比左右兩圖在整條技術主路徑中占比最大的路徑(4200550,2446040)和(5366635,5186822)兩條路徑可以看出,左圖兩個專利的時間跨度相比右圖專利間跨度大,通過專利的分析得到(4200550,2446040)兩個專利都為從礦物油中脫鹽工藝,而(5366635,5186822)表示的兩個專利都涉及渦輪等類似的設備裝置,說明了實驗的兩個算法得出的技術主路徑的重要演化和繼承關系的偏向性不同。
3.2 路徑內容
從專利的內容上分析,基于邊鏈接影響力流傳遞路徑搜索得到的主路徑的專利內容早期更注重于化學工藝制備方面,源節點2446040專利為從原油中脫鹽的工藝制備上,主要集中于從原油中溶解無機鹽的工藝,到中期的脫鹽技術演進為更為復雜的工藝制備方法,如4806231專利申請在較高溫度和較大原油比例的鹽水洗滌技術和5271841專利申請的去苯的方法,而到后期關于新設備的技術,專利8747658和專利9410092改進的方法都涉及使用帶有堆疊盤式離心機的分離器來分離乳化油和水。而基于SPLC算法搜索出的技術主路徑早期工藝制備和基于邊鏈接影響力流傳遞的算法提取的主路徑有很大的不同,分析得到早期的節點更偏向于物理方面的技術。主路徑的早期專利4110172、4210494以及4363703涉及的脫鹽技術都與太陽能或太陽輻射用于蒸發鹽水技術相關,到中期階段,專利技術偏向于設備裝置方面,從專利5186822到專利6348148都集中于采用帶有驅動加壓的脫鹽設備進行海水淡化。技術主路徑上的后期的專利采用的設備和方法都更為專業和先進,改進和結合了已有的技術進行演化。
總體來說,基于邊鏈接影響力流傳遞路徑搜索方法得到的主路徑能提取出更早的專利技術,可以追溯到技術的根源節點。從內容分析可以分析得到海水淡化技術早期是由從原油中分離雜質的技術中演化出的,而基于SPLC方法得到的主路徑更為集中,源節點以及主路徑節點表示的專利技術直接為海水淡化技術方法和工藝,技術的分化和演進效果沒有基于邊鏈接技術影響力流傳遞算法搜索出的主路徑更明顯。相比之下,基于邊鏈接影響力流傳遞路徑搜索算法提取出的技術主路徑對于理清海水淡化技術的演化過程的脈絡更有理論價值。
4 討 論
4.1 理論貢獻與創新之處
本文將搜集到的海水淡化領域內的專利數據構建專利引證網絡,采用基于邊鏈接影響力流傳遞路徑搜索,用于計算出每條邊的影響力流傳遞值,再根據全局搜索方法提取主路徑。
相比傳統的主路徑分析的SPx算法,本文采用的基于邊鏈接影響力流路徑搜索算法有以下3點貢獻和創新之處:1)解決了參考文獻多的文獻更多機會的出現于主路徑之上的問題。將專利節點的影響力流的傳遞值作為計算邊權重的基礎,以邊權重值在專利引證網絡中搜索主路徑,避免由于參考文獻引用太多文獻時導致節點權重值大被選入而忽略了每條邊權重值都很小的矛盾;2)邊權重的衡量理論的說服力相比邊遍歷計數的方法說服力更強。實驗結果顯示出本文算法能夠追溯到技術主路徑更早的技術節點,并且在主路徑上出現的研究領域的技術范圍全面,技術演化的內容明顯;3)解決了初始值無差異性產生的問題。采用邊鏈接影響力流計算邊權重,無論初始值為多少,網絡中的邊最終會根據傳遞規則收斂到固定值,解決了傳統的SPx算法采用的邊遍歷計數思想而忽略初始值無差異性帶來的問題。
4.2 局限之處與應用范圍
本文基于邊鏈接影響力流傳遞路徑搜索算法的知識流路徑搜索確定技術主路徑的方法的局限之處主要有以下兩點:
1)采用基于邊鏈接影響力流傳遞路徑搜索算法搜索出的專利節點雖然時間跨度更大,技術內容的演化強于傳統的主路徑分析法,但根據圖3中搜索出的專利節點的大小可以看出采用基于邊鏈接影響力流傳遞路徑搜索算法搜索出的高頻引證次數的節點沒有主路徑分析法搜索出的多。雖然專利節點的引證次數不能完全說明一個技術的影響力程度高低,但是在一定程度說明了用基于邊鏈接影響力流傳遞路徑搜索算法搜索出的專利引證次數不是最高的。
2)本文通過節點的大小對逆向基于邊鏈接影響力流傳遞路徑搜索和SPLC算法搜索出的主路徑算法進行比較其實并不全面,一個節點的影響力和重要性程度除了被引次數,還與專利的商業價值,專利年齡,專利訴訟等指標相關。本文單從節點的大小只能在一定程度說明兩個方法的優劣性,而對于兩個方法搜索出的主路徑上節點的影響力還需要進一步研究。
參考文獻
[1]Dosi G.Technological Paradigms and Technological Trajectories:A Suggested Interpretation of the Determinants and Directions of Technical Change[J].Research Policy,1982,11(3):147-162.
[2]Verspagen B.Mapping Technological Trajectories as Patent Cita- tion Networks:A Study on the History of Fuel Cell Research[J].Advance in Complex System,2007,10(1):93-115.
[3]Griliches Z.Patent Statistics as Economic Indicators:A Survey[J].Journal of Economic Literature,1990,28:1661-1707.
[4]Verspagen B.Mapping Technological Trajectories as Patent Citation Networks.A Study on the History of Fuel Cell Research[J].Advances in Complex Systems,2007,10(1):93-115.
[5]Hummon N P,Doreian P.Connectivity in a Citation Network:The Development of DNA Theory[J].Social Networks,1989,11(1):39-63.
[6]Hummon N P,Doreian P.Computational Methods for Social Network Analysis[J].Social Networks,1990,(12):273-288.
[7]Hummon N P,Doreian P,Freeman L C.Analyzing the Structure of the Centrality Productivity Literature Created Between 1948 and 1979[J].Knowledge:Creation,Diffusion,Utilization,1990,11(4):459-480.
[8]Batagelj V.Efficient Algorithms for Citation Network Analysis[J/OL].arXiv,2003:0309023.2018-03-27.
[9]隗玲,方曙.引文網絡主路徑研究進展評述及展望[J].情報理論與實踐,2016,(9):128-133.
[10]劉向,馬費成.科學知識網絡的演化和動力-基于科學引證網絡的分析[J].管理科學學報,2012,15(1):87-94.
[11]Garfielde E.Citation Indexes for Science[J].Science,1965,123(3185):61-21.
[12]Choi C,Park Y.Monitoring the Organic Structure of Technology Based on the Patent Development Paths[J].Technological Forecas- ting and Social Change,2009,76(6):754-768.
[13]Persson O.Identifying Research Themes with Weighted Direct Citation Links[J].Jornal of Informetrics,2010,4(3):415-422.
[14]Kelley,James;Walker,Morgan.Critical-Path Planning and Scheduling.1959,Proceedings of the Eastern Joint Computer Conference.
[15]Liu J S,Lu L Y.An Integrated Approach for Main Path Analysis:Development of the Hirsch Index as an Example[J].Journal of the Association for Information Science and Technology,2012,63(3):528-542.
[16]Zhu H M,Yin X C,Ma J,et al.Identifying the Main Paths of Information Diffusion in Online Scial Networks[J].Physica A:Statistical Mechanics and its Applications.2016,452(15):320-328.
[17]Halatchliyski I,Hecking T,Goehnert T,et al.Analyzing the Main Path of Ideas and Activity of Contributors in an Open Learning Community[J].Journal of Learning Analytics,2014,1(2):72-93.
[18]Mina A,Ramlogan R,Tampubolon G,et al.Mapping Evolutionary Trajectories:Applications to the Growth and Transformation of Medical Knowledge[J].Res.Policy,2007,36(5):789-806.
[19]Harris J K,Luke D A,Zuckerman R B,et al.Forty Years of Secondhand Smoke Research:The Gap Between Discovery and Delivery[J].American Journal of Preventive Medicine,2009,36(6):538-548.
[20]Page L,Brin S.The PageRank Citation Ranking:Bringing Order to the Web[EB/OL].http://www.db.stanford.edu/~backub/PageR anksub.ps,1998-2001.
[21]Franceschet M.PageRank:Standing on the Shoulders of Giants[J].Communications of the ACM,2011,54(6):92-101.
[22]段慶鋒,朱東華,汪學鋒.基于改進PageRank算法的引文文獻排序方法[J].情報理論與實踐,2012,(1):115-119.
[23]劉次華.隨機過程及其應用(第3版)[M].北京:高等教育出版社,2004.
[24]鄭智穎,李鳳臣,李倩,等.海水淡化技術應用研究及發展現狀[J].科學通報,2016,61(21):2344-2370.
[25]朱淑飛,薛立波,徐子丹.國內外海水淡化發展歷史及現狀分析[J].水處理技術,2014,(7):12-15,23.
(責任編輯:孫國雷)