任曉亞,張志強
(1. 中國科學院成都文獻情報中心,成都 610299;2. 中國科學院文獻情報中心,北京 100190;3. 中國科學院大學經濟與管理學院信息資源管理系,北京 100190)
發現,是指看到/找到/知道以前不了解的事物或規律。在“漢文學網-漢語詞典”[1]中,科學發現是指“科學活動中對未知事物或規律的揭示,主要包括事實的發現和理論的提出,是一切科學活動的直接目標和科學進步的主要標志,往往求助于直覺和想象力,與科學家的文化素養、心理結構甚至性格特征等有關,但也有其自身的規律”。學者們主要從兩個角度——科學發現的過程和科學發現的結果,對科學發現的內涵進行辨析。如楊耀坤[2]認為“科學發現特指科學家做出新的經驗事實或理論原理的發現這樣一個科學認識的過程”;錢時惕[3]、邱仁宗[4]等側重于從科學發現的結果考量,認為從自然界發現新的事實,或在科學研究中提出新概念、定理、原理、理論體系,都應被納入科學發現。
天體物理學家Sandra Faber認為“這是科學生涯中的一件幸事——幾乎每天都有科學發現帶來的興奮”(It's a blessing in a scientific career—the almost daily thrill of scientific discovery)①http://www.brainyquote.com。在科學活動中,科學家最直接的目的就是實現“未發現之發現”,不斷積累的科學發現是科學得以進步的主要條件之一。就根本而言,科學發現是人類諸多行為中一種復雜的科學實踐活動,陳其榮[5]從科學哲學的角度,提出“應當摒棄將科學發現與技術發明截然二分的傳統觀念,確立一種廣義的科學發現觀,即把科學發現理解為包含發明在內的發現”。該觀點也是本文科學發現所涵蓋范疇的主要依據??茖W發現不僅是科學活動的重要內容,更是終極目標,在這些不斷涌現的科學發現中,重大科學發現代表著科學領域前所未有的奠基性、突破性進展,是推動著科學領域探索發展邊界的源動力。而科學獎項則是一個很好的觀察視角,基于科學獎項的功能定位[6],高聲望科學獎項授予的科學成果代表著領域中里程碑式的研究進展。因此,本文基于獲獎成就細分領域定性聚類[7]的前期研究基礎,以權威科學獎項所褒獎的科學成果來表征重大科學發現,以便于定量化呈現研究方法的可行性和可操作性。
科學發現、科學知識、科學出版物在一定程度上互為轉換關系。其中,科學知識是無形的、復雜的、動態變化的,科學發現中蘊藏著豐富的科學知識,而科學出版物是科學知識傳播、積累的重要載體,作為最易于測度的一種承載方式,科學出版物成為科學發現的一種定量表征。在科學交流系統內,知識的傳播、流動通過顯性路徑(期刊、專著等正式學術交流)和隱性路徑(學術會議、討論、座談等非正式學術交流)實現。相應地,知識按照性質可劃分為兩類:顯性知識(explicit knowledge)和隱性知識(tacit knowledge)[8]。引文分析的理論基礎是知識流動理論[9],從引文關系的角度來看,引用的建立代表著文獻之間關聯關系的成立,這種關聯關系可分為顯性關聯和隱性關聯。具體地,每篇文獻都是知識的載體,文獻的直接引用體現了科學知識最直觀的傳遞過程,也最容易被觀測,為顯性關聯;而由于信息量激增、知識面的局限、被人為去除、主觀隱藏或弱化等原因[10],存在較為普遍的、至今尚未被發現的隱性關聯,如引文耦合、同被引、作者合著等隱性關聯建立起的關聯關系。這些關系的建立均離不開對文獻的利用,無論出于何種引用目的和動機(支持、反駁、提及等)[11],都體現了引用帶來的科學知識之間的必然聯系。因此,對科學出版物中關聯關系,特別是隱性關聯關系的挖掘具有重要意義。
學術界開展知識關聯的相關研究較為豐富,有些學者從知識演進[12]角度出發,如以“引文主路徑和時序主題”作為科學發現知識演進的分析框架,并以石墨烯領域的科學發現為案例闡明了“科學發現-技術研發-產業應用”的路徑規律[13],以及知識進化視角下的科學文獻傳播網絡演化研究[14-15]。也有些學者對知識單元進行分析,如使用共被引和共詞分析方法具像化科學發現鏈式結構理論[16]。還有學者對知識擴散方面進行分析,如學科知識擴散的分布特征[17]、科研合作網絡的知識擴散機理[18]。此外,也不乏探測知識流動[19]的研究。總體上,當前聚焦于知識關聯的研究,主要通過引用[20]、合著[21]、關鍵詞[22]、主題[23]等實現方法,來探究學科、論文、專利等[24-25]研究對象的相互作用關系。
知識進化的顯著特征是知識的繼承的“遺傳”性和發展的“變異”性[26]。本文的知識傳遞,本質上與知識進化的理念相似,重點是指知識的前后關聯關系,這種知識的前后時間演進和關聯關系存在著知識的前后遞進關系、學習關系、批判關系、繼承關系、啟發關系……本文將其統一概括為科學知識傳遞關系。無論后續科學發現是支持還是推翻已有發現,僅從知識利用的角度來考慮,均能夠說明科學發現之間存在的某種客觀聯系。需要說明的是,引文關系在具體知識內容的揭示上存在一定的局限性,本文綜合多元引文關系、科學發現的定性判讀(研究領域和發現內容)以及領域專家咨詢的方式彌補這一不足。后續研究將結合文獻主題詞等文本挖掘方法進行探討。
科學發現的產生離不開前人研究的積淀,如何測度重大科學發現之間的知識關聯關系?其中又具有怎樣的知識傳遞路徑?為此,本文提出一種科學發現知識關聯方法,結合多元引文關系更深粒度地挖掘科學發現之間的知識關聯,并通過實證分析探究代表性領域重大科學發現的知識傳遞規律與特點,以豐富相關研究方法體系,加深科研工作者對領域科學發現規律的理解,為科研資助、科技評價等政策制定提供基于定量數據的參考與支撐。
本文以重大科學發現作為研究對象,以權威科學獎項的獲獎成就來定量化表征重大科學發現,聚焦于主要科技創新領域中科學界公認的、國際性的權威獎項[27],選擇數學、生理醫學與計算機科學三大領域的代表性科學獎項:菲爾茲獎(Fields Med‐al)、拉斯克醫學獎(Lasker Medical Research Awards)(公共服務獎和特殊貢獻獎除外)與圖靈獎(Tur‐ing Award),以3種獎項每位獲獎科學家的獲獎代表作為數據基礎(數據截止到2020年2月),從知識層面分析揭示重大科學發現之間的知識關聯關系與傳遞規律。
2.2.1 數據獲取與說明
本文選定了3種權威科學獎項,結合獎項官方網站即國際數學聯盟(International Mathematical Union,IMU)、拉斯克基金會、美國計算機協會(Association for Computing Machinery,ACM)對科學家獲獎工作的介紹,以及科學家個人主頁、傳記等信息源,將獲獎成就與公開發表的科學出版物進行匹配,盡可能確保獲獎代表作論文的準確性。進而,以Web of Science為來源數據庫,檢索并下載獲獎代表作及其全引文字段,保留作者(AU)、標題(TI)、發表期刊(SO)、參考文獻(CR)、出版年份(PY)、文章入藏號(UT)等字段以供研究使用?;谝陨喜襟E(圖1),本文建立了獲獎代表作論文及引文關系數據集。

圖1 科學發現獲獎代表作提取示意圖
由于部分代表作發文時間比較久遠以及受限于數據庫的收錄標準,最終得到的有效數據量如表1所示,包括36位菲爾茲獎獲得者發表的50篇代表作、213位拉斯克醫學獎獲得者發表的192篇代表作、58位圖靈獎獲得者發表的50篇代表作。從獲獎科學家人數進行觀察,3種獎項代表作提取概率分別為59.02%、68.05%、85.56%;從獲獎成就項數進行觀察,獲取到的代表作分別涉及36、131、42項科學發現,覆蓋概率分別為59.02%、77.51%、73.68%。需要注意的是,對于每位獲獎科學家,本文綜合多方信源(包括被引次數)選取了最具代表性與影響力的1或2篇代表作,并不能全面覆蓋科學家的所有重要科研成就。

表1 數據獲取情況說明
2.2.2 數據處理與關聯關系建立
(1)準備數據集。通過Python編程將每篇代表作的參考文獻(CR)進行分解,剔除在所有代表作論文及其CR字段中僅出現一次的CR文獻,即僅保留重復出現的CR文獻。進一步地,結合文章入藏號(UT)對CR字段中的每篇文獻進行人工編碼以實現唯一標識。
(2)構建關聯關系。根據2.3節構建的多元引文關系,預先定義3種規則:a→b、a→b→c、a→b←c,通過Python編寫循環與列表遍歷語句,考慮到數據集為表格型的數據類型,調用pandas包,依據上述3種定義規則遍歷數據框(data frame)并分別篩選。同時,考慮到邊列表文檔更便于后續讀取以及制圖分析,因此,程序輸出3種獎項代表作論文3種關聯關系的邊列表。
文獻是科學知識進行傳播、積累的重要載體,而代表作論文更是推進科學知識不斷更新、重組的重要表征方式。鑒于本課題組在前期研究中發現的獲獎代表作存在較為稀疏的顯性關聯(直接引用)的特殊性,融合隱性關聯建立起多元引文關系,能夠增強代表作之間的語義關聯,構建更加富有連通性的知識網絡,便于更深粒度地挖掘代表作之間原本存在但尚未被發現的知識基礎關聯?;谝年P系的文獻關聯關系包括同被引、引文耦合等多種隱性關聯關系,均為文獻計量學領域發展成熟、被廣泛使用的引文關系。本文認為,科學發現的產生離不開對已有研究的知識利用,因此,考慮已有引文關系的側重與區別之后,選擇多階鏈式和引文耦合作為隱性關聯關系構建科學發現知識關聯方法(圖2)[28]。

圖2 結合顯性關聯與隱性關聯的科學發現知識關聯關系構建示意圖[28]
在科學發現知識關聯方法的多元引文關系中:①直接引文關系體現了科學知識以同意、反駁等為目的建立的相關關系,可以最為直接地反映出代表作之間相關與否,屬于顯性關聯;②多階鏈式關系反映了科學知識連續性的遞進、傳遞關系,表明代表作通過一種“繼承”的路徑建立起聯系;③引文耦合關系是指兩篇代表作引用了相同的第三篇文獻(包括其他非代表作文獻),體現出兩篇代表作的關系密切程度,可以追溯不同代表作共同的知識來源。后兩種引文關系均屬于隱性關聯,也反映了代表作之間的相關性,其引用強度弱于直接引文關系。如圖2所示,通過直接引文關系、多階鏈式關系和引文耦合關系,代表作論文A與論文C建立起包括顯性關聯與隱性關聯的相關關系。例如,獲獎代表作1~6之間存在一些直接引文關系,在依次融合多階鏈式與引文耦合關系之后,不存在直接引文關系的代表作1和4、3和5、3和6、1和6能夠建立起關聯關系(表2)。

表2 基于引文關系的科學發現關聯關系類型與說明
通過科學發現知識關聯方法的理論設計、關聯關系的建立與實現、關聯關系邊列表的處理與可視化呈現,可以發現,菲爾茲獎科學發現知識關聯網絡有5個,圖3中每個節點表示一篇獲獎代表作(以獲獎科學家與獲獎成就發表時間命名節點標簽,下同),節點大小表示代表作論文的度值大小,連線粗細表示關聯關系的強弱,即權重大?。ㄖ苯右年P系權重設為1,引文耦合權重設為0.5,多階鏈式權重設為0.3,數值相加之和為最終權重)。其中,③表明1954年的獲得者Serre Jean-Pierre在代數拓撲學領域研究成果互相支撐,屬于自我“繼承式”引用。其余有:①C. T. McMullen、Alessio Figalli和Akshay Venkatesh等4位科學家的知識關聯網絡呈放射狀,6篇代表作存在直接引文關系和引文耦合關系,其中,1993年,McMullen在混沌理論、復動力系統方面的理論探索對Elon Lindenstrauss于2006年左右研究遍歷理論的測度剛性及其在數論中的應用提供了重要支撐,而后者又進一步催生了最優運輸理論(2009年)、表象理論(2008年)等里程碑式進展的出現。②丘成桐于1977年前后證明了卡拉比猜想、正質量猜想和Monge-Ampère方程解,與弦理論頂尖學者Edward Witten的獲獎發現存在比較密切的引文耦合關系,丘成桐在幾何分析、數學物理等領域的前期研究,為Witten提出超弦理論(M理論)和重新證明正質量定理起到了奠基性作用;同時,兩者較大可能性具有共同的知識來源。④Si‐mon Donaldson和Witten通過Michael Freedman于1982年證明的“四維廣義龐加萊猜想”建立起小型關聯網絡,Donaldson基于該成果發現了四維流形拓撲結構的新現象,且該成果和超弦理論具有一定引文耦合關系,拓撲學、數學分析和數學物理三大分支領域相互之間產生了一定聯系,且網絡②和網絡④所涉及的研究領域相似性較強。⑤該小型網絡體現出較為復雜的科學知識的關聯關系,McMullen、Caucher Birkar、Hormander Lars、Maryam Mirzakhani和陶哲軒5位數學家分別在復動力系統、幾何學、偏微分方程和調和分析等研究方向做出了杰出貢獻。其中,McMullen、Lars、Mirzakhani與陶哲軒的獲獎代表作之間,Mirzakhani與Birkar的獲獎代表作之間均存在引文耦合關系,特別是Mirzakhani關于“黎曼曲面的模空間”的成果,其在關聯網絡中扮演著關鍵角色。

圖3 菲爾茲獎科學發現之間的知識關聯網絡
拉斯克醫學獎科學發現之間的知識關聯網絡主要特征為大范圍、多連通,存在直接引文和引文耦合關系的科學發現較為豐富,部分科學發現之間存在多階鏈式關系,如圖4所示。

圖4 拉斯克醫學獎科學發現之間的知識關聯網絡
在圖4中,①中存在12對直線型關聯關系(包括科學發現的自引),通過引文耦合建立聯系的居多,分別為:1958年獲得者Robert W. Wilkins和1976年獲得者Raymond P. Ahlquist的代表作存在耦合關系,兩者關于高血壓和腎上腺素的治療方法可能具有相似的知識背景;Jules Freund發明弗氏佐劑與Karl Landsteiner和Alexander S. Wiener于1940年發現的Rh因子有關,兩者之間存在直接引文關系;Arnall Patz和V. Everett Kinsey于20世紀50年代發現早產兒視網膜病變的原因,知識關聯網絡高度相關,共享1956年拉斯克醫學獎;Frederick S. McKay和H. Trendley Dea于1933年左右聯合制定氟化方案,共享1952年拉斯克醫學獎;Douglas R. Lowy和John T. Schiller的合作論文充分體現了科學知識的延續遞進過程,于1989年成功研發HPV(human papil‐loma virus)疫苗之前,需要有前期研究的不斷積累;Paul M. Zoll和Carl J. Wiggers的科學成果之間存在引文耦合關系,開發閉胸除顫器和起搏器與心血管生理學所蘊含的科學知識具有一定一致性;2014年獲得者Alim Louis Benabid和Mahlon DeLong的代表作間知識相關性較強,前者結合了DeLong的研究進展對帕金森氏癥的治療方法進一步完善;Karl Paul Link和Edgar V. Allen因開發口服抗凝血藥物共享了1960年臨床醫學研究獎,兩者在1940年前后的研究高度相關,其中Link曾因對凝血機制的理論研究獲得過1955年基礎醫學研究獎;Hans W.Kosterlitz與John Hughes于1975年合作分離出腦啡肽,基于該發現發表了2篇具有深遠意義的代表作,體現出科學知識的積累和進步;Charles M.Rice和Ralf F. W. Bartenschlager的知識網絡關聯性較強,前者實現了丙型肝炎病毒(hepatitis C virus,HCV)的大規模制備,后者進一步開發出HCV體外培養系統,極大推動了治療丙型肝炎藥物的研發;Peter Walter和Kazutoshi Mori的獲獎成果間存在極強的知識相關性,特別是具有多次的引文耦合關系,共同揭示了未折疊蛋白反應;Evelyn M. Wit‐kin和Stephen J. Elledge的關聯網絡體現出知識的繼承關系,前者確立了DNA(deoxyribonucleic acid)損傷應答機制在細菌中的基本特征,隨后Elledge開展了分子機制方面的深入研究,共同獲得2015年基礎醫學獎。
在圖4中,小型知識關聯網絡主要有:②Alex‐ander Varshavsky、Avram Hershko、Aaron Ciecha‐nover、Mark S. Ptashne和A. Dale Kaiser形成了直線型知識關聯網絡,將遺傳學、細胞生物學、分子生物學等領域關聯起來,其中,前三者之間存在比較密切的引文耦合關系,因發現泛素調節蛋白質降解的過程共享2000年基礎醫學獎,而Ptashne于1980年對基因調控機理的發現,與上述科學發現有一定關系,更離不開Kaiser關于重組DNA技術克隆基因(具有直接引文與引文耦合關系)的研究基礎。③Ronald D. Finn與Michael Potter等5位獲得者建立了小規模的關聯網絡,其中關于抗Rh疫苗的兩篇代表作起到重要的中介作用,而Finn與Vincent Freda、John G. Gorman、William Pollack均為Rh疫苗的開發做出了重要貢獻,Potter關于免疫球蛋白分子遺傳學的基礎性工作與之存在比較微弱的知識關聯關系。④John B. Robbins、Thomas Francis Jr.和Renato Dulbecco通過John Holmes Dingle“治療急性呼吸道疾病”的成就,形成了連接起流感疫苗、病毒與癌癥相關性、兒童腦膜炎疫苗等發現或研發工作的小規模知識關聯網絡,但因關聯強度較弱(僅各有一次引文耦合關系),相互之間存在共同知識來源的可能性較低。⑤以Marshall W. Nirenberg的代表作為中心,形成了放射形的知識關聯網絡,藥理學、藥劑學、遺傳學、分子生物學等領域產生一定關聯,其中,John L. Ziegler在Burkitt腫瘤方面的研究與Nirenberg關于解讀遺傳密碼的先驅研究存在引文耦合關系,而后者引用了Philip S. Hench和Edward C.Kendall關于可的松發現及臨床應用的研究,并與Sol Spiegelman首次合成部分RNA(ribonucleic acid)病毒的成果存在微弱的引文耦合關系,說明科學知識的利用范圍得到了一定傳播或擴散。此外,Ed‐win Mellor Southern對Southern印跡雜交技術的開發與Spiegelman的研究存在微弱的關聯關系。
在圖4中,極具連通性的大規模知識關聯網絡有:⑥集合了比較復雜的多重關聯關系,涉及遺傳學、分子生物學、臨床病理學、細胞生物學等多個研究領域的30多位科學家。其中,2013年獲得者Thomas C. Südhof、2011年獲得者Arthur Horwich和Franz-Ulrich Hartl、2002年獲得者James E. Rothman為網絡中通路的形成提供了主要支撐,神經遞質、蛋白質折疊、囊泡轉運機制等科學發現內含的科學知識具有較強的關聯強度。⑦主要由2006年獲得者Elizabeth H. Blackburn和Carol W. Greider、2010年獲得者Napoleone Ferrara和Jeffrey M. Friedman以及2008年獲得者Victor Ambros各自組成一個放射狀網絡而產生整體聯通,端粒酶(含RNA酶)的預測和發現、VEGF(vascular endothelial growth factor)、瘦素和RNA的發現存在較為豐富的引文耦合關系,證明這些科學發現具有相同知識來源的可能性較高,該網絡涉及分子生物學(蛋白質)、神經科學等生理醫學的主要研究領域。⑧1972年獲得者C.Gordon Zubrod、Denis P. Burkitt、Donald Paul Pin‐kel、Emil J. Freireich、Emil Frei III和V. Anomah Ngu以及2000年獲得者Harvey J. Alter在癌癥化療、鑒定Burkitt腫瘤、治療成人淋巴瘤、兒童急性白血病的聯合化療方法和制定丙型肝炎病毒的篩查方法方面的系列代表作均以癌癥化療先驅Joseph H. Burch‐enal(1972年獲得者)在臨床醫學研究上的貢獻為中心,形成一個相對清晰的、呈放射狀的科學知識關聯網絡。其中,Burchenal與Burkitt的研究具有直接相關性(引用),而與其他科學成果則通過或強或弱的引文耦合關系建立起關系,凸顯出科學知識在不同研究對象間的交融。此外,Vincent T. DeVita和Paul P. Carbone(同為1972年獲得者)首次應用MOPP化療方案(包含mustargen、oncovin、procar‐bazine、pred共4種藥物成分)治療晚期霍奇金淋巴瘤的代表作與Zubrod在癌癥化療前沿領域的研究通過較微弱的引文耦合關系產生聯系,并成為連接網絡⑦的橋梁。⑨所包括的獲獎成果內部之間形成相對封閉的知識關聯網絡,涉及臨床病理學、分子生物學、細胞生物學等領域,在網絡中最突出的是1998年獲得者Yoshio Masui和Paul M. Nurse,其關于細胞周期的關鍵調控機制的成果與其他科學發現產生最多的關聯關系,以及因“發現艾滋病毒是艾滋病的起因”而獲得1986年獎項的Luc Antoine Montag‐nier和Robert C. Gallo,兩者之間通過多階鏈式、直接引文和引文耦合關系建立起穩固的知識關聯網絡。其他在網絡中出現的獲獎成果產生相互交叉的關聯關系,如Michael S. Brown和Joseph L. Goldstein關于控制膽固醇代謝基本機制的研究與Joseph E. Smadel對立克次體病的理解和臨床研究、Akira Endo于1976年發現他汀類藥物產生了知識的交叉關聯。
圖靈獎科學發現之間的知識關聯關系分散與集中并存,包括10個大小各異的科學知識關聯網絡(圖5)。其中,①的兩篇代表作均為1979年獲得者Kenneth E. Iverson的成果,存在引文耦合關系,他在編程語言理論方面做出開創性工作,特別是開發出APL(a programming language,抽象編程語言)。其余9類關聯網絡分別是:②James Gray、C. A. R.Hoare以及2007年獲得者Edmund M. Clarke和E. Al‐len Emerson以美國首位女性計算機科學博士Barba‐ra Liskov在編程語言和系統設計方面的成就為橋接點,其中,Liskov引用了Gray關于數據庫與事務處理的代表作,而其余3個節點之間存在引文耦合關系,這些關聯關系聯通了程序設計語言、計算機體系結構、模型檢測理論與實踐方面的知識網絡。③“人工智能之父”Marvin Minsky、Michael O. Rabin和Dana S. Scott與2010年獲得者Leslie G. Valiant的代表作之間形成了簡單的直線形關聯網絡,Minsky引用了Rabin和Scott的研究論文“有限自動機與其判定性問題”,而Valiant關于計算學習理論與Min‐sky關于圖靈機理論的研究存在引文耦合關系,這些科學發現的出現加速了智能革命的發展。④Ste‐phen A. Cook和Valiant均在理論計算機科學領域做出建樹,兩者之間存在引文耦合關系,證明計算復雜性理論與計算學習理論可能來源于相似的知識背景,且網絡③和網絡④所涉及的研究領域比較接近。⑤2018年獲得者Geoffrey Hinton、Yann LeCun和Yoshua Bengio被稱為“人工智能三巨頭”,三者的研究工作高度相關,主導帶動了深度學習領域的基礎概念和實驗方法的進步,引文耦合關系的挖掘提供了直觀的支撐。⑥Dennis M. Ritchie和Ken Thompson于1973年左右(代表作發表于1974年)開發出C語言和Unix系統,隨后Michael Stonebrak‐er在關系型數據庫管理系統的創建與改進方面做出基礎性貢獻,兩者之間的直接引文關系體現了知識的繼承發展。⑦Liskov引用了Leslie Lamport發表于1978年的經典論文“Time, clocks, and ordering of events in a distributed system”(分布式系統中的時間、時鐘和事件順序),進一步開展了容錯和分布式計算的算法研究。⑧Donald E. Knuth、Judea Pearl、Allen Newell、Herbert A. Simon、Robert W. Floyd等7位科學家的5項科學發現形成了一定規模的關聯網絡。其中,1986年獲得者美國計算機學家John Hopcroft和Robert Tarjan在算法設計與分析方面的成果與Simon和Newell這對師徒關于人工智能和認知科學的研究具有比較密切的引文耦合關系,均為計算機科學的發展做出杰出貢獻。該網絡的科學成果相互之間均存在引文耦合關系,聯通了算法分析、程序語言設計、人工智能等研究領域。⑨Manuel Blum、Ronald L. Rivest、Adi Shamir、Leonard M.Adleman、Silvio Micali、Shafi Goldwasser和姚期智等9位科學家基于Whitfield Diffie和Martin E. Hell‐man于1976年提出的“Diffie-Hellman密鑰”建立起涉及范圍較廣的知識關聯網絡。具體地,網絡中其余4項科學成果均引用了Diffie和Hellman的獲獎代表作,并且相互之間通過直接引文或引文耦合關系建立起了聯系。特別是Blum將計算復雜性理論應用于密碼學和程序驗證,公鑰密碼學(RSA加密算法)的產生,Micali和Goldwasser在密碼學與復雜理論領域的創舉性工作以及姚期智在密碼學與通信復雜度方面的工作均起到了十分重要的作用。⑩1995年獲得者Manuel Blum和1993年獲得者Juris Hartmanis與Richard E. Stearns同時引用了來自Rob‐ert W. Ritchie等學者關于實時計算等主題的研究文獻,對計算復雜性理論的創立和長足發展貢獻卓著。

圖5 圖靈獎科學發現之間的知識關聯網絡
真正的科學發現是具有開創性的、填補科學領域空白的科學成就,這樣的科學發現對科學進步起到了持續的奠基隱性作用。為了挖掘科學發現之間原本存在但尚未被揭露的關聯關系,本文提出了一種考慮顯性關聯和隱性關聯、基于多元引文關系構建的科學發現知識關聯方法,結合直接引文、多階鏈式、引文耦合的多元關系,以更深的粒度和更多元的角度挖掘科學發現之間存在的知識基礎關聯。在實證研究部分,本文分析了3種權威獎項(菲爾茲獎、拉斯克醫學獎、圖靈獎)的全序列研究數據,并以可視化圖譜的方式加以呈現。同時,基于領域研究人員與博士研究生的專業判斷,對方法的實證結果進行判斷、解讀和驗證,保障了研究結果的可靠性、科學性;并結合時間序列方法,基于科學發現的所處領域、研究內容和前后順序關系,試圖從回溯視角探索重大科學發現知識關聯的路徑規律與特點,進一步揭示、提煉科學知識傳遞的內在機理,為科研管理者科學地開展評價、政策制定者完善相關政策提供定量分析結果的支持。
在科學發現知識關聯方法的指導下,結合上文對3個領域重大科學發現的知識關聯網絡的分析,歸納科學發現的知識傳遞模式主要有直線模式、橋接模式、放射模式與多重模式(表3)。這幾種科學發現知識傳遞模式各有特點,但其本質仍然離不開科學知識的利用:①簡單線性和閉合線性兩種直線模式是最直接的知識傳遞模式,也是其他知識傳遞模式的最簡單單元,體現了科學知識最基本的繼承發展脈絡;②橋接模式,顧名思義,即以某項科學發現為橋梁,將兩種不同模式的知識關聯網絡連接起來,反映出科學知識的延伸性、延續性;③放射模式是指以某項科學發現為中心,孕育產生更多同一研究方向乃至不同方向的新的科學發現;④多重模式是指錯綜復雜、互相交互的科學發現知識關聯網絡。其中,放射模式和多重模式更能充分體現知識的動態積累與推陳出新。

表3 “菲爾茲獎-拉斯克醫學獎-圖靈獎”科學發現知識傳遞模式劃分
基于多元引文關系構建的科學發現知識關聯方法,定量挖掘獲獎成果代表作之間的關聯關系,可以發現,科學發現得益于科學知識的利用,包括來自不同分支領域甚至不同學科范疇的科學知識,而科學交流的方式(如引用)、科學知識的傳遞路徑,均對科學成果的產生發揮著重要作用。科學發現知識傳遞模式既能反映科學發現之間的關聯關系,也能體現科學知識的傳遞路徑。但在3種權威獎項所代表的授獎領域(數學、生理醫學、計算機科學)中,重大科學發現之間呈現差異化的關聯規律。數學領域的知識關聯網絡相對簡單直接,生理醫學領域知識關聯網絡范圍較廣、較為復雜,而計算機科學領域相對清晰,分散與集中并存。此外,科學發現的知識傳遞模式在3個學科領域中也存在差異,這可能與學科領域本身的知識體系和各學科發展規律的不同有密切關系。在現代科學體系中,學科領域交互、融合的現象愈加凸顯,科學知識為何傳遞、如何傳遞還受到社會背景、人為因素等不可測度因素的影響,單從理論推導或實證角度是無法解釋的,需要對相關問題做進一步研究和更全面的解釋。
科學發現知識傳遞模式,對決策層制定相關資助政策和管理層開展科研評價工作具有一定啟發意義。本文有助于客觀地認識科學發現的產生規律和復雜性,以及在不同學科之間的差異性。例如,警示科研管理人員,在科學成果的培育、監測過程中,有時短周期內難以識別突破性科學發現,需要兼顧長周期的跟蹤和評價。再如,制定科學政策時,本文的研究結論提醒決策者需要根據學科領域、評價對象和評價目的的差異,建立符合科學規律的科研評價機制。