, ,
隨著學科的交叉融合,新的研究方向不斷涌現,從中識別關鍵方向對于科研人員了解學科發展趨勢、國家在激烈的國際科技競爭中獲得優勢都至關重要。研究前沿代表科學發展的熱點及趨勢,指引科學發展的方向,決定技術創新的路徑、各國政府的科技政策制定、科技資源配置與科研方向的選擇。
研究前沿的概念自Price 1965年提出后,不斷被其他學者修訂和豐富。Price認為,研究前沿具有時效性[1]。研究前沿隨著時間發生變化,就一個學科領域來說,研究前沿的變化過程基本代表了這個學科的發展過程。與研究前沿相關的概念很多,例如熱點主題、新興研究領域、新興主題、新興趨勢、潛在知識等。研究前沿的識別方法大體分為定性和定量方法兩類,前者已經比較成熟,后者仍在不斷發展和完善。
Research frontier和Research front都被翻譯為“研究前沿”,但是這兩者的意義卻存在著區別[2],前者是指專家根據自己個人的科研經驗判斷得出的研究前沿,后者是指由定量指標分析計算得出的研究前沿。
研究前沿的定義大致分為3類:將被引文獻定義為研究前沿,將施引文獻定義為研究前沿,將突發詞或熱點主題定義為研究前沿。研究前沿的概念及演進過程如表1所示。

表1 研究前沿的概念及演進
信息科學領域存在著很多與“研究前沿”相似的概念,如新興研究領域(Emerging Research Domains,Emerging Knowledge Domains,Emerging Fields,Emerging Research Area)、潛在知識(Latent Knowledge)、新興主題(Emerging Topics)、新興技術(Emerging Technology)、新興趨勢(Emerging Trend)、研究熱點等。新興趨勢(Emerging Trend)的概念是2003年Apirl Kontostathis提出的,是指隨著時間推移逐漸引起人們興趣并得到越來越多的研究者討論的主題領域[11];新興主題是Naohiro 2002年提出的,是指在某個特定科學研究領域中的由多個關鍵詞或者詞組表示的一組新興的主題領域,代表科學研究領域中最具發展潛力的研究方向或趨勢[12];新興技術是正在出現的并具有較大發展趨勢和商業潛能而且可能對行業經濟以及產業結構產生重大影響的技術[13-14]。它既可以是以前從未出現過的技術,也可以是已有技術經過一段平原期后,最近在原有的研究基礎之上掀起的技術熱潮[15]。研究熱點雖然還沒有明確的定義,但已經被廣泛使用,例如Web of Science將發表于過去兩年并被大量文獻引用且被引頻次位居其學術領域前0.1%的文獻集稱為熱點論文。
與研究前沿相關的概念很多,本文借鑒相關概念的研究,探討研究前沿識別方法。
定性分析是根據研究需要,廣泛收集專家的意見,結合獲取的資料對學科發展進程以及現狀進行概括,最終形成對課題或專題研究的前沿預測和技術預見等。定性分析主要有德爾菲法、內容分析法、科技政策分析、比較分析法、社會調查法、專家咨詢法、情景分析法等,有的研究綜合采用幾種方法[16]。基于專家意見的定性分析方法被廣泛應用,其中德爾菲法、專家咨詢法和文獻綜述法是比較常用的分析方法。
基于德爾菲法的前沿預測方法較為成熟、權威,在國家科技發展戰略制定中起著至關重要的作用。例如美國成立專門的利益非攸關戰略專家委員會,負責對美國當前的技術水平與影響力、世界科技發展態勢、產業結構性變化進行分析、評估和預見,形成咨詢報告;再依據戰略規劃,成立科技發展優先領域專門委員會,通過廣泛調研,擇優篩選,制定關鍵技術選擇標準,委托世界技術評估中心等咨詢機構進行社會經濟需求分析和國內外相關技術調研的此基礎上形成報告[17]。歐盟2014 年實施 “地平線 2020”計劃,其中歐盟科技計劃的咨詢工作,主要依靠各行業各領域的專家。科技戰略規劃、政策效果評價、項目評審評估等都需要組建相應專家組或專家委員會提供咨詢服務。其基本原則:歐盟委員會及有關部門可根據工作需求成立專家組,專家組至少由 6 人組成且至少召開兩次專家組會議,作為咨詢實體的專家組主要在立法建議、政策倡議、戰略規劃與舉措的實施等諸多方面為歐盟委員會或有關部門提供專業咨詢服務支持[18]。歐盟于2007年成立了歐洲研究理事會(ERC),為歐盟國家的前沿學科提供科研經費,通過競爭機制擇優資助前沿學科和交叉學科的研究以及新技術和新興領域的開拓性探索,并使用風險性、適用性、跨學科性、創新性4個文獻計量指標進行評估,評估結果由ECR同行評審小組判斷裁決,經過計量經濟學決策模型決策,選擇資助前沿項目。基于定性分析的前沿識別方法匯集了專家的智慧和經驗,但其對專家的水平要求較高,并受專業知識面、專家主觀認識以及專家時間精力等不確定性因素影響,比較耗時,成本較高。
20世紀60年代文獻計量學快速發展,有關研究前沿的研究隨著SCI 引文數據庫的建立逐漸興起,以文獻計量學為基礎的定量分析法受到關注。目前用于識別研究前沿的定量分析法主要有基于引文的前沿監測研究方法和基于內容的前沿監測研究方法。
2.2.1 基于引文的前沿識別研究
2.2.1.1 共被引分析
自1973年Small提出“共引”(Co-citation)的概念[3]后,Garfield和Persson也提出了共被引分析方法[4-5]。共被引分析能夠根據論文共同被引用的頻次和論文之間共同被引用產生的密切程度,聚類得出某領域內的研究前沿,在前沿研究中比較常用。基本方法是:首先收集某一主題相關的文獻及其參考文獻字段并建立被引文獻索引;然后選擇被引用次數在一定閾值內的論文(高被引論文)作為研究對象,計算一對被引用文獻的共被引頻率;采用單鏈聚類方法對被引用文獻進行聚類分析,先隨機選擇一篇文獻,然后搜索所有與其相關的文獻單元,進而形成共被引的文獻簇;根據聚類結果和前面統計出的共被引頻率,用多維尺度分析繪制出研究前沿的結構圖。多維尺度分析通過低維空間(通常是二維)揭示文獻間的聯系,并利用平面距離來反映文獻之間的相似程度;然后使用該文獻簇中的文獻題目中經常出現的詞語或短語為研究前沿命名;最后在該領域專家的幫助下就可以比較準確地揭示該學科領域中的研究前沿[19]。
ESI Research Fronts是ESI數據庫的組成部分之一,在近5年高被引論文的基礎之上,使用共被引分析和聚類分析得到各學科領域的ESI研究前沿,科睿唯安從2013年起將該方法應用于ESI每年定期發布的“研究前沿”報告[20]。ESI 研究前沿以ESI高被引論文(論文的被引頻次在同出版年、同學科論文中位居前1%的論文)為起點,基于共被引分析方法用單鏈接聚類算法聚類識別得出。他們認為,ESI研究前沿與科學研究前沿存在著很大程度上的重合關系(見圖1),并且ESI研究前沿是洞悉科學研究前沿的重要起點。在聚類構建研究前沿時,按照ESI研究前沿的共被引強度閾值判斷兩篇文章A和B是否構成一個共被引對的計算方式如下:
其中cocitation frequency是論文A和B的共被引頻次,Citation A是論文A的被引頻次,Citation B是論文B的被引頻次。
當cosine similarity≥0.1時,說明兩篇文章可以組成共被引對。如果共被引對(A,B)中的一篇文獻和共被引對(C,D)中的一篇文獻具有較強的共被引關系,則 (A,B)和(C,D)將形成更大的聚類。當組成某一研究前沿的核心論文數過高(>50)時,則調高閾值,但須保證一個ESI研究前沿最少有2篇核心論文。最終從組成ESI研究前沿的核心論文的題目中提取關鍵詞,組成ESI研究前沿名稱[21]。有學者通過作者共被引分析,發現使用多種類型的數據源識別研究前沿的效果要好于使用單一的論文數據[22]。在聚類方法的選擇中,除了單鏈聚類方法以外,雙聚類方法能夠對高被引文獻和引用文獻進行雙向聚類,可以反映共被引分析過程中被引文獻與引用文獻的對應關系,因此也被廣泛使用。例如楊穎、崔雷參考Persson對研究前沿的定義,在共被引分析方法中應用雙聚類方法得到了護理學領域的研究前沿和知識基礎[23]。
共被引方法的有效性已經得到廣泛驗證,然而論文從發表到被引用需要一定的時間,因此共被引分析法具有一定的滯后性,并且共被引強度閾值的設定以及聚類的大小都需要人工干預,結果在一定程度上會受到人為因素的影響。

圖1 ESI研究前沿與科學研究前沿關系圖
2.1.1.2 文獻耦合分析
1963年Kessle教授提出了“文獻耦合”(Bibliographic Coupling)這一術語[24]。無論是文獻耦合還是共被引,都是對文獻相關性的一種測量。文獻耦合和共被引在概念上存在著嚴格的對偶關系,但文獻耦合是靜態的,而共被引聚類分析隨著時間推移和新的文獻加入到引用網絡中而變化。
1974年Weinberg對文獻耦合進行了較為全面的研究,并將它應用于科學學研究中[25]。
此后,更多的學者進一步發展了文獻耦合的分析方法[5-6]。
采用文獻耦合識別研究前沿的步驟為:首先對某一主題相關的文獻及其參考文獻字段建立引文索引,之后排除沒有達到一定耦合頻率閾值的文獻并建立引用矩陣并求得兩個文獻的耦合頻率;使用譜系聚類方法對文獻單元樣本進行聚類分析。譜系聚類方法會產生一個二叉樹,二叉樹的‘葉’可以將文獻簇形象地表示為線性序列,就可以進一步分析得到研究前沿的結構;將二叉樹產生的結果定為縱軸Y,加入時間軸X就可以得到研究前沿的時間演化圖。最后提取、使用在該文獻簇的文獻題目中經常出現的詞語或短語對研究前沿的命名,并在該領域專家的幫助下,對各研究前沿進行比較準確的描述[19]。
2005年BoJarneving指出,需要更多詳細的定性研究來比較共被引分析和文獻耦合分析識別研究前沿的效果[26],并于2007年使用文獻耦合聚類分析方法識別出核心文獻和領域研究前沿[27]。
2012年Schiehd借鑒Persson的定義,提出可以從基于文獻耦合聚類的文獻簇中識別研究前沿,從共被引文獻簇中識別知識基礎,并提出了模仿地理地圖的二維和三維圖像探測研究前沿和研究基礎的可視化方法[28]。
還有不少學者使用專利文獻識別研究前沿,如Huang MH[29]、Boyack KW等[30]認為文獻耦合聚類方法的識別效果優于共被引聚類方法,因此李蓓、陳向東[31]用基于專利引用耦合聚類的方法識別納米領域的新興技術。由于發明專利文獻能夠反映技術的價值和新穎性,因此專利文獻分析是研究前沿識別方法中的一種新思路。
基于文獻耦合的分析方法雖可在一定程度上彌補共被引分析方法的時滯性,但仍存在不足。因為1篇論文發表后,其參考文獻不會再有改變,文獻耦合分析的數據集不會像共被引分析那樣隨時間發生變化,所以基于文獻耦合的方法在研究前沿主題演化上受限。此外,雖然兩篇文獻同時引用了1篇文獻,但有可能引用了文獻的不同部分,引用目的也可能不同。此外,不論是文獻耦合分析還是共被引分析,均不能自動描述篩選獲得論文的主題,而需要通過人工篩選出論文標題、關鍵詞進行標識,或是通過專家判斷解讀。
2.1.1.3 直接引用分析
自2004年Garfield采用直接引用網絡的方法得出一個知識領域文獻的歷史演化圖譜(Historiography Mapping)[32]后,基于直接引文的方法已取得初步進展。
2006年,Klavans和Boyack[33]在比較基于直接引用方法和共被引方法的聚類結果時,發現直接引用更適用于相似文獻的聚類分析。
2010年,Klavans 和Boyack指出,直接引用分析可以更早、更直接地揭示引文網絡所代表的研究領域結構特征以及發展趨勢,但在精確性方面文獻耦合及其復合方法略優于共引分析,而直接引用方法最不準確[30]。
日本東京大學的Shibata,Kajikawa,Matsushima和Sakata等學者組成的研究團隊推動了基于直接引文探測研究前沿方法的發展[34]并在2009年分別構建了氮化鎵(Gallium Nitride)、復雜網絡(Complex Network)、碳納米管(Carbon Nanotuhe)3個領域的3種引文網絡。他們通過使用Newman[35]用2004年提出的拓撲聚類算法將引文網絡聚類得到各個領域的文獻簇探測研究前沿,通過對比文獻簇的可見性(標準化后簇的大小)、速度(平均出版年)、拓撲相關性(密度)3個指標判斷基于直接引用、共被引、文獻耦合3種引文網絡方法在識別研究前沿上的效果。結果表明基于直接引用的方法可以識別到更大更早的新興簇,在識別研究前沿方面表現最好,文獻耦合次之,共被引則表現最差。此外,基于直接引用方法得出的論文的內容相似度最高。由于最大范圍地包含了核心論文,因此缺失研究前沿的風險性最小[36]。同年,該團隊利用直接引用分析,并使用Newman的拓撲聚類方法得到每個簇內鏈接密度高的緊密文獻群,采用A.T.Adai等開發的LGL模型繪制成動態可視化大型網絡以更加直觀地理解文獻簇,描述了太陽能電池研究的技術趨勢,對能源和太陽能電池的研究結構進行可視化分析,有效預測了新興的研究領域[37]。2011年,他們用同樣方法探測再生醫學領域研究前沿并得到專家證實,預測了成人干細胞和成體干細胞方向的研究前沿[38]。他們還采用直接引用方法,通過對比太陽能電池相關論文與專利2種數據源的文獻聚類結果,識別更具商業價值的潛在技術前沿[39]。
研究表明,基于引文分析的研究前沿識別方法中,共被引和文獻耦合方法較為常見;而基于直接引用的方法識別效果最好,很有可能成為未來研究前沿識別的趨勢。
為獲得最好的研究效果,多數分析人員會綜合運用上述引文分析方法。基于引文的研究前沿識別方法存在引用滯后性及分析對象間接性的問題,因此從能夠更直接體現研究前沿的論文研究內容入手進行前沿探測受到很多學者關注。
2.2.2 基于內容的前沿識別研究
2.2.2.1 詞頻分析
詞頻分析是文獻計量學中傳統和具有代表性的一種內容分析方法,其基本原理是通過詞出現的頻次來確定研究熱點及其變化趨勢[40]。詞頻分析能夠通過給定閾值的關鍵詞反映某研究領域熱點,詞頻越高,表示研究人員對該研究領域關注度越高。對文獻的主題內容進行研究,既可揭示其研究熱點,又可結合詞頻出現的年份揭示研究主題的時間分布,進而識別學科研究熱點及趨勢[41]。
2002年Kleinberg提出的突發詞檢測算法(Burst Detection Algorithm),可用于檢測某學科領域內研究興趣的突然增長[42]。這個算法原本是用來檢測單個詞的突然出現,但也適用于時間序列的多詞專業術語和引文分析[43]。
在實際應用過程中,基于詞頻來識別研究前沿的方法過于單薄,因此大都結合其他方法使用。如Mane以1982-2001年Proceedings of the National Academy of Science of the United States of America(PNAS)中的論文為數據集,用Kleinberg突發詞檢測算法抽取高頻詞,然后利用共詞方法識別PNAS中的主要研究主題和新興趨勢并繪制出可視化圖譜,通過咨詢領域專家驗證詞頻分析在識別研究前沿以及主要趨勢的合理性及實踐價值[44]。
2006年,陳超美開發出基于主題詞分析的CiteSpaceⅡ可視化軟件[9],利用突發詞檢測算法,從題目、敘詞、摘要以及文獻記錄的標識符中抽取出數量上發生突變的專業術語(Burst Terms)來識別新興的學科前沿。經過對大量來源文獻動態分析后可以得出數量變化趨勢,對突發詞進行檢測并發現聚類來識別和表示研究前沿,再從含有突發詞的文獻的引文中得到知識基礎[45]。
2017年,Xiaorong He等使用突發詞檢測算法分析關鍵詞和參考文獻,得到有序加權平均(OWA)算子研究的新興趨勢[46]。
詞頻分析方法的不足在于詞頻閾值的確定存在較強的主觀性,目前學者大多將高頻詞匯閾值設定為Top50,但是只篩選高頻詞匯進行分析會忽略可能代表研究熱點或新研究趨勢的低頻詞匯。
2.2.2.2 共詞分析
Callon 1983年提出的共詞分析技術,是一種根據文本信息項之間的關聯強度進行有效可視化的內容分析技術[47]。共詞分析法對文獻內容的挖掘更加深入準確,最大程度發揮了詞頻分析的優勢,因此越來越多的研究者采用共詞分析方法來識別研究前沿。隨著研究的深入,共詞分析方法不斷改進,分析詞從索引詞、關鍵詞發展到自由詞,從單個詞語、雙詞短語再到多詞短語,詞語共現范圍可被限定在同一句子之內、數十個詞之內、同一段落之內或者同一篇論文之內等[48]。
1984年Rip等采用共詞分析方法對10年內生物技術領域的論文進行分析揭示了該領域的現狀和研究前沿,指出識別研究前沿要結合科學計量方法(ScientometricMethod)和專家認知分析(Cognitive Analysis)[49]。
1993年Kostoff提出了數據庫內容結構分析法(Database Tomography,DT),在持續改進的同時先后進行了技術競爭情報和高技術領域研究前沿分析等應用[50]。
1998年,Bhattacharya抽取論文標題中的詞語構建共現網絡,通過聚類分析來識別凝聚態物理研究領域內和領域間的新興研究領域,并指出這種方法能比基于引文的方法更好地探測科學領域的研究活動[9]。
在前沿識別研究中,許多學者會綜合應用多種方法。如2017年Carlos Olmeda-Gómez等使用基于關鍵詞共現方法和基于共被引網絡并結合突發詞檢測算法2種分析技術,從知識基礎中識別研究前沿,最終得出西班牙圖書館和信息科學產出的主題背景和前沿[51]。
由于詞語在不同的語境下含義會有所不同,單個詞語并不能表達具體的意思,只有出現在句子中才會有意義。因此僅共詞分析方法不足以揭示研究前沿。
2.2.2.3 文本挖掘
基于文本挖掘的前沿監測方法主要包括新興趨勢探測(Emerging Trend Detection,ETD)方法、非相關知識發現方法和基于概率主題模型方法。A.Kontostathis等2003年提出的新興趨勢探測(ETD)概念,是指監測某個領域中熱點信息的動態趨勢,當探測到最新發展態勢時給以提示[11],因此從本質上講ETD也是一種研究前沿探測研究[52]。
1986年,D.R Swanson首次提出“基于非相關文獻的知識發現法”,從表面沒有任何聯系的文獻內容中識別出新穎的、潛在有效的并且最終可理解的知識的信息研究方法[53]。非相關知識發現方法摒棄了傳統的引文分析方法,利用自然語言處理技術對科技文獻內容進行深入分析,從中發現相關知識點,進而發現潛在的知識關聯[54]。
D.M.Blei等于2003年提出了LDA模型,并對文本進行“隱性語義分析”(LSA)[55];于2006年又提出動態主題模型[56],主要研究如何擴展LDA模型,讓動態LDA模型可以處理具有時間戳的文檔數據集,實現動態主題的探測與追蹤。LDA 模型理論完備、參數比較容易設置并且有良好的泛化能力,能以詞組的形式表示主題詞-主題-文檔之間的語義關系,改善了共詞分析不能有效表達詞匯間語義關系的缺陷,使分析結果更加準確、可靠、成熟。
研究前沿的識別和選擇對于政府制定科技發展戰略或者企業制定指導性的發展規劃都具有支撐決策的重要意義。
日本技術預見工作始于20世紀70年代。1970年,日本科技廳采用德爾菲法進行關鍵技術和通用技術的選擇[57],進行第一個預見分析。日本為了成為全球科學技術的領導者并保持其科技強國的地位,從第三期《科學技術基本計劃》(2006-2010)開始將研究前沿作為首要研究課題,確定生命科學、信息通信、環境、納米材料等 8 個重點領域作為日本 2006-2010 年科研攻關的重點,又從中遴選確定了 273 個重要研發課題。這些課題是通過技術預測、國際比較、公民調查等多種方法挑選出來的,其設定的目標大多是采用定性與定量相結合的方式確立的[58]。
韓國自1993年起,每5年進行一次技術預見工作,截至2011年,共進行了4次技術預見。其中前兩次技術預見運用了德爾菲法,第三次則增加了未來社會與社會需求展望、未來社會情景描述等預測方法。2009年,韓國采用文本挖掘、論文網絡分析等方法,進行了為期兩年的“第四次技術預見”,以便更好地把握社會和科技發展的態勢。國家科學技術審議會負責審議和批準技術預見的結果,其下設的技術預見綜合委員會,由來自科技領域和人文社會領域的20位專家構成,負責技術預見工作的總體協調與組織。技術預見綜合委員會下設未來技術評估委員會、未來展望委員會和技術預見學科委員會3個委員會,由各領域專家組成,分別負責對上一次技術預見結果進行評估、對未來社會進行展望和分析、以未來社會展望為基礎遴選未來技術[59]。
加拿大創新基金會(CFI)通過研究技術的可發展性、創新能力、對國家的有益性三個重要標準來評估所有提案,根據滿足審查標準的程度,選擇最優的提案,由研究人員、研究管理人員和私營部門管理人員組成的審查人員審查后向CFI提供資助建議。
大型企業通常已經占據一個或多個領域的領軍地位,為了謀求更長遠的發展,它們通常會對有潛力的重要領域做出預測。幾乎一半的美國“財富”1000強企業都使用技術預見方法進行企業戰略規劃。這些公司一般規模較大,通常都有自己的戰略規劃部門負責進行前瞻性和面向未來的研究。例如飛利浦、朗訊科技、西門子、戴姆勒-克萊斯勒以及殼牌等大型公司已經開發出自己的未來展望系統,并通常采用基于專利分析、文獻分析、情景分析、調查的方法,或者使用德爾菲法和技術路線圖進行決策。惠普、英特爾和谷歌等許多大公司對技術創新預見,都率先使用“預測性市場”,即通過一個虛擬的交易機制,從關于未來可能的技術發展方向上挖掘所有員工的知識和經驗的方式來做出決策判斷。這種方法類似而又不同于基于專家的預測方法,是一種比較新的方法[60]。
目前,對研究前沿還沒有明確、統一的定義,也缺少一套客觀公認的標準化指標體系。研究前沿的定性識別方法大多是基于專家預測,專家的主觀意見占有很大比重,同時對專家的專業素養要求較高。雖然不少國家和大型企業借助專家的意見來輔助戰略決策,但在實際應用中,這種方法費時費力,并不能及時滿足研究前沿識別的需求。
共被引分析、文獻耦合分析、直接引用分析以及共詞分析等方法在探測研究前沿中應用廣泛,可以根據使用情況及應用環境的不同選擇適合的方法。共被引分析、文獻耦合、共詞分析大多使用單鏈接聚類算法等傳統的聚類技術,存在主觀設定閾值的問題,需要借助領域專家的經驗以獲得更好的聚類結果。復雜網絡領域的社團結構探測算法可通過網絡結構的特征直接獲取最優化的聚類結果,不會存在閾值主觀調整的問題,因此將來可能會有更多的社團結構探測算法應用于科學網絡中。日本的Shibata團隊證明,基于直接引用的方法識別研究前沿效果優于基于共被引、文獻耦合的方法,有可能成為研究新趨勢。基于引文分析的方法雖然應用廣泛,但依賴于能夠提供引文關系的數據庫,而在現實中這樣的數據庫是相當有限的。從這個意義上來說,基于詞的分析方法的應用空間更為廣闊。基于文本挖掘的前沿監測方法直接通過對文本內容的分析,自動識別研究前沿,較為簡便快捷,在前沿研究中會得到越來越多的重視和應用。
與期刊論文數據相比,專利、各國政府部門的科技規劃、各國基金機構資助的重點領域的項目申請書和研究報告以及重要組織、學會、科研機構撰寫的相關研究前沿的研究報告等多種數據更能及時反映科學研究前沿,會越來越多地應用于科學前沿識別。