研究前沿探測的效標關聯效度研究：基于自然語言處理*

2018-05-05 02:05:10周文杰

圖書與情報 2018年1期

周文杰

（1.西北師范大學商學院甘肅蘭州 730070）

1 研究背景

研究前沿的探測對于科學研究趨向的判別、科技政策的制定和科學研究資源的優化配置都具有重要意義。在科學學及相關學科領域，研究者應用多種技術對科學研究和技術發展的前沿展開了預測。然而，研究者針對特定科學領域所預測的前沿真的能夠有效代表該領域的研究方向嗎？本研究通過文獻調查發現，這一重要問題迄今并未得到清晰回答。基于這一研究現狀，有必要通過對共詞分析所識別的研究前沿的效標關聯效度進行檢驗，以便對研究前沿識別的有效性做出判斷。之所以選擇以效標關聯效度作為衡量研究前沿預測有效性的標尺，是因為這種效度檢驗方法已經在測量領域得到了普遍應用，是檢驗測量有效性最成熟、效率最高的工具之一。而選擇以共詞分析作為科學計量領域探測研究前沿的代表性方法，則是因為相對于引文分析等傳統方法，共詞分析具有時效性強、直接針對主題展開分析等諸多優勢，因此在科學計量領域具有更廣闊的應用前景。

綜上所述，結合科學計量領域對于研究前沿探測的有效性檢驗相對薄弱這一現狀，本研究擬通過自然語言處理，以來自CNKI的學術文獻題錄及全文為對象，應用歷時分析的方法，對基于共詞分析所探測的研究前沿與通過科學計量領域常用的工具所識別的研究熱點之間進行相關分析，以便對共詞分析在研究前沿判別中的效標關聯效度進行全面檢驗，從而不僅為基于共詞而探測研究前沿的有效性做出評判，更為科學計量領域豐富和發展研究前沿探測的理論與技術提供可資借鑒的參照。

2 理論基礎與研究回顧

2.1 效度與效標關聯效度

效度（validity）是衡量測量結果有效性或正確性的基本指標。經過教育學、心理學、管理學、社會學等領域研究者的共同發展，效度檢驗已成為檢驗測量有效性的基本途徑。效度檢驗有多種具體指標和方法，其中效標關聯效度因效率高、結果穩定、操作過程簡單而被廣泛應用于研究有效性的測度之中。

效標關聯效度是一種通過衡量一個測量得分與一些預測結果變量之間的相關性，從而對測量結果的有效性進行評判的效度檢驗方法。在效標關聯效度檢驗中，結果變量被稱為效標。根據測量理論，同時效度和預測效度是效標關聯效度的兩種主要形式。所謂同時效度，是指研究者在取得所關注的指標得分的同時也獲得相應效標的測量分數的一種檢驗形式。所謂預測效度，是指研究者在獲得測量分數之后再獲取效標得分的一種檢驗形式。

由于本研究所關注的是基于共詞分析而預測的研究前沿是否具有有效性問題，因此選用預測效度作為主要評價指標。

2.2 研究前沿預測

研究前沿預測已得到了科學學及相關領域研究者的普遍關注（如邱均平等、程賽琰等）。截至2017年9月3日，僅在CNKI收錄的文獻中，其主題、題名或關鍵詞中含有 “研究前沿”的文獻已達10，562篇之多。對于研究前沿的預測，不同的研究者常常使用不同的方法。許曉陽等通過文獻調研后將研究前沿識別的方法總結為三類，即，基于引用關系的方法、基于文本內容的方法和基于復合關系的方法。其中，共被引、文獻耦合和直接引用是基于引用關系方法的主要類型，高頻、共詞和文本挖掘方法是基于文本內容方法的主要類型，而上述方法的結合使用構成了復合關系分析方法。本研究將20082—2017年CNKI數據庫中各種研究前沿預測方法的應用情況做一概括（見圖1）。

圖1 2008-2017年CNKI中關于研究前沿探測的論文使用方法

由圖1可見，共詞分析與引文分析、文獻耦合等方法一起，是研究前沿預測中使用最普遍的方法之一。如前文所述，相對于基于引文的分析方法，共詞分析因針對詞和文本本身展開分析，具有更高的時效性，因此在科學計量領域關于研究前沿的探測中具有更加廣泛的應用前景。可以預見，在未來研究者關于研究前沿的預測中，共詞分析方法將進一步得到普及。

綜上所述，雖然科學計量及相關領域應用包括共詞分析在內的多種方法針對研究前沿預測已展開了大量研究，但對于所預測的研究前沿有效性的檢驗相對薄弱。本研究正是針對這一研究現狀，基于自然語言處理，將題名、摘要、關鍵詞和全文等四種分析單元納入分析范疇，通過歷時共詞分析，對研究前沿預測的預測效度進行評價，以期為科學計量領域基于共詞而展開的研究前沿預測提供可資借鑒的理論和實踐參照。

3 研究設計

3.1 邏輯框架與操作性定義

在本研究中，預測效度評估的主要目標是檢驗基于共詞而預測的研究前沿的預測效度。為實現此目標，首先需要確定一個可用于對照的效標。而確定效標的基本邏輯是：如果所識別的研究前沿具有較高的預測效度，則基于前一期語料而識別的研究前沿在后一期（或幾期）語料中恰恰應該成為研究熱點。因此，后一期（或幾期）語料所識別的研究熱點將被作為效標。這一邏輯進而可以操作化為如下研究過程：首先，將本研究擬分析的全部語料（1988-2017年，共三十年）分為三期，每期十年；其次，分別識別各期語料的研究熱點；最后，由于前一期所預測的研究前沿恰恰對應著后一期（或幾期）的研究熱點，因此，通過將探測到的研究前沿與跨時期研究熱點進行相關分析，就可以識別出研究前沿的預測效度。

3.2 數據來源

本研究選擇了一個發展相對成熟，邊界比較清晰的學科——動物學為分析對象，下載了1988年以來該學科發表于中文學術期刊并收錄于CNKI數據庫的全部文獻的題名、摘要和關鍵詞等題錄信息。通過數據清洗，剔除了其中重復收錄、書評等題錄信息，最終獲得55374條記錄以備分析。進而通過隨機抽樣，從這些記錄中隨機抽取了1500篇文獻（每十年500篇）以備分析。

3.3 分析步驟

第一，應用Python 3.5，對題名、摘要和全文進行了分詞并識別了詞性。

第二，提取上述分詞結果中的高頻名詞，并會同關鍵詞一起，建成高頻詞矩陣。在四個分析單元（題名、摘要、關鍵詞和全文）上每十年建一個矩陣，并建成了總語料的共詞矩陣。共建成歷時共詞矩陣12個，總矩陣4個。

第三，應用 Sci中的“爆發詞探測”功能，針對各期語料進行研究前沿的探測，識別各期的前沿研究問題。

第四，應用Sci對基于各期語料而建成的共詞矩陣進行中心度分析，識別各期的研究熱點。

第五，比較分析所識別的研究前沿與后一期（或幾期）研究熱點的相似性，以此確定預測效度。

4 研究結果

4.1 逐期識別的爆發詞與熱點詞比較

在Sci軟件中，通過爆發詞探測實現對研究前沿識別的功能。本研究逐期識別了“動物學”領域研究的爆發詞。同時，利用Sci所計算的各種中心度指標（算法），識別了相應時期的熱點詞。

根據研究設計，本文將以后一期（或幾期）研究熱點為效標，對前一期所探測的研究前沿進行效標關聯效度的檢驗。其基本思路是，如果所探測到的爆發詞確實能夠代表研究前沿，則前一期的爆發詞在其后一期（或幾期）會變成熱點詞。依據這一思路，本研究展示了三個時期Sci所探測到的爆發詞和熱點詞（見表1）。通過對比得分處于前三位的爆發詞和熱點詞發現，大多數爆發詞并沒有成為滯后一期（或幾期）的熱點詞。由此可以得出一個初步結論，即探測到的爆發詞對于研究前沿的代表性存在一定效度風險。

4.2 爆發詞與熱點詞匹配情況分析

通過比較不同分析單元下Sci探測到的爆發詞與熱點詞，初步識別出基于“爆發詞”所探測到的研究前沿與其后各期所識別的研究熱點之間存在著很大的差異。為進一步確認這種差異之于效度的影響，本研究進而對前一期所探測到的爆發詞與后一期識別到的熱點詞進行了匹配。從理論上講，一些研究問題之所以能夠被稱為前沿，是因為在過一段時期之后，這些研究問題將演變成熱點。顯然，如果所探測到的前沿最終在其后一段時期內都沒有演變成熱點研究問題，則這種前沿探測的效度就非常值得懷疑。將表1中三個時期的爆發詞與熱點之間的匹配情況進行對比（見表2），通過在四個分析單元上分別進行前一期探測到的前沿與后一期識別出的熱點的匹配發現，在四個單元上，匹配詞差別仍然很大。而且，針對1988-1997年隨機抽樣得到的全文樣本所探測到的爆發詞與1998-2007年基于隨機抽樣而得到的全文樣本所識別的研究熱點進行匹配后發現，這兩組詞能夠完全匹配的只有6個詞。

結合表1和表2綜合分析可見，爆發詞與熱點詞之間匹配的一致程度較低。在此狀況下，如果以爆發詞作為研究前沿的表征，以熱點詞作為研究熱點的表征，再以后一期研究熱點為前一期研究前沿的效標進行衡量，現有爆發詞探測的方法確實存在很高的效度風險。

表1 基于題名逐期識別的研究前沿與研究熱點（前三位）

表2 爆發詞與熱點之間匹配情況對比

4.3 以熱點詞識別的綜合得分為效標的效度分析

上文已經檢測出以滯后期熱點詞為效標時，爆發詞探測所識別的前沿可能存在的效度風險。這種風險最終到底是導致了無效度還是低效度？這種效度狀況是否會因為時期的改變而有所改變呢？為了回答這一系列問題，本研究進而對不同時期爆發詞的權重與熱點詞的中心度綜合得分的標準分進行了相關分析。

在 Sci中，主要使用 Authority_score_hits、Page_rank、Authority_hits和 Eigen_centrality四種算法進行研究熱點的識別。為詳細分析Sci的爆發詞探測功能所探測到的爆發詞與該軟件所識別的研究熱點之間的相關程度，本研究從綜合指標和個體指標兩個層次上計算了相關系數。

在綜合指標的層次上，本研究計算了Sci用以識別研究熱點的四種算法的標準分并求和，從而形成了一個熱點詞中心度的綜合得分，并列出前一期探測到的研究前沿（即爆發詞的權重得分）與滯后一期所識別的研究熱點的綜合得分（即四個單項指標Z分數之和）之間的相關系數（見表3）。可以看出，在四個分析單元上，1988-1997年所探測到的研究前沿與1998-2007年和2008-2017年兩個時期所識別的研究熱點均無統計意義上的顯著相關。簡言之，從綜合得分的角度看，如果以近期（滯后一期）和遠期（滯后二期）研究熱點為效標，Sci所探測的研究前沿沒有檢測出效標關聯效度。但從表3也可以看出，基于1998-2007年的語料探測到的研究前沿與基于2008-2017年語料所識別的研究熱點均顯著相關。就題名、摘要和關鍵詞而言，由于1998-2007年語料與1988-1997年語料的區別僅僅在于前者數量更多，據此可以認為，語料數量的多少對于這三種分析單元下研究前沿探測有明顯影響。然而，由于本研究的目標僅僅是對研究前沿探測的效度進行檢驗，對于語料數量臨界值的判定，尚需在后續研究中展開。盡管語料的數量不產生明顯影響，但存在明顯的效度不穩定性。導致這種不穩定性產生的因素也需要后續研究的確認。另外，從綜合指標來看，在語料數量充足的情況下，基于全文探測到的前沿與滯后一期的研究熱點系數最高，摘要次之。據此可以認為，全文和摘要在研究前沿探測方面效率更高、效果更好。

表3 探測到的研究前沿與綜合得分滯后各期識別的研究熱點之間的相關系數

4.4 以熱點詞識別的單項指標為效標的效度分析

本研究以Sci的算法上的得分為效標，進一步檢驗了爆發詞在研究前沿預測方面的效度（見表4）。

從表4中可以發現，與綜合指標相類似，當以單項指標所識別的研究熱點的中心度為效標時，呈現出語料較少時無效度而語料較多時有效度的現象。具體來說，在應用Authority_score_hits算法所獲得的熱點詞得分為效標時，在四個分析單元上，基于1988-1997年的語料而探測到的爆發詞得分與滯后一期（1998-2007年）和滯后兩期（2008-2017年）的熱點度得分均不存在統計意義上的相關性。進一步對基于1998-2007年的語料計算爆發詞權重得分，然后與基于2008-2017年語料而計算的熱點詞得分進行相關分析，發現在四個分析單元上，相關系數都是顯著的，而基于全文的相關系數最高，摘要和題名次之，關鍵詞最低。上述發現與基本綜合指標而得到的結論基本一致。但是，也需要注意到，基于全文而識別出的爆發詞與滯后二期的熱點詞之間匹配度非常小，以至于無法計算出二者的相關系數。從Page_rank計算出的熱點度來看，這種趨勢與Authority_score_hits算法大體一致。略有不同的是，Page_rank在題名和全文兩個分析單元上，滯后一期有效度。也就是說，以page_rank為研究熱點識別工具時，所識別的研究熱點與基于爆發詞而探測到的研究前沿之間一致相對較高。Authority_hits和Eigen_centrality兩種算法則表現出明顯的不同：在以全文為分析單元時，無論語料數量、無論滯后幾期均沒有檢驗出顯著的效標關聯效度；而在另外三個分析單元上，仍然表現出效度與語料數量之間的關聯性。

5 討論

5.1 研究前沿的探測存在明顯的語料數量依賴性

從上文所列出的分析結果來看，基于題名、摘要和關鍵詞而探測到的爆發詞與滯后一期和滯后兩期的熱點之間存在明顯不同。由于除語料數量之外的其他因素都沒有改變，因此，大致可以確認語料的數量對于所探測出的研究前沿產生了影響。這一現象的啟示是，在對研究前沿進行探測時，首先需要足夠數量的語料支撐。顯然，所確定的語料數量不足，則難以確保所探測到的研究前沿的有效性；但如果語料數量過多，則會使研究前沿探測的可行性和效率大打折扣。囿于本研究的議題，用于前沿探測的語料數量臨界值的確定尚需要在后續研究中完成。

5.2 不同分析單元和指標對于研究前沿探測的作用不同

由上文的分析可以看出，基于題名、摘要、關鍵詞和全文四種不同的分析單元所探測到的研究前沿具有不同的預測效度。這對于科學計量領域的研究者所產生的啟示是，研究前沿的探測需要綜合運用多種指標和算法，而不能僅僅基于一種分析單元，完全依賴于Burst detection一種算法。就本研究所使用的工具和指標來看，有一些指標在某些分析單元上的預測效度高，而在其他分析單元上的預測效度低。可見，著眼于“精準”預測研究前沿，未來，科學計量領域的研究者很可能需要使用一整套基于不同單元使用不同指標的綜合計算方法，以便使所探測到的研究前沿預測效度最高。

表4 探測到的研究前沿與四種算法滯后一期識別的研究熱點之間的相關系數

5.3 前沿存在時效性問題

本研究以十年為期，分別識別了各期的研究前沿與熱點。但是，研究前沿是一個有明顯時效性的概念。以十年為一期，固然能夠做出歷時的分析，但對于前沿分析的時間 “粒度”仍然缺乏客觀統一的標準。為此，科學計量領域的研究仍需要關注研究前沿預測的時效性問題。由于研究前沿預測的時效性不僅關乎預測的效度，也關乎預測本身的質量。因此，對于研究前沿預測的時效性進行深度解析具有相當的理論與現實意義。

6 結語

本研究基于動物學領域30年來的中文學術文獻，應用自然語言處理方法，并選用了科學計量領域的一個典型工具Sci，對不同分析單元下的語料所探測的研究前沿的預測效度進行了解析，發現一下幾點：首先，無論基于何種分析單元，基于爆發詞進行研究前沿的預測都存在一定的效度風險；其次，相對而言，全文在研究前沿預測中的效度最高，而題名、摘要和關鍵詞的預測效度則明顯受到語料數量的影響；第三，如果以不同單項指標（算法）所識別的研究熱點為效票，基于不同分析單元所探測的研究前沿的效度存在著不一致的情況。

通過上述研究步驟，本研究初步回答了預期的研究問題，但也存在一些局限。如上文所述，囿于研究選題，關于語料數量的臨界值、研究前沿預測的時間粒度等問題在本研究中都尚未得到解決。對這些問題的深入解析，尚需后續更多研究的持續跟進。

參考文獻：

［1］鄭日昌.心理與教育測量［M］.北京：人民教育出版社，2011：93.

［2］Ying Ding.Ronald Rousseau and Dietmar Wolfram，Measuring Scholarly Impact［M］.Springer International Publishing Switzerland，2014：261.

［3］張洪秀.教育測量與評價方法［M］.長春：吉林大學出版社，2014:59.

［4］Elazar J Pedhazur，Liora Pedhazur Schmelkin.Measurement，Design，and Analysis：An Integrated Aproach［M］.Lawrence Erlbaum Association，1991：69.

［5］（美）格雷戈.施俊琦，譯.心理測量：歷史、原理及應用［M］.北京：機械工業出版社，2012：104.

［6］王孝玲.教育測量［M］.上海：華東師范大學出版社，2004：170.

［7］邱均平，溫芳芳.近五年來圖書情報學研究熱點與前沿的可視化分析——基于13種高影響力外文源刊的計量研究［J］.中國圖書館學報，2011，37（2）:51-60.

［8］程賽琰，丁磊，魏淑娟.基于知識圖譜分析的電子政務研究現狀、熱點與趨勢［J］.圖書與情報，2013（1）:116-123.

［9］許曉陽，鄭彥寧，趙筱媛，等.研究前沿識別方法的研究進展［J］.情報理論與實踐，2014，37（6）：139-144.

［10］趙蓉英，吳勝男.基于戰略坐標圖的我國館藏資源研究主題分析［J］.圖書與情報，2013（2）：88-92.

［11］Scihomepage［EB/OL］.［2017-10-04］.https://sci2.cns.iu.edu/user/index.php.