楊 麗 張彤彤 周文杰
(1.西北師范大學商學院 甘肅蘭州 730070)
共詞分析已被科學計量學及相關領域的研究者廣泛應用于研究熱點的識別之中。相對于傳統的引文分析等方法,由于共詞分析直接面向主題并針對學術文獻的內容進行分析,能夠在很大程度上克服基于引文分析等方法識別熱點所產生的滯后性、間接性等問題,從而更具優勢。而且,隨著自然語言處理技術的成熟和發展,針對海量學術文獻,運用共詞分析法進行研究熱點的識別具有更高的可行性和便利性。然而,通過文獻調查發現,迄今為止,在科學計量等領域,雖然很多研究者也意識到了共詞分析的局限性,但在對基于共詞分析而識別的研究熱點的可靠性和有效性進行系統檢驗方面卻存在著明顯的薄弱。一個不爭的事實是,科學學領域所識別的研究熱點要想得到各領域研究者的普遍認可,須先自證其科學性。
在測量領域,目前已發展出了一系列用以證明研究結果科學性的檢驗方法,效標關聯效度便是其中最重要的方法之一。鑒于“基于共詞分析而識別的研究熱點在多大程度上具有有效性和可靠性”這一問題并沒有得到研究者的清晰回答,本研究旨在應用自然語言處理的方法,在析取樣本文獻不同分析單元(主要包括題名、摘要、關鍵詞和全文)的熱點詞并展開共詞分析的基礎上,對所識別的研究熱點的效標關聯效度進行檢驗,從而對上述研究問題做出回答。
在測量領域,效度是檢驗測量結果有效性的基本指標。 效標關聯效度(criterion-related validity)作為一種對研究的有效性進行衡量的效度檢驗指標,其基本思路是通過衡量結果變量之間的相關性,從而對測量結果的有效性做出評判。其中,作為比較基準的結果變量被稱為效標。同時效度和預測效度是現有測量理論發展出的兩種效標關聯效度檢驗的主要形式。所謂同時效度(concurrent validity)是指研究者在取得所關注的指標得分的同時也獲得相應效標的測量分數的一種效度檢驗形式。
針對學術文獻而展開的科學計量本質上是一種測量。為此,要衡量具體科學計量結果(如通過共詞分析法所識別的研究熱點)的有效性,就有必要針對計量分析的過程和結果展開效標關聯效度的分析。由于本研究所關注的主要是基于不同分析單元而展開的共詞分析在研究熱點識別方面有效性的差異,因此選擇以同時效度為基本測量指標。
雖然共詞分析方法已經被作為科學計量領域的通用方法之一,但有很多研究者都發現,共詞分析存在諸多效度風險。如鐘鎮使用高頻關鍵詞的文獻耦合網絡進行共詞分析后發現,高頻關鍵詞更多地指向高被引文獻,但使用節點的度數和中介中心性指標去判斷節點價值具有不確定性;傅柱、王曰芬對共詞分析過程中術語階段的詞源選擇、術語規范和高頻詞選擇三個關鍵問題進行分析和討論,并分析了若干與共詞分析可靠性和實效性有關的問題;李綱、巴志超從共詞分析過程中概念術語的詞源選擇、高頻詞的選定、術語相關性計算以及多元統計分析四個方面總結了共詞分析存在的局限性。另外,巴志超等還試圖通過論文屬性加權等方法,解決共詞分析方法中存在的共現詞對“同量不同質”現象、詞對關聯計算缺乏語義性等問題;胡昌平、陳果則對傳統共詞分析中高頻詞共現矩陣的構建方法提出了疑問。楊建林發現,選用高頻詞或詞頻共現關鍵詞進行共詞分析可以高效研究熱點或主題熱點,但不能有效概括知識全貌。
綜上所述,現有研究者已對共詞分析的局限性進行了比較全面的總結。然而,但很少有研究者對這種局限性而導致的研究結果的有效性進行全面檢驗。而且,現有研究者基本都將共詞分析的分析單元固定在關鍵詞上,很少對其他分析單元(如題名、摘要、全文等)進行考察。基于上述原因,本研究擬采用自然語言處理的方法,在前續研究的基礎上,基于全文而識別研究熱點并以其為效標,通過對不同單元之間的共詞分析而識別的研究熱點進行比較,檢驗各自的同時效度,從而對共詞分析的有效性和可靠性問題做出系統回答。
如前文所述,本研究主要關注基于共詞分析而識別的研究熱點是否具有效標關聯效度的問題。由于熱點識別并不涉及預測,因此本研究中所應用的效標關聯效度主要測量指標是同時效度。為便于研究的展開,本研究給予了同時效度一個操作性定義,即本研究的同時效度指在取得基于題名、關鍵詞和摘要而析取的共詞網絡中心度的同時,也獲得了基于全文而析取的共詞網絡的中心度。其中,前者是待檢驗變量,后者是效標。之所以選擇以基于全文而析取的共詞網絡的中心度為效度,是因為在本課題的前序研究中,發現全文共詞網絡的表面效度最高。關于效標的選擇,本文將在后續部分進行專門討論。
本研究的基本分析過程為:
第一,選擇一個學科發展相對成熟、邊界比較清晰的學科——動物學為分析對象,在CNKI數據庫中檢驗了發表于1988-2017三十年間的全部中文文獻。經過數據的去重、清洗,共獲得55374篇學術論文的題名、摘要、關鍵詞信息作為基本語料庫以備分析。
第二,針對檢索結果,采用隨機抽樣的方法,在每個十年隨機選擇其中的500篇文獻下載全文,共獲得1500篇學術論文作為全文語料庫以備分析。
第三,應用自然語言處理方法,以Python為工具,析取了題名、摘要、全文的高頻詞,并應用pandas構建了共詞矩陣。針對關鍵詞,直接識別了高頻詞并構建了矩陣。
第四,應用兩種重要的科學計量分析工具——Pajek和Sci分別對上述語料展開了共詞分析,分別識別研究熱點并計算了各種類型的中心度指標。
第五,以基于全文而識別的研究熱點為效標,并計算其與基于題名、摘要、關鍵詞而識別的研究熱點在不同指標下的相關系數,并根據上述相關系數的比較,對不同分析單元的同時效度做出評價。
第六,對Pajek和Sci基于全文而識別研究熱點的各項指標/算法獲取的得分進行標準化,并求得熱點指標綜合變量,然后將這一綜合變量與基于題名、摘要和關鍵詞而獲得的相對應的綜合變量進行配對樣本的t檢驗,從而進一步完善對不同單元同時效度的分析。
如前文所述,本文以基于全文而識別的研究熱點為效標,對題名、摘要和關鍵詞等不同分析單元下所識別熱點的同時效度進行全面檢驗。整體而言,在各種熱點識別指標下,題名、摘要和關鍵詞均與全文存在顯著相關,但相關系數的大小在不同分析單元上卻有著明顯的不同(見表1)。這表明,采用題名、摘要、關鍵詞為分析單元進行研究熱點的識別,其效度存在著一定差異。具體而言,從Pajek和Sci2兩個工具所識別的研究熱點的綜合得分來看,基于全文與摘要而識別的研究熱點之間綜合得分的相關系數都最大。由此說明,從整體上看,摘要的同時效度最高。本研究進而對八個單項指標進行了比較分析后發現,各單項指標盡管存在相關系數高低不同的情況,但仍然呈現出與綜合指標相一致的情況,即摘要的同時效度高于題名和關鍵詞。

表1 全文與題名、摘要、關鍵詞在不同測度指標上的相關系數
本研究進而對Pajek所采用的用于識別研究熱點的點度中心度、權重中心度、緊密度中心度和中介度中心度四項主要指標進行比較發現:首先,摘要在四項指標上的相關系數均高于題名和關鍵詞,因此,摘要具有高同時效度這一特征體現于每個單項指標,具有較強的穩定性;其次,中介度中心度相對于其他指標相關系數最高,因此,中介中心度在研究熱點識別中應該被賦予更高的權重;第三,如果以摘要為分析單元中介中心度的同時效度最高;第四,如果以題名為分析單元,權重中心度的同時效度最高;第五,如果以關鍵詞為分析單元,中介中心度的同時效度最高。
同時,本研究對Sci所采用的用于識別研究熱點 的 Hits、Page_rank、Authority_hits、Eigen_centrality四種算法進行比較后獲得了與Pajek類似的發現。即摘要的同時效度在四項指標上均最高,其中Authority_hits算法優于其他三種算法;以題名為分析單元時,Page_rank算法的同時效度最高;以關鍵詞為分析單元時,Eigen_centrality算法的同時效度最高。
總之,基于摘要識別的研究熱點與全文的相關系數值在各項指標上均最高。這表明,如果以全文為衡量標準,則通過摘要而識別的研究熱點效度最高。同時,基于題名和關鍵詞而識別的研究熱點同時效度整體上比較接近,都相對較低。在各單項指標上,不同分析單元的同時效度不同。這表明,以單項指標來衡量,不同分析單元在效度方面存在不穩定性。
上文分析表明,以全文為效標時,題名、摘要和關鍵詞的效度高低不同,但從表1也可看出,雖然不同分析單元之間的相關系數有高有低,但這些相關系數都具有統計意義上的顯著性。為進一步解析各分析單元在研究熱點識別的效標關聯效度方面出現差異的原因,本文進而應用兩種不同的分析工具——Pajek和Sci分別測度了基于全文、題名、摘要和關鍵詞而識別的研究熱點,將各測量指標的值進行標準化并求和后,分析對效標各分析單元的得分進行了獨立樣本的t檢驗。
基于Pajek和Sci兩個工具,分別利用多項指標對研究熱點進行綜合測度后,得出對不同分析單元得分的均值進行比較的結果(見表2)。其中,全文與題名、全文與關鍵詞在兩個工具測度所獲得的得分標準分的均值并無顯著差異,而全文與摘要之間卻存在顯著差異。這一發現似乎與上述相關分析結論存在矛盾。進一步分析發現,與摘要相比,基于全文而獲得的綜合得分的均值較小。由于熱點的測度依據均是共詞網絡的各類中心度指標,因此,網絡規模越大,所識別的節點越多,中心度得分也趨向于增大。基于全文而識別的共詞網絡中從規模上顯然大于摘要共詞網絡,所以,全文網絡結點的中心度更可能大于共詞網絡的結點,而全文網絡綜合得分的標準分相應會小于共詞網絡。由于全文與摘要都以文本形式出現,其不同僅僅在于文本長短的不同。由此可見,全文更高的同時效度在很大程度上源于其較長的文本。當然,如果把題名也看作短文本,則全文與題名之間也是一種長文本與短文本的關系。但是,由表2可以看出,全文與題名之間的綜合得分在均值方面并無顯著差異。由此可見,當文本過短時,通過短文本而識別的研究熱點由于缺乏區分度 (即t值不顯著),而效度很低(即相關系數低)。然而,由于本研究的目標僅僅是對題名、摘要、關鍵詞和全文四種分析單元在研究熱點識別上的同時效度進行評價,因此,對于文本長度與研究熱點效度之間關系的深入解析,尚待后續研究的跟進。
綜合上述相關分析結果來看,在研究熱點的識別方面,文本比詞的同時效度高,而文本的長度對于效度具有一定影響。
效標關聯效度是衡量研究可靠性的重要指標,而同時效度是效標關聯效度的具體形式之一。效標關聯效度評價的基本操作流程是,以選定的效標為參照,對擬檢驗的變量與效標之間的相關程度進行比較。本研究選定基于全文而識別的研究熱點在Pajek和Sci兩個計量工具上的綜合得分的標準分及各項指標為效標,通過相關分析和配對樣本t檢驗兩種計算方法,對不同單元在研究熱點識別方面的同時效度進行了分析。之所以選擇以全文為效標,是因為任何形式的研究熱點必然體現于全文之中。與其他分析單元(如關鍵詞、標題、摘要)相比,全文基本不存在在計量過程中遺漏學術論文所表達的研究問題的可能性。基于這種考慮,本研究選擇以全文作為效標。
需要注意的是,在傳統的科學計量研究領域,通常都以關鍵詞構建共詞矩陣的基本單元。然而,在本課題組關于共詞分析效度的系列中發現,基于關鍵詞而識別的研究熱點既存在與領域專家共識性的研究熱點不一致的情況,又存在與其他分析單元之間不一致的情況。這種情況,在本課題其他類型效度檢驗也有體現(詳情可參見本專題另外一篇文章《研究熱點識別的內容效度研究:基于自然語言處理》)。顯然,這些發現從一定程度上顛覆了傳統研究中所“默認”的關于關鍵詞對于學術論文最有代表性的觀點。由此而產生的啟示是,科學計量領域關于研究熱點識別的基本分析單元需要從基于詞轉向基于文本。但同時也要注意到,長度不同的三種文本——標題、摘要和全文的效度系數也有所差異,由此可以看出,在研究熱點的識別中,文本長度的確定問題也應得到本領域研究者的充分關注。

表2 全文與題名、摘要、關鍵詞在不同測度工具上得分的t檢驗結果
為了對所檢驗結果的穩定性做出評價,本研究同時采用了Pajek和Sci兩個軟件工具并針對常用的八項研究熱點識別指標、算法進行了分析,以期通過相互對照,確認對同時效度檢驗結果的穩定性。由前文所展示的結果可以看出,兩個軟件工具在所識別的研究熱點上的綜合得分一致程度很高。這表明,本研究關于摘要的同時效度最高的結論具有可靠性。另外,通過比較八個常用于研究熱點識別的指標(算法)可以看出,各指標(算法)在研究熱點識別方面基本一致,也存在一些小幅波動的現象。由此而產生的啟示是,在應用現有的中心度指標及相關算法進行研究熱點測度時,這些指標在不同的分析單元進行熱點識別時的重要程度不同。因此,應考慮對于比較重要的指標進行加權,以便使所識別的熱點具有更高的可靠性。
本研究發現:基于摘要而識別的研究熱點同時效度相對較高,而基于關鍵詞所識別的研究熱點同時效度相對較低;在研究熱點識別的效率方面,文本比詞的同時效度高,文本長度對同時效度具有一定影響。雖然本研究比較圓滿地回答了所提出的研究問題,但仍然有一系列后續問題需要后續研究的跟進。這些問題主要包括,本研究雖揭示了基于文本進行研究熱點的識別時,文本的長短對于研究的效度具有不同影響,但本研究的數據尚不足以對何種文本長度對于研究熱點識別最為適宜這一問題做出解釋。由此產生的啟示是,文本長度與研究熱點識別效度之間的關聯應該成為今后本領域研究者需要關注的一個重要問題。另外,本研究發現,八種常用的研究熱點識別指標(算法)在不同的分析單元上的效度不同,這表明在實際測量中,應該針對不同的分析單元,在不同的測量指標(算法)上使用不同的權重,這樣才能保證研究熱點識別的可靠性。然而,對于不同指標進行加權是一個復雜的過程,本研究所獲取的數據尚不足以對這種加權過程進行解析。
參考文獻:
[1]曹樹金.我國網絡輿情研究現狀及其知識增長趨勢分析[J].情報資料工作,2016(6):17-22.
[2]陳蘭蘭.基于社會網絡分析和共詞分析的國內關聯數據研究[J].圖書與情報,2013(5):129-132.
[3]張洪秀.教育測量與評價方法[M].長春:吉林大學出版社,2014:59.
[4]鄭日昌.心理與教育測量[M].北京:人民教育出版社,2011:93.
[5](美)格雷戈.施俊琦,譯.心理測量:歷史、原理及應用[M].北京:機械工業出版社,2012:104.
[6]鐘鎮.知識圖譜分析方法的可靠性檢驗研究——以共詞分析為例[J].科學學研究,2015,33(5):647-653.
[7]傅柱,王曰芬.共詞分析中術語收集階段的若干問題研究[J].情報學報,2016,35(7):704-713.
[8]李綱,巴志超.共詞分析過程中的若干問題研究[J].中國圖書館學報,2017,43(4):93-113.
[9]巴志超,李綱,朱世偉.共現分析中的關鍵詞選擇與語義度量方法研究[J].情報學報,2016,35(2):197-207.
[10]胡昌平,陳果.科技論文關鍵詞特征及其對共詞分析的影響[J].情報學報,2014,33(1):23-32.
[11]李佳.共詞聚類分析法中的主要問題與對策[J].情報學報,2010,29(4):614-617.