劉智鋒 馬永強(qiáng) 楊金慶
(1.北京大學(xué)信息管理系,北京 100871;2.武漢大學(xué)信息管理學(xué)院,湖北 武漢 430072)
隨著學(xué)術(shù)大數(shù)據(jù)時(shí)代的到來(lái),學(xué)術(shù)論文數(shù)量呈現(xiàn)指數(shù)增長(zhǎng)[1]。科研人員已經(jīng)不能單靠人力對(duì)學(xué)術(shù)論文進(jìn)行逐一閱讀來(lái)識(shí)別研究熱點(diǎn)與研究前沿,如何快速?gòu)暮A康奈墨I(xiàn)中獲取所需的知識(shí)和梳理領(lǐng)域知識(shí)脈絡(luò),成為當(dāng)今科研社區(qū)的一個(gè)重要挑戰(zhàn)[2]。由于關(guān)鍵詞是由作者選取表征文章的主要研究?jī)?nèi)容的規(guī)范化學(xué)術(shù)詞匯[3],科學(xué)計(jì)量學(xué)等領(lǐng)域的學(xué)者把學(xué)術(shù)論文中的關(guān)鍵詞作為表示研究主題的重要計(jì)量對(duì)象。關(guān)鍵詞作為研究主題與方法等的外化表現(xiàn),與研究主題存在共生關(guān)系,會(huì)隨著研究主題的變化而變化。具體而言,當(dāng)研究主題保持一定的熱度,相應(yīng)的關(guān)鍵詞可能會(huì)存在較長(zhǎng)的時(shí)間;當(dāng)研究主題熱度衰減,相應(yīng)的關(guān)鍵詞可能會(huì)減少,甚至消失。目前,學(xué)者們主要采用共詞分析以及詞頻統(tǒng)計(jì)等方法,分析學(xué)科領(lǐng)域的研究熱點(diǎn)與前沿[4],鮮有學(xué)者從關(guān)鍵詞生命周期視角揭示其內(nèi)在規(guī)律與影響因素。
因此,本文聚焦于關(guān)鍵詞生命周期的量化分析,以期對(duì)研究主題演化和研究熱點(diǎn)研究有一定的啟發(fā)作用。學(xué)術(shù)論文關(guān)鍵詞表征論文的主要內(nèi)容,可以表示論文的研究問(wèn)題,亦可以表示論文的研究方法,即關(guān)鍵詞在論文內(nèi)容的表示中具有不同的功能[5]。如“基于深度卷積神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)混合圖像檢測(cè)”論文中,關(guān)鍵詞“混合圖像檢測(cè)”表示論文的研究問(wèn)題,而關(guān)鍵詞“深度卷積神經(jīng)網(wǎng)絡(luò)”表示論文的研究方法。在本研究中,將學(xué)術(shù)論文的詞匯功能定義為詞匯在學(xué)術(shù)論文上下文環(huán)境下所對(duì)應(yīng)的內(nèi)容或用途。因此,在詞匯功能視角下,能夠區(qū)分具有不同語(yǔ)義功能的關(guān)鍵詞,如研究問(wèn)題、研究方法等;在此基礎(chǔ)上,結(jié)合關(guān)鍵詞的生存分析,可以更加細(xì)粒度地對(duì)學(xué)科領(lǐng)域的問(wèn)題類關(guān)鍵詞與方法類關(guān)鍵詞的生命周期進(jìn)行測(cè)度和對(duì)關(guān)鍵詞生存的影響因素進(jìn)行分析,以更好地理解和把握關(guān)鍵詞的演化規(guī)律,對(duì)研究主題演化和研究脈絡(luò)梳理等相關(guān)研究,具有一定的借鑒意義。
學(xué)術(shù)文本的詞匯功能是指詞匯在學(xué)術(shù)文本上下文環(huán)境下所對(duì)應(yīng)的內(nèi)容或者用途,其內(nèi)涵和NLP領(lǐng)域的語(yǔ)義角色不同。一般情況下,學(xué)術(shù)文本的詞匯功能包含研究問(wèn)題、研究方法、研究領(lǐng)域、研究對(duì)象等。隨著自然語(yǔ)言處理技術(shù)和學(xué)術(shù)文本的獲取更加容易,國(guó)內(nèi)外不少學(xué)者開(kāi)始關(guān)注如何利用自然語(yǔ)言處理的技術(shù),自動(dòng)從學(xué)術(shù)文本中識(shí)別出問(wèn)題、方法、技術(shù)等實(shí)體及其之間的關(guān)系[6]。在早期的研究中,學(xué)者們主要應(yīng)用文獻(xiàn)計(jì)量學(xué)、共詞分析等方法,粗略地獲取學(xué)科領(lǐng)域的研究主題[7]。然而,這些研究并不能深入地解決諸如特定的研究問(wèn)題和特定的研究方法的演化情況。因此,學(xué)者們開(kāi)始探索學(xué)術(shù)文本詞匯功能的分類及其自動(dòng)識(shí)別。
學(xué)術(shù)文本詞匯功能的分類研究,是進(jìn)行詞匯功能自動(dòng)識(shí)別及其應(yīng)用的前提,在學(xué)術(shù)文本詞匯功能分類框架的基礎(chǔ)上,大部分學(xué)者將學(xué)術(shù)文本詞匯功能的識(shí)別轉(zhuǎn)化為分類問(wèn)題,并采用不同的方法進(jìn)行研究。Kondo T等[8]將學(xué)術(shù)論文標(biāo)題詞匯功能分為研究主題、研究方法、研究目的和其他,并根據(jù)從標(biāo)題中得到的規(guī)則,對(duì)這4類詞匯進(jìn)行識(shí)別。隨后,Nanba H等[9]將論文的標(biāo)題和摘要中出現(xiàn)的詞匯分為技術(shù)和效果兩大類,其中技術(shù)包含有算法、工具、數(shù)據(jù)等,效果由屬性和相應(yīng)的屬性值組成,并構(gòu)建相應(yīng)的特征,用傳統(tǒng)機(jī)器學(xué)習(xí)的方法進(jìn)行自動(dòng)識(shí)別。Gupta S等[10]將摘要中的詞匯功能分為話題、技術(shù)和領(lǐng)域,其中,話題指的是論文的貢獻(xiàn),而技術(shù)是指使用的方法和工具,領(lǐng)域指的是論文的應(yīng)用領(lǐng)域,并采用模式學(xué)習(xí)的方法進(jìn)行自動(dòng)識(shí)別。Dan S等[11]將計(jì)算語(yǔ)言學(xué)領(lǐng)域?qū)W術(shù)論文詞匯語(yǔ)義功能分為技術(shù)和領(lǐng)域。Mesbah S等[12]將學(xué)術(shù)論文中的詞匯功能分為方法、軟件、數(shù)據(jù)集、目標(biāo)和結(jié)果。最近,Heffernan K等[13]將科學(xué)研究定義為提出問(wèn)題和解決問(wèn)題的過(guò)程,并將詞匯語(yǔ)義功能分為問(wèn)題和方法兩大類。
國(guó)內(nèi)學(xué)者亦對(duì)詞匯功能進(jìn)行初步的探索,趙洪等[14]對(duì)《情報(bào)學(xué)報(bào)》發(fā)表論文中的理論和方法實(shí)體進(jìn)行標(biāo)注,并采用條件隨機(jī)場(chǎng)等方法對(duì)論文標(biāo)題和摘要中的理論術(shù)語(yǔ)進(jìn)行識(shí)別。程齊凱[15]在總結(jié)以往研究的基礎(chǔ)上,提出了較為完整的學(xué)術(shù)文本詞匯功能框架,將詞匯功能分為領(lǐng)域無(wú)關(guān)詞匯功能和領(lǐng)域相關(guān)詞匯功能,其中,領(lǐng)域無(wú)關(guān)詞匯功能分為研究問(wèn)題和研究方法,并采用條件隨機(jī)場(chǎng)和機(jī)器排序算法進(jìn)行識(shí)別。劉智鋒等[5]制定了信息計(jì)量學(xué)領(lǐng)域的關(guān)鍵詞語(yǔ)義功能分類框架,包含研究主題、研究方法、數(shù)據(jù)、領(lǐng)域范圍、研究對(duì)象以及其他6類,并構(gòu)建了語(yǔ)義功能標(biāo)注數(shù)據(jù)集。程齊凱等[6]通過(guò)構(gòu)建標(biāo)引規(guī)則自動(dòng)從學(xué)術(shù)文獻(xiàn)標(biāo)題中識(shí)別研究問(wèn)題和研究方法,從而構(gòu)建了一個(gè)標(biāo)準(zhǔn)的詞匯功能標(biāo)注數(shù)據(jù)集。周笑盈[16]將數(shù)字圖書(shū)館領(lǐng)域的關(guān)鍵詞語(yǔ)義功能分為研究背景、研究領(lǐng)域、研究熱點(diǎn)和研究對(duì)象4類,并對(duì)國(guó)際圖聯(lián)大會(huì)收錄的文章關(guān)鍵詞進(jìn)行標(biāo)注,構(gòu)建不同語(yǔ)義功能的關(guān)鍵詞數(shù)據(jù)集,以揭示數(shù)字圖書(shū)館的研究熱點(diǎn)。
本研究參考Heffernan K等的觀點(diǎn),將科學(xué)研究視作提出問(wèn)題和解決問(wèn)題的過(guò)程,因此將詞匯功能分為研究問(wèn)題、研究方法和其他3類。此外,以往的詞匯功能識(shí)別主要采用基于規(guī)則抽取、條件隨機(jī)場(chǎng)等方法,而隨著深度學(xué)習(xí)和自然語(yǔ)言處理技術(shù)的快速發(fā)展,將深度學(xué)習(xí)等方法應(yīng)用到學(xué)術(shù)文本關(guān)鍵詞語(yǔ)義功能的自動(dòng)識(shí)別中可以得到更高的準(zhǔn)確率。
不同的關(guān)鍵詞具有不同的生命周期,其生命周期受到很多因素的共同影響。關(guān)鍵詞是反映論文語(yǔ)義內(nèi)容的規(guī)范化術(shù)語(yǔ),可以將關(guān)鍵詞看成知識(shí)單元,根據(jù)知識(shí)擴(kuò)散理論和信息老化理論,在關(guān)鍵詞生命周期中,隨著時(shí)間的推移,知識(shí)單元不斷對(duì)外進(jìn)行擴(kuò)散,同時(shí)會(huì)伴隨著知識(shí)單元價(jià)值的衰減,最終失去價(jià)值,走向消亡。知識(shí)單元的生命周期不僅受到自身屬性的影響,亦會(huì)受到擴(kuò)散因素的影響。本研究重點(diǎn)關(guān)注論文發(fā)表的期刊等級(jí)、是否基金資助、作者合作規(guī)模和參考文獻(xiàn)數(shù)量等內(nèi)部因素以及論文被引頻次、下載次數(shù)等擴(kuò)散因素對(duì)關(guān)鍵詞生存時(shí)間的影響。
1.2.1 論文內(nèi)部因素
期刊等級(jí)指的是數(shù)據(jù)庫(kù)或者機(jī)構(gòu)根據(jù)期刊的影響因子等因素將期刊劃分成的不同層級(jí)。不同等級(jí)的期刊對(duì)論文的評(píng)審有不同的標(biāo)準(zhǔn),因此不同等級(jí)期刊收錄的論文質(zhì)量會(huì)存在差異,從而期刊在學(xué)術(shù)社區(qū)的認(rèn)可度也不同。此外,不同期刊的受眾亦會(huì)存在一定的差異,導(dǎo)致發(fā)表在不同期刊的論文關(guān)鍵詞可能會(huì)有不同的生存時(shí)間。劉智鋒等[17]以圖書(shū)情報(bào)領(lǐng)域?yàn)槔芯堪l(fā)現(xiàn)圖情領(lǐng)域權(quán)威期刊《中國(guó)圖書(shū)館學(xué)報(bào)》和《情報(bào)學(xué)報(bào)》關(guān)鍵詞的生存時(shí)間比其他核心期刊的關(guān)鍵詞生存時(shí)間還長(zhǎng),且具有顯著性差異。計(jì)算機(jī)學(xué)科領(lǐng)域和圖書(shū)情報(bào)學(xué)科領(lǐng)域存在一定的區(qū)別,因此有必要推廣到計(jì)算機(jī)學(xué)科,進(jìn)一步驗(yàn)證。
獲得基金資助可以看作是對(duì)研究項(xiàng)目的一種認(rèn)可,論文作為研究項(xiàng)目的重要產(chǎn)出,基金資助的論文亦可能會(huì)受到更加廣泛的關(guān)注。以往不少研究分析基金資助對(duì)論文影響力的影響,大部分結(jié)果表明,基金資助的論文相比于非基金資助的論文可獲得更多的被引頻次[18-20]、具有更高的即時(shí)影響力[21]與傳播力[22]。可知,論文是否受基金資助對(duì)于論文的認(rèn)可度和關(guān)注度等具有顯著的影響,從而可能影響論文關(guān)鍵詞的生存時(shí)間。石磊[23]采用生存分析中的Cox回歸方法,發(fā)現(xiàn)論文是否受基金資助對(duì)論文的零被引生存狀況具有顯著影響。然而,至今鮮有研究分析基金資助對(duì)論文關(guān)鍵詞生存狀況的影響。因此,本研究將論文分為基金資助論文和非基金資助論文兩類,研究基金資助因素對(duì)論文關(guān)鍵詞生存時(shí)間的影響。
學(xué)者合作解決復(fù)雜的科學(xué)問(wèn)題已經(jīng)越來(lái)越普遍,隨著合作研究的盛行,關(guān)于最佳合作規(guī)模與學(xué)術(shù)論文影響力之間的關(guān)系等問(wèn)題,受到科學(xué)計(jì)量學(xué)等相關(guān)領(lǐng)域?qū)W者的廣泛關(guān)注。馬榮康等[24]以Financial Times TOP45商學(xué)院期刊論文為例,發(fā)現(xiàn)多作者論文比單作者論文獲得更多的被引次數(shù),論文的被引次數(shù)和論文的影響力之間存在倒U型關(guān)系,其中轉(zhuǎn)折點(diǎn)大約為3人。楊瑞仙等[25]發(fā)現(xiàn),作者合作與論文影響力存在正相關(guān)關(guān)系,同時(shí)發(fā)現(xiàn)科學(xué)合作最佳規(guī)模為2~4人。可見(jiàn),論文作者合作規(guī)模的大小對(duì)論文的影響力具有顯著影響;不同作者合作規(guī)模亦可能影響論文的認(rèn)可度,從而影響論文關(guān)鍵詞的生存時(shí)間。然而,未有學(xué)者對(duì)作者合作規(guī)模是否會(huì)對(duì)論文關(guān)鍵詞生存時(shí)間產(chǎn)生影響進(jìn)行研究;本文將對(duì)作者合作規(guī)模與論文關(guān)鍵詞生存時(shí)間之間的關(guān)系進(jìn)行分析。
參考文獻(xiàn)是論文的重要知識(shí)基礎(chǔ),參考文獻(xiàn)的數(shù)量在一定程度上可以反映一篇論文的知識(shí)流入量,亦可以在一定程度上反映一篇論文的質(zhì)量。陳仕吉等[26]采用Tobit多元回歸模型對(duì)參考文獻(xiàn)數(shù)量和論文被引頻次之間的關(guān)系進(jìn)行探析,發(fā)現(xiàn)參考文獻(xiàn)數(shù)量對(duì)被引次數(shù)有積極的影響。肖學(xué)斌等[27]同樣發(fā)現(xiàn)參考文獻(xiàn)數(shù)與論文被引次數(shù)存在正相關(guān)。可知,參考文獻(xiàn)數(shù)會(huì)對(duì)論文的采納產(chǎn)生一定的影響,從而可能會(huì)影響關(guān)鍵詞的生存時(shí)間,本文將對(duì)參考文獻(xiàn)數(shù)對(duì)論文關(guān)鍵詞生存時(shí)間的影響進(jìn)行研究。
1.2.2 論文擴(kuò)散因素
科學(xué)知識(shí)通過(guò)引用關(guān)系發(fā)生擴(kuò)散,其可以記錄科學(xué)知識(shí)的演化過(guò)程[28]。論文被引作為科學(xué)知識(shí)擴(kuò)散的重要途徑之一,可以通過(guò)論文的被引頻次來(lái)反映該論文知識(shí)的擴(kuò)散情況。論文的被引次數(shù)越多,說(shuō)明論文所蘊(yùn)含的科學(xué)知識(shí)更多地被其他論文所采納,論文的科學(xué)知識(shí)擴(kuò)散的范圍更廣。論文的關(guān)鍵詞可以看作是論文的知識(shí)單元[29],論文的科學(xué)知識(shí)擴(kuò)散范圍越廣,關(guān)鍵詞的生存時(shí)間可能越長(zhǎng),而零被引或者被引次數(shù)少的論文擴(kuò)散范圍窄,論文的關(guān)鍵詞生存時(shí)間可能會(huì)比較短。因此,有必要對(duì)論文的被引頻次與關(guān)鍵詞生存時(shí)間之間的關(guān)系進(jìn)行分析,揭示知識(shí)單元擴(kuò)散對(duì)關(guān)鍵詞生存時(shí)間的影響機(jī)制。此外,科研相關(guān)人員通過(guò)下載論文,之后進(jìn)行閱讀、學(xué)習(xí)、傳遞、引用等[30];因此,除了論文的被引情況,論文的下載情況亦能反映論文的擴(kuò)散情況。本研究將采用知網(wǎng)記錄的論文被下載次數(shù)來(lái)表示論文的下載情況,分析論文的下載次數(shù)與論文關(guān)鍵詞生存時(shí)間之間的關(guān)系。
計(jì)算機(jī)學(xué)科領(lǐng)域作為當(dāng)前的重點(diǎn)研究領(lǐng)域之一,學(xué)科知識(shí)不斷更新迭代,適合于研究學(xué)科知識(shí)的生存情況,可促進(jìn)對(duì)該領(lǐng)域研究主題演化的理解;且該學(xué)科領(lǐng)域論文的研究問(wèn)題或研究方法常見(jiàn)于關(guān)鍵詞,有利于研究不同詞匯功能關(guān)鍵詞的生存時(shí)間差異。因此,本研究以國(guó)內(nèi)計(jì)算機(jī)學(xué)科領(lǐng)域?yàn)槔x取《中文核心期刊要目總覽》第八版目錄下的TP自動(dòng)化技術(shù)、計(jì)算機(jī)技術(shù)類別下的32本期刊作為本文的數(shù)據(jù)來(lái)源,構(gòu)建數(shù)據(jù)集。《中文核心期刊要目總覽》是由北京大學(xué)圖書(shū)館和北京十幾所高校圖書(shū)館合作的研究項(xiàng)目成果[31],是我國(guó)重要的核心期刊分類目錄之一,其中TP類目涵蓋了我國(guó)計(jì)算機(jī)學(xué)科研究的重點(diǎn)領(lǐng)域,因此,該數(shù)據(jù)集具有較好的代表性。本文根據(jù)期刊名稱從中國(guó)知網(wǎng)進(jìn)行數(shù)據(jù)采集,采集的數(shù)據(jù)字段主要包含論文發(fā)表年份、發(fā)表期刊、標(biāo)題、作者、機(jī)構(gòu)、摘要、關(guān)鍵詞、基金資助、專輯、專題、分類號(hào)、被引頻次、下載次數(shù)、頁(yè)數(shù)以及參考文獻(xiàn)數(shù),采集時(shí)間為2020年12月15日—2021年1月15日。
本數(shù)據(jù)集一共包含355 502篇論文,剔除征稿啟事、報(bào)告、簡(jiǎn)介等非學(xué)術(shù)論文以及缺少關(guān)鍵詞等字段的論文,最后一共有298 631篇論文,發(fā)表時(shí)間在1982—2020年之間。論文的關(guān)鍵詞總數(shù)為1 277 017個(gè),篇均關(guān)鍵詞數(shù)為4.276個(gè)。其中,作者規(guī)模大小、參考文獻(xiàn)數(shù)、被引次數(shù)和下載次數(shù)分布如圖1所示。論文數(shù)量和關(guān)鍵詞數(shù)量時(shí)間分布如圖2(a)所示。從圖中可知,論文數(shù)和關(guān)鍵詞數(shù)都呈現(xiàn)先快速增長(zhǎng)、后有所下降的趨勢(shì)。由于部分期刊在2010年之后出現(xiàn)刊期和載文減少的現(xiàn)象,導(dǎo)致2010年之后論文數(shù)呈現(xiàn)下降趨勢(shì)。

圖1 作者規(guī)模大小、參考文獻(xiàn)數(shù)、被引次數(shù)和下載次數(shù)分布圖
本研究基于詞匯功能顯現(xiàn)機(jī)理和詞匯功能分類框架,將關(guān)鍵詞的詞匯功能分為研究問(wèn)題、研究方法和其他3類,并采用陸偉等提出的BERT和LSTM關(guān)鍵詞詞匯功能標(biāo)注方法,對(duì)關(guān)鍵詞的詞匯功能進(jìn)行標(biāo)注,分別構(gòu)建問(wèn)題類關(guān)鍵詞集和方法類關(guān)鍵詞集,該方法將論文的摘要和關(guān)鍵詞作為輸入,采用BERT預(yù)訓(xùn)練模型對(duì)文本進(jìn)行向量化表示,隨后輸入LSTM網(wǎng)絡(luò)中間層,最終使用Softmax分類器進(jìn)行標(biāo)簽的預(yù)測(cè),結(jié)果表明,準(zhǔn)確率、召回率和F1值分別達(dá)到0.83、0.87和0.85,優(yōu)于傳統(tǒng)的方法[32]。最終本研究一共得到問(wèn)題類關(guān)鍵詞63 327個(gè),方法類關(guān)鍵詞596 366個(gè),表明計(jì)算機(jī)學(xué)科領(lǐng)域一個(gè)問(wèn)題會(huì)采用不同的方法進(jìn)行研究,關(guān)鍵詞更多的表示論文的研究方法;問(wèn)題類關(guān)鍵詞數(shù)和方法類關(guān)鍵詞數(shù)時(shí)間分布如圖2(b)所示。從圖中可知,問(wèn)題類關(guān)鍵詞數(shù)量隨著時(shí)間不斷增長(zhǎng),而方法類關(guān)鍵詞先增加,后減少。
此外,為了生成可以直接用于生存分析的數(shù)據(jù)格式,本研究做了如下處理:
1)確定生存分析的起始觀察年份n,通過(guò)與第n年之前發(fā)表的論文關(guān)鍵詞進(jìn)行逐年匹配,獲得在第n年之前未出現(xiàn)過(guò)的關(guān)鍵詞,構(gòu)建起始觀察年的新生關(guān)鍵詞;同時(shí)通過(guò)與第n年之后t年內(nèi)發(fā)表的論文關(guān)鍵詞進(jìn)行逐年匹配,獲得第n年新生關(guān)鍵詞在之后t年的生存狀態(tài)。
2)為了避免分析一年數(shù)據(jù)的結(jié)果存在偶然性,同時(shí)考慮前面有足夠的年份用于確定新生關(guān)鍵詞和觀察新生關(guān)鍵詞的生存狀況,本研究選取2007—2009年3年的新生關(guān)鍵詞作為整體,分析其在隨后10年內(nèi)的生存狀況,即觀察期分別為2008—2017年、2009—2018年和2010—2019年,并選取關(guān)鍵詞最后一次出現(xiàn)的時(shí)間點(diǎn),來(lái)計(jì)算關(guān)鍵詞的生存時(shí)間。
3)分別對(duì)論文的期刊等級(jí)、是否基金資助、作者合作規(guī)模、參考文獻(xiàn)數(shù)、被引頻次和下載次數(shù)6個(gè)字段進(jìn)行結(jié)構(gòu)化處理,并根據(jù)各個(gè)字段內(nèi)容的類型和分布情況,構(gòu)建相應(yīng)的自變量,用于研究關(guān)鍵詞生存時(shí)間影響因素。
生存分析統(tǒng)計(jì)方法主要包含壽命表、Kaplan-Meier曲線和Cox回歸3種生存分析統(tǒng)計(jì)方法。其中,Kaplan-Meier曲線由Kaplan和Meier于1958年提出,橫軸為生存時(shí)間,縱軸為生存率,可以直觀地展示生存分析的結(jié)果,適合于單個(gè)因素的組間對(duì)比分析。因此,本研究將Kaplan-Meier曲線應(yīng)用于關(guān)鍵詞生存時(shí)間單因素影響分析,并采用Log-Rank和Wilcoxon(Gehan-Breslow)對(duì)兩組或多組生存曲線差異進(jìn)行顯著性檢驗(yàn)。此外,Cox回歸適用于研究多個(gè)因素對(duì)生存時(shí)間的影響,因此,本研究同時(shí)采用Cox回歸對(duì)關(guān)鍵詞生存時(shí)間多影響因素進(jìn)行分析。
中國(guó)計(jì)算機(jī)協(xié)會(huì)(CCF)2020年首次發(fā)布了《CCF推薦中文科技期刊目錄》,從347本中文期刊中遴選37本推薦期刊,并將其分為A、B、C共3類期刊。CCF作為中國(guó)計(jì)算機(jī)科學(xué)領(lǐng)域重要的學(xué)術(shù)團(tuán)體,其發(fā)布的推薦期刊目錄具有較強(qiáng)的權(quán)威性。因此,本研究根據(jù)期刊類型將32本期刊分為兩類,分別為A類期刊和非A類期刊,分析期刊等級(jí)對(duì)論文關(guān)鍵詞生存時(shí)間的影響。
不同等級(jí)期刊的問(wèn)題類關(guān)鍵詞生存函數(shù)如圖3(a)所示,可知來(lái)自A類期刊的問(wèn)題類關(guān)鍵詞生存時(shí)間略長(zhǎng)于非A類期刊,A類期刊的問(wèn)題類關(guān)鍵詞平均生存時(shí)間為2.322年,而非A類期刊的為2.268年,根據(jù)Log Rank和Breslow檢驗(yàn)結(jié)果顯示,兩者之間差異不顯著。不同等級(jí)期刊的方法類關(guān)鍵詞生存函數(shù)如圖3(b)所示,同樣來(lái)自A類期刊的方法類關(guān)鍵詞生存時(shí)間長(zhǎng)于來(lái)自非A類期刊的關(guān)鍵詞,比來(lái)自非A類期刊的方法類關(guān)鍵詞長(zhǎng)0.301年。可見(jiàn),期刊等級(jí)與論文問(wèn)題類關(guān)鍵詞生存時(shí)間不存在相關(guān)關(guān)系,而與方法類關(guān)鍵詞生存時(shí)間存在顯著相關(guān)關(guān)系。

圖3 按期刊等級(jí)分組的生存曲線
本研究根據(jù)論文是否受基金資助,將論文分為兩組,分別為基金資助和非基金資助。是否基金資助論文的問(wèn)題類和方法類關(guān)鍵詞生存函數(shù)如圖4(a)和圖4(b)所示。實(shí)驗(yàn)結(jié)果表明,基金資助論文和非基金資助論文的問(wèn)題類關(guān)鍵詞生存時(shí)間相近。基金資助論文的方法類關(guān)鍵詞生存時(shí)間比非基金資助論文的方法類關(guān)鍵詞生存時(shí)間更長(zhǎng)。在0.05置信度水平下,基金資助論文和非基金資助論文的問(wèn)題類關(guān)鍵詞生存時(shí)間不存在顯著性差異;而方法類關(guān)鍵詞生存時(shí)間存在顯著性差異。
本研究中的論文作者合作規(guī)模分布情況(圖1(a)),作者合作規(guī)模主要集中在1~5人之間,其中作者數(shù)為3人的論文最多。根據(jù)楊瑞仙等[25]的研究發(fā)現(xiàn),作者合作規(guī)模2~4人為最佳,本研究擬將作者合作規(guī)模分為3組,作者合作規(guī)模為1對(duì)應(yīng)組1,作者合作規(guī)模為2~4對(duì)應(yīng)組2,作者合作規(guī)模大于等于5歸為組3,分析論文不同作者合作規(guī)模與論文關(guān)鍵詞生存時(shí)間的相關(guān)關(guān)系。
由圖5(a)所示,當(dāng)作者合作規(guī)模為2~4時(shí),論文問(wèn)題類關(guān)鍵詞的生存時(shí)間為最長(zhǎng),達(dá)到2.338年;其次為作者合作規(guī)模大于等于5時(shí),其生存時(shí)間為2.232年;最短的為作者合作規(guī)模為1時(shí)。由圖5(b)可得,作者合作規(guī)模為大于等于5的論文方法類關(guān)鍵詞平均生存時(shí)間最長(zhǎng),略長(zhǎng)于作者合作規(guī)模為2~4的論文方法類關(guān)鍵詞生存時(shí)間,只有1個(gè)作者的論文方法類關(guān)鍵詞生存時(shí)間最短。作者合作規(guī)模與問(wèn)題類關(guān)鍵詞生存時(shí)間不存在相關(guān)關(guān)系;而作者合作規(guī)模為1的論文方法類關(guān)鍵詞和作者合作規(guī)模為2~4與大于等于5的論文方法類關(guān)鍵詞的生存時(shí)間具有顯著性差異。

圖4 按是否基金資助分組的生存曲線

圖5 按作者合作規(guī)模分組的生存曲線
根據(jù)論文參考文獻(xiàn)數(shù)分布(圖1(b))可知,大部分論文的參考文獻(xiàn)數(shù)小于20。基于此,本研究擬將參考文獻(xiàn)數(shù)為0~20的劃分為組1,將參考文獻(xiàn)數(shù)大于等于20的劃分為組2,以研究不同參考文獻(xiàn)數(shù)與論文關(guān)鍵詞生存時(shí)間的相關(guān)關(guān)系。
不同參考文獻(xiàn)數(shù)的論文問(wèn)題類關(guān)鍵詞生存時(shí)間差異如圖6(a)和圖6(b)所示,可知參考文獻(xiàn)數(shù)大于等于20的論文問(wèn)題類和方法類關(guān)鍵詞生存時(shí)間,均大于參考文獻(xiàn)數(shù)小于20的論文問(wèn)題類和方法類關(guān)鍵詞生存時(shí)間。通過(guò)Log Rank和Breslow檢驗(yàn)發(fā)現(xiàn),論文參考文獻(xiàn)數(shù)與論文問(wèn)題類關(guān)鍵詞生存時(shí)間不具有顯著的相關(guān);而在0.05置信度水平下,與方法類關(guān)鍵詞生存時(shí)間存在顯著的相關(guān)關(guān)系。

圖6 按參考文獻(xiàn)數(shù)分組的生存曲線
論文被引頻次分布符合冪律分布特征(圖1(c)),被引頻次在0~10之間的論文數(shù)快速下降,而被引頻次大于等于30的論文數(shù)趨于穩(wěn)定。因此,本文擬將論文的被引頻次分為3組,被引頻次在0~10之間的為低被引組,被引頻次在10~30之間的為中被引組,被引頻次大于等于30的為高被引組。
從圖7(a)和圖7(b)可得,不同被引頻次論文的問(wèn)題類和方法類關(guān)鍵詞的生存時(shí)間長(zhǎng)短為:高被引論文>中被引論文>低被引論文,且高被引論文關(guān)鍵詞生存時(shí)間和中被引論文關(guān)鍵詞生存時(shí)間之間的差異,大于中被引論文關(guān)鍵詞生存時(shí)間和低被引論文關(guān)鍵詞生存時(shí)間之間的差異。具體而言,高被引論文問(wèn)題類關(guān)鍵詞生存時(shí)間比低被引論文的長(zhǎng)1.264年;高被引論文方法類關(guān)鍵詞生存時(shí)間比低被引論文的長(zhǎng)0.977年。高被引論文、中被引論文和低被引論文的關(guān)鍵詞生存時(shí)間兩兩均存在顯著性差異。可見(jiàn),論文擴(kuò)散廣度與論文關(guān)鍵詞的生存時(shí)間存在正相關(guān)。

圖7 按被引頻次分組的生存曲線
由論文下載次數(shù)的分布情況(圖1(d))可知,隨著下載次數(shù)的增加,相應(yīng)的論文數(shù)先增加,后不斷減少;下載次數(shù)約為100時(shí),論文數(shù)量最大,當(dāng)下載次數(shù)大于等于300時(shí),論文數(shù)逐漸趨于穩(wěn)定。本研究根據(jù)下載次數(shù)分布情況將論文分為3組,分別為:下載次數(shù)小于100為低下載組、下載次數(shù)介于100和300之間為中下載組、下載次數(shù)大于等于300為高下載組。研究不同下載次數(shù)的論文關(guān)鍵詞生存時(shí)間是否存在一定的差異。
不同下載次數(shù)論文的問(wèn)題類和方法類關(guān)鍵詞生存情況如圖8(a)和圖8(b)所示,高下載論文的問(wèn)題類和方法類關(guān)鍵詞生存曲線始終在最上方,而低下載論文的問(wèn)題類和方法類關(guān)鍵詞生存曲線始終在最下方,中下載論文的生存曲線介于兩者之間,即高下載論文的問(wèn)題類和方法類關(guān)鍵詞的平均生存時(shí)間最長(zhǎng),低下載論文的平均生存時(shí)間最短,中下載論文的平均生存時(shí)間介于兩者之間。此外,高下載論文問(wèn)題類和方法類關(guān)鍵詞生存時(shí)間和中下載論文問(wèn)題類和方法類關(guān)鍵詞生存時(shí)間之間的差異,大于中下載論文問(wèn)題類和方法類關(guān)鍵詞生存時(shí)間和低下載論文問(wèn)題類和方法類關(guān)鍵詞生存時(shí)間之間的差異。高下載論文、中下載論文和低下載論文兩兩之間的關(guān)鍵詞生存時(shí)間均存在顯著性差異。進(jìn)一步驗(yàn)證了論文擴(kuò)散與論文關(guān)鍵詞生存時(shí)間存在正相關(guān)的關(guān)系。

圖8 按下載次數(shù)分組的生存曲線
Kaplan-Meier曲線僅能對(duì)生存時(shí)間的單個(gè)影響因素進(jìn)行分析,且無(wú)法具體量化影響因素單位值變化對(duì)生存情況的影響大小;而Cox回歸比例風(fēng)險(xiǎn)模型則可以建立生存時(shí)間的多影響因素模型,考察多個(gè)變量對(duì)關(guān)鍵詞生存時(shí)間的影響。因此,本研究采用Cox回歸方法更加精確地分析關(guān)鍵詞的多因素生存風(fēng)險(xiǎn)。關(guān)鍵詞Cox回歸分析的自變量和因變量與上述分析保持一致,具體如表1所示。

表1 關(guān)鍵詞生存時(shí)間的影響因素與賦值說(shuō)明
本研究先以全部關(guān)鍵詞為分析對(duì)象,研究關(guān)鍵詞的多因素生存風(fēng)險(xiǎn);再分別對(duì)問(wèn)題類和方法類關(guān)鍵詞進(jìn)行多因素生存風(fēng)險(xiǎn)分析。全部關(guān)鍵詞的Cox回歸比例風(fēng)險(xiǎn)模型如表2所示,在0.05置信度水平下,是否基金資助、被引頻次和下載次數(shù)與關(guān)鍵詞生存時(shí)間存在顯著的相關(guān)關(guān)系,且這3個(gè)變量的系數(shù)B均小于0,表明基金資助論文的關(guān)鍵詞生存風(fēng)險(xiǎn)小于非基金資助論文的關(guān)鍵詞生存風(fēng)險(xiǎn),即基金資助論文的關(guān)鍵詞生存時(shí)間長(zhǎng)于非基金資助論文關(guān)鍵詞生存時(shí)間。同理,高被引論文的關(guān)鍵詞生存風(fēng)險(xiǎn)小于低被引論文的,中被引論文的關(guān)鍵詞生存風(fēng)險(xiǎn)亦小于低被引論文的;高下載和中下載論文的關(guān)鍵詞生存風(fēng)險(xiǎn)小于低下載論文的關(guān)鍵詞生存風(fēng)險(xiǎn)。此外,作者合作規(guī)模為2~4人的論文關(guān)鍵詞生存時(shí)間長(zhǎng)于作者合作規(guī)模為1人的論文關(guān)鍵詞生存時(shí)間。

表2 全部關(guān)鍵詞生存時(shí)間Cox回歸模型
問(wèn)題類關(guān)鍵詞的Cox回歸結(jié)果如表3所示,在0.05置信度水平下,論文的被引頻次和下載次數(shù)與關(guān)鍵詞的生存時(shí)間具有顯著的相關(guān)關(guān)系,其中,高被引論文的問(wèn)題類關(guān)鍵詞生存風(fēng)險(xiǎn)為低被引論文的問(wèn)題類關(guān)鍵詞生存風(fēng)險(xiǎn)的0.840倍,高下載論文的問(wèn)題類關(guān)鍵詞的生存風(fēng)險(xiǎn)為低下載論文的問(wèn)題類關(guān)鍵詞生存風(fēng)險(xiǎn)的0.850倍,而結(jié)果表明,論文內(nèi)部因素對(duì)于問(wèn)題類關(guān)鍵詞的生存時(shí)間不具有相關(guān)關(guān)系。進(jìn)一步地,將論文擴(kuò)散因素排除之后,構(gòu)建新的Cox回歸模型結(jié)果表明,A類期刊、基金資助、作者合作規(guī)模大于1人和參考文獻(xiàn)數(shù)大于等于20等因素,可以降低問(wèn)題類關(guān)鍵詞的生存風(fēng)險(xiǎn),然而仍然不具有顯著性。

表3 問(wèn)題類關(guān)鍵詞生存時(shí)間Cox回歸模型
方法類關(guān)鍵詞的Cox回歸模型如表4所示,從表中可得,論文擴(kuò)散因素中的被引頻次和下載次數(shù)與論文方法類關(guān)鍵詞的生存時(shí)間具有顯著的相關(guān)關(guān)系,其中高被引和中被引論文的方法類關(guān)鍵詞生存風(fēng)險(xiǎn)分別為低被引論文的方法類關(guān)鍵詞生存風(fēng)險(xiǎn)的0.869倍和0.946倍,高下載和中下載論文的方法類關(guān)鍵詞生存風(fēng)險(xiǎn)分別為低下載論文的方法類關(guān)鍵詞生存風(fēng)險(xiǎn)的0.867倍和0.936倍。此外,基金資助論文的方法類關(guān)鍵詞生存時(shí)間長(zhǎng)于非基金資助論文的方法類關(guān)鍵詞生存時(shí)間;方法類關(guān)鍵詞的多因素生存風(fēng)險(xiǎn)分析結(jié)果與全部關(guān)鍵詞的多因素生存風(fēng)險(xiǎn)分析結(jié)果一致。

表4 方法類關(guān)鍵詞生存時(shí)間Cox回歸模型
同樣地,將論文的擴(kuò)散因素排除,構(gòu)建新的Cox回歸模型,結(jié)果顯示,在0.05置信度水平下,期刊等級(jí)、是否基金資助和作者合作規(guī)模與方法類關(guān)鍵詞的生存時(shí)間具有顯著的相關(guān)關(guān)系,其中A類期刊論文的方法類關(guān)鍵詞的生存風(fēng)險(xiǎn)為非A類期刊論文的方法類關(guān)鍵詞生存風(fēng)險(xiǎn)的0.949倍,基金資助論文的方法類關(guān)鍵詞的生存風(fēng)險(xiǎn)為非基金資助論文的方法類關(guān)鍵詞生存風(fēng)險(xiǎn)的0.970倍,作者合作規(guī)模為2~4人的論文方法類關(guān)鍵詞生存風(fēng)險(xiǎn)為作者合作規(guī)模只有1人的0.951倍,作者合作規(guī)模為5人及以上論文的方法類關(guān)鍵詞的生存風(fēng)險(xiǎn)為作者合作規(guī)模只有1人的0.933倍。而參考文獻(xiàn)數(shù)與方法類關(guān)鍵詞的生存時(shí)間仍不具有顯著的相關(guān)關(guān)系。
本研究從關(guān)鍵詞詞匯功能的視角出發(fā),構(gòu)建了關(guān)鍵詞生存時(shí)間影響因素模型,并分別從單因素和多因素兩個(gè)視角,探究了不同影響因素與不同詞匯功能的關(guān)鍵詞生存時(shí)間的相關(guān)關(guān)系。研究結(jié)果表明,論文的擴(kuò)散因素包含論文的被引頻次和下載次數(shù),這兩個(gè)因素與問(wèn)題類和方法類關(guān)鍵詞生存時(shí)間存在顯著的正相關(guān)關(guān)系,具體表現(xiàn)為高被引論文關(guān)鍵詞生存時(shí)間>中被引論文關(guān)鍵詞生存時(shí)間>低被引論文關(guān)鍵詞生存時(shí)間,高下載論文關(guān)鍵詞生存時(shí)間>中下載論文關(guān)鍵詞生存時(shí)間>低下載論文關(guān)鍵詞生存時(shí)間;論文的內(nèi)部因素中,期刊等級(jí)、是否基金資助、作者合作規(guī)模和參考文獻(xiàn)數(shù)與方法類關(guān)鍵詞生存時(shí)間存在顯著的相關(guān)關(guān)系,具體表現(xiàn)為A類期刊論文方法類關(guān)鍵詞生存時(shí)間>非A類期刊論文方法類關(guān)鍵詞生存時(shí)間;基金資助論文方法類關(guān)鍵詞生存時(shí)間>非基金資助論文方法類關(guān)鍵詞生存時(shí)間;作者合作規(guī)模為2~4人論文方法類關(guān)鍵詞生存時(shí)間>作者合作規(guī)模大于等于5人論文方法類關(guān)鍵詞生存時(shí)間>作者合作規(guī)模為1人論文方法類關(guān)鍵詞生存時(shí)間;參考文獻(xiàn)數(shù)大于20論文方法類關(guān)鍵詞生存時(shí)間>參考文獻(xiàn)數(shù)小于等于20論文方法類關(guān)鍵詞生存時(shí)間。
本研究在詞匯功能視角下,將生存分析方法應(yīng)用于關(guān)鍵詞的分析,探究了論文內(nèi)部因素和擴(kuò)散因素與關(guān)鍵詞生存時(shí)間的相關(guān)關(guān)系。本研究尚屬于探索階段,存在一定的不足,如本研究通過(guò)深度學(xué)習(xí)方法僅構(gòu)建計(jì)算機(jī)學(xué)科領(lǐng)域的問(wèn)題類和方法類關(guān)鍵詞集,詞匯功能自動(dòng)識(shí)別的方法和技術(shù)有待進(jìn)一步完善,以支撐構(gòu)建更多學(xué)科領(lǐng)域的數(shù)據(jù)集。此外,關(guān)鍵詞生存時(shí)間可能受到復(fù)雜因素的影響,后續(xù)將采用因果推斷等方法,探究關(guān)鍵詞生存時(shí)間的其他影響因素以及其他學(xué)科領(lǐng)域的關(guān)鍵詞生存規(guī)律,并進(jìn)一步應(yīng)用于熱點(diǎn)識(shí)別等研究。