宋媛媛,石 進(jìn)
(南京大學(xué)信息管理學(xué)院,江蘇 南京 210023)
在學(xué)術(shù)領(lǐng)域,論文往往承載著學(xué)術(shù)成果,里程碑論文則是學(xué)術(shù)領(lǐng)域中發(fā)展趨勢(shì)、重大突破與創(chuàng)新的體現(xiàn)。構(gòu)建識(shí)別里程碑論文的模型,能夠幫助高價(jià)值論文的發(fā)現(xiàn)與研究。近年來(lái),隨著元宇宙等數(shù)字技術(shù)的發(fā)展,網(wǎng)絡(luò)與信息安全面臨著更加嚴(yán)峻的考驗(yàn),如何識(shí)別出領(lǐng)域內(nèi)的里程碑論文,找到有價(jià)值的研究,是一項(xiàng)有意義的工作。然而過(guò)往研究中,對(duì)里程碑論文的概念并不明晰統(tǒng)一,其衡量指標(biāo)也較為分散。希望以本文為我國(guó)的網(wǎng)絡(luò)與信息安全領(lǐng)域的里程碑論文識(shí)別做出貢獻(xiàn),并應(yīng)用于其他領(lǐng)域。
學(xué)術(shù)領(lǐng)域中,論文是科學(xué)研究等的成果呈現(xiàn)形式之一,將里程碑的含義代入其中,定義里程碑論文。在目前的科學(xué)界,里程碑論文大多沒(méi)有詳細(xì)且統(tǒng)一的定義,而是通過(guò)知名學(xué)者的公開(kāi)評(píng)價(jià)(同行評(píng)議等)來(lái)判斷,其判斷方式與標(biāo)準(zhǔn)也并不統(tǒng)一。各方學(xué)者對(duì)里程碑論文的概念闡述各不相同,大多為近似的概念[1],國(guó)外學(xué)者還對(duì)于里程碑論文的特征[2]進(jìn)行研究。近似概念有具有里程碑意義的文獻(xiàn)、關(guān)鍵文獻(xiàn)等,國(guó)外的表述包括landmark publications[3]、influential publications[4]等。
網(wǎng)絡(luò)信息安全是一門(mén)綜合性學(xué)科,溯其源較為復(fù)雜,其發(fā)展與其他學(xué)科息息相關(guān),領(lǐng)域內(nèi)尚無(wú)學(xué)者進(jìn)行里程碑論文的識(shí)別與分析研究。由于里程碑論文的定義尚不統(tǒng)一明晰,除了里程碑論文的識(shí)別與分析方法之外,本文還參考了近似概念論文的識(shí)別方法,以往研究對(duì)引用、創(chuàng)新[5]等指標(biāo)著墨較多。作為學(xué)術(shù)發(fā)展過(guò)程中的重要節(jié)點(diǎn),高度的創(chuàng)新力是里程碑論文的必然要求,高度的影響力是里程碑論文的必備條件。參考文獻(xiàn)年譜分析(Reference Publication Year Spectroscopy,RPYS)較為常用。國(guó)內(nèi)學(xué)者2016 年來(lái)[6]開(kāi)始使用RPYS方法進(jìn)行學(xué)科領(lǐng)域的根源分析,之后對(duì)領(lǐng)域重要文獻(xiàn)的判別也做出貢獻(xiàn)。利用參考文獻(xiàn)分析工具CRExplorer,以腦機(jī)接口領(lǐng)域?yàn)槔?,吳闖等[7]對(duì)該領(lǐng)域發(fā)展具有里程碑意義的重要文獻(xiàn)進(jìn)行分析判斷?;谝木W(wǎng)絡(luò)[8]等方法,計(jì)算節(jié)點(diǎn)的入度與出度,尋找網(wǎng)絡(luò)中心,建立量化指標(biāo),是識(shí)別里程碑論文的方法之一。以創(chuàng)新力為研究對(duì)象,方法包括基于網(wǎng)絡(luò)結(jié)構(gòu)變化的變革性潛能指標(biāo),S 指數(shù)[9]等。
此外,還有其他識(shí)別里程碑論文的方法,例如結(jié)合文獻(xiàn)壽命與被引概率分布理論區(qū)分里程碑文獻(xiàn)與奠基石文獻(xiàn),基于集合主題模型發(fā)現(xiàn)里程碑文獻(xiàn)等。
首先對(duì)里程碑論文概念做出解釋?zhuān)豪锍瘫撐耐菍W(xué)術(shù)領(lǐng)域內(nèi)的核心文獻(xiàn),一方面其本身成果價(jià)值高,富有創(chuàng)新性,另一方面得到學(xué)者的廣泛認(rèn)同與引用,其知識(shí)與研究得到傳承。里程碑論文是對(duì)某一研究領(lǐng)域或主題發(fā)展具有深遠(yuǎn)影響的根源性文獻(xiàn)。
本文的模型構(gòu)建以參考文獻(xiàn)為基礎(chǔ),首先使用參考文獻(xiàn)年譜分析方法尋找學(xué)術(shù)根源性文獻(xiàn),之后進(jìn)行創(chuàng)新力與影響力的衡量,用以識(shí)別里程碑論文總集。并根據(jù)聚類(lèi)結(jié)果將總集劃分出潛在里程碑論文,提高方法的容錯(cuò)性。
參考文獻(xiàn)年譜分析方法的步驟如下:①檢索和收集該學(xué)科領(lǐng)域的所有相關(guān)文獻(xiàn)。②導(dǎo)入CRExplorer 中,抽取所有的參考文獻(xiàn)及其發(fā)表年,導(dǎo)出參考文獻(xiàn)出版年譜圖,根據(jù)時(shí)間窗分析峰值,即重要的參考文獻(xiàn)出版年份,尋找可能的候選文獻(xiàn),構(gòu)成候選傳承力文獻(xiàn)集。③由學(xué)科或研究領(lǐng)域?qū)<诣b定,確定文獻(xiàn)是否符合事實(shí)。由于RPYS 方法尋找的是歷史根源性文獻(xiàn),而學(xué)科領(lǐng)域的傳承根源可能來(lái)自于其他領(lǐng)域,因而為了確保領(lǐng)域?yàn)榫W(wǎng)絡(luò)與信息安全,第三步是必要的。參考文獻(xiàn)年譜分析結(jié)果為完成篩選的學(xué)術(shù)根源性文獻(xiàn)集合。
數(shù)據(jù)獲取與下載于2023 年12 月,根據(jù)2022 年度中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)最新一版《中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦國(guó)際學(xué)術(shù)會(huì)議和期刊目錄》,于網(wǎng)絡(luò)與信息安全方面推薦A、B、C 三類(lèi)國(guó)際學(xué)術(shù)會(huì)議,在Scopus 數(shù)據(jù)庫(kù)中進(jìn)行來(lái)源出版物檢索,將檢索結(jié)果的文獻(xiàn)類(lèi)型限制為“Conˉ ference Paper”,年份不做限制,最終導(dǎo)出共計(jì)19418 篇會(huì)議論文。將全部會(huì)議論文導(dǎo)入CRExplorer,該工具能夠?qū)崿F(xiàn)參考文獻(xiàn)消歧處理,即識(shí)別參考文獻(xiàn)變體以及相似參考文獻(xiàn)聚類(lèi)融合,刪除同一參考文獻(xiàn)。之后進(jìn)行人工篩選,最終得到符合條件的169583 篇參考文獻(xiàn)。
進(jìn)行參考文獻(xiàn)年譜分析,時(shí)間窗自動(dòng)設(shè)為1990—2023 年。根據(jù)參考文獻(xiàn)所在年份的參考文獻(xiàn)數(shù)與五年中位數(shù)的偏差,即與前兩年、當(dāng)年和后兩年C 數(shù)量中位數(shù)的偏差確定9 個(gè)高峰年,依次為1990 年,1996 年,2000 年,2001 年,2003 年,2005 年,2012 年,2014 年和2016 年。選取每個(gè)高峰年下被引量處于TOP1%的文獻(xiàn)共計(jì)437 篇,經(jīng)篩選得到屬于網(wǎng)絡(luò)與信息安全領(lǐng)域的文獻(xiàn)共計(jì)356 篇,構(gòu)成傳承力文獻(xiàn)集。
S 指數(shù)是測(cè)度科研成果創(chuàng)新力指標(biāo)的一種,其計(jì)算公式也是判斷成果創(chuàng)新力的思維公式。本文計(jì)算創(chuàng)新力時(shí)將S 指數(shù)簡(jiǎn)化為Sy指數(shù),Sy為某成果在y 年的S指數(shù),Din和Dout是成果節(jié)點(diǎn)在參照客體構(gòu)成的引文網(wǎng)絡(luò)中的入度和出度。其中,Din為與該成果主題直接相關(guān)的參考文獻(xiàn)數(shù),代表成果創(chuàng)新的變異程度,Dout為該成果在該主題領(lǐng)域中從發(fā)表年至y 年的總被引次數(shù),代表新知識(shí)產(chǎn)生以后對(duì)科學(xué)發(fā)展的影響。根據(jù)公式計(jì)算出每篇文獻(xiàn)的創(chuàng)新力,S 指數(shù)值越小,說(shuō)明文獻(xiàn)的原創(chuàng)性越高。
基于被引頻次的方法更適合選擇特定領(lǐng)域中哪些文獻(xiàn)對(duì)總體文獻(xiàn)的科學(xué)進(jìn)步產(chǎn)生重大影響角度提取關(guān)鍵文獻(xiàn)[10]。為了降低極端概率的影響,借助外國(guó)學(xué)者Gringorten I I 的方法計(jì)算被引頻次,量化當(dāng)前文獻(xiàn)集中各文獻(xiàn)的影響力。計(jì)算得到的百分位P 數(shù)越大,說(shuō)明文獻(xiàn)的影響力越高。
隨后,采用統(tǒng)計(jì)學(xué)中的K-means 聚類(lèi)方法對(duì)文獻(xiàn)類(lèi)別進(jìn)行分析,得到的聚類(lèi)中心分別代表高高、低低和高低三種數(shù)值組合類(lèi)型,分別對(duì)應(yīng)里程碑論文145 篇,普通論文72 篇和潛在里程碑論文139 篇,里程碑論文數(shù)約占文獻(xiàn)集總數(shù)的40.7%。對(duì)聚類(lèi)效果的評(píng)價(jià)使用的是輪廓圖法,3 個(gè)簇的輪廓值均值均在0.4 以上,因而論文集的劃分效果較好。
考慮到一篇科研成果的學(xué)術(shù)貢獻(xiàn)和社會(huì)影響是需要一定的時(shí)間沉淀的,而綜述恰是對(duì)一段時(shí)間內(nèi),某一專(zhuān)題的研究進(jìn)展的評(píng)論與展望,所引用的都是經(jīng)過(guò)作者嚴(yán)格篩選,對(duì)專(zhuān)題發(fā)展具有重大意義的文章。根據(jù)這一契合點(diǎn),我們決定借助網(wǎng)絡(luò)與信息安全領(lǐng)域內(nèi)的綜述,以里程碑論文在綜述中的影響力、引用過(guò)里程碑論文的綜述的發(fā)表時(shí)間跨度以及綜述質(zhì)量作為檢驗(yàn)維度,且由于里程碑論文的分布并不符合正態(tài)分布等較為明顯的分布特征,以非參數(shù)檢驗(yàn)Mann-Whitney U 檢驗(yàn)作為檢驗(yàn)方法,以里程碑論文在各維度都顯著優(yōu)于非里程碑論文(潛在里程碑論文和普通論文)作為檢驗(yàn)?zāi)康?,進(jìn)而完成里程碑論文的檢驗(yàn)。
其中,綜述通過(guò)在Scopus 數(shù)據(jù)庫(kù)中用來(lái)源出版物檢索2019 年度中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的該領(lǐng)域A類(lèi)國(guó)際學(xué)術(shù)刊物,并限制文獻(xiàn)類(lèi)型為“Review”獲得;“里程碑論文在綜述中的影響力”是指論文在綜述集中的被引量;“引用過(guò)里程碑論文的綜述的發(fā)表時(shí)間跨度”是指最早引用論文的綜述與最晚引用的發(fā)表年份之差加一,若沒(méi)有被綜述引用,則時(shí)間跨度為0;“綜述質(zhì)量”是指綜述的最高被引量與平均引用文獻(xiàn)數(shù)之比,綜述的最高被引次數(shù)與綜述質(zhì)量成正相關(guān),最高被引越高,代表該綜述質(zhì)量越高,而平均引用文獻(xiàn)數(shù)與里程碑論文在綜述中的重要性有關(guān),平均引用論文數(shù)量越少,代表里程碑論文越重要。檢驗(yàn)結(jié)果如表1 所示。

表1 里程碑論文Mann-Whitney U 檢驗(yàn)結(jié)果
從檢驗(yàn)結(jié)果可知,各檢驗(yàn)維度下的零假設(shè)顯著性概率值均小于0.05,里程碑論文與非里程碑論文在各檢驗(yàn)維度下均存在統(tǒng)計(jì)學(xué)差異,里程碑論文在各方面都顯著優(yōu)于非里程碑論文,由此也就證實(shí)了采用上述方法獲得的里程碑論文的有效性和準(zhǔn)確性。
網(wǎng)絡(luò)與信息安全領(lǐng)域涉及多個(gè)學(xué)科,其里程碑論文研究主題從最基礎(chǔ)的信息安全到電子通訊,再到網(wǎng)絡(luò)的沖擊使得研究領(lǐng)域擴(kuò)展,囊括了網(wǎng)絡(luò)系統(tǒng)的軟硬件,數(shù)據(jù)保密性、完整性,網(wǎng)絡(luò)安全模型等。針對(duì)里程碑論文進(jìn)行LDA 主題分析,其中密碼學(xué)及其分支是最主要的主題,密碼學(xué)是網(wǎng)絡(luò)與信息安全領(lǐng)域重要的組成部分。隨著時(shí)間的增長(zhǎng),里程碑?dāng)?shù)量的增長(zhǎng)呈現(xiàn)先上升后下降的趨勢(shì)。從時(shí)間軸上看,里程碑論文見(jiàn)證了網(wǎng)絡(luò)與信息安全領(lǐng)域的發(fā)展,可以作為學(xué)術(shù)鏈的傳承節(jié)點(diǎn)。
里程碑論文作者中,高校資深研究者大大推動(dòng)了網(wǎng)絡(luò)與信息安全領(lǐng)域的發(fā)展與進(jìn)步。高校作者共計(jì)319 人次,占比76.5%,可見(jiàn)高校在科研研究中的深厚影響。其中一人獨(dú)著的里程碑論文占比13.79%,里程碑論文合作則占比86.21%,占大多數(shù)。里程碑論文中,跨機(jī)構(gòu),跨國(guó)合作非常常見(jiàn),由高校、企業(yè)牽頭跨機(jī)構(gòu)合作也很多,高校合作占跨機(jī)構(gòu)合作89.23%。
美國(guó)作者、機(jī)構(gòu)尤為突出,斷層式領(lǐng)先,英國(guó),德國(guó)等西方國(guó)家在網(wǎng)絡(luò)與信息安全領(lǐng)域也作出了重要的貢獻(xiàn),里程碑論文均含10 篇及以上。3 篇以上10 篇以下里程碑論文的國(guó)家包括新加坡,加拿大等國(guó)家。而我國(guó)在破解MD5 以及哈希密碼方面的論文也被識(shí)別為里程碑論文。
共計(jì)145 篇里程碑論文中,文獻(xiàn)類(lèi)型為“Life cycle”的文章共計(jì)82 篇,占比56.55%。這些文章在最開(kāi)始的4 年內(nèi)被引低于平均值,之后高于平均值,在最后的3年內(nèi)被引低于平均值,符合論文的生命周期。共有77 篇論文被識(shí)別為經(jīng)典的“Sleeping beauty”,即睡美人文獻(xiàn),占比53.1%,這些文章發(fā)表后的前兩個(gè)3 年內(nèi)被引低于平均值,之后至少有一次高于平均值。部分文獻(xiàn)被識(shí)別為兩種及以上的類(lèi)型,“Sleeping beauty + Life cycle”占比26.2%。
識(shí)別一個(gè)學(xué)科或者領(lǐng)域的里程碑論文有利于科研戰(zhàn)略導(dǎo)向的優(yōu)化,里程碑本為衡量距離的概念,本文將其應(yīng)用于學(xué)術(shù)領(lǐng)域,借鑒學(xué)術(shù)譜系、奠基石文獻(xiàn)、重要論文等近似概念的識(shí)別方法,識(shí)別里程碑論文。
本文將參考文獻(xiàn)年譜分析首次引入網(wǎng)絡(luò)與信息安全領(lǐng)域進(jìn)行里程碑論文的識(shí)別。我們的里程碑論文識(shí)別方法結(jié)合了傳承,影響與創(chuàng)新3 個(gè)維度,對(duì)參考文獻(xiàn)使用參考文獻(xiàn)年譜分析方法以及指標(biāo)量化。通過(guò)參考文獻(xiàn)識(shí)別里程碑論文在以往研究中已有端倪,本文在其基礎(chǔ)上做了一定的改進(jìn)。在網(wǎng)絡(luò)與信息安全領(lǐng)域進(jìn)行實(shí)證研究,通過(guò)綜述確定了模型的有效性,同時(shí),對(duì)里程碑論文的內(nèi)容進(jìn)行分析,直接驗(yàn)證了里程碑論文的合理性。
在網(wǎng)絡(luò)與信息安全領(lǐng)域,根據(jù)對(duì)里程碑論文的分析,可以發(fā)現(xiàn)以美國(guó)為首的西方國(guó)家的領(lǐng)跑作用,另外合作研究占比極高,且作者所屬高校占比約70%,高校是研究及合作研究的主力軍。因而,加強(qiáng)多邊合作,尤其是由高校牽頭的合作可以促進(jìn)學(xué)者研究?jī)r(jià)值的提高。在我國(guó)的網(wǎng)絡(luò)與信息安全領(lǐng)域中,國(guó)家資源向高校的傾斜力度可以適當(dāng)加大,另外也要扶持企業(yè)等應(yīng)用研究的發(fā)展。密碼學(xué)領(lǐng)域的研究在里程碑論文中占比也很高,我國(guó)在此領(lǐng)域也做出了貢獻(xiàn),聚焦此領(lǐng)域可以發(fā)展我國(guó)的技術(shù)領(lǐng)跑優(yōu)勢(shì),做出更多有價(jià)值的研究。除此之外,針對(duì)已經(jīng)做出的研究,可以更加重視睡美人文獻(xiàn),以尋求更多可能的里程碑論文,獲得有價(jià)值的研究。