999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

科研人員職業(yè)生涯學(xué)術(shù)論文相似度及其對(duì)被引頻次的影響分析

2022-08-31 15:35:26張麗華張康寧趙迎光張志強(qiáng)
情報(bào)學(xué)報(bào) 2022年8期
關(guān)鍵詞:人工智能研究

張麗華,張康寧,趙迎光,張志強(qiáng)

(1. 山西財(cái)經(jīng)大學(xué)信息學(xué)院,太原 030006;2. 北京交通大學(xué)圖書館,北京 100044;3. 中國(guó)科學(xué)院成都文獻(xiàn)情報(bào)中心,成都 610041;4. 中國(guó)科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院圖書情報(bào)與檔案管理系,北京 100190)

1 引 言

在科研人員的職業(yè)生涯中,如何不斷調(diào)整、選擇乃至轉(zhuǎn)移最佳研究主題是每個(gè)科研人員都非常關(guān)注的問題。針對(duì)這一問題,學(xué)界主要存在兩種主張。一種主張認(rèn)為,科學(xué)家的研究興趣并非一成不變,而是可能發(fā)生學(xué)科間或跨學(xué)科的主題轉(zhuǎn)移。經(jīng)觀察和調(diào)研發(fā)現(xiàn),美國(guó)的科研人員7~8 年更換一次研究主題[1]。另一種主張認(rèn)為,研究主題不能隨意轉(zhuǎn)移。科研工作不是簡(jiǎn)單重復(fù)勞動(dòng),需要高度專注、深度思考與長(zhǎng)期積淀[2]。一支青蒿素,諾貝爾獎(jiǎng)得主屠呦呦試過380 多種提取方法,又做了191次試驗(yàn)才發(fā)現(xiàn)有效成分。

那么,科研人員在職業(yè)生涯中是否要轉(zhuǎn)移研究主題?適時(shí)轉(zhuǎn)移研究主題還是專注于同一個(gè)研究主題更有利于創(chuàng)新??jī)煞N主張都有成功的案例。我們關(guān)心的研究問題是,在同一個(gè)學(xué)科內(nèi)部,科研人員更傾向于堅(jiān)守還是適時(shí)轉(zhuǎn)移研究主題?這兩種不同選擇對(duì)科研人員論文被引頻次會(huì)有什么樣的影響?

針對(duì)該問題學(xué)界進(jìn)行了一些有益探索。部分研究表明,研究主題轉(zhuǎn)移有利于提高科研人員論文的被引頻次:研究主題變化較大的科研人員與以往相比更可能產(chǎn)生有影響力的成果[3],且研究主題發(fā)生轉(zhuǎn)移之后,其發(fā)表的論文數(shù)量和質(zhì)量都更高[4];不斷探索新的研究主題、有較高研究自由度的科研人員與從事既定任務(wù)、審查周期短、可交付成果不可變的研究人員相比,更容易產(chǎn)生高影響力成果[5]。同時(shí),高風(fēng)險(xiǎn)的研究更有可能產(chǎn)生高影響力,獲得更大的認(rèn)可[6]。當(dāng)然,還有一些研究持有不同觀點(diǎn):Amjad 等[7]發(fā)現(xiàn),持續(xù)研究同一主題的科研人員會(huì)產(chǎn)生更高的影響力,獲得更多的關(guān)注;Zeng等[8]的研究表明,科學(xué)家的研究主題分布很窄,在科研人員的整個(gè)職業(yè)生涯中,篇均被引頻次指標(biāo)均與研究主題的轉(zhuǎn)移概率呈負(fù)相關(guān),研究主題的轉(zhuǎn)移概率越高,篇均被引頻次越低。

已有研究多是從群體層面,選擇某一科研人員群體為研究對(duì)象,通過設(shè)置對(duì)照組來對(duì)比科研人員研究主題轉(zhuǎn)移與論文被引頻次的關(guān)系。較少有研究從科研人員個(gè)人層面,通過比較其職業(yè)生涯初期與末期研究主題的相似程度,探討研究主題轉(zhuǎn)移對(duì)其論文被引頻次的影響。因此,本文主要關(guān)注以下兩個(gè)問題:

(1)科研人員職業(yè)生涯初期和末期學(xué)術(shù)論文研究主題是否相似?

(2)科研人員職業(yè)生涯中學(xué)術(shù)論文相似度是否會(huì)對(duì)其論文被引頻次產(chǎn)生影響?

為了回答上述問題,本文以兩個(gè)學(xué)科的科研人員為研究對(duì)象,測(cè)度不同人員的學(xué)術(shù)論文相似度、論文被引頻次等指標(biāo),設(shè)置控制變量排除可能的干擾因素,在此基礎(chǔ)上通過相關(guān)性、負(fù)二項(xiàng)回歸分析學(xué)術(shù)論文相似度與論文被引頻次的關(guān)系,為更深入地了解科研人員個(gè)人成長(zhǎng)規(guī)律并輔助制定科研人員管理與評(píng)價(jià)政策提供參考。

2 研究設(shè)計(jì)

2.1 數(shù)據(jù)集

本文選擇Web of Science (WoS) 數(shù)據(jù)庫中的“計(jì)算機(jī)科學(xué)與人工智能”和“商業(yè)與經(jīng)濟(jì)”作為分析學(xué)科,以WC=“Computer Science, Artificial In‐telligence”和WC=“Business & Economics”為檢索式,檢索兩個(gè)學(xué)科發(fā)表時(shí)間為1975—2017 年(因涉及3 年引文時(shí)間窗問題,故將數(shù)據(jù)截止日期設(shè)為2017 年)、文獻(xiàn)類型為Article 的所有論文,檢索時(shí)間為2021 年1 月5 日,獲得計(jì)算機(jī)科學(xué)與人工智能學(xué)科的222449 篇論文,以及商業(yè)與經(jīng)濟(jì)學(xué)科的235375 篇論文。

接下來,從兩個(gè)學(xué)科中抽取滿足條件的科研人員。抽取標(biāo)準(zhǔn)為:

第 一, 科 研 人 員 擁 有ResearcherID。 Re‐searcherID 是WoS 數(shù)據(jù)庫為科研人員提供的專屬身份識(shí)別號(hào)碼,能夠有效解決科研人員姓名歧義問題。

第二,科研人員在職業(yè)生涯中至少以第一作者身份發(fā)表4 篇論文。非第一作者論文將使科研人員在研究團(tuán)隊(duì)中處于支持者的角色[9],其研究主題可能更多受論文主要貢獻(xiàn)者(如第一作者)的影響,而第一作者論文能夠較準(zhǔn)確地反映科研人員的研究主題。同時(shí),為了計(jì)算不同時(shí)期研究主題的相似度,選擇科研人員職業(yè)生涯最開始和結(jié)束時(shí)各2 篇論文進(jìn)行對(duì)比,因此,至少以第一作者身份發(fā)表4篇論文的科研人員才能納入本文的數(shù)據(jù)集。

第三,科研人員職業(yè)生涯長(zhǎng)度大于2 年且小于等于20 年。職業(yè)生涯的長(zhǎng)短,對(duì)科研人員學(xué)術(shù)論文相似度有非常重要的影響。職業(yè)生涯越短,其論文相似度可能越高;反之,職業(yè)生涯越長(zhǎng),科研人員的論文相似度可能越低。為了盡可能消除職業(yè)生涯長(zhǎng)短對(duì)論文相似度的影響,在選擇科研人員時(shí),需要去掉職業(yè)生涯太長(zhǎng)與太短的科研人員。首先,我們剔除職業(yè)生涯長(zhǎng)度為1 年和2 年的科研人員。胡志剛等[10]在研究期刊作者群的新陳代謝規(guī)律時(shí),提出“如果想走科研之路,請(qǐng)先堅(jiān)持到第二年”[11]的觀點(diǎn)。據(jù)此我們認(rèn)為,職業(yè)生涯超過2 年的科研人員留在學(xué)術(shù)界的概率更高,因此,剔除職業(yè)生涯長(zhǎng)度僅為1 年和2 年的科研人員。其次,我們剔除職業(yè)生涯超過20 年的科 研人員。Milojevi? 等[12]將科研人員職業(yè)生涯分為5 種典型形態(tài),其中長(zhǎng)期活躍者(從事所在領(lǐng)域研究超過20 年)的比例在不斷下降。我們認(rèn)為,長(zhǎng)期活躍者的研究主題在職業(yè)生涯中更可能發(fā)生變化,為了盡可能消除職業(yè)生涯太長(zhǎng)對(duì)成果相似度的影響,本文將職業(yè)生涯超過20年的科研人員剔除掉。

經(jīng)過篩選,計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域共1788名科研人員、商業(yè)與經(jīng)濟(jì)領(lǐng)域共958 名科研人員滿足上述要求,這些科研人員及其發(fā)表的論文信息構(gòu)成本文的最終數(shù)據(jù)集。

2.2 指標(biāo)與方法

2.2.1 學(xué)術(shù)論文相似度

本文主要關(guān)注科研人員個(gè)人層面的學(xué)術(shù)論文相似度,即數(shù)據(jù)集中每個(gè)作者在其職業(yè)生涯中研究主題的轉(zhuǎn)移程度,可以使用科研人員在職業(yè)生涯初期與末期研究主題的相似程度來衡量。研究主題通常使用以下3 種方式來測(cè)度:①使用文獻(xiàn)關(guān)鍵詞、題名、摘要或者全文進(jìn)行自然語言分析;②使用主題建模方法;③使用數(shù)據(jù)庫提供的分類號(hào)[11]。本文使用第①種方式,并借鑒Jia 等[13]的做法,選取1975—2017 年兩個(gè)學(xué)科滿足要求的科研人員職業(yè)生涯最開始的兩篇和最末的兩篇論文,計(jì)算這兩組論文標(biāo)題的語義相似度,以此反映科研人員職業(yè)生涯中的學(xué)術(shù)論文相似度。

選擇論文標(biāo)題而非關(guān)鍵詞、文摘等常用字段進(jìn)行相似度分析主要基于以下考慮:①標(biāo)題是一篇科學(xué)論文最重要的組成要素,能夠直觀揭示論文研究主題。Jamali 等[14]的研究表明,標(biāo)題與論文的下載次數(shù)和被引次數(shù)呈正相關(guān)關(guān)系。②在部分論文關(guān)鍵詞缺失、文摘具有較多干擾詞的情況下,論文標(biāo)題是一個(gè)不錯(cuò)的選擇。

語義相似度計(jì)算選擇2019 年提出的sentence-BERT(bidirectional encoder representations from trans‐formers)模型(簡(jiǎn)稱SBERT)[15]。SBERT 采用雙重或三重BERT 網(wǎng)絡(luò)結(jié)構(gòu)來獲取的句子嵌入,可以更充分地從語義上表征一個(gè)句子,使語義越相似的句子在向量空間中的嵌入向量距離越近。在文本的語義相似性任務(wù)上,SBERT 已全面超越流行的BERT模型,達(dá)到了更高水平。本文選擇了all-MiniLML6-v2 的SBERT 預(yù)訓(xùn)練模型來進(jìn)行語義相似度計(jì)算,該模型使用超過10 億對(duì)句子進(jìn)行訓(xùn)練,在英文相似度任務(wù)方面表現(xiàn)優(yōu)異。

2.2.2 論文被引頻次

科研人員的研究主題轉(zhuǎn)移服從“海邊漫步”(seashore walk)模型[13],可能發(fā)生在職業(yè)生涯中的任何一個(gè)階段;與此同時(shí),科研人員做出重大創(chuàng)新性成果的巔峰期在其職業(yè)生涯中呈隨機(jī)分布[16]。在計(jì)算科研人員論文被引頻次指標(biāo)時(shí),如果僅選擇職業(yè)生涯最初期與最末期的兩篇論文的被引頻次代表該名科研人員職業(yè)生涯中所有論文被引頻次,可能具有很大偶然性。因此,為了更全面地反映科研人員的學(xué)術(shù)影響力,我們使用其職業(yè)生涯中所有論文的平均影響力指標(biāo)來代表其論文被引頻次。

本文選擇6 個(gè)指標(biāo)測(cè)度科研人員職業(yè)生涯的平均影響力,分別是不固定時(shí)間窗與固定3 年引文時(shí)間窗的總被引次數(shù)、篇均被引次數(shù)以及領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)(表1)。

表1 論文被引頻次指標(biāo)

下文將以一個(gè)虛擬的例子說明論文被引頻次指標(biāo)的計(jì)算過程。假設(shè)一個(gè)學(xué)科共有2 名作者au_1 和au_2,共發(fā)表了5 篇論文(表2),各指標(biāo)的計(jì)算方法如下。

總被引次數(shù)與篇均被引次數(shù)指標(biāo)計(jì)算較簡(jiǎn)單。作者au_1 發(fā)表2 篇論文,其總被引次數(shù)為10+8=18次。篇均被引次數(shù)為18/2=9 次。作者au_2 發(fā)表3 篇論文,總被引次數(shù)為7+6+4=17 篇,篇均被引次數(shù)為

表2 論文被引頻次指標(biāo)計(jì)算方法示例

領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)需要同時(shí)考慮論文層面與作者層面。從論文層面來看,一篇論文的領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)等于該篇論文的被引用次數(shù)除以論文發(fā)表當(dāng)年,同學(xué)科、同文獻(xiàn)類型的論文被引用次數(shù)的平均值e。首先,分別計(jì)算每年學(xué)科內(nèi)所有論文被引用次數(shù)的平均值。2005 年發(fā)表了3 篇論文,e2005=(10+7+4)/3=7;2006 年發(fā)表了2 篇論文,e2006=(8+6)/2=7。其次,用每篇論文的被引用次數(shù)除以發(fā)表當(dāng)年的e值,5 篇論文的領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)分別等于

從作者層面來看,一名作者的領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)等于他/她發(fā)表所有論文的標(biāo)準(zhǔn)化引用分?jǐn)?shù)的平均值。作者au_1 發(fā)表2 篇論文,其領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)為同理,作者au_2 發(fā)表3 篇論文,領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)為

與此同時(shí),為了消除論文發(fā)表時(shí)間對(duì)被引用次數(shù)的影響,本文還計(jì)算了每名科研人員3 年引文時(shí)間窗的總被引次數(shù)(3_YEAR_TCC)、3 年引文時(shí)間窗的篇均被引次數(shù)(3_YEAR_ACCP) 以及3 年引文時(shí)間窗的領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)(3_YEAR_FNCC)。以作者au_1 為例,其總被引次數(shù)為6+4=10 次,篇均被引用次數(shù)為10/2=5 次。e2005=(6+5+2)/3=作者au_1 的領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)等于

2.2.3 學(xué)術(shù)論文相似度與論文被引頻次關(guān)系1)分析方法

在考察學(xué)術(shù)論文相似度與論文被引頻次關(guān)系時(shí),本文主要采用兩種方式。第一,相關(guān)性分析:分別計(jì)算學(xué)術(shù)論文相似度指標(biāo)與論文被引頻次不同指標(biāo)之間的相關(guān)系數(shù),并進(jìn)行顯著性檢驗(yàn),以分析兩個(gè)變量之間的關(guān)系;第二,多元回歸分析:除了論文相似度,可能存在其他影響論文被引頻次的干擾因素,本文通過控制變量排除干擾因素的影響,使用多元回歸模型分析多個(gè)變量之間的關(guān)系。

2)控制變量

謝娟等[17]證實(shí)了影響論文被引頻次的因素有作者數(shù)、論文篇幅、期刊影響因子、參考文獻(xiàn)數(shù)、文獻(xiàn)類型和作者年齡。本文使用的文獻(xiàn)類型均為Arti‐cle,不需要對(duì)文獻(xiàn)類型進(jìn)行控制。因此,借鑒謝娟等[17]的研究,我們選擇了5 個(gè)控制變量:①作者數(shù)(Num_of_author)。每篇論文包含的作者數(shù)量。②論文篇幅(Pages)。用論文頁數(shù)表示。③期刊影響因子(IF)。使用一本期刊2010—2020 年期刊影響因子的均值表示。因計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域期刊影響因子缺失值較多,在后續(xù)回歸分析時(shí)刪除期刊影響因子這一控制變量。④參考文獻(xiàn)數(shù)(NR)。⑤作者學(xué)術(shù)年齡(Age)。作者學(xué)術(shù)年齡等于其在職業(yè)生涯中發(fā)表第一篇論文的年份與發(fā)表最后一篇論文年份的差值加1。

除作者學(xué)術(shù)年齡指標(biāo)外,其余4 個(gè)指標(biāo)作者數(shù)、論文篇幅、期刊影響因子、參考文獻(xiàn)數(shù)的分析對(duì)象均為論文而非作者。后續(xù)指標(biāo)需要以作者為單位進(jìn)行分析,因此,在計(jì)算某一位科研人員的某個(gè)指標(biāo)(如作者數(shù))時(shí),等于其發(fā)表所有論文某個(gè)指標(biāo)值(如作者數(shù))的平均值。例如,作者A 以第一作者身份發(fā)表了4 篇論文,每篇論文的作者數(shù)依次為4、3、4、5 人,則作者A 的作者數(shù)為(4+3+4+5)/4=4 人。

同時(shí),考慮到5 個(gè)控制變量彼此間的極值差距較大,擬對(duì)這些變量的指標(biāo)值進(jìn)行歸一化處理。歸一化方法選擇最常見的最大最小標(biāo)準(zhǔn)化(min-max normalization)方法。這種方法簡(jiǎn)單易理解,不改變數(shù)據(jù)分布,采用的公式為

其中,Y是指標(biāo)的標(biāo)準(zhǔn)化值;X為指標(biāo)的原始值;X_max 與X_min 分別對(duì)應(yīng)于指標(biāo)的最大值和最小值。

3)回歸模型

論文被引頻次服從偏態(tài)分布,負(fù)二項(xiàng)回歸模型被認(rèn)為是偏態(tài)分布數(shù)據(jù)的標(biāo)準(zhǔn)回歸模型[18]。因此,我們選擇負(fù)二項(xiàng)回歸模型探討自變量(學(xué)術(shù)論文相似度)及控制變量(作者數(shù)、論文篇幅、期刊影響因子、作者學(xué)術(shù)年齡、參考文獻(xiàn)數(shù))對(duì)因變量(論文被引頻次)的影響。

為TCC、ACCP 等6 個(gè)因變量指標(biāo)分別構(gòu)建兩個(gè)模型。首先,利用5 個(gè)控制變量指標(biāo)構(gòu)建模型1,對(duì)模型1 進(jìn)行檢驗(yàn),并計(jì)算對(duì)數(shù)似然值log-likeli‐hood1;然后,增加學(xué)術(shù)論文相似度指標(biāo)構(gòu)建模型2,對(duì)模型2 進(jìn)行檢驗(yàn)并計(jì)算新的對(duì)數(shù)似然值loglikelihood2。對(duì)兩個(gè)模型進(jìn)行似然比檢驗(yàn),χ2統(tǒng)計(jì)量等于模型1 和模型2 對(duì)數(shù)似然值差值的2 倍。若χ2≥則拒絕原假設(shè),說明科研人員的學(xué)術(shù)論文相似度對(duì)論文被引頻次有影響;反之,則說明沒有影響。

進(jìn)行負(fù)二項(xiàng)回歸模型時(shí)使用python 的statsmod‐els 模塊,操作步驟借鑒馬薩諸塞大學(xué)阿默斯特分校 (University of Massachusetts, Amherst) Sachin Date 的研究:https://timeseriesreasoning.com/contents/negative-binomial-regression-model/。

3 研究結(jié)果

3.1 學(xué)術(shù)論文相似度分析

(1)商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員的學(xué)術(shù)論文相似度分析。

商業(yè)與經(jīng)濟(jì)領(lǐng)域958 名科研人員的學(xué)術(shù)論文相似度如圖1 所示。從圖1 可以看出,商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員的學(xué)術(shù)論文相似度呈現(xiàn)出“中間高、兩邊低”的分布形態(tài)。相似度介于[0.4,0.5)的科研人員數(shù)量最多,為255 名,占商業(yè)與經(jīng)濟(jì)領(lǐng)域所有科研人員的26.6%。相似度小于0.4 或大于等于0.5 的科研人員數(shù)量依次減少。如果我們將學(xué)術(shù)論文相似度小于0.4 定義為科研人員研究主題發(fā)生轉(zhuǎn)移,那么商業(yè)與經(jīng)濟(jì)領(lǐng)域有39.5%的科研人員研究主題發(fā)生轉(zhuǎn)移。

圖1 商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員群體學(xué)術(shù)論文相似度

(2)計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員的學(xué)術(shù)論文相似度分析。

計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域1788 名科研人員群體的學(xué)術(shù)論文相似度如圖2 所示。從圖2 可以看出,計(jì)算機(jī)與人工智能領(lǐng)域科研人員的學(xué)術(shù)論文相似度同樣呈現(xiàn)出“中間高、兩邊低”的分布形態(tài)。相似度介于[0.4,0.5)的科研人員數(shù)量最多,為376 名,占計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員的21.0%。相似度小于0.4 或大于等于0.5 的科研人員數(shù)量依次減少。如果我們將學(xué)術(shù)論文相似度小于0.4 定義為科研人員研究主題發(fā)生轉(zhuǎn)移,那么計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域有45.6%的科研人員研究主題發(fā)生轉(zhuǎn)移。

圖2 計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員群體學(xué)術(shù)論文相似度

3.2 學(xué)術(shù)論文相似度與論文被引頻次關(guān)系

3.2.1 相關(guān)性分析

(1)商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次相關(guān)性分析。

商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度指標(biāo)(Similarity)與不同的論文被引頻次指標(biāo)相關(guān)性分析結(jié)果如表3 所示。從表3 可以看出,F(xiàn)NCC 與Sim‐ilarity 相關(guān)系數(shù)的P值小于0.05,通過了顯著性檢驗(yàn),但Pearson 相關(guān)系數(shù)較小,只有不到0.1,可以認(rèn)為不相關(guān)。其余5 個(gè)被引頻次指標(biāo)與Similarity 相關(guān)系數(shù)的P值均大于0.05,未通過顯著性檢驗(yàn)。因此,從相關(guān)性分析結(jié)果來看,商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員群體的學(xué)術(shù)論文相似度與論文被引頻次不存在線性相關(guān)關(guān)系。

表3 商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次的相關(guān)性分析

(2)計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次相關(guān)性分析。

計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員6 個(gè)論文被引頻次指標(biāo)與學(xué)術(shù)論文相似度指標(biāo)的相關(guān)性分析結(jié)果如表4 所示。從表4 可以看出,TCC 指標(biāo)未通過顯著性檢驗(yàn),而其余5 個(gè)指標(biāo)雖通過了顯著性檢驗(yàn),但Pearson 相關(guān)系數(shù)值均小于0.2,可以認(rèn)為不相關(guān),因此,計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員群體的學(xué)術(shù)論文相似度與論文被引頻次同樣不存在線性相關(guān)關(guān)系。

表4 計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次的相關(guān)性分析

3.2.2 回歸分析

(1)商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項(xiàng)回歸分析。

商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項(xiàng)回歸分析結(jié)果如表5 所示。

從表5 可以發(fā)現(xiàn):

表5 商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員群體學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項(xiàng)回歸分析

第一,商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度未對(duì)論文被引頻次產(chǎn)生影響。在模型2 中,以

TCC、 ACCP、 FNCC、 3_YEAR_TCC、 3_YEAR_ACCP 和3_YEAR_FNCC 為因變量的回歸模型中,自變量Similarity 均未通過顯著性檢驗(yàn),即在商業(yè)與經(jīng)濟(jì)領(lǐng)域,科研人員的學(xué)術(shù)論文相似度未對(duì)其被引用頻次產(chǎn)生影響。

第二,不同控制變量對(duì)論文被引頻次的影響不同。若控制變量能夠通過顯著性檢驗(yàn),則說明其會(huì)對(duì)論文被引頻次產(chǎn)生影響。①以TCC 和ACCP 為因變量時(shí),IF、NR、Age 通過顯著性檢驗(yàn);②以FNCC 為因變量時(shí),IF、NR 通過顯著性檢驗(yàn);③以3_YEAR_TCC 和3_YEAR_ACCP 為 因 變 量 時(shí),5 個(gè)控制變量均通過顯著性檢驗(yàn);④以3_YEAR_FNCC為因變量時(shí),Pages、IF 通過顯著性檢驗(yàn)。

第三,當(dāng)因變量為不固定時(shí)間窗的論文被引頻次指標(biāo)時(shí),模型2 的擬合度優(yōu)于模型1。對(duì)模型1 和模型2 進(jìn)行對(duì)數(shù)似然比檢驗(yàn)發(fā)現(xiàn),當(dāng)論文被引頻次用TCC、ACCP 和FNCC 指標(biāo)衡量時(shí),說明學(xué)術(shù)論文相似度對(duì)論文被引頻次產(chǎn)生了影響;當(dāng)論文被引頻次用3_YEAR_TCC 和3_YEAR_ACCP 指標(biāo)衡量時(shí),相似度未對(duì)論文被引頻次產(chǎn)生影響;當(dāng)論文被引頻次使用3_YEAR_FNCC 指標(biāo)衡量時(shí),未得出卡方檢驗(yàn)結(jié)果,因此,學(xué)術(shù)論文相似度是否對(duì)論文被引頻次產(chǎn)生影響未知。

(2)計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項(xiàng)回歸分析。

計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項(xiàng)回歸分析結(jié)果如表6所示。

從表6 可以發(fā)現(xiàn):

表6 計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員群體學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項(xiàng)回歸分析

第一,計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域?qū)W術(shù)論文相似度會(huì)對(duì)論文被引頻次產(chǎn)生影響。這表現(xiàn)在以6 個(gè)被引頻次指標(biāo)為因變量的回歸模型中,Similarity 指標(biāo)均通過顯著性檢驗(yàn)。而在商業(yè)與經(jīng)濟(jì)領(lǐng)域中,Similarity 指標(biāo)均未通過顯著性檢驗(yàn),這說明學(xué)術(shù)論文相似度是否會(huì)其對(duì)被引頻次產(chǎn)生影響可能具有學(xué)科特異性。

第二,不同控制變量對(duì)論文被引頻次的影響不同。通過顯著性檢驗(yàn)可證明該控制變量會(huì)對(duì)論文被引頻次產(chǎn)生影響。①以TCC 為因變量時(shí),NR、Age通過顯著性檢驗(yàn)。②以ACCP 為因變量時(shí),NR 通過顯著性檢驗(yàn)。③以FNCC 和3_YEAR_FNCC 為因變量時(shí),Num_of_author、NR 通過顯著性檢驗(yàn)。④以3_YEAR_TCC 為因變量時(shí),Pages、NR、Age 通過了顯著性檢驗(yàn)。⑤以3_YEAR_ACCP 為因變量時(shí),4 個(gè)控制變量均通過了顯著性檢驗(yàn)。

第三,模型2 擬合度均優(yōu)于模型1。對(duì)模型1 和模型2 進(jìn)行對(duì)數(shù)似然比檢驗(yàn)發(fā)現(xiàn),當(dāng)論文被引頻次用6 個(gè)指標(biāo)衡量時(shí),χ2≥21.4;自由度為1 時(shí),臨界卡方值說明學(xué)術(shù)論文相似度對(duì)論文被引頻次產(chǎn)生了影響。

4 總結(jié)與討論

4.1 總 結(jié)

本文旨在探討科研人員職業(yè)生涯學(xué)術(shù)論文相似度及其對(duì)被引頻次的影響。選擇商業(yè)與經(jīng)濟(jì)領(lǐng)域958 名科研人員、計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域1788名科研人員為研究對(duì)象,使用相關(guān)系數(shù)和負(fù)二項(xiàng)回歸模型進(jìn)行分析,主要結(jié)論如下。

(1)在學(xué)術(shù)論文相似度方面,兩個(gè)學(xué)科科研人員的學(xué)術(shù)論文相似度呈現(xiàn)出“中間高、兩邊低”的分布形態(tài),相似度介于[0.4,0.5)的科研人員數(shù)量最多。商業(yè)與經(jīng)濟(jì)領(lǐng)域有39.5%的科研人員研究主題發(fā)生轉(zhuǎn)移,而計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域這一比例為45.6%。

(2)在學(xué)術(shù)論文相似度與論文被引頻次的相關(guān)性分析方面,商業(yè)與經(jīng)濟(jì)領(lǐng)域中Similarity 與FNCC相關(guān),計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域中Similarity 與ACCP、FNCC、3_YEAR_TCC、3_YEAR_ACCP 和3_YEAR_FNCC 相關(guān),但相關(guān)系數(shù)均小于0.2,可以認(rèn)為兩個(gè)學(xué)科科研人員職業(yè)生涯中學(xué)術(shù)論文相似度與論文被引頻次之間不存在線性相關(guān)關(guān)系。

(3)在學(xué)術(shù)論文相似度與論文被引頻次的回歸模型方面,商業(yè)與經(jīng)濟(jì)領(lǐng)域以TCC、ACCP、FNCC、3_YEAR_TCC、 3_YEAR_ACCP 和3_YEAR_FNCC為因變量的回歸模型中,自變量Similarity 均未通過顯著性檢驗(yàn),即在商業(yè)與經(jīng)濟(jì)領(lǐng)域,科研人員的學(xué)術(shù)論文相似度未對(duì)其被引用頻次產(chǎn)生影響。計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域以上述6 個(gè)被引頻次指標(biāo)為因變量的回歸模型中,Similarity 指標(biāo)均通過顯著性檢驗(yàn)。說明學(xué)術(shù)論文相似度是否會(huì)對(duì)其被引頻次產(chǎn)生影響可能具有學(xué)科特異性。

(4)在控制變量方面,商業(yè)與經(jīng)濟(jì)領(lǐng)域影響論文被引頻次的控制變量主要是IF。以6 個(gè)被引頻次指標(biāo)為因變量構(gòu)建的回歸模型中,IF 均通過顯著性檢驗(yàn),且回歸系數(shù)與其他控制變量相比較大,說明期刊影響因子對(duì)論文被引頻次的影響較大。計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域影響論文被引頻次的控制變量主要是NR。無論論文被引頻次使用何種指標(biāo)測(cè)度,NR 均通過顯著性檢驗(yàn),且回歸系數(shù)較大,說明當(dāng)論文被引頻次提高時(shí),論文參考文獻(xiàn)數(shù)能夠較大程度地解釋這種提升效應(yīng)。

4.2 討 論

(1)科研人員職業(yè)生涯中研究主題是否發(fā)生了轉(zhuǎn)移?

本文發(fā)現(xiàn),在2~20 年的職業(yè)生涯中,研究主題非常相似或非常不相似的科研人員數(shù)量都較少,大部分科研人員的研究主題會(huì)發(fā)生一定程度的轉(zhuǎn)移。那么,科研人員研究主題轉(zhuǎn)移是否有規(guī)律可循?Jia等[13]使用“海邊漫步”模型來解釋科學(xué)家的研究興趣的演化。在這一模型中,“海灘”上有著某一數(shù)量的點(diǎn),某些點(diǎn)上存在一定數(shù)量的、多種類型的貝殼,每種類型代表一種研究話題,貝殼數(shù)量在各點(diǎn)上的概率分布為P(q),有可能某些點(diǎn)上不存在任何種類的貝殼。科學(xué)家隨機(jī)從“海灘”上選擇一個(gè)點(diǎn),然后向左或者向右隨機(jī)行走,向左和向右的概率均為0.5;他有可能在某些點(diǎn)上經(jīng)過兩次或兩次以上;若走到的點(diǎn)上有貝殼,則代表他發(fā)表了一篇某種研究話題的論文。科學(xué)家每走一步代表過去了一個(gè)單位的時(shí)間,他所走的總步數(shù)等于其科學(xué)職業(yè)生涯的總時(shí)間[11]。

(2)科研人員職業(yè)生涯中學(xué)術(shù)論文相似度是否會(huì)影響論文被引頻次?

學(xué)術(shù)論文相似度是否會(huì)影響論文被引頻次的問題在學(xué)界一直存有爭(zhēng)議。部分研究證明兩者存在正相關(guān)關(guān)系,研究主題變化較大的科學(xué)家更可能產(chǎn)生高影響力的成果[3]。另外一種觀點(diǎn)則認(rèn)為“頻繁轉(zhuǎn)移話題在整個(gè)職業(yè)生涯對(duì)科學(xué)家的影響力都有損害”[8]。

從本文結(jié)論來看,學(xué)術(shù)論文相似度與論文被引頻次之間不存在線性相關(guān)關(guān)系;根據(jù)負(fù)二項(xiàng)回歸結(jié)果,兩者關(guān)系可能具有學(xué)科特異性。計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員的學(xué)術(shù)論文相似度會(huì)對(duì)被引頻次產(chǎn)生影響,而商業(yè)與經(jīng)濟(jì)領(lǐng)域則恰好相反。回歸系數(shù)可以用來解釋論文相似度如何影響論文被引頻次,以計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域3_YEAR_AC‐CP 指標(biāo)為例,學(xué)術(shù)論文相似度的回歸系數(shù)為0.7789,即論文相似度每變動(dòng)1 個(gè)單位,平均而言,3_YEAR_ACCP 將 變 動(dòng)0.7789 個(gè) 單位。

學(xué)術(shù)論文相似度與論文被引頻次之間呈現(xiàn)的復(fù)雜關(guān)系可能是馬太效應(yīng)與論文適應(yīng)度(fitness)[19]共同作用的結(jié)果。職業(yè)生涯中從事相似的研究課題有助于提升作者聲望,累積起來的作者聲望不僅使資深作者的論文被引用可能性是年輕作者的4 倍,而且能使其早期的研究成果產(chǎn)生溢出效應(yīng)。比如,針對(duì)124 名諾貝爾獎(jiǎng)獲得者的分析表明,一項(xiàng)重要科學(xué)發(fā)現(xiàn)的公布連帶增加了作者以前發(fā)表的論文的引用量,即使早期論文與新發(fā)現(xiàn)的課題并不一定相關(guān)[20]。

與此同時(shí),論文被引頻次又受到論文適應(yīng)度的影響。適應(yīng)度是指論文獲得引用的內(nèi)在能力的差異,用一組論文的內(nèi)在屬性來表示,如發(fā)表渠道、讀者規(guī)模以及貢獻(xiàn)性質(zhì)(如綜述論文和方法論文往往比常規(guī)研究論文更易被引用)。如果考慮論文適應(yīng)度,那么當(dāng)前引用量相同的兩篇論文,適應(yīng)度高的那篇未來會(huì)有更高的概率獲得更多的引用。不同的學(xué)科領(lǐng)域論文具有不同的適應(yīng)度。馬太效應(yīng)和論文適應(yīng)度的協(xié)同作用最終導(dǎo)致了論文被引頻次呈現(xiàn)不同的形態(tài)。

對(duì)于論文相似度與論文被引頻次背后的作用機(jī)理,未來還需進(jìn)一步探索以得出更具參考價(jià)值的結(jié)論。

(3)控制變量是否會(huì)影響論文被引頻次?

不可否認(rèn),論文被引頻次受多種因素共同作用。其中就包括本文涉及的控制變量:期刊影響因子、作者數(shù)、參考文獻(xiàn)數(shù)、論文篇幅以及作者學(xué)術(shù)年齡。在商業(yè)與經(jīng)濟(jì)領(lǐng)域,期刊影響因子對(duì)論文被引頻次的作用較大,而在計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域,參考文獻(xiàn)數(shù)對(duì)論文被引頻次的作用較大。

期刊影響因子在商業(yè)與經(jīng)濟(jì)領(lǐng)域確實(shí)對(duì)科研人員職業(yè)生涯的論文被引頻次起到非常重要的作用。研究表明,聲望較高的期刊能夠吸引高質(zhì)量論文,這就意味著高質(zhì)量論文提交到核心期刊,而較低質(zhì)量論文提交到二流期刊,核心期刊論文與二流期刊論文相比被引用次數(shù)更高[21]。期刊影響因子與論文被引頻次之間的天然聯(lián)系,使得在科研人員評(píng)價(jià)中,雖然期刊影響因子不適用于評(píng)價(jià)科研人員個(gè)人或單篇論文,卻可以用作論文被引頻次評(píng)價(jià)的重要參考。

參考文獻(xiàn)數(shù)在計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域?qū)蒲腥藛T職業(yè)生涯的論文被引頻次起到較大作用。參考文獻(xiàn)數(shù)量以及參考文獻(xiàn)的其他特征是論文被引頻次強(qiáng)有力的預(yù)測(cè)因子[22]。研究發(fā)現(xiàn),論文的參考文獻(xiàn)數(shù)量越多,其被引的可能性越大[18]。計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域222449 篇論文的平均參考文獻(xiàn)數(shù)量為28.8 篇。

科研人員職業(yè)生涯中學(xué)術(shù)論文相似度與論文被引頻次關(guān)系的研究,可以為科研人員研究主題轉(zhuǎn)移提供一定的參考。當(dāng)然,本文還存在一些不足:①學(xué)術(shù)論文相似度局限于學(xué)科內(nèi),不涉及跨學(xué)科性問題。本文采用“先確定學(xué)科再確定科研人員”的策略,計(jì)算科研人員在學(xué)科內(nèi)部論文的相似度,并未考慮科研人員在其他學(xué)科領(lǐng)域發(fā)表的論文。②學(xué)術(shù)論文相似度使用論文標(biāo)題的語義相似性來度量,這種方法一方面容易受作者選詞傾向的影響,比如,選擇新詞匯以突出論文新穎性,吸引讀者、審稿人的關(guān)注;另一方面容易受學(xué)科詞匯演化的影響,學(xué)科在發(fā)展中會(huì)不斷出現(xiàn)新術(shù)語、新概念。我們會(huì)在后續(xù)研究中通過關(guān)注跨學(xué)科科研人員群體、使用更完善的相似度計(jì)算方法以彌補(bǔ)以上不足。

猜你喜歡
人工智能研究
我校新增“人工智能”本科專業(yè)
FMS與YBT相關(guān)性的實(shí)證研究
2020年國(guó)內(nèi)翻譯研究述評(píng)
遼代千人邑研究述論
視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統(tǒng)研究
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
新版C-NCAP側(cè)面碰撞假人損傷研究
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
主站蜘蛛池模板: 日本www色视频| 国产美女在线免费观看| 尤物精品视频一区二区三区| 国产鲁鲁视频在线观看| 欧美日韩中文国产| 亚洲区第一页| 国产真实自在自线免费精品| 亚洲美女视频一区| 天天婬欲婬香婬色婬视频播放| 国产无码精品在线| 国产女人综合久久精品视| 色噜噜综合网| 亚洲欧美精品一中文字幕| 亚洲欧洲日韩久久狠狠爱| 成AV人片一区二区三区久久| 国产在线视频导航| 亚洲香蕉久久| 91福利免费| 玖玖精品视频在线观看| 亚洲日本一本dvd高清| 婷婷在线网站| 久久免费成人| 国产成人资源| 在线欧美日韩| 真人高潮娇喘嗯啊在线观看| 国模视频一区二区| 国产精品成人AⅤ在线一二三四| 日韩欧美视频第一区在线观看| 在线看免费无码av天堂的| 一级高清毛片免费a级高清毛片| 欧美一区中文字幕| 国产精品美女在线| 久久久久中文字幕精品视频| www.99在线观看| 国产小视频在线高清播放| 在线播放91| 国产三区二区| 麻豆AV网站免费进入| 日韩免费中文字幕| 日韩在线成年视频人网站观看| 欧美区一区二区三| 欧美国产日本高清不卡| 福利一区三区| 午夜一级做a爰片久久毛片| 日韩大乳视频中文字幕| 色综合手机在线| 97精品伊人久久大香线蕉| 久久久久亚洲精品成人网| 国产美女精品人人做人人爽| 亚洲无线视频| 国产精品林美惠子在线观看| 久热中文字幕在线观看| 欧美不卡在线视频| 日韩午夜片| 久久性妇女精品免费| 欧美日韩国产精品va| 九九香蕉视频| 99久久免费精品特色大片| 91视频区| 伊人天堂网| 尤物精品视频一区二区三区| 欧美一区中文字幕| 中文字幕无码电影| 久久青草热| 国产精品lululu在线观看| 在线国产91| 国产在线一区视频| 亚洲va在线观看| 欧美激情首页| 全部免费毛片免费播放| 国产理论精品| 国产在线第二页| 日韩成人高清无码| 久久精品国产精品青草app| 久久亚洲中文字幕精品一区| 男人天堂伊人网| 一级毛片在线免费视频| 日本91在线| 欧美专区在线观看| 国产69囗曝护士吞精在线视频 | 国产精品青青| 亚洲高清中文字幕|