余穎 羅奕初 石進 李明



關鍵詞:期刊編委;學術期刊;研究主題;信息科學領域;學術影響力;主題分布;Word2Vec
學術期刊是學術領域前沿智慧和理論創新表達的重要載體之一,是學術話語權的重要傳播載體。學術期刊的編委會成員通常由該學科具有較高科研產出和學術影響力的學者組成,期刊編委作為學術期刊的守門人對期刊的發展起著十分重要的作用,不僅代表著期刊的學術聲譽,對期刊的辦刊宗旨、發文特征和學科導向有著不可忽視的作用。與此同日寸,期刊編委對文章的同行評議以及發表與否起著決定性作用,從科研產出端決定著學術影響力。
期刊及其編委會成員在學科領域中掌握著學術話語權,對期刊和在科研產出過程中發揮重要作用的編委進行研究是必要的。學界對編委的重要作用和影響力逐漸形成一種共識,但是更多地在討論審稿流程中編委發揮的作用,從研究主題層面探究編委對期刊的影響與貢獻的文章較少,因此,本研究從研究主題出發,展開研究期刊編委對期刊主題的引導作用,以期揭示期刊編委對期刊研究主題層面的影響特征,深入挖掘期刊編委的學術引導能力,為我國完善建設編委制度提供參考。
1相關研究
學術編委是從眾多學者中篩選得出具有一定學術影響力和學術創新力的學術群體,能夠準確把握研究領域的發展方向,推動學科發展。目前已有許多研究討論期刊編委對國家和機構的影響力。Zsin-dely S等發現不同國家的期刊編委數量與各國家的期刊數量存在顯著相關性,并主張使用國際期刊編委參與度作為新的科學度量指標。Wang X使用分位數回歸模型探究計算機科學領域期刊編委與科研成果的關系,研究發現編委會成員數量與所在大學的研究產出數量和影響力呈正相關關系。BraunT等利用期刊編委數據對高校的學術影響力進行評價。盧小莉等考慮期刊等級、編委等級、編委規模等多個維度構建期刊編委指數,認為編委的學術表現能夠反映科研機構的學術影響力。
編委與期刊是相輔相成的,具有學術影響力的編委有助于提升期刊的知名度和影響力,同時擔任期刊編委也為編委在期刊中發表學術觀點提供了更加便利的平臺。Mazov N A等發現編委會成員的文獻計量指標與期刊的文獻計量指標存在相關性。Xie Y D等構建編委團隊學術指數,發現該指數與期刊聲譽存在顯著的正相關關系。Jessica P等將編委團隊特征與期刊影響力聯系起來,發現編委團隊的科學成就比團隊多樣性更加重要。Zhang T J等探究作者一編委合作模式發現編委的參與對作者出版有很強的正向影響。Xu S等從出版延遲的角度挖掘編委與非編委作者的發文差異,發現編委出版物出版速度更快,比非編委作者有更高的引用次數。
近年來逐漸有學者從研究內容的角度探究期刊編委的影響。張麗華等通過比較期刊編委數據集和非編委論文數據集中重復前沿所占比例判斷編委和非編委作者探測研究前沿的能力,研究發現大多數情況下期刊編委比非編委作者較早探測到同一個研究前沿。蔡程瑞利用可視化方法繪制期刊編委知識圖譜,對比分析得到編委通過學科相關理論逐漸吸納新的研究主題,從而引領學科發展。趙宇翔等通過比較圖情領域國際一流期刊JASISIT和IP&M編委團隊變化前后,所在期刊的主題演化和影響因子等發文特征變化進行分析,認為編委團隊變化對期刊的發展有顯著作用。
綜上所述,已經有許多學者研究了期刊編委對期刊影響因子、論文影響力的影響,編委對期刊的研究主題會產生影響逐漸成為一種共識,但是編委如何對期刊研究主題產生影響,產生了什么樣的影響?因此本文基于文獻關鍵詞,使用Word2Vec模型和Kmeans聚類方法對期刊收錄文章的發文主題進行提取,探究期刊編委對期刊的主題影響情況。
2研究思路與方法
2.1研究思路
論文關鍵詞是研究成果的高度概括性表達,體現了研究成果核心思想或主要內容.學者發表的論文是其研究興趣和研究方向所在,學術論文的關鍵詞是對論文內容的高度概括,因此學者的研究興趣可以通過其發表論文的關鍵詞集合進行表征,期刊的高頻關鍵詞集合能夠體現期刊的研究目標和研究方向。
因此本文基于期刊收錄文章的關鍵詞,將數據集劃分為編委數據集和非編委數據集,經過數據清洗和預處理后比較兩個數據集,觀察不同期刊的主題聚合程度,挖掘期刊的研究主題差異。然后使用文章標題、摘要和關鍵詞信息訓練Word2Vec詞向量模型,對關鍵詞進行向量化處理。針對向量化處理后的關鍵詞集,通過手肘法確定最佳主題聚類數,進行Kmeans聚類得到文獻之間的內部語義聯系,得出各期刊的發文主題分布情況,分析期刊編委群體的主題分布特征,探索期刊編委對期刊的主題影響情況。
3.2研究方法
主題演化是圖情領域十分重要的研究方法之一,能夠幫助學者了解學科內的主題變化趨勢,識別出學科內的研究熱點,常用的方法包括關鍵詞詞頻統計、共詞分析、知識圖譜等。隨著自然語言處理的發展,逐漸開始采用LDA、Word2vec等主題聚類的方法識別學科主題,對文獻和主題語義進行匹配,分析文獻主題的動態演化路徑。基于共現方法獲得的研究主題較為籠統,但是可以獲得研究主題之間的關系,而主題聚類獲得的研究主題力度更小更具體,主題更加細分,因此本文使用Word2Vec詞向量模型從更細粒度挖掘期刊主題。
Word2Vec詞向量模型是Google在2013年開發的詞向量訓練工具,能夠解決單詞的分布編碼問題,把文本信息從非結構化形式轉化為向量化形式,生成的詞向量和語義相關,并且更關注上下文邏輯,使得相關或者相似詞語在距離上更加接近。Word2Vec模型包括輸入層、隱藏層和輸出層,模型框架根據輸入輸出的不同主要包括CBOW和Skip-gram模型如圖1所示,其中w(t)為目標詞,模型構建N維詞向量,根據上下文輸入訓練得到各層之間的系數矩陣,進而得到隱藏層詞向量。
CBOW模型將詞語的上下文作為輸入預測詞語本身,Skip-gram模型將詞語作為輸入預測詞語的上下文,本文輸入文章關鍵詞進行聚類,故采用Skip-gram網絡結構。將每本期刊2017-2021年刊載論文的題目、關鍵詞、摘要作為語料訓練Word2Vec模型,利用訓練好的模型獲取每個關鍵詞的詞向量,為了避免關鍵詞個數造成的影響,取每篇文獻關鍵詞詞向量的平均值作為該文獻的向量化結果。
Kmeans聚類算法根據距離對類簇進行劃分,數據對象距離越近相似度越高,從而將相對距離較近的數據對象劃分為同一類簇,這一聚類方法實現過程簡單并且能夠有效處理大規模數據。因此本文采用手肘法確定最佳主題聚類數,通過Kmeans聚類對向量化結果進行分類,聚類結果能夠反映期刊收錄文章的主題類型,從主題分布的角度進一步探究期刊編委對期刊主題的影響。
3研究流程和結果
3.1數據來源與處理
本文以WOS引文數據報告中信息科學IS&LS門類影響因子前10的期刊作為樣本期刊,為保證有足夠的訓練樣本,剔除了5年內論文總數低于200篇的期刊得到《International Journal of Information Man-agement》《Journal of Knowledge Management》《Jour-nal of Management Information Systems》《Information&Management》《Information Systems Journal》《Gov-ernment Information Quarterly》這6本期刊(下文分別稱為期刊1~6)。在Web of Science網站中以期刊名為檢索詞,檢索時間范圍設置為2017年1月1日-2021年12月31日,下載各期刊在該時間范圍內收錄文章的題錄信息。
本文涉及的數據清洗主要包括剔除關鍵詞為空的文章和篩選編委所著文章。本文從關鍵詞的角度出發對期刊的載文特征展開研究,使用文章標題、摘要和關鍵詞作為語料進行模型的訓練,為了保證后續分詞過程順利,避免英文單詞大小寫造成的詞向量誤差,因此在數據清洗過程中將文本內容統一處理為英文小寫,并去除摘要或關鍵詞為空的數據。本研究以期刊為基本單位探究期刊編委的發文影響,在篩選編委所著論文時,根據各期刊官方網站Editorial Board欄提供的編委名單在數據集中進行檢索篩選,將數據集分為編委數據集和非編委數據集,篩選編委數據集時包括編委獨著和合著署名的所有文章。
3.2發文主題挖掘
關鍵詞集合中能夠挖掘期刊研究主題,從編委發文占比和關鍵詞重合度兩個特征把握編委發文的整體特征,對不同的關鍵詞集合進行比較分析,挖掘期刊的整體研究內容。
以編委2017-2021年在期刊發表文章的關鍵詞構建編委關鍵詞集,與同期刊非編委作者發表的文章進行比較得到關鍵詞重合度。根據期刊官網提供的編委名單篩選出數據集內編委所著文章,編委發文數與總文章數量的比值計算得到編委發文占比。每本期刊的編委發文占比和關鍵詞重合情況如表1所示。
從表1能夠發現所選期刊編委發文占比普遍較高,除期刊2收錄編委文章較少僅占6.24%以外,其他期刊編委文章均占據較高的比例,期刊3編委發文占比高達27.55%。比較不同期刊的編委發文比例和關鍵詞重合程度能夠發現,編委發文量高的期刊,重合的關鍵詞不一定達到同等水平,如期刊2編委發文占比僅占6.24%,其關鍵詞重合度高達21.62%:期刊5編委發文占比為21.32%,但是重合關鍵詞僅占總關鍵詞的9.65%,說明期刊中編委發文占比與關鍵詞重合度不存在必然聯系。
關鍵詞是論文主題凝練的規范性表達,使用相同關鍵詞的文章在研究主題上會更加相似,如果論文的關鍵詞與編委發表文章使用的關鍵詞一致,說明該論文與編委的研究主題相關。因此本文構建編委關鍵詞集,得出每本期刊的關鍵詞重合情況如圖2所示。
進一步探究圖2所示高頻重合關鍵詞,能夠發現期刊1、期刊2、期刊6的關鍵詞重合程度較強,重合頻次峰值較高,表明這幾本期刊收錄文章使用的關鍵詞聚集性更強,主題相關度較高。期刊3、期刊4和期刊5關鍵詞聚合程度較低,可能原因是這幾本期刊的研究粒度較小,考慮了相關研究的多場景應用,對知識技術進行了拓展和遷移,導致關鍵詞分布并不集中,重合關鍵詞體現的概念詞匯和理論方法起輔助作用,如期刊5主要研究內容為信息系統和信息技術,但是研究和討論的內容主要是系統建設中的問題和技術應用的場景,呈現出來的關鍵詞包括數字平臺、技術壓力、軟件開發等,因此關鍵詞分布分散,聚合度較低。
研究主題由一組相互關聯的詞匯組成,關鍵詞本身具有較強的學術規范性,關鍵詞集合能夠直接概括地代表期刊的研究主題。對各期刊編委和整本期刊的高頻關鍵詞進行對比分析,得到各期刊的關鍵詞集合如表2所示。
由表2能夠看出不同期刊的研究方向有所差異,這些差異在高頻關鍵詞上均有體現:眾多期刊收錄的文章都對社交媒體展開了研究,但是研究的側重點有很大的差異。如期刊1對大數據、文本挖掘、人工智能和區塊鏈等技術研究十分關注,尤其對新冠肺炎疫情造成的影響變化賦予了很高的關注:期刊3對虛假信息、在線社區等社交行為更加關注;期刊4發表的論文側重于商業分析與商業價值挖掘:期刊5則傾向于數字平臺構建相關的研究。部分期刊的研究內容聯系緊密,如期刊2專注于對知識組織挖掘相關主題展開研究,主要研究內容聚焦于知識管理、知識轉移和知識共享等方向;期刊6的研究集中于政務電子化,對數字政府、政務數據、智慧城市展開了廣泛研究。
比較編委和期刊高頻關鍵詞能夠發現,編委和期刊的研究主題在整體上保持一致,但是也存在著差異,主要體現在期刊1和期刊5中。期刊1中編委除了對社交媒體、機器學習、人工智能等主流內容研究以外,編委Niki Panteli對虛擬團隊的領導力、創新力展開了研究,Ioanna Constantiou、Yan-qing Duan等編委深入討論了新冠肺炎疫情影響下的電子化轉型實踐問題。期刊5中編委團隊與期刊收錄文章的研究主題呈現出了較大的差別,期刊收錄文章收錄的關鍵詞顯示該期刊對數字平臺構建的關注,對數字平臺、數字創業、軟件開發以及社會化媒體展開了討論,但是編委團隊研究內容較為分散:主編Robert M.Davison對行動研究感興趣,編委Ravishankar M N和Sutirtha Chatterjee對金融科技的發展、金融科技與信息系統的融合進行了研究,編委Stan Karanasios注重新冠肺炎疫情背景下的信息系統應用研究。與此同時,本文查閱了各期刊官網。Aim and Scope”欄提出的期刊研究目標,比較發現期刊收錄文章研究主題、編委研究方向與期刊的研究目標保持著一致,包括關鍵詞統計結果十分分散的期刊5,雖然期刊5編委和期刊的關鍵詞差別較大,但是研究總體都是從信息系統、信息技術進行延伸。
3.3發文主題分布
學術文獻的影響力與學科領域、研究主題密切相關,研究主題逐漸被納入文獻影響力評價體系之中,通過研究主題挖掘能夠揭示信息科學領域一流期刊的整體研究方向,但是缺乏對各期刊內主題分布趨勢的把握。因此本文使用Word2Vec模型對關鍵詞做向量化處理,并使用Kmeans方法進行聚類,從主題分布結果分析編委對期刊的影響。
將每本期刊的摘要、標題和關鍵詞信息作為語料庫訓練模型,利用訓練好的模型計算關鍵詞對應的詞向量結果,取每篇文獻關鍵詞詞向量的平均值作為文章的詞向量,進行Kmeans聚類后得到每篇文章的研究類別。以期刊為單位,能夠得到期刊中不同主題類型分布的變化趨勢,為避免不同刊期發文數量差異造成的影響,以刊期為橫坐標,該主題類型發文數量在該刊期發文數量占比為縱坐標繪制主題分布圖。本文選取編委發文占比與關鍵詞重合度居于相同水平的兩本期刊1、期刊6.和編委發文占比與關鍵詞重合度呈負相關水平的兩本期刊2、期刊5,對這4本期刊的主題分布情況進行比較分析,探究編委發文主題對期刊研究主題的影響。
圖3反映了期刊1在2017-2021年期刊主題的變化趨勢,對主題分布圖分析發現該期刊主題2和主題3的討論更為廣泛,主題2討論度緩慢下降,主題3討論度逐漸上升。隨著時間的推移,主題4的討論度呈現先上升后下降的趨勢,主題1近幾年文章發表數量明顯增長,討論度逐漸增加。
為進一步探究編委的發文影響,對編委和非編委在不同刊期的主題分布情況進行分析,繪制主題分布圖如圖4所示。由下圖能夠明顯看出期刊1編委和非編委在不同主題的發文趨勢具有較強的相關性,編委在特定主題發文量明顯增加后,非編委在對應主題發文出現明顯上升趨勢,在圖中呈現交叉上升趨勢:也有部分情況下編委和非編委在同一主題下發文占比同時增加,表明編委大部分時間對研究主題的敏感度高于非編委作者,對期刊的研究主題分布具有引導作用。
對編委發文占比和關鍵詞重合度同樣較高的期刊6進行同樣的分析,繪制主題分布圖如圖5和圖6所示。期刊6對主題2關注度較低,主題1-直保持著較高的討論熱度,主題3和主題4的發文水平保持穩定。觀察期刊6編委與非編委主題分布情況能夠發現大多數情況下編委與非編委對主題的關注度呈現同步上升趨勢,對應主題的發文量出現同步上升或下降趨勢。
對編委發文和關鍵詞重合度同樣高的期刊1和期刊6分析發現,編委對主題的敏感程度普遍早于非編委,并且會影響期刊對該主題的文章收錄情況。接下來本文對編委發文占比與關鍵詞重合水平不一致的期刊2和期刊5進行比較分析。
由圖7可得,期刊2對主題1、主題2和主題3的討論更為廣泛,其中主題1討論度逐年上升,主題4討論度逐年下降。期刊4對兩個主題的討論此起彼落,主題2在2017-2019年發文占比逐年增長,在2019-2021年逐漸回落,主題1呈現出相反的趨勢。
期刊2-年僅一刊變化趨勢不明顯,從編委非編委主題分布圖來看,期刊2中除主題2和主題3中編委與非編委對主題的關注度呈現出了不同的表現趨勢,對其他主題的關注趨勢基本保持一致。從期刊5的主題分布趨勢來看,學者們對主題2行動研究、數字平臺、金融科技等主題一直保持著高關注度。主題1的研究熱度在2017-2019年逐年消退,直到2019年編委在熱度漸低的主題1集中性的發文,吸引了其他作者的關注,使得該主題有擴張趨勢,推動主題1的討論熱度達到新的高峰。
通過上述研究能夠發現,對于較為新穎的主題,編委對主題的關注會影響整本期刊對該主題的關注水平;對于熱度比較穩定的主題,編委和非編委的關注水平不具有明顯的相關關系。與此同時,關鍵詞重合度和編委的參與度不存在必然聯系,而是與期刊主題聚合度相關,編委參與度低的期刊中,編委自身發文對期刊主題影響十分有限,期刊研究主題聚合度較高使得關鍵詞重合水平較高:編委參與度高的期刊,編委關注度高的主題能夠吸引更多的學者進行研究,但是期刊主題的聚合程度較低會導致關鍵詞重合度較低。
3.4格蘭杰因果檢驗
上述分析從定性角度揭示了編委發文和期刊文章的相關關系,在此基礎上用格蘭杰因果檢驗進一步從定量角度分析它們之間的影響機制。格蘭杰因果檢驗源于計量經濟學領域,現也逐漸應用于信息計量學領域,是一種用于判斷兩個時間序列之間是否存在因果關系的統計方法,進行格蘭杰因果檢驗的前提條件是時間序列必須具有穩定性。對期刊編委和非編委在不同主題的發文占比進行平穩性檢驗,檢驗結果如表3所示,樣本時間序列數據通過平穩性檢驗,少數主題由于編委發文較少未通過平穩性檢驗。對滿足序列平穩條件的期刊和主題進行格蘭杰因果檢驗,檢驗結果如表4所示,由于期刊2因數據量太少缺乏置信度故不進行檢驗。
檢驗結果顯示,期刊編委的發文與期刊收錄文章的主題存在因果關系,并且這一規律在選取的樣本期刊中普遍存在。檢驗出具有因果關系的期刊主題有期刊1主題1、期刊3主題2、期刊4主題1、期刊5主題2、期刊6主題3。盡管編委對部分期刊主題對影響因果關系并不明顯,但是這并不代表二者沒有因果關系,可能該類主題的影響因素較多,主題各因素的影響機制較為復雜,所以難以分析編委對該類主題的影響。
對編委的影響進一步分析發現,編委并非在所有主題上對期刊收錄文章主題產生影響,而是更多的在新興主題上影響期刊收錄文章主題。結合期刊主題近5年的變化趨勢,觀察發現通過格蘭杰因果檢驗的期刊主題通常為期刊的新興主題,編委在這些主題的發文對非編委作者產生了一定的影響,使得新興主題隨著時間的推移在學者中的關注度逐漸提升:然而,熱門主題的編委發文量與非編委發文量因果關系并不明顯,此類主題已經吸引了大量學者關注與發文,編委的發文難以助推熱門主題的熱度,對本身關注度高的主題影響并不顯著。
就檢驗出因果關系的期刊主題來看,少數主題僅在滯后1期存在因果關系,可能與不同期刊的出版速度有關,出版速度較慢的期刊在響應主題上存在一定的時間滯后。大部分主題這種因果關系在滯后1期和滯后2期均存在,說明因果關系較為穩定,編委在該主題的發文不僅能夠快速吸引同類主題的文章,還能維持該主題的關注力度,其影響具有即時性和延續性。
4討論
4.1編委的主題內容影響
編委為期刊貢獻了大量稿件與高水平論文,許多期刊編委發文占比超過20%。對主題挖掘結果進行分析,能夠發現編委和期刊發文的關鍵詞趨于規范,許多期刊的關鍵詞重合度超過10%,并且高頻關鍵詞與期刊本身的研究目標高度相關,體現出了期刊和編委對主題的堅守。不同期刊的研究主題有所差異,都堅持著各自的研究目標,在不同的主題內容上為信息科學領域的研究添磚加瓦:但是各期刊在研究內容上也存在著共性,如在高頻重合關鍵詞中均出現的單詞是社交媒體,充分說明信息科學研究中,無論是編委還是非編委作者都關注利用社交媒體挖掘方法對社交媒體數據進行挖掘和分析。于此同時能夠發現,除了使用主流關鍵詞圍繞期刊目標進行研究,編委群體自身還在不斷拓展創新研究主題,結合已有理論和技術方法對學科開展多場景應用,拓展理論研究的新方向,同時結合社會發展探究學科主題的新變化,為期刊注入了新的活力。
4.2編委的主題分布影響
以年為單位來看主題聚類情況,期刊收錄文章的主題類型呈此起彼伏之勢,所有主題在本研究截取的時間范圍內保持著連貫性和持續性。圍繞主題偏好分布進一步歸納能夠發現,編委和非編委作者對所有研究主題均投入了關注和研究,但是對不同討論熱度的研究主題,編委的影響特征呈現出了不同的特點:當期刊編委在新興主題中發文時,會吸引其他學者對該主題進行研究,使得主題關注度上升;當期刊編委在熱門主題發文時,對其他學者的影響并不顯著,學者們依舊遵循自己的研究路徑。格蘭杰因果檢驗的結果驗證了這一想法,期刊編委在新興主題的發文會對其他學者產生影響,促進學界對該主題的關注,這種影響具有即時性和延續性,其影響大于對熱門主題的影響。
觀察發現,編委群體的研究興趣十分廣泛,對各研究主題均有涉獵,編委和非編委作者都能夠感知到新興主題,但是往往編委對新興主題有更強的捕捉能力,并更早涉足該主題的研究。編委在新興主題上的集中發文或是持續性發文都能夠提高其他作者對該領域的關注程度,對期刊的主題內容產生引導作用。綜上,編委在各主題都會進行持續的研究,在熱門主題發文量更高,在部分熱門主題和新興主題研究中會集中性組稿發文,從而吸引其他作者的關注,使得期刊中該主題整體討論度上升。
5結論
期刊編委是學術群體的重要組成部分,相比其他學者有著更強的學術領導能力和學術話語權,通過研究期刊編委對期刊主題層面上的影響特征有助于更好地了解編委的學術影響力。為了探究期刊編委對期刊的主題影響,本文借助Word2Vec模型和Kmeans聚類方法探索了信息學科優秀期刊的主題分布特征,研究發現編委對新興主題的影響高于對熱門主題的影響,編委對新興主題的集中性發文能夠引導期刊的研究主題偏好發生變化,相較于非編委作者,編委也呈現出了更好的創新活力,引導學者對有價值的主題關注研究。但是本文還存在一些局限性,在探究編委對研究主題的影響時僅在期刊范圍內進行了討論,如果能夠從整個學科內探討編委對學科整體的影響,或是從某一研究主題出發探究編委對主題分化過程的促進作用,一定能對編委的學術影響力有更加深入的認識。未來可以進一步擴大研究范圍,探究學科內期刊編委整個學術群體的影響特征。