白如江 任前前 陳鑫













關鍵詞:信息資源管理;學科更名;一級學科;研究主題;發展演變
在過去的30年里,“信息資源管理”一級學科緊跟日寸代腳步,吸收新技術,拓展新內容,經歷了從“圖書館與情報學”到“圖書館、情報與文獻學”到“圖書館、情報與檔案管理”再到“圖書情報與檔案管理”的更名過程。從以上3次更名不難看出,本學科的名稱大致是在圖書館學、情報學和檔案學3個二級學科名稱簡單的羅列疊加的基礎上形成的,并未形成一個能夠涵蓋其二級學科領域的關鍵性名稱,導致3個學科變得更加獨立,缺乏關聯性。為促進學科高質量發展,經多方意見征集,2022版《研究生教育學科專業目錄》以“信息資源管理”一級學科名稱替代“圖書情報與檔案管理”。
本次信息資源管理一級學科更名之初,業界內曾有過一段時間的爭論。如北京大學賴茂生教授考慮到新名稱的準確性和局限性,建議采用“信息管理”作為學科名稱。南開大學王知津認為這次更名欠妥,缺少科學性、合理性、社會性和邏輯性,可能會導致二級學科被邊緣化,阻礙其生存和發展。相反,中國人民大學馮惠玲教授認為,新名稱更加厚重包容,呼吁學者們要守正創新,以信息資源管理的名義再繪學科藍圖。中國科學院大學初景利教授等表示,新名稱能夠給予學科更大的自由度,應加快推動從“圖書情報與檔案管理”到“信息資源管理”的轉變。武漢大學教授馬費成表示,新名稱能夠彰顯時代特點,具有中國特色,呼吁業內學者加強學科建設,放棄爭論。
爭論過后,目前基本形成共識,圍繞著如何建設好、發展好本學科,現已成功舉辦第十九屆信息資源管理論壇、第六屆陜西信息資源研究中心高端論壇等多場相關會議論壇,探討了在新形勢、新機遇和新挑戰下的信息資源管理學科建設與發展,對構建中國自主的信息資源管理學科的學術體系、話語體系和學科體系具有重要意義。
聚焦學科發展建設,未來信息資源管理學科如何守正創新以及明確守正創新的內容是目前亟待研究的話題。關于學科的守正創新,參考本學科歷次更名前后研究主題的發展變化情況,是一條可行且有效的途徑。但目前尚缺少系統梳理信息資源管理學科歷史發展脈絡的研究,存在以下幾個問題需要進一步明確和深入研究:①本學科成為一級學科后,共經歷了4次更名,每次更名前后的熱點研究主題內容集中情況:②更名前后熱點研究主題的主題強度及新穎度情況:③更名前后研究主題的發展變化情況;④研究主題未來的發展趨勢。鑒于此,本研究收集1990-2022年的15本核心期刊的94981篇文獻,探尋歷次更名前后本學科研究主題的發展變化情況,揭示本次更名后研究主題發展趨勢,為學科未來走守正創新的發展道路提供參考。
1研究設計
1.1實驗環境
硬件:Windows10系統(64位),Intel(R)Core(TM)i3-10100CPU。
軟件平臺:飛槳(PaddlePaddle)深度學習平臺,數據挖掘軟件KNIME,社會網絡分析軟件Ge-phi,可視化圖表庫Apache ECharts平臺。
1.2數據來源
中文社會科學引文索引(CSSCI)是國內常見的五大主流核心期刊評價體系之一,來源期刊范圍包括法學、管理學、教育學等眾多學科,具有學術性強、編輯規范、權威性高的特點。本研究根據CSSCI來源期刊(2021-2022)分級目錄,選取“圖書館、情報與文獻學”的核心期刊的學科排名第一以及CSSCI來源期刊一、二區共15本期刊的文獻作為數據源,具體包括《中國圖書館學報》《檔案學通訊》《情報資料工作》《情報理論與實踐》《情報雜志》《圖書情報工作》《圖書情報知識》《檔案學研究》《情報學報》《情報科學》《數據分析與知識發現》《大學圖書館學報》《圖書與情報》《國家圖書館學刊》和《圖書館論壇》。
1.3研究思路
圍繞研究目標,本文研究思路及框架流程圖如圖1所示。
1)數據準備。①數據獲取。登陸中國知網,在檢索欄選擇“文獻來源”,分別將15本期刊名稱作為檢索條件,時間范圍設置為1990年1月1日一2022年10月26日,將全部文獻下載導出:②數據預處理。包括數據清洗和文獻標題分詞兩部分,主要內容為去除停用詞,人工對部分數據進行查閱補充,刪掉缺少重要信息的數據,借助飛槳(Pad-dlePaddle)平臺利用Python語句對文章標題進行分詞;③數據時間切片。結合本學科歷次更名年份,將預處理后的數據分為4組,如表1所示。
2) LDA主題識別。①Elbow Method(肘部法則)主題困惑度計算。要進行主題識別前首先需要確定聚類主題數量(No of Topics),本研究采用肘部法則,利用K-Means聚類算法,找到平方誤差和在困惑度函數散點圖上隨簇類數的增加而出現的畸變程度最大的點,該點即確定為最佳主題數量;②熱點研究主題識別。采用融合TF-IDF(詞頻一逆文檔頻率)算法和LDA主題模型的分類方法,結合Elbow Method所確定的數量,設置KNIME中的Topic Extractor(Parallel LDA)模塊,人工刪除無實際意義的主題詞,揭示學科更名前后的熱點研究主題內容,并借助社會網絡分析軟件Gephi將其進行可視化展示。
3)更名前后主題強度。通過統計各研究主題所包含的文獻數量,明確各主題的主題強度,揭示熱點研究主題趨勢。主題強度計算公式如式(1)所示,其中,T表示主題s的主題強度;n表示主題s內的論文數量;Pi表示主題s內的第i篇論文。
4)更名前后主題新穎度。主題新穎度通過計算“平均年”的方法獲得,可以反映出研究主題出現的日寸間,新穎度越高則主題越年輕,未來對學科發展產生影響的可能性就越大,而且對于判別研究前沿主題有重要作用。主題新穎度計算公式如式(2)所示,M表示主題s的新穎度;n表示主題s內的論文數量;Yi表示主題s內的第i篇論文。
5)更名前后研究主題發展變化情況。利用主題相似度的方法計算兩兩主題之間的余弦距離,反映出不同數據集中研究主題的異同.通過A-pache ECharts中的桑基圖將結果進行可視化展示,增強用戶認知,探尋更名前后研究主題的發展變化情況。
6)研究主題未來發展趨勢預測。主題詞與英語單詞十分相似,當其孤立出現的日寸候,其意義并不能完全確定,但此時如果輔以“上下文語境”,將會對主題詞意義的確定起到極大的幫助作用。因此,本研究引入符號語言學視角下的詞語翻譯交叉聯立的思想,提出主題詞交叉聯立的分析方法,主要利用核心主題詞(目標詞)及其相鄰主題詞(毗鄰詞)構成上下文語境,重點揭示學科更名前后熱點研究前沿主題的發展趨勢,進而預測信息資源管理學科研究主題的未來發展趨勢。
2實驗和結果分析
2.1數據準備
從中國知網(CNKI)共下載數據94981條,其中《情報學報》2003-2012年未有數據收錄。經數據預處理和數據時間切片,本研究最終共獲得76426條有效數據。按照學科更名時間節點切片分為4組,獲得第一次更名前2548條、第一次更名后7848條、第二次更名后28057條、第三次更名后37973條數據。
2.2研究主題識別
2.2.1主題困惑度計算
利用KNIME分析平臺,通過Elbow Method計算方法發現,第一次更名前后的數據聚類數(Num-ber of Cluster)為5和3時發生的畸變程度最大,困惑度最低。因此,這兩組數據的最佳聚類主題數量為5和3。第二、三次更名后的最優聚類主題數為10和7。
2.2.2熱點研究主題識別
結合TF-IDF算法對歷次學科更名前后的數據進行LDA主題建模,以識別文獻標題中的主要研究熱點,分析其發展變化情況。結合2.1中的最佳主題數量設置Topic Extractor(Parallel LDA)模塊中每組的主題數及其所包含的主題詞數(全部設置為60),經人工篩選并剔除無意義的主題詞,最終所獲得的熱點研究主題識別結果(部分)如下。
1)第一次更名前的研究主題傾向于信息檢索技術的實踐應用,尤其是聯機檢索,多以圖書館、情報、檔案和文獻為基礎,借助計算機實現信息管理的目標,出現的熱點研究主題詞有標引、數據庫、目錄、分類等。本次學科更名加快了新研究主題的產生,計算機技術和社會信息化在國內的廣泛傳播為學科開辟了新的發展方向,傳統的信息管理方式開始向自動化系統方向進行轉變。
2)第一次更名后出現了信息高速公路、光盤檢索、自動化管理等詞。在當時經濟社會大背景下,一方面,圖書情報學科研究內容逐漸與市場經濟體制內容接軌,注重將科學研究與企業經營和產業發展相結合,運用本學科知識分析解決企業在生產經營中遇到的實際問題:另一方面,國內高校為培養符合市場需求的人才對學科積極做出調整,推動本學科和社會企業的協調發展。綜上,第一次學科更名后與前一階段相比,在研究主題內容上有了明顯轉變,除信息檢索技術相關研究之外,信息組織以及人才培養主題也獲得了較高的研究熱度。
3)第二次更名后,熱點研究主題關注的內容發生創新性變化。信息資源管理與共享、特色數據庫、網絡信息安全、個性化服務、知識圖譜和數據挖掘等相關研究興起,加快了學科發展的步伐。信息服務與政務信息相結合,衍生出了電子政務、數字化政府,使政務信息公開透明化,增強政府公信力。高校圖書館致力于向數字圖書館轉型,并依據自身情況創建高校特色數據庫。不難看出,在經歷了本次更名后,研究主題的內容更加傾向于對信息資源以及知識的管理與共享,尤其是網絡信息資源,同時信息服務的重要性逐漸被意識到,多樣化的研究方向為之后交叉學科研究的進行奠定了基礎。
4)第三次學科更名后進人大數據管理階段,研究主題越來越趨于更細粒度特征的研究,研究對象以圖書館數據、政府數據和企業數據為主,通過數據挖掘、數據融合、數據治理等技術實現對數據的認識與管理。同時,網絡輿情和社交媒體傳播、虛擬社區、關聯數據、語義融合、知識轉移、數據的隱私保護、閱讀推廣和信息推薦算法等作為新的主題詞出現,與現代生活息息相關,為本學科未來發展方向提供了嶄新的思路,具有深入研究價值。
2.2.3更名前后主題共現網絡
將主題模型識別結果(Topic Terms)導人社會網絡分析軟件Gephi中,利用該軟件對更名前后的研究主題進行可視化分析,通過主題節點和各主題詞之間連線的密集程度,直觀地反映出該時間段內的核心主題以及主題之間的關聯情況。
第一次更名前主題共現網絡如圖2(a)所示,主要研究內容有高校教育管理研究、數據庫檢索研究等。核心主題包括圖書、情報、檔案、科技、文獻、管理、圖書館,與其他主題詞之間保持著密切聯系,而課題、資源、讀者、高校教育課程等邊緣主題詞有待加強研究,是未來需要努力的方向。同時,信息資料、科學技術、高等教育、期刊、數據庫、企業、系統等主題詞是該時期主題網絡的關鍵節點,與其他主題詞的連線較為稠密,串聯起了第一次更名前的各個研究方向,使主題關聯關系有跡可循。
第一次更名后的主題共現網絡主要由信息檢索與組織以及市場經濟相關研究組成,如圖2(b),主要應用于高等教育、企業經營等領域,技術、期刊等新增主題詞成為核心研究主題,檔案館、分類、檢索、理論、系統、市場經濟等是網絡關鍵節點,連接起該時期的研究主題。同時,數據庫、目錄、信息高速公路、光盤檢索等主題詞雖處于研究網絡的邊緣位置,但與其他主題詞聯系密切,相關性較高。
第二次更名后主題共現網絡如圖2(c),10個主題對應著網絡中不同顏色的部分。該時期的核心研究主題詞有圖書館、信息、檔案、企業、文獻、技術、網絡、知識等,以此為基礎展開深入研究。關鍵主題詞節點有數字圖書館、創新、信息化、WEB、信息資源等,串聯起了第二次更名后研究主題的各個方向,與其他邊緣主題詞相關性較高。
第三次更名后共現網絡中心位置的核心主題包括圖書館、信息、機制、網絡、模型以及相關的實證研究,主要是借助計算機實現更深層次、更細粒度的特征的挖掘和分析,如圖2(d)。社區、出版、虛擬社區、網絡立法、文化歷史等主題詞雖處于共現網絡的邊緣位置,但其發展潛力巨大,重要價值將會在未來的研究中得到進一步體現。數據治理、大數據、創新、路徑、企業、數據融合等主題詞是共現網絡中的關鍵節點,對網絡形成起到重要的關聯作用。
2.3更名前后主題強度
將主題模型Document Table with Topics結果進行下載并去除重復項,通過統計歷次學科更名前后各主題包含的文獻數量反映對應主題的研究強度。經實驗,在同一時間段,一篇文章可能同時屬于兩個或兩個以上的主題,因此圖3(a)~(d)所示的每個主題包含文章數量之和應大于實際文章數量之和。
第一次更名前,各個主題下文獻分布較均勻,如圖3(a)。其中,包含文獻數量最多的研究主題為數據庫檢索系統(I-topic_1),共包含568篇文章,占比22%,表明這一時期學者們已經開始將視角從傳統圖書情報管理轉向自動化管理,對數據庫檢索等內容的研究是一個良好的開端。
第一次更名后,如圖3(b),高校人才培養與信息檢索(Ⅱ-topic_1)研究布局數量較多,主要研究內容緊跟社會信息化浪潮,培養高校學生的信息素養。該主題下包含的文獻有3314篇,占比38%,明顯高于其他兩個主題,具有較高的研究熱度。
圖3(c)為第二次更名后,Ⅲ-topic_3(信息資源管理)、Ⅲ-topic_9(信息資源共享)、Ⅲ-topic_4(圖書館信息服務)、Ⅲ-topic_1(信息檢索)包含的文獻數量均在3000篇以上,占比較高,主要研究內容為對信息及設備、人才、資金等資源進行管理與共享,努力為用戶提供滿意的信息服務。
第三次更名后,如圖3(d),主題強度最高的為Ⅳ-topic_6,即在近十年時間里,研究主題更加注重數字人文領域的科技創新,研究的主要內容為數字人文學科建設及文本挖掘、數字人文技術體系和理論結構、國內外數字人文路徑和啟示等,在未來有較好的發展前景。另外,網絡輿情與信息傳播和人才培養獲得了較高的主題強度和研究熱度,如何及時迅速地發現并監測網絡輿情,降低因傳播速度快而給大眾帶來的負面影響是未來需要進一步探討和解決的問題。
2.4更名前后主題新穎度
更名前后的主題新穎度主要利用對某主題下文獻的發表年份與該主題內文獻數量之比得到平均年的方法,通過平均年數字的大小判斷該主題距離現在的遠近程度,即新穎度的高低。平均年數字越大則新穎度越高。歷次更名前后各研究主題新穎度如表6所示。
新穎度最高的主題有:第一次更名前的主題1(數據庫檢索系統),新穎度為1990. 585;第一次更名后的主題1(高校人才培養與信息檢索),新穎度為1994. 03;第二次更名后的主題2(企業知識管理),新穎度為2004. 705;第三次更名后的主題0(網絡輿情與信息傳播),新穎度為2016.665,這些主題十分年輕,具有強大的可持續發展潛力,是未來支撐學科創新性發展的重要基石。而I-topic_0、Ⅱ-topic_2、Ⅲ-topic_5以及Ⅳ-topic_1的主要研究內容為教育改革、市場經濟、人才培養等,主題新穎度相對較低,認為這些研究主題相對較陳舊,需要進行深入和創新。
分別將主題強度和主題新穎度降序排列,選擇前50%標記為“程度高”,后50%標記為“程度低”。研究前沿主題具有前瞻性,能夠揭示研究領域的發展趨勢,本研究認為,經LDA主題模型識別出的熱點主題詞具備此優勢,因此將其按照研究前沿主題處理。參考研究前沿主題識別方法流程,如圖4所示,主要分為以下3類:熱點研究前沿主題、新興研究前沿主題和消亡研究前沿主題。
根據表7,第一次更名前,計算機檢索技術在我國開始廣泛傳播,數據庫檢索系統是熱點研究前沿主題,聯機檢索、高校與期刊為新興研究前沿主題,拉開了圖書情報領域信息化的序幕。
第一次更名后,高校人才培養與信息檢索成為熱點前沿主題,同時出現新興研究前沿主題信息組織,研究的主要內容包括信息的分類存儲、開發利用等,信息技術得到進一步提升。
第二次更名后,熱點研究前沿主題有企業知識管理、信息資源管理、圖書館信息服務、信息資源共享,知識管理是提高企業核心競爭力的有效武器,同時學者們注重對信息資源展開研究,開始深入挖掘信息資源內部之間的聯系。知識與經濟的相關性越來越高,由此產生了新興研究前沿主題“知識經濟”,為我國經濟社會發展增添了多彩的一筆。
第三次更名后,網絡輿情與信息傳播、數據挖掘與數據融合、數字人文與路徑探索為代表的熱點研究前沿主題不斷突破技術大關,研究粒度不斷細化,推動著我國在世界新一輪的科技革命中快速前進。同時期的新興研究前沿主題還有學術論壇及文獻計量,圍繞著如何發展好、建設好本學科,業界已成功舉辦多場學術論壇,為學者們帶來了無限的啟迪。另外,還有一些主題因科學研究已趨于成熟或者不能與時俱進等原因導致其新穎度較低,最終在時代的洪流中逐漸被淹沒,直至消亡。
2.5主題發展變化情況
利用KNIME分析平臺計算更名前后的主題相似度,兩個研究主題距離越近,余弦相似度結果就越高,相鄰時間段內主題的關聯性也越強。為使主題相似度結果更加直觀清晰,本研究以采用A-pache ECharts繪制桑基圖的形式展示其發展脈絡,如圖5所示。
第一次更名前的主題如I-topic_1、I-topic_4和I-topic_2,向外輸出能力較強,可能與第二組數據有大量相同或相似的主題,創新研究有待深入。第一次更名后主題的輸出能力略低于吸收能力,可能出現了主題繼承、融合或消亡的現象。第二次更名后的研究主題發生顯著變化,只吸收了小部分內容,自身生成了大部分內容,生命力極強,但與下一階段連接的分支較窄,主題相似度低。第三次更名后,Ⅳ-topic_6吸收了較多的主題內容,表明未來一段時間內數字人文研究將占據相當地位。另外,數據挖掘和網絡輿情兩個主題與其他主題余弦相似度低,關聯性較弱,屬于熱點前沿主題需要重點關注。
綜上所述,學科更名與研究主題的發展相互促進,相互影響。在研究內容方面,學科更名與社會信息化浪潮催生出豐富的新主題詞和新方向,學術研究逐漸深入到內部數據層面挖掘潛在規律,為后續研究鞏固了學科基礎,能夠更積極地防范和應對未來的風險與挑戰。在主題強度方面,隨著學科更名的進行,各研究主題的文獻布局數量均呈上升趨勢,有助于業內學者了解學科熱點,把握發展大勢。在主題新穎度方面,更名前后的主題形成了鮮明的對比,新穎的、年輕的主題往往蘊含著更大的發展潛力,為學術研究提供了前瞻性視角。在總體發展變化方面,由學科更名帶來的研究主題的吸收和輸出能力的差異不斷推動著學科守正創新發展。
3研究主題未來發展趨勢預測
本研究采用主題詞交叉聯立的分析方法,結合目標詞及其毗鄰詞的內容,分析歷次學科更名前后研究主題的變化趨勢。LDA主題模型識別結果經人工剔除無意義的主題詞后,每個主題內的主題詞均按照權重降序排列,以熱點研究前沿主題為核心,選擇其左右兩邊毗鄰詞各兩個進行統計,并對結果做去重處理,如“網上”和“網絡”同時出現,則保留“網絡”。因“數字人文”和“人才培養”主題詞出現次數較少,因此不對其進行統計。總體統計結果如表8所示。
通過主題詞交叉聯立的分析方法發現:①學科更名能夠促使研究主題向更深、更細粒度方向發展。比如:研究對象從最初的文獻、圖書、檔案等紙質資料發展成網絡信息資源,之后發展為更細粒度單位——數據;社交媒體傳播迅速的特點為網民帶來了大量的數據,數據挖掘、數據融合、數據治理等均是在第三次更名之后出現的熱點研究主題,傾向于利用“全數據”思維,從數據層面挖掘其內部各部分之間的關系,揭示隱含的發展規律:數據庫研究發展為專題或主題數據庫研究,旨在對特定數據庫進行深入分析和探討,隨著第三次更名,數據庫和信息檢索等詞權重占比逐漸縮小,甚至部分主題詞中并未出現:②能夠促使研究更加面向國家社會發展需求。現實社會需求牽引著研究主題向更具體、更現實的趨勢發展,如第一次更名前后,計算機技術輔助的自動化管理系統初步實現,大大提升了人工管理階段效率;第二次更名后,研究主題向電子商務、多媒體、信息系統、信息商品等方向開展具體的應用研究,在信息化社會中提升信息服務水平:第三次更名后,網絡輿情和突發事件等持續受到關注;③能夠促使理論方法創新加速。隨著信息技術的加速演進,研究主題迅速引入新方法、新技術,引領學科創新發展,比如:第三次更名后,知識管理趨向于與數據融合和數據挖掘等技術相結合,利用知識圖譜等可視化分析技術探索數智時代背景下的新模式和新路徑,在未來一段時間內,知識管理、信息資源、網絡輿情、數據挖掘等主題依舊十分活躍,是學科的重要發展方向之一。
4總結與展望
本研究選取核心期刊文獻數據,將學科更名與科學研究主題相結合,從學科更名前后的研究主題內容集中情況、主題強度、主題新穎度、研究主題的變化發展情況4個方面,系統梳理了信息資源管理一級學科的發展脈絡,并利用主題詞交叉聯立的分析方法預測了科學研究主題未來發展趨勢,對構建我國自主的信息資源管理知識體系有一定的參考作用。實驗結果表明,學科更名促進研究主題的產生,主題的深入研究加速了學科更名的進程。信息技術成為孕育信息資源管理學科發展的強大內生動力,研究主題不斷傾向于更細粒度的方向發展。
未來學科走守正創新發展道路,一方面要鞏固學科內涵,守住傳統研究主題的“紅線”;另一方面,不僅要加強對新興和熱點主題的研究,還要對傳統主題進行探索,發現創新點,拓展研究領域,讓傳統的研究領域和方向煥發新的生機。
盡管本研究從多個方面對科學研究主題進行了解讀,但仍存在一些不足之處。如數據源較為單一,期刊論文并不能代表學科發展的全部內容;實驗過程中,人工篩選和刪除導致工作效率較低,且存在主觀性:數據分析平臺和技術的完備程度以及筆者的熟練程度不足等,是筆者未來需要進一步探索和優化解決的問題。