張 晨(中國人民大學信息資源管理學院)
科研項目同期刊和專著一樣承載著知識主體和知識客體的相關信息,因此,科學基金項目也可以在一定程度上反映學者在該學科領域的關注重點,而國家級科學基金項目則能反映一個國家在該學科的具體研究動向和趨勢,以及整體的學術研究發展和社會經濟發展狀況。本研究旨在對比分析圖情檔學科領域中美兩國的基金資助項目,具體調研了2013-2020年我國國家社會科學基金立項項目(以下簡稱“國社科”)和國家自然科學基金立項項目(以下簡稱“國自科”)以及美國國家科學基金會(National Science Foundation,NSF)對開設圖情檔學科的院校資助的科研項目,具體分析了中美兩國基金資助項目的高頻詞和主題,梳理總結兩國的研究熱點,為我國圖情檔學科的進一步發展提出建議。
已有研究大多從論文和基金資助項目兩個角度分析學科的研究熱點。①對論文的分析。論文是學者研究成果的直接展示,通過分析論文可以直接得到相關領域的研究主題和研究內容,進而可總結出某一特定領域的研究熱點。圖情檔領域基于論文進行的熱點問題研究主要集中在期刊刊載論文、碩博論文、會議論文和參考文獻這幾種類型。②對基金資助項目的分析。基金資助項目代表了資助機構對該項目的肯定,通過分析基金資助項目可以發現某一特定領域的研究動向。目前,關于基金資助項目的分析研究主要從基金論文和基金立項兩個角度展開,本研究將重點關注基金資助項目對研究熱點的反映情況,因此詳細調研了基金立項的相關研究狀況。
基金論文是指在學術期刊上發表的有基金資助的論文,這些論文代表了基金項目的產出成果,也從側面反映了該項目的科研價值。近年來,圖情檔學科正在積極開展對于基金論文的研究,相關研究的主要內容見表1。

表1 基金論文的主要研究內容
已有研究主要從基金立項的外部特征和內容特征方面分析了圖情檔學科的研究情況(見表2)。通過對基金立項的內容特征,尤其是主題詞、關鍵詞與高頻詞進行歸納與總結,學者們梳理出了當前圖情檔學科的研究熱點:圖書館、國際化發展和創新服務、“大數據”環境下相關研究、古籍整理與文獻研究、弱勢群體、輿情、圖書館、創新、文化、突發事件、用戶、大數據、知識化、智慧化、互聯網+、學科交叉、數字人文等。

表2 基金立項的研究
(1)中國國家級基金立項數據。國家級基金項目能夠較好地反映科研動態,圖情檔學科的科研人員極其關注和重視國家級基金項目。通過全國哲學社會科學工作辦公室網站和科學網,筆者統計了2013-2019年國社科和國自科中“圖書館、情報與文獻學”類及學科代碼為G041401的“圖書情報檔案管理”類目下的相關項目,分別獲取國社科項目1,106條、國自科項目132條。
(2)美國國家級基金立項數據。作為美國的國家級基金立項單位,NSF按學科分門別類地建設了各個委員會,向各大院校提供研究贈款和資助。由于從NSF網站無法直接獲取圖情檔學科的項目信息,筆者嘗試從開設圖情檔學科的院校逐個收集其2013-2020年的科研項目。iSchool是一個致力于推動信息技術、圖書館學、情報學等學科發展的非營利性組織,由來自世界各地的院校組成,截至2020年8月12日,已經有了116所成員院校,其中美國院校44所。U.S.News&World Report對獲得美國圖書館協會認證的開設圖書館和信息研究碩士學位的院校進行了統計與評估,相關的美國院校共計51所。筆者在合并這兩個渠道統計的院校并排除無圖情方向的院校后,最終確認了57所相關院校。首先逐一瀏覽這57所院校的官方網站并整理出其中由NSF資助的項目,再以其中提到的圖情方向教師的姓名為檢索條件在NSF網站篩選2013-2020年的基金項目,截至2020年8月12日共收集到相關數據326條。
本研究主要采用文本挖掘的方法提取中美兩國基金項目數據中的高頻詞,再通過K-means算法進行主題聚類。從數據清洗、分詞、抽取高頻詞、可視化、TF-IDF構建詞權重到K-means聚類,整個過程利用Python編程語言實現。
3.1.1 關鍵詞分析
筆者利用Jieba對每個項目名稱進行分詞處理,在剔除無用詞后得到熱點關鍵詞,再利用Python的PyEcharts工具將關鍵詞繪制為交互式可視化詞云圖,并提取出現頻率Top15的關鍵詞繪制條形圖(見圖1),從中可以看出國家級基金項目的研究主題分布以及我國國家基金項目的分布特點。

圖1 中國國家級基金項目關鍵詞Top15
(1)“圖書館”研究是基金項目的重中之重。“圖書館”的出現頻次最高,學者主要從圖書館類型、評價、創新建設、數字圖書館、服務、圖書館員、圖書館發展史等方面展開研究。如,重點項目“基于績效和成效集成的公共圖書館評估理論與評估標準創新研究”“基于知識組織的圖書館資源發現服務體系研究”“中國古代圖書館學研究”等。
(2)“服務”成為圖情檔學科的重要研究內容。“服務”的出現頻率較高說明圖情檔學科的研究呈現服務化趨勢,其中信息服務和知識服務是研究重點。如,重點項目“面向國家發展與安全決策的情報服務創新研究”“創新驅動的中國特色新型智庫知識服務發展機制研究”“大數據環境下戰略性新興產業的信息資源服務創新研究”等。
(3)“信息”“知識”“數據”仍然是重點研究對象。根據DIKW(數據—信息—知識—智慧)模型,當數據轉換為信息再轉換為知識后,數據能實現更高的價值,而如何組織、利用信息、數據和知識仍然是學者們重點研究的問題。其中與“信息”相關的研究數量最多(詞頻位居第2),其次是“知識”(詞頻位居第4),再次是“數據”(詞頻位居第12)。2013年是我國的“大數據元年”,從2013年開始,我國學者對于大數據的研究呈蓬勃發展之勢,2013-2019年,“大數據”的詞頻超過了傳統的“數據”。如,“面向企業技術創新的專利大數據挖掘與分析研究”“大數據時代政府數據治理體系建構研究”“大數據環境下戰略性新興產業的信息資源服務創新研究”等。
(4)對傳統文獻資源的研究仍受關注。以“文獻”“檔案”“資源”為關鍵詞的研究項目占據較大比例,這些研究主要集中在文獻整理、檔案管理、信息資源方面。如,“新時代我國檔案管理體制改革研究”“民國時期革命歷史文獻整理與研究”“大數據環境下戰略性新興產業的信息資源服務創新研究”等。
(5)新興網絡技術擴大學科研究范圍。“數字”“網絡”等高頻關鍵詞標志著圖情檔學科的研究已進入數字化和網絡化環境,新方法和新技術為圖情檔學科的一些問題提供了新的解決方案,促使立項項目轉向創新性研究。因此,“創新”也是已立項的基金項目中一個不可忽視的關鍵詞。如,“社會連接和認知負荷視角下網絡用戶從眾信息行為研究”“數字保存的風險型元數據與風險監控研究”“學術出版體制機制創新研究”等。
3.1.2 主題分析
筆者使用K-means算法對我國國家級基金項目的名稱進行共詞聚類,結合手肘法與輪廓系數判斷出8類最佳聚類簇,每個類簇的關鍵詞Top10見表3。

表3 中國國家級基金項目主題聚類
(1)信息資源管理。第1類簇的研究較為宏觀,其主題主要為在國家戰略背景下進行的信息資源管理研究,具體涉及數據治理、信息政策、信息安全、智庫建設、非物質文化遺產數字化、數字檔案等方面。如,“面向智慧服務的多源多維公共文化數據治理及政策保障研究”“個人信息保護政策的國際比較研究”“國際智庫當代中國研究數據庫與重要專題研究”“瀕危土家族非物質文化遺產的征編與數字化保護研究”等。
(2)電子政務。第2類簇的研究圍繞政府內部業務的信息化展開,利用現代信息技術對政府的信息化業務進行重組與改造,利用網絡與社交媒體加強公眾對政府服務的監督,使政府工作更有效、更公開,具體涉及數字政府、開放政府數據、政府信息服務、社交媒體等方面。如,“數字政府背景下電子文件單軌制管理的數字連續性保障框架研究”“共生視角下政府數據開放的運行機制與實現路徑研究”“我國地方政府公信力的網絡媒體評價機制研究”等。
(3)信息分析。第3類簇的研究主題可歸納為信息分析,這也是近年來情報學科的研究熱點,主要包括信息評價、學術資源、語義分析、社會網絡分析等相關研究。如,“大數據環境下移動社會網絡中多維信任評價機制及實施路徑研究”“基于文本內容挖掘的學術論文影響力評價研究”“基于專利語義分析的潛在競爭對手識別方法研究”等。
(4)古籍文獻整理。第4類簇的研究主題可歸納為古籍文獻整理。我國文化歷史悠久、地域遼闊、民族眾多,產生并傳承了眾多古籍文獻和檔案資源,整理這些資料對于我國的文化認知具有重要意義。該主題的研究具體涉及檔案保護、檔案數字化、數據庫建設、文獻整理與研究、史料整理與研究等。如,“彝文古籍及其數字化保護與利用研究”“廣西京族口述歷史資料收集整理與其有聲數據庫建設”“晚清、民國時期地方志中圖書館史料的整理和研究”等。
(5)圖書館建設與服務。第5類簇主要是與圖書館建設及服務相關的應用實踐問題。數字化、大數據、云服務等技術推動了圖書館的發展,圖書館在大的社會背景下不斷尋求創新與突破,這一主題的研究具體包括圖書館建設、圖書館服務、數字圖書館、移動圖書館、智慧圖書館等方面。如“圖書館服務體系層級結構與效能優化研究”“‘互聯網+’背景下數字圖書館發展與創新研究”“移動圖書館的用戶體驗模型與服務質量提升研究”“智慧圖書館情境感知微服務模式研究”等。
(6)知識管理。第6類簇圍繞“知識”這一主題聚類,體現了圖情檔學科對“知識”的重視與關注,主要涉及知識組織、知識服務、知識圖譜、知識社區、知識挖掘、知識創新、知識共享、知識庫構建等內容。如,“基于知識組織的圖書館資源發現服務體系研究”“大數據環境下面向圖書館資源的跨媒體知識服務研究”“基于深度學習的學術全文本知識圖譜構建及檢索研究”“信息生態鏈視角下在線知識社區用戶貢獻行為評價及預測研究”等。
(7)圖書館史與館藏書目。第7類簇主要討論的是與圖書館發展史以及圖書館館藏書目相關的理論問題,具體涉及圖書館學研究、圖書館史研究、圖書館教育、專題館藏研究、館藏資源整理、總目編纂等方面。如,“信息科學視野下的圖書館學原理研究”“民國時期新知識群體圖書館學術思想史研究”“國家圖書館藏清宮戲曲文獻研究”“百年中國苗學論著總目編纂與知識圖譜研究(1917—2016)”等。
(8)信息服務。第8類簇涵蓋的研究主要是醫學視角下的信息服務。醫學信息學和健康信息學是近年來的研究熱點,旨在滿足公眾對醫療健康信息與技術的需求[12],主要涉及健康信息服務、健康知識組織體系、健康信息行為、健康信息檢索、健康信息挖掘、電子病歷、醫學知識管理等內容。如,“大眾健康信息服務體系中公共圖書館參與研究”“面向知識服務的健康知識組織體系構建研究”“融合SOR理論的網絡健康信息搜尋行為與優化策略研究”“信息鏈視域下電子病歷數據驅動健康服務供給側決策的路徑與模式研究”等。
3.2.1 關鍵詞分析
筆者結合NSF資助項目的名稱和摘要,利用NLTK進行分詞,統計并繪制了高頻詞Top15水平條形圖(見圖2)。由于項目文本材料中的一些專業術語更多是以二元詞組形式出現的,因此筆者通過2-gram方法抽取了二元詞組的高頻詞Top15(見圖3),據此綜合分析美國國家級基金項目的研究熱點。

圖2 NSF基金項目高頻詞Top15

圖3 NSF基金項目二元高頻詞組Top15
在高頻詞Top15中,“數據”(Data)的出現頻率遠遠超過了其他關鍵詞,是美國國家級基金項目研究的重要關注點。綜合分析可以發現美國國家級基金項目的分布具有以下特點。
(1)“數據科學”(Data Science)是熱點研究領域。2012年,Davenport T H等發表文章稱“數據科學家是21世紀最性感的職業”[13],該文將數據科學帶入大眾視野,引起了人們的廣泛討論與關注。“數據科學”在NSF基金項目中的出現頻率最高,與其相關聯的“數據收集”(Data Collection)、“數據分析”(Data Analysis)、“機器學習”(Machine Learning)等術語的出現頻次也較高。
(2)研究具有學科交叉性。在出現頻次較高的關鍵詞中,“計算機科學”(Computer Science)、“社會科學”(Social Science)分別占據第3位和第9位,為圖情檔學科呈現出新的研究視角。“社會媒介”(Social Medium)在詞頻統計中占據第2位,也體現了不同領域的交叉融合。
(3)學生實踐教育是重要資助項目。與我國的國家級基金資助不同,NSF會資助學生參加學術研討會、學術會議、學校實踐項目等活動,“研究生”(Graduate Student)和“博士討論會”(Doctoral Colloquium)顯示了NSF對學生實踐教育的關注。
(4)重視數據管理及與數據相關的倫理與安全問題。“數據管理”(Data Management)是圖情檔學科的一項重要研究內容,大數據的發展帶來的數據倫理和數據隱私問題引起了研究者極高的重視,在NSF的圖情檔學科的基金項目中,“數據倫理”(Data Ethic)、“隱私安全”(Privacy Security)、“安全隱私”(Security Privacy)作為高頻詞匯出現。
(5)緊跟時事,出臺資助項目較為迅速。NSF資助項目具有一個突出的特點——與社會的相關性較強。2020年,新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19)席卷全球,在NSF資助的項目中,筆者檢索到了42項2020年立項的基金,其中有14項與COVID-19直接相關。
3.2.2 主題分析
筆者利用TF-IDF結合2-Gram方法提取NSF資助項目的關鍵詞,并利用k-means算法對基金項目材料進行共詞聚類,判斷出8類最佳聚類簇,每個類簇的關鍵詞Top10見表4。

表4 美國國家級基金項目主題聚類
(1)學生教育。第1類簇的研究主題主要圍繞學生理論教育與實踐教育,具體包括科學、技術、工程和數學教育、學生學習、服務學習、課堂設置、iConference會議資助、博士討論會等。如,雪城大學連續兩年申請了NSF基金資助博士參與iConference會議。
(2)數據管理與社群信息學。第2類簇的研究多與人相關,主要涉及社群信息學、數字不平等、計算機交互、社會計算、數據管理等內容,是圖情檔學科與計算機科學和社會科學的交叉研究領域。如,“社區決策的數據分析”項目的目的是通過多學科、多社區的努力,從社會技術視角實現智慧社區建設。
(3)數據科學與數據倫理。第3類簇的主題是數據科學以及與之相關的數據倫理問題,該主題主要涉及數據科學、數據密集、數據驅動、數據分析、數據倫理等內容。如今科學研究的范式已經轉向第四科學范式,即數據密集型科學[14],隨之而來的一系列研究方向值得學者們深入探索。如,“培養數據科學的倫理:學術界和產業界的挑戰和機遇”項目旨在通過比較工業領域和學生領域的數據倫理的狀態、結構和實質,提出提高跨社會背景和專業部門數據倫理的有效策略。
(4)數據安全與隱私。第4類簇的研究主題是數據安全與隱私,主要包括數據安全、安全設計、隱私安全、數據隱私、人類行為、數字素養等。如,“賓夕法尼亞州保障安全的數據科學勞動力開發”項目為年輕專業人員提供了一種保障安全的數據科學基礎教育模式和課程,以實現智慧醫療,提高社會公益、智慧交通、社會進步、經濟科學和保證智能分析的安全性。
(5)圖書館與數據分析。第5類簇的主題較為多元,包含數字圖書館、數據分析、數據驅動、計算基礎設施、會議研討會等。數字圖書館可以將各類信息資源存儲為數字化內容,既能方便用戶獲取文獻和信息,也能避免因紙張破損或丟失導致的信息缺失問題。如,“通過項目評估改善研究問責制”項目的一個目的是開發評價系統EASE,使用者可以用其將他們的實驗內容上傳并存檔于數字圖書館中。
(6)數據檢索。第6類簇的研究主題是信息檢索,包括多重搜索、聚合搜索、敏感內容檢索、檢索系統、搜索引擎等內容。如,“用于探索性和協作性搜索的知識表示和重用”項目通過分析搜索系統捕獲、共享和重用在搜索過程中開發知識的方法,幫助用戶提高檢索質量。
(7)信息技術。第7類簇主要討論了與圖情檔學科相關的一些技術和方法,包括人工智能、機器學習、算法系統、自然語言處理、用戶生成內容、網絡科學、社會計算、計量經濟學等內容。如,“消費者對安全事件和數據泄露通知的響應”項目將計量經濟學技術與機器學習技術相結合,旨在識別由不良安全事件或違規通知而導致的用戶行為變化程度。
(8)社交媒體。第8類簇的研究項目圍繞社交媒體展開,具體涉及社會網絡、媒體網站、媒體平臺、輿情監督、應急事件管理等內容。如,“通過社會媒體的使用,了解在抗災能力方面的社會和地理差異”項目研究了在緊急情況管理的不同階段如何挖掘實時社交媒體數據,從而分析其中存在的社會和地理差異。
4.1.1 相同之處
(1)重視圖書館研究。作為數量眾多、分布廣泛的公共文化機構,無論是中國還是美國對圖書館的研究始終熱度不減。物聯網、云計算、云服務等技術的更新和發展使得圖書館逐漸轉向數字化和個性化,圖書館研究也得以不斷推進,主要集中在數字圖書館的發展過程中圖書館本身的建設和技術應用、圖書館資源的整理和利用、以及圖書館員的培養上。
(2)重視對大數據及數據科學的探討。我們的科學研究已經經歷了實驗科學、理論科學、計算科學這三種范式,正在轉向數據密集型科學范式。大數據時代催生了“數據科學”這一新興學科,因此中美兩國的基金項目中都對大數據問題進行了深入探討,如,我國國家級基金項目關鍵詞中排在第10位的“大數據”,NSF基金項目二元高頻詞組排在第1位的“數據科學”。
(3)對用戶的關注程度較高。“用戶”是中美兩國基金項目中共有的一個高頻詞,圖情檔學科的研究主題均呈現出服務化趨勢[15],以用戶為中心正是服務化的前提,因此結合用戶的需求開展用戶畫像、用戶行為評價、用戶行為分析、用戶信息搜索、用戶情感分析、用戶生成內容、用戶隱私行為等研究是中美兩國基金項目的重要組成部分。
4.1.2 不同之處
(1)“信息”與“數據”分別是兩國的研究焦點。從詞頻來看,在我國國家級基金項目關鍵詞中,“信息”的數量僅次于“圖書館”;在NSF基金項目高頻詞中,“數據”的數量遠超其他關鍵詞。從項目主題來看,我國國家級基金項目中關于“信息”的主題包括信息資源管理、信息分析、信息服務;NSF基金項目中關于“數據”的主題包括數據管理、數據科學與數據倫理、數據安全與數據隱私、數據分析。
(2)“古籍文獻整理”是我國基金項目中的重要研究主題。“古籍文獻整理”在我國的基金項目研究中占較大比例,而NSF基金項目的研究主題中沒有關于古籍文獻的內容。我國歷史上各個朝代都非常重視對史料的記載與傳承,既有專門的史官記錄本朝代發生的大事并整理前朝史書,也有民間文人進行非官方的記錄。出于對歷史的研究考證及對傳統文化保護的支持,我國的基金項目對古籍文獻整理的研究課題給予了眾多資助。
(3)美國的基金項目對于大數據帶來的衍生問題研究較多。NSF較多地將數據安全、數據隱私、數據倫理等衍生問題納入研究主題范圍。由于我國對大數據的研究剛剛起步,故仍將研究重點聚焦在大數據的技術與方法、大數據在其他學科的應用等與大數據本身相關的問題上,而對大數據衍生問題的探討較少。
(4)美國的基金項目對于產業與實踐活動的資助較多。NSF對于與學生培養、教育等主題有關的項目給予了較多資助,為學生提供了較多的實踐項目和科研計劃,重視從實踐活動中鍛煉學生的能力,而我國基金項目的覆蓋范圍幾乎僅限于科研領域。
(1)深入數據科學及其相關問題的研究。2012年,Davenport T H等在
(《哈佛商業評論》)上發表了《數據科學家——21世紀最性感的職業》一文[13],使數據科學進入大眾視野。我國自2014年起,多所學校開設了“數據科學與大數據技術”專業,但目前已有研究和相關課程設置較多集中在機器學習和統計領域,我國圖情檔學科對數據科學與大數據的重視程度還不足,與數據科學和大數據相關的數據倫理、數據安全、數據隱私等問題的研究還比較欠缺,對數據科學及其相關問題的研究應成為日后重要的研究內容。大數據是情報學科的一個重要研究對象,隨著數據科學與大數據技術的迅猛推進,其必將深入滲透到圖情檔學科的相關領域并為圖情檔學科發展帶來新的契機。
(2)深化人文關懷。我國國家級基金項目中多是對信息、數據、知識等資源本身的研究,較少關注人文關懷,即對人、人性、人的精神、文化、生活的關注和理解。社群信息學旨在研究與社群/社區的信息相關的領域,為數字時代信息不平等現象提供解決方案,這是近些年在我國發展起來的一個新興板塊。2019年,中共中央辦公廳和國務院辦公廳發布《數字鄉村發展戰略綱要》[16],提出要著力彌合城鄉“數字鴻溝”,培育信息時代新農民,體現了國家政策層面對信息社會人文關懷的保障。此外,與用戶相關的研究體現了圖情檔學科對信息用戶的重視,必將在未來的研究中繼續占據重要地位。
(3)同時兼顧信息技術。除了人文關懷這樣的“軟研究”,也需要同時兼顧信息技術這一圖情檔學科研究中不可忽視的重要硬性方面。云計算、物聯網、機器學習、圖譜挖掘、實時計算、數據倉庫等信息技術拓寬和加深了圖情檔學科的研究廣度和深度,隨著技術的不斷更迭,學科研究也須及時跟上技術發展的腳步。
(4)開展社交媒體的相關研究。社交媒體是人們日常生活和娛樂中一個必不可少的平臺,如國外的Facebook、Twitter、LinkedIn等,國內的微博、貼吧、豆瓣、知乎等,人們通常在這些社交媒體上進行信息獲取、信息利用、信息檢索、信息擴散等活動,分析和研究這些信息行為及其動因有利于提高用戶體驗、實施個性化推薦、提高社交媒體的影響力和內容質量;且社交媒體在對突發事件、緊急情況等的應對和管理上也能發揮有效作用。因此,社交媒體與其他領域的交叉研究是值得研究的一個方向。此外,與社交媒體相關的信息安全與隱私也是一個重要的研究課題。