999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

工具視角下的圖書情報學科發展及動向分析
——以Python為例

2023-02-24 11:28:44孟文靜
現代情報 2023年1期
關鍵詞:學科研究

孟文靜 宋 歌

(1.東南大學經濟管理學院,江蘇 南京 211189;2.南京工業大學經濟與管理學院,江蘇 南京 211800)

一個學科的發展是與研究工具的出現及應用相輔相成的,當新的研究工具進入某一學科,就意味著學科的領域范圍和深度發生了變化。可以借由新的工具完成之前無法實現的研究,探索更為廣闊和深入的領域及問題。因此,研究工具在一定層面成為了判斷和預測學科發展的一個途徑。尤其是新的工具所探究的必然包含之前未能涉及的方面,相對應地,研究工具的引入與創新即是對新的研究經驗的回應。當前,圖書情報學科新的研究經驗隨著大數據時代的到來而產生,科學研究越來越依賴數據,并通過能夠分析大量數據的科學軟件實現。克里斯·安德森的著名文章《理論的終結》直截了當地表達了這種觀點:“海量數據的新可用性,以及處理這些數據的工具,提供了一種理解世界的全新方式”[1]。

軟件工具是現代科學生態系統中的一個重要組成部分,特別是在遵循數據驅動范式的學科中,這些學科由大量科學數據的不斷生成、可用性和消耗所引導[2]。如今,這種新的計算和數據驅動的科學發現模式已逐漸影響到幾乎每個科學領域,科學軟件被用于學術工作的各個階段,從注釋初步想法到數據收集、管理、規范、分析、建模、模擬、預測、可視化及傳播研究成果的整個過程中都發揮重要作用[3]。2014年一項對英國羅素大學集團15所研究型大學科研人員的調查顯示,92%的受訪者表示他們使用了研究軟件,且69%的受訪者認為如果沒有軟件,他們的研究將不可實現[4]。2017年對美國國家博士后協會成員的調查得到了類似結果,相應的占比分別為95%和63%[5]。在科睿唯安的數據引文數據庫(DCI)中,2017—2018年的軟件引用數量翻了一番。圖書情報學科在數據、算法與算力的驅動下進入了研究工具上的快速更新迭代期,各類軟件工具的應用呈遞增和多樣化趨勢。也陸續有研究者對CiteSpace[6]、VOSviewer[7]、SPSS[8]、HistCite[9]等軟件工具的使用、引用情況進行了研究。

而本研究認為,研究工具是研究方法(無論是定量的還是定性的)在操作層面的外化,研究工具的發展與應用是對科研生態演變的回應。因此,通過對研究工具的使用分析,可以比較客觀且真實地揭示學科發展的歷程和動向,以及研究領域、研究問題的變化。本研究以Python為例,通過對圖書情報學科在變革中對該工具的采納、應用與創新,揭示該學科當前的發展及未來動向。選擇Python的理由有二:一是Python不僅可以實現一般科學軟件的功能,而且能夠支持數據密集型研究范式中的各種高級任務。二是無論從時間點的契合還是功能的發展與應用,Python都伴隨了數據密集型研究范式在圖書情報學科的萌發、演進過程。在這種情況下,圖書情報學科對Python軟件包的選擇、引入與使用、創新,以及利用Python進行了哪些研究,研究主題發生了怎樣的變化都值得深入探討,并以此揭示圖書情報學科的發展及動向。

1 相關研究述評

圖書情報學科的軟件研究正處于發展階段,當前以軟件影響力評價、軟件使用和軟件引用規范為主要研究問題。在軟件影響力評價研究中,由于軟件引用缺乏一致性和標準化,因此很難僅從引文指標測度軟件影響力,潘雪蓮[10]基于全文數據源從軟件使用和引用的角度測度軟件學術影響力。趙蓉英等[11]利用軟件引用量、下載量、復用量3個指標對開源軟件進行補充計量學視角下的學術影響力評價。Priem J等[12]則將下載、瀏覽、安裝指標納入開源軟件使用統計測度中。周春雷等[13]提出從軟件工具輔助、支持的科研領域范圍及深度方面研究軟件影響力,調查發現不同知識圖譜軟件的學術影響力差別很大。

在軟件工具提及和使用的研究中,Park H等[14]對數據引文索引數據庫(DCI)中軟件類的引文從時間、引用字段、標識符使用等方面分析了各個知識庫中軟件引用的差異及引用多樣性。Duck G等[15]發現PubMed Central中不同學科領域的研究在使用軟件和數據庫方面存在較大差異。趙丹等[16]對大數據工具主題論文的年代、期刊、學科分布進行了統計。崔明等[17]通過對我國9種圖情學期刊的考察,發現13.87%的論文使用了軟件,并將圖情學常用軟件歸納為6種。除了統計分析,學者們還利用社會網絡分析對軟件工具進行研究。Li K等[18]從引用或提及R的所有PLoS期刊的全文中識別R包,繪制了由R包組成的共同提及網絡。Ordua-Malea E等[7]提出了一種基于鏈接的跟蹤科學軟件使用和興趣的網絡測量分析方法,并以VOSviewer舉例說明了該方法的可操作性。此外,也有學者利用知識擴散理論開展工具使用研究,Pan X等[9]從文獻級、期刊級和學科級調查了3種文獻計量工具(CiteSpace、HistCite和VOSviewer)的擴散廣度和速度。于曉彤等[19]測度了10種高頻知識圖譜軟件的擴散和引用情況。徐浩等[20]從核心作者發文、合作網絡和研究機構層面對CiteSpace的學科領域擴散特征進行了分析。

軟件引用規范方面,Niemeyer K E等認為,將軟件看作出版物以正式引用能夠促進軟件的開發和共享[21],而目前即使在具有較高影響因子的期刊中,軟件的引用也常是非正式的[22]。Smith A M等[23]針對軟件引用標準缺失現象,從理論層面提出了引用軟件的6項原則,包括重要性、歸屬性、唯一標識性、持久性、可訪問性和特異性。Pan X等[24]通過對12個學科的調查發現,標注軟件的引用格式和引用方法更易提高軟件引用率。Heinle A等[25]倡導并提供了統一的軟件引用格式,但受到軟件類型多樣性的影響,軟件引用仍未形成統一格式[26]。Li K等[27]以R語言軟件包lme4為例,分析一款軟件的多種引用方式的差異,并評估其中兩種引用方式的變遷,結果表明,引文格式變化對引用行為有直接影響。

綜上所述,近年來國內外關于軟件工具的研究已逐漸出現,其中的研究思路與方法為本研究的開展提供了很好的借鑒。由于已有成果很少有對Python的研究,且聚焦的問題主要是已發表論文中軟件引用的缺失和失范以及軟件之間在使用率和影響力上的差距等,深入到研究主題,反映學科發展的探索較為缺乏。因此,本研究以Python作為工具視角的切入點,通過分析該工具在圖書情報學科的應用演進及特征,以管中窺豹的方式揭示圖書情報學科在變革中的發展進程及未來動向,同時為本學科軟件工具的開發提供需求參照,也為學者選擇適合的軟件包及其應用組合提供參考。

2 數據采集與處理

Python作為一個成熟的軟件生態系統,任何人都可以構建新組件來擴展軟件的核心功能,這些構建塊被稱為包。正是這些軟件包直接促進了無數的科學任務,使Python適用于許多知識領域。本研究需要采集應用了各種Python軟件包的圖情學科論文成果。數據采集過程分為兩步。第一步,篩選較多采用了Python作為研究工具的國際權威圖書情報學期刊。具體辦法為以2020年SSCI來源期刊中INFORMATION SCIENCE & LIBRARY SCIENCE(LIS)學科Q1區、Q2區期刊為樣本池,利用43個期刊官方網站和Google Scholar、Emerald、Wiley、ScienceDirect、Taylor & Francis Online、SAGE Journals、AISeLibrary、Springer網站對1990—2021年刊載的論文以“Python”為檢索詞在篇名、關鍵詞、摘要或全文檢索項檢索。在檢索結果中,有10種期刊命中論文數量較其他期刊明顯為多,將其作為樣本期刊,下載論文全文數據。第二步,篩選樣本期刊中應用了Python的論文,并確定其所應用的軟件包。首先,以“Python”為檢索詞對10種期刊共17 673篇論文進行第一輪全文檢索,為確保應用而非僅提及Python,采用人工標注法從命中文獻中篩選論文,并標注其中應用的所有Python軟件包。其次,將獲得的軟件包名稱作為檢索詞,在10種期刊中進行第二輪全文檢索,并人工標注,篩選論文。為保證標注質量,在明確標注規則后由標注員A獨立完成全部標注,再由標注員B隨機抽取20%的論文進行獨立標注,采用Kappa系數對標注結果進行一致性檢驗。Kappa值為0.847,大于0.8,表明一致性程度較高,說明標注員A的標注結果較為可靠,適用于進一步分析。

在此過程中,由于存在與軟件包名稱相同的人名、動詞、形容詞以及R語言和C語言同名軟件包,因此需判斷軟件包名稱所在句子中是否出現Package、Module、Library、Toolkit、Python或軟件包創作者、腳本語言及年份等指示性單詞,通過排查和篩選,最終共獲得560篇論文。最后,對軟件包名稱進行規范,包括全簡稱、名稱中有無空格等情況的統一,最終共有138個Python軟件包。數據采集和標注工作于2022年3月完成。

3 實證與結果

3.1 軟件包類型與應用擴散

3.1.1 軟件包在論文和期刊層面的擴散

在論文層面,對Python的首次應用在2008年,隨后5年只有零星應用,自2014年起,應用逐漸增多,而在近5年出現了應用案例迅速上升的趨勢。至2020年,有41%的論文應用了至少兩種Python軟件包,2021年這一數字是55%。總體趨勢是篇均應用Python軟件包數量從2014年開始逐漸增加,2017年超過1.5,2020年達到2以上。

利用文獻[28]提出的擴散廣度、速度、加速度、強度及延時系列指標測度軟件包擴散情況。擴散速度和加速度如表1所示,擴散曲線和軟件包種數如圖1所示。其中擴散速度以每年應用Python軟件包的論文數計算,累積文獻數形成擴散曲線,軟件包種數為每年采納的軟件包種數,若在當年某一種軟件包被多次采納,計數仍為1。由于擴散速度和擴散加速度仍在迅速增長,不能確定二者峰值出現的時間,因此根據創新擴散理論[29],Python在圖書情報學科應用擴散的一階拐點和二階拐點均未出現,還不能預測該擴散最終會達到的規模數量。由于2020年擴散加速度顯著增長,可將2008—2019年劃分為Python軟件包擴散的起步階段,從2020年始為起飛階段。即Python在圖書情報學科的應用擴散,起步階段歷經12年,其中沉寂期[30]6年。另外,軟件包的應用種數持續上升,并在2020年大幅增長,意味著圖書情報學科所采用的Python軟件包在不斷新增和更新,且促使Python的應用擴散進入起飛階段。

表1 Python軟件包在圖書情報學科的應用擴散基本指標

圖1 Python軟件包在圖書情報學科的應用擴散趨勢

期刊層面的擴散特點表現在:①期刊間應用Python軟件包的論文數量差異顯著。InformationProcessingandManagement和Scientometrics的論文數量均超過140篇,而其他8種期刊的論文數量均低于60篇;②期刊間的首次應用時間也存在較大差異。最早是InformationProcessingandManagement,于2008年首次應用Python軟件包,最晚是TelematicsandInformatics,首次應用時間是2017年。值得注意的是,有80%的期刊在2014—2017年首次應用了Python軟件包。此外,僅InformationProcessingandManagement的采納加速度呈單調上升趨勢,其他9種期刊的加速度曲線呈波動震蕩形態,這是知識擴散在起步階段的典型狀態。

3.1.2 軟件包類型及采納特征

借鑒PyPI[31]網站的軟件包分類框架以及崔明等[17]對我國圖情領域高頻使用軟件主要用途的歸納,結合本研究中138個軟件包的主要功能,將圖書情報學科應用的Python軟件包劃分為11個類別,各類別及其說明如表2所示。其中軟件發展類主要由便于Python書寫和執行的軟件包組成,在圖書情報學研究中并不具有特殊作用,在后面的分析中不做贅述。基于分類的軟件包應用概況如表3所示,其中“應用頻次”指某類軟件包下每一種軟件包應用次數之和,“擴散延時”指某類軟件包發布年與采納年之差。

表2 圖書情報學科Python軟件包類型劃分

表3 圖書情報學科不同類型Python軟件包應用概況

各類軟件包進入圖書情報學科存在時間差。2008年Twidale M B等[32]在解決利用外部資源庫進行“在搜索時寫作”的引文文本解析問題時采用了自然語言處理軟件包Pybtex輔助開發個人信息搜索助手,是Python軟件包應用于圖書情報學科的一次探索,此后自然語言處理類軟件包被圖書情報學科大量應用,是應用頻次位居第一的軟件包類型。2011年復雜網絡類軟件包開始應用于圖書情報學科。2014年機器學習類軟件包被引入并爆發出新的應用活力,成為應用頻次僅次于自然語言處理類軟件包的類型。2015—2017年,隨著圖像處理、科學計算、數據采集、可視化、數據分析類軟件包的加入,圖書情報學科對于不同類型Python軟件包的應用逐漸豐富。目前最新進入圖書情報學科的軟件包則集中在地理信息系統類。

通過表3可以看到各類軟件包的總體擴散延時,而近3年擴散延時最短的軟件包集中在機器學習類和自然語言處理類。尤其是機器學習類軟件包,已經呈現一出現就被采納的態勢,擴散延時越來越短。具有類似特征的還有數據采集類軟件包,其軟件包從發布到首次應用最短僅用了兩年時間。較短的擴散延時表明該類軟件包符合當前圖書情報學科的研究需求。而地理信息系統類軟件包的擴散延時則較長,其中一款軟件包從2006年發布,直至2021年才被圖書情報學科采用。當某一類軟件同時具備采納時間晚和擴散延時長的特點時,表明圖書情報學科正在利用其他學科較為成熟的技術、方法進行融合創新。

3.1.3 各類軟件包擴散特征

各類軟件包被引入圖書情報學科后的使用與更迭特征,可通過軟件包應用次數和應用年數進行表征(圖略)。如某種軟件包的應用年數為2,應用次數為3,則表示該軟件包被應用了2年,共在3篇論文中使用。結果分析如下:

自然語言處理類軟件包數量最多、總體應用次數最高。這與圖書情報學科研究對象或樣本多為各類文本資源,對自然語言處理技術有很強的需求直接相關,且該類軟件包的優化和更新及時,尤以nltk為代表。nltk自2005年發布第一個Python使用版本以來已經迭代了68次,服務年份在所有軟件包中是最長的,為11年。首次應用是2010年nltk被用于語義關系識別中的文本預處理[33],此后nltk一直被認為是文本處理的利器。

機器學習類軟件包在圖書情報學科中的應用次數僅次于自然語言處理類,在圖書情報學科中的受歡迎程度較高。其中scikit-learn軟件包應用頻次最高,常與其他軟件包結合應用于情感分析和文本分類。

復雜網絡類軟件包只有1個networkx。此類軟件包數量少的原因之一在于具有類似功能的其他軟件工具較為豐富。如UCINET、Pajek等的發展時間久,功能成熟且用戶粘度較強,而如Gephi、VOSviewer等可視化功能較強的網絡分析工具也逐漸增多,其中不少軟件擁有較多用戶。雖然復雜網絡類軟件包只有networkx在服務中,但服務年數較長,為9年,僅次于nltk。

科學計算軟件包產生時間較早,近5年被應用到圖書情報學科中,多被用于文獻計量研究中的共現分析、聚類[34]、引文數量預測[35]和一些常規統計分析工作[36]。這一現象標志著Python工具在圖書情報學科中已出現常規化使用的趨勢。

數據采集、數據分析、可視化類軟件包的數量均中等,且3類軟件包被應用于圖書情報學研究的時間相近,應用頻次也相近。這一現象與這3類軟件包在數據分析流程中功能上有銜接一致。

地理信息系統、圖像處理、數據庫類軟件包均數量偏少,應用次數低,但在采納時間上,這3類軟件包的使用狀況不同。數據庫類軟件包在2010—2021年被間歇使用,而地理信息系統和圖像處理類軟件包分別自2020年、2015年進入圖書情報學科,并主要應用在近兩年的研究中。

圖2反映了常用軟件包的應用占比變化。可見,多數Python軟件包的占比變化較為平緩。變化突出的有nltk軟件包,盡管其應用頻次逐年仍有上升,但是自2016年起應用占比顯著下降。機器學習類軟件包應用的快速增長,以及同類自然語言處理軟件包應用的增多均加重了其下降趨勢。與此相反,用于深度學習的tensorflow,其應用占比遞增明顯。2016—2021年,谷歌公司已對其進行了88次版本的更新。隨著深度學習的深入與流行,圖書情報學科對tensorflow等機器學習類軟件包也越發重視。

圖2 2015—2021年圖書情報學科常用Python軟件包應用占比

總體而言,約50%的軟件包是2020—2021年新引入的,如機器學習類軟件包xgboost、gender-guesser、tslearn、sexmachine等,自然語言處理類軟件包snownlp、whoosh、scispacy、senta等,數據采集類軟件包getoldtweets、twarc、pytrends、pybliometrics等,以及全部的地理信息系統類軟件包。而在2019—2021年3年間,138個軟件包中約87.7%在使用中,其余17個如textstat、django、jaydebeapi、lasagne、mosek等不被繼續使用的軟件包被具有類似功能的軟件包所替代。

3.2 軟件包應用網絡分析

軟件包可以單獨或共同應用于研究中,因此,Python軟件包形成的組合應用網絡有力地表明了它們與科學研究的關系以及它們在特定研究中與其他Python軟件包的關系。以軟件包為網絡節點,軟件包于一篇論文中的共同應用關系為邊,構建138個Python軟件包的組合應用網絡,該網絡為無向多值網絡,如果兩個軟件包在n篇論文中被共同使用,則關系(邊)的權重為n,如圖3所示。

以下通過網絡基本指標來理解該網絡的屬性,并探索網絡的群落結構,以便考察組合應用特征。首先,該網絡的連通性較好,網絡密度為0.043,加權聚集系數為0.797,平均路徑長度為2.521,高聚集系數和較短的平均路徑長度表明圖書情報學科中的Python軟件包應用網絡具有小世界特征[37]。整體網絡特征指標顯示,Python軟件包的組合應用已較為常見,并且各種軟件包形成了不同的工具簇以應用于相關研究。但是在該網絡規模水平,平均路徑長度有進一步縮短的空間,即軟件包的組合應用應向更廣泛和多樣拓展。

其次,群落特征方面,該網絡共包含15個成分,其中14個小規模成分的邊權均為1,未構成穩定的應用網絡,暫不討論。而成分15是規模最大的連通組,由117個節點構成,占整體網絡規模的85%。其中雙邊連接成分的規模為98,雙邊連接成分是成分中不包含切點的部分,這說明最大連通組的網絡結構很強健,有71%的軟件包之間存在兩種及以上的組合關系,反映了Python軟件包經常組合應用于不同的研究。

圖4展現了軟件包的高頻組合應用關系。其中,共同應用頻次超過10的組合均為機器學習和自然語言處理類別下的軟件包組合,且各自類別內軟件包的組合應用也非常頻繁。機器學習類軟件包scikit-learn和自然語言處理軟件包nltk的組合應用最多,其次是機器學習軟件包keras和tensorflow的組合。其他超過11次的組合應用依次為gensim和nltk、gensim和scikit-learn、keras和scikit-learn、scikit-learn和tensorflow、nltk和tensorflow。而2020—2021年新建立的軟件包組合(組合次數>3)集中在機器學習類別內,分別為scikit-learn和xgboost、scikit-learn和pytorch、scikit-learn和selenium,以及機器學習和自然語言處理的組合gensim和jieba。

圖4 圖書情報學科Python軟件包高頻組合網絡

組合應用可以實現多種研究目的,例如Khoo C S等[38]利用自然語言處理軟件包nltk和stanfordcorenlp進行句子分割和情感極性標記,Zubiaga A等[39]將機器學習軟件包scikit-learn、theano、lasagne、hyperopt用于社交媒體對話的謠言立場分類。AL-Smadi M等[40]在利用nltk進行數據預處理后采用gensim主題建模,并在此基礎上使用機器學習軟件包scikit-learn進行分類,通過3個軟件包的組合實現語義識別和語義相似性分析。Aparup K等[41]則利用gensim和scikit-learn對疫情暴發時產生的Twitter數據和學術摘要進行詞向量處理及文本分類。

軟件包類別組合應用網絡如圖5所示,可借此觀察類間組合情況。首先,顯而易見的是在圖書情報學科中自然語言處理類和機器學習類卻是組合應用最為頻繁的軟件包類別。其他高頻類別組合有:自然語言處理類分別與可視化類、數據采集類、科學計算類的組合,以及機器學習類與科學計算類、軟件發展類的組合。其次,k-核為網絡中聯結致密的核心,圖5的k-核最高級數為7,由除數據庫類、復雜網絡類、圖像處理類之外的8類構成。這8類中的任何一類都與其他7類軟件包發生組合應用,證明多種類別軟件包的組合應用較常見。例如Cavalcante I M等[42]將機器學習軟件包scikit-learn、科學計算軟件包numpy、可視化軟件包matplotlib、數據分析軟件包pandas用于執行機器學習、數據預處理、數據分析和可視化任務,以研究彈性的供應商投資組合。Curiskis S A等[43]利用nltk和scikit-learn進行數據預處理,采用scikit-learn、gensim和數據分析軟件包pyclustering進行文本聚類,以比較4種主題建模和文本聚類方法的效果。

圖5 圖書情報學科Python軟件包類別組合網絡

3類及以上軟件包的使用在推動研究平臺與工具創新上發揮著重要作用,甚至能夠促進新軟件包的開發。McLevey J等[44]開發了一款依賴于numpy、scipy和matplotlib的專門應用于文獻計量學的Python軟件包metaknowledge,可與可視化軟件包pyldavis、seaborn,自然語言處理軟件包gensim、nltk,復雜網絡軟件包networkx,數據分析軟件包pandas結合使用,實現了利用工具創造工具的創新。

3.3 軟件包應用領域分析

Python在圖書情報學科應用的熱點領域可以通過論文關鍵詞共現進行分析,可視化結果如圖6所示。節點為關鍵詞,節點越大說明該關鍵詞出現頻次越高,連線代表關鍵詞在論文中的共現關系。可見,研究領域主要涉及社交媒體研究、分類研究、合作研究和引文研究。通過關鍵詞共現強度可知,研究領域中的學術影響力評價、社交媒體網絡研究、自然語言分類研究、合作模式識別研究和知識深度學習研究是Python使用過程中更為側重的研究主題,且以science、Twitter、knowledge、text、news、big data、publication為研究的主要數據來源或研究對象。

圖6 Python在圖書情報學科應用的熱點領域

圖7為論文關鍵詞聚類時區圖,展現了圖書情報學科應用Python工具解決學科問題的進程,各時區間關鍵詞節點的連線表明了研究的傳承關系[45]。結合Python軟件包的應用擴散階段及過程可知:自2008年起步階段初始,圖書情報學科開始利用Python研究信息學中的檢索問題及科學計量領域的問題,而機器學習和自然語言處理研究逐漸萌芽。2014年之后,研究聚焦于復雜網絡和引文分析。2016年以后的特點是,對科學出版物的研究更加多面,不僅將其作為計量中的常規樣本,更對期刊撤稿、開放獲取、社交媒體對傳統出版物的影響等時代突顯問題進行研究。同期,情感分析研究正處于發端階段。在起步階段的最后幾年,即2017年開始,研究對象不斷細化直至知識單元;數據來源不斷擴展,從學術出版物到Twitter社交媒體、新聞語料、大數據等;研究方法逐漸豐富,包括引文分析、社會網絡分析、情感分析、模型分析、文本分析等;使用的研究技術包括主題建模、文本分類、文本挖掘、模式識別、神經網絡、深度學習、遷移學習等。自2020年以來,應用增幅顯著,研究問題已擴展至行為研究(behavior analysis)、復雜網絡研究(complex network)、演化(evolution analysis)與趨勢研究(trend analysis)、技術分析(technology analysis)、用戶參與度研究(engagement)、虛假新聞研究(fake news)等。

圖7 Python在圖書情報學科應用領域的擴展過程

由此可見,對Python在圖書情報學科應用領域的分析能夠反映該學科通過研究工具實現的研究對象與數據來源的變化,研究方法與技術的更迭,研究問題的拓展與豐富,研究內容的細化與深化,不同研究領域的興起與發展,以及研究范式的逐步轉變。

4 結論與討論

本研究明確了Python在圖書情報學科的應用擴散進程、所處階段;按照功能將百余種Python軟件包分成了11個類別;分析了軟件包及其類別的組合應用網絡;呈現了Python在圖書情報學科的應用領域、解決的問題及其拓展過程。綜合各部分的研究結果,主要推斷總結如下:

1)當前圖書情報學科在研究方法和工具上的快速更新與迭代是毋庸置疑的。Python在圖書情報學科的應用擴散剛剛進入起飛階段,并已呈現常規化使用趨向,預期今后應用該工具的論文將爆發式增長,同時不同軟件包之間的組合應用也將不斷創新,這將推進該學科形成,擁有更多緊密的工具組群。

2)Python軟件包應用種數與應用次數的增長趨勢相同,均于2014年開始增加,并于2020年大幅增長。兩次增長分別是由各種機器學習類軟件包的引入和軟件包類型多樣性的增加引發的,標識了圖書情報學科研究范式轉型過程中的關鍵時間點和事件。

3)近年來,擴散延時最短的軟件包類型依次為機器學習類、自然語言處理類和數據采集類。較短及明顯縮短的擴散延時說明以上3類軟件包符合當前圖書情報學科的研究需求。其中,由于深度學習的流行促使機器學習類工具應用大幅增長,并與自然語言處理類工具更加緊密地結合,形成了當前圖書情報學科研究范式轉型過程中最有力的工具驅動。

4)地理信息系統類是最新引入的軟件包類型,應用情況分兩種:一是助力傳統研究,如分析研究主題在國家層面的分布;二是基于大數據背景的研究,如城市形態大數據。根據初始應用頻次和用途可推斷,地理信息系統類軟件包在圖書情報學科的應用才剛剛開始,伴隨科學研究向數據密集型研究范式的轉變以及數字人文的興起,地理信息系統類軟件包將獲得更加廣泛的應用。此外,該類軟件包的擴散延時較長,表明圖書情報學科正在利用其他學科較為成熟的技術、方法進行融合創新,即近兩年地理信息系統類軟件包的突現與使用體現出圖書情報學科研究領域的拓展。

5)圖像處理類軟件包的擴散延時較短,近兩年的應用增加,可利用其提取圖像中的數據進行圖形元數據研究、照片數據分析等。該類軟件包在圖書情報學科有潛在的應用前景,值得關注。

6)大部分軟件包類型之間的組合應用都較為頻繁,最為突出的是自然語言處理類和機器學習類,且一項研究中應用多種類別軟件包也較常見。這一情況促使專門應用于文獻計量學的Python軟件包的誕生,但是類似的工具還很少,功能整合有限,可以期待有更多符合圖書情報學科研究場景的工具或平臺產生,而將工具應用到曾經觸不可及的研究問題中去,能使學科煥發活力。本研究中的應用組合情況可為其提供需求參照。

更為重要的是,通過以Python為例的分析可知,工具視角的研究對學科發展具有現實意義。不限于某種工具,從更廣泛的意義來說,挖掘研究工具的應用特征能夠從工具視角探析學科變革、現狀及態勢,對于促進學科發展至關重要,如研究范式轉型,研究方法與技術的更迭,研究熱點的變遷和趨向,研究領域新生及新研究問題的出現,明確學科發展歷程中的關鍵事件及時間節點等,并可通過分析演變動因,評估學科發展動態,明晰學科前沿,預測未來發展方向。總之,工具視角下的學科發展及動向分析,有助于學科發展規劃,前瞻性研究布局,促發新的研究領域等工作的開展。

本研究從工具視角分析學科的發展及動向,尤其適用于在當前新舊研究范式轉換時期探究學科在數據驅動的研究變革中的發展趨向,也為探索學科發展脈絡提供了新的考察路徑和認識維度。本研究的局限在于工具視角僅是認識學科發展的視角之一,單一視角無法反映一個學科發展的全貌。此外,任何一種工具和研究方法都有其使用范疇,本研究僅以Python為例,能夠揭示的學科發展動向有限,未來將擴大工具范圍,做進一步研究。

猜你喜歡
學科研究
學科新書架
【學科新書導覽】
FMS與YBT相關性的實證研究
學科新書導覽
2020年國內翻譯研究述評
遼代千人邑研究述論
土木工程學科簡介
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
主站蜘蛛池模板: 91成人在线观看视频| 青青网在线国产| 亚洲色偷偷偷鲁综合| 亚洲国产黄色| 真实国产精品vr专区| 天天色天天综合网| 国内99精品激情视频精品| 久久亚洲美女精品国产精品| 国产白浆视频| 欧美精品不卡| 91亚洲精品国产自在现线| 456亚洲人成高清在线| 精品国产自在在线在线观看| 久久伊人操| 亚洲无码在线午夜电影| 四虎影视库国产精品一区| 美美女高清毛片视频免费观看| 99国产在线视频| 亚洲AV人人澡人人双人| 高清免费毛片| 99久久国产综合精品女同| 992Tv视频国产精品| 男人天堂伊人网| 亚洲精品动漫| 亚洲精品国产精品乱码不卞 | 国产区免费精品视频| 夜夜操天天摸| 99在线视频精品| 日韩国产一区二区三区无码| 亚洲国产欧美国产综合久久 | 亚洲青涩在线| 日韩欧美国产中文| 国产成人综合网| 欧美啪啪视频免码| 666精品国产精品亚洲| 国产日本欧美亚洲精品视| 第九色区aⅴ天堂久久香| 亚洲欧美日韩另类在线一| 激情国产精品一区| 国产成人精品无码一区二| 日本欧美在线观看| 无码专区国产精品一区| 伊人蕉久影院| 国产成人久久综合777777麻豆| 三上悠亚一区二区| 99r在线精品视频在线播放| 欧美性猛交一区二区三区| 亚洲热线99精品视频| 国产福利一区在线| 97视频免费在线观看| 成人免费网站在线观看| 国产女人18毛片水真多1| 18禁不卡免费网站| 无码一区18禁| 中文无码日韩精品| 依依成人精品无v国产| 日本午夜视频在线观看| 亚欧乱色视频网站大全| 91区国产福利在线观看午夜| 国产爽歪歪免费视频在线观看| 亚洲无限乱码一二三四区| 日韩欧美亚洲国产成人综合| 国内熟女少妇一线天| 欧美97欧美综合色伦图| 成人综合在线观看| 国产精品爽爽va在线无码观看| 永久免费无码日韩视频| 日韩一级二级三级| 色九九视频| 欧美亚洲第一页| 国产又爽又黄无遮挡免费观看 | 亚洲第一极品精品无码| 91av国产在线| 精品视频第一页| 亚洲无码高清一区二区| 成人综合网址| 全部毛片免费看| 国模在线视频一区二区三区| 亚洲日韩日本中文在线| 国内精品久久人妻无码大片高| 久久精品国产亚洲AV忘忧草18| 久久精品丝袜|