邵燕霞 張文忠



【摘要】本文采用科學(xué)計(jì)量學(xué)的出版物統(tǒng)計(jì)、著者統(tǒng)計(jì)、詞頻分析等研究方法對(duì)CNKI收錄的查收查引研究文獻(xiàn)進(jìn)行計(jì)量分析并可視化呈現(xiàn),計(jì)量分析并可視化功能使用Python語言開發(fā)實(shí)現(xiàn)。闡述了查收查引研究現(xiàn)狀及研究?jī)?nèi)容,確定了我校圖書館開發(fā)查收查引軟件的開發(fā)方案。
【關(guān)鍵詞】查收查引;CNKI;科學(xué)計(jì)量學(xué);計(jì)量分析;Python
查收查引服務(wù)是國(guó)內(nèi)圖書館提供信息服務(wù)工作的一項(xiàng)重要內(nèi)容,為團(tuán)體或個(gè)人提供論文收錄引用的檢索分析,并出具檢索收錄報(bào)告。科研人員在科研課題申報(bào)立項(xiàng)、基金資助、成果鑒定、獎(jiǎng)勵(lì)申請(qǐng)、職稱評(píng)定等方面均需要提供論文檢索報(bào)告,檢索報(bào)告成為評(píng)測(cè)團(tuán)體或個(gè)人科研產(chǎn)出和水平的重要評(píng)價(jià)指標(biāo)。為了提高查收查引服務(wù)質(zhì)量和服務(wù)效率,國(guó)內(nèi)圖書館在查收查引服務(wù)的相關(guān)方面進(jìn)行了積極的探索研究和實(shí)踐,在網(wǎng)絡(luò)化、信息化和數(shù)字化的基礎(chǔ)上實(shí)現(xiàn)查收查引服務(wù)工作的高效高質(zhì)。華北電力大學(xué)圖書館為了更好地為用戶提供查收查引服務(wù),對(duì)查收查引研究現(xiàn)狀進(jìn)行了調(diào)研和分析,通過檢索CNKI數(shù)據(jù)庫(kù)有關(guān)查收查引方面的文獻(xiàn),利用Python語言對(duì)文獻(xiàn)進(jìn)行計(jì)量分析并可視化呈現(xiàn),確定查收查引服務(wù)的研究方向和研究?jī)?nèi)容。
一、數(shù)據(jù)資源的獲取
利用CNKI中國(guó)知網(wǎng)數(shù)據(jù)庫(kù)期刊全文子庫(kù)的高級(jí)檢索,檢索策略為(主題詞:查收查引)OR(關(guān)鍵詞:代查代檢OR代檢代查OR代檢代查服務(wù)系統(tǒng)),共檢索到77篇文獻(xiàn),以Refworks格式導(dǎo)出46條題錄數(shù)據(jù),保存為*.xls文件,樣本時(shí)間為2003年至2018年。
根據(jù)題目、關(guān)鍵詞等信息內(nèi)容清洗數(shù)據(jù)后得到相關(guān)性較高的46篇論文,為了提高計(jì)量分析的準(zhǔn)確性,需要對(duì)關(guān)鍵詞字段內(nèi)容進(jìn)行消歧。由于WOK檢索平臺(tái)Web of Science引文數(shù)據(jù)庫(kù)包括SCI(Science Citation Index,科學(xué)引文索引)、SSCI(Social Science Citation Index,社會(huì)科學(xué)引文索引)、CPCI-S(科學(xué)技術(shù)會(huì)議索引,原ISTP)、CPCI-SSH(社會(huì)科學(xué)及人文科學(xué)會(huì)議索引,原ISSHP),因此,SCI、SSCI、CPCI-S、ISTP、CPCI-SSH、ISSHP均替換為WOS;EI Village、工程索引替換為EI;代檢代查替換為代查代檢。
由于受查收查引主題的限制,檢索到的數(shù)據(jù)量非常小,利用現(xiàn)有辦公軟件以及文獻(xiàn)管理軟件Word、Excel、EndNote、NoteExpress等即可以完成對(duì)數(shù)據(jù)進(jìn)行處理和統(tǒng)計(jì)。這里采用Python對(duì)文獻(xiàn)進(jìn)行分析,僅是對(duì)我校圖書館開發(fā)的查收查引科學(xué)計(jì)量分析可視化工具軟件的一個(gè)功能應(yīng)用的展示。
CNKI提供的Refworks格式題錄信息包含了論文收錄的基本信息,Python對(duì)文獻(xiàn)進(jìn)行計(jì)量分析從CNKI提供的Refworks格式題錄信息中提取了9個(gè)字段,題錄字段含義見表1。
二、開發(fā)環(huán)境
開發(fā)環(huán)境選擇64bit Anaconda for Windows Python2.7,Anaconda是一個(gè)軟件包管理器。Anaconda集成了超過1500個(gè)Python/R數(shù)據(jù)計(jì)算相關(guān)的包,可以節(jié)省很多安裝第三方包的時(shí)間;集成了Spyder作為Python語言的集成開發(fā)環(huán)境,可以高效地開發(fā)代碼。盡管用腳本模式比圖形用戶界面(GUI)更具挑戰(zhàn)性,但它強(qiáng)大的標(biāo)準(zhǔn)庫(kù)還是非常有吸引力的,而且編寫少量代碼即可實(shí)現(xiàn)對(duì)文獻(xiàn)的計(jì)量分析并以直觀的可視化圖形方式呈現(xiàn)給用戶。Python和R均是開放源代碼的通用語言,簡(jiǎn)單易學(xué),代碼易于閱讀,具有解釋型、面向?qū)ο蟆?dòng)態(tài)數(shù)據(jù)類型等特點(diǎn),并且有龐大的標(biāo)準(zhǔn)庫(kù)支持,且?guī)椭臋n完備,在數(shù)據(jù)分析和數(shù)據(jù)挖掘方面都有比較專業(yè)和全面的模塊,很多常用的功能,如文本挖掘、計(jì)量統(tǒng)計(jì)、自然語言處理、網(wǎng)絡(luò)分析、可視化分析都有相應(yīng)的標(biāo)準(zhǔn)庫(kù)提供。基于Python開發(fā)的科學(xué)計(jì)量分析工具包metaknowledge和基于R開發(fā)的科學(xué)計(jì)量分析工具包Bibliometrix提供了科學(xué)計(jì)量分析的腳本參考,對(duì)使用Python實(shí)現(xiàn)科學(xué)計(jì)量分析解決工作中實(shí)際需求非常具有參考價(jià)值。
三、研究方法
由于CNKI數(shù)據(jù)庫(kù)沒有提供文獻(xiàn)的參考文獻(xiàn)及施引文獻(xiàn)數(shù)據(jù)下載渠道,提供的題錄數(shù)據(jù)字段內(nèi)容有限,因此采用科學(xué)計(jì)量學(xué)的出版物統(tǒng)計(jì)、著者統(tǒng)計(jì)、詞頻分析等研究方法對(duì)樣本數(shù)據(jù)進(jìn)行簡(jiǎn)單的計(jì)量分析。由于選擇的“查收查引”主題范圍過小, 沒有采用科學(xué)計(jì)量學(xué)的共現(xiàn)分析方法對(duì)關(guān)鍵詞進(jìn)行共現(xiàn)分析,文中出現(xiàn)的關(guān)鍵詞共現(xiàn)表及共現(xiàn)圖僅表示關(guān)鍵詞之間共同出現(xiàn)的表面特征。計(jì)量分析的內(nèi)容包括題錄數(shù)據(jù)的出版年份頻次統(tǒng)計(jì),作者數(shù)量統(tǒng)計(jì)及合作分析,關(guān)鍵詞頻次統(tǒng)計(jì)及共現(xiàn)分析。使用我校圖書館基于Python開發(fā)的查收查引科學(xué)計(jì)量分析可視化工具軟件對(duì)46條樣本題錄數(shù)據(jù)進(jìn)行計(jì)量統(tǒng)計(jì)并可視化呈現(xiàn)。
四、計(jì)量分析可視化
(一)年度發(fā)文量。2003-2018年發(fā)表的46篇文獻(xiàn)從提高工作效率及檢索質(zhì)量的實(shí)際工作需求出發(fā),在提高論文檢索質(zhì)量、利用現(xiàn)有工具提高查收查引服務(wù)效率、開發(fā)查收查引工具軟件、查收查引服務(wù)平臺(tái)及查收查引系統(tǒng)軟件等方面進(jìn)行了積極的探索研究和實(shí)踐,見表2。對(duì)查收查引的研究主要有四個(gè)方面,查收查引服務(wù)、開發(fā)系統(tǒng)軟件、開發(fā)檢索平臺(tái)、開發(fā)工具軟件,另外還涉及集體成果預(yù)測(cè)、數(shù)據(jù)庫(kù)檢索技巧、機(jī)構(gòu)知識(shí)庫(kù)建設(shè)等方面的研究?jī)?nèi)容。2003-2013年發(fā)文量較少,2014-2018年發(fā)文量相對(duì)增加,其中2015年最多,2018年呈現(xiàn)上升趨勢(shì)。隨著用戶對(duì)查收查引的服務(wù)質(zhì)量和服務(wù)效率需求的進(jìn)一步提升,預(yù)測(cè)未來開發(fā)集成服務(wù)平臺(tái)和工具軟件模塊功能的查收查引服務(wù)全流程自動(dòng)化系統(tǒng)軟件將成為查收查引研究的發(fā)展趨勢(shì)。
(二)作者合作關(guān)系。通過對(duì)46篇文獻(xiàn)題錄中作者字段的統(tǒng)計(jì)得到作者共93人,其中2人出現(xiàn)3次,9人出現(xiàn)2次,其余出現(xiàn)一次。7人與他人合作兩次,其他合作均為一次,生成作者合作關(guān)系表和合作關(guān)系圖,見表3和圖2。從作者合作關(guān)系表及關(guān)系圖可以看出,對(duì)查收查引研究的作者合作程度低,網(wǎng)絡(luò)結(jié)構(gòu)松散,作者之間溝通稀疏,沒有形成查收查引研究聯(lián)系廣泛、密切的合作模式,導(dǎo)致對(duì)查收查引研究成果相對(duì)分散。
(三)關(guān)鍵詞詞頻。消歧后對(duì)46篇文獻(xiàn)題錄中關(guān)鍵詞字段的統(tǒng)計(jì)得到關(guān)鍵詞123個(gè),其中“查收查引”出現(xiàn)33次,
“高校圖書館”出現(xiàn)6次,“WOS”出現(xiàn)5次,“圖書館”出現(xiàn)4次。出現(xiàn)3次的有7個(gè)詞,出現(xiàn)2次的有11個(gè)詞,其余均出現(xiàn)一次,生成的關(guān)鍵詞詞云圖見圖3。從對(duì)關(guān)鍵詞詞云圖分析可以得出對(duì)查收查引的研究集中在高校圖書館及圖書館等機(jī)構(gòu);檢索的引文數(shù)據(jù)庫(kù)主要是WOS和EI;利用現(xiàn)有辦公軟件和文獻(xiàn)管理軟件以及開發(fā)查收查引軟件受到的關(guān)注度較高。關(guān)鍵詞中有一個(gè)“可視化分析”出現(xiàn),通過閱讀文獻(xiàn)了解到該文獻(xiàn)是對(duì)論文查收查引服務(wù)的研究文獻(xiàn)進(jìn)行可視化分析,并不是對(duì)查收查引檢索結(jié)果進(jìn)行可視化分析。關(guān)鍵詞中沒有出現(xiàn)其他有關(guān)對(duì)查收查引檢索結(jié)果可視化呈現(xiàn)的關(guān)鍵詞,因此,我校圖書館在開發(fā)查收查引工具軟件的功能實(shí)現(xiàn)中設(shè)計(jì)了對(duì)查收查引檢索結(jié)果可視化呈現(xiàn)的功能模塊,軟件實(shí)現(xiàn)了查收查引中需要整合數(shù)據(jù)、自引他引統(tǒng)計(jì)等重復(fù)性工作的自動(dòng)完成,為查收查引報(bào)告提供了基礎(chǔ)數(shù)據(jù),并以可視化形式呈現(xiàn)收錄論文中用戶關(guān)心的關(guān)鍵信息。
(四)關(guān)鍵詞共現(xiàn)。通過對(duì)46篇文獻(xiàn)題錄中關(guān)鍵詞字段的統(tǒng)計(jì)得到關(guān)鍵詞123個(gè),其中“查收查引”與“高校圖書館”
“圖書館”共現(xiàn)4次,與“引證檢索”“WOS”共現(xiàn)3次,生成關(guān)鍵詞共現(xiàn)表和共現(xiàn)圖,見表4和圖4。通過關(guān)鍵詞共現(xiàn)表及共現(xiàn)圖可以看出查收查引服務(wù)工作與高校圖書館與圖書館密切相關(guān);引文數(shù)據(jù)庫(kù)、文獻(xiàn)管理軟件、辦公軟件、開發(fā)語言、數(shù)據(jù)庫(kù)平臺(tái)等方面的關(guān)鍵詞與開發(fā)查收查引系統(tǒng)、工具軟件、服務(wù)平臺(tái)的研究有關(guān),查收查引工作流程自動(dòng)化研究產(chǎn)生了多個(gè)研究流。
五、小結(jié)
通過對(duì)查收查引服務(wù)研究文獻(xiàn)的計(jì)量分析和可視化呈現(xiàn),揭示了查收查引服務(wù)的研究現(xiàn)狀,確定了我校圖書館開發(fā)查收查引工具軟件的研究方向和研究?jī)?nèi)容。得出的結(jié)論主要有以下幾點(diǎn):(1)年度發(fā)文量顯示查收查引研究文獻(xiàn)數(shù)量呈增長(zhǎng)態(tài)勢(shì),受到的關(guān)注度呈上升趨勢(shì)。(2)作者合作網(wǎng)絡(luò)結(jié)構(gòu)松散,作者之間溝通稀疏,揭示了查收查引研究合作空間很大,蘊(yùn)含著進(jìn)一步擴(kuò)大合作范圍、加強(qiáng)合作強(qiáng)度的潛能。(3)關(guān)鍵詞詞頻統(tǒng)計(jì)顯示對(duì)查收查引的研究集中在高校圖書館及圖書館等機(jī)構(gòu)。(4)關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)顯示開發(fā)查收查引系統(tǒng)、工具軟件、服務(wù)平臺(tái)研究的關(guān)鍵詞與查收查引密切聯(lián)系,查收查引工作流程自動(dòng)化研究產(chǎn)生了多個(gè)研究流。(5)目前沒有針對(duì)查收查引檢索結(jié)果可視化呈現(xiàn)的文獻(xiàn)。
綜上所述,隨著信息技術(shù)、網(wǎng)絡(luò)技術(shù)、計(jì)算機(jī)技術(shù)的發(fā)展查收查引的服務(wù)質(zhì)量和服務(wù)效率會(huì)進(jìn)一步提升,查收查引服務(wù)流程自動(dòng)化程度會(huì)越來越高,人工承擔(dān)的繁瑣重復(fù)性工作逐漸被軟件系統(tǒng)替代,預(yù)測(cè)未來開發(fā)查收查引服務(wù)全流程自動(dòng)化的系統(tǒng)軟件將成為查收查引研究的發(fā)展趨勢(shì)。
【參考文獻(xiàn)】
[1]梁紅妮,胡小飛.論文查收查引服務(wù)的分析與探討[J].情報(bào)理論與實(shí)踐,2009,32(04):96-99.
[2]李曉東,盧振波.論文查收查引工具軟件的設(shè)計(jì)與實(shí)現(xiàn)[J].大學(xué)圖書館學(xué)報(bào),2005(01):49-50+62.
[3]McLevey John,McIlroy-Young Reid.metaknowledge Software for computational research in information science, network analysis, and science of science[J].JOURNAL OF INFORMETRICS.2017,11(1):176-197.
[4]Aria Massimo,Cuccurullo Corrado.bibliometrix:An R-tool for comprehensive science mapping analysis[J].JOURNAL OF INFORMETRICS.2017,11(4):959-975.
[5]邱均平,趙蓉英,董克等.科學(xué)計(jì)量學(xué)[M].北京:科學(xué)出版社,2016.
[6]賀穎,賀玢.我國(guó)查收查引服務(wù)研究可視化分析[J].電腦知識(shí)與技術(shù),2018,14(05):9-12.