





摘要:從文獻研究來看,國內對于EI文章引用的相關研究缺失。文章介紹了基于VBA語言開發,并通過SeleniumBasic技術實現了EI論文跨庫批量引文檢索軟件的詳細設計、實現過程和關鍵代碼,軟件填補了國內EI論文跨庫批量引文索引軟件的空白。
關鍵詞:論文查收查引;引文檢索軟件;EI;EI引用;VBA
中圖分類號:G250" 文獻標志碼:A
0 引言
學術界常說的三大科技文獻檢索系統:科學引文索引(Science Citation Index,SCI)、工程索引(Engin-eering Index,EI)、科技會議錄索引(Conference Proceedings Citation Index-Science,CPCI-S ;原名Index to Scientific amp; Technical Proceedings,ISTP),是國際公認的科學統計與科學評價主要檢索工具。科技界普遍接受以被SCI 、EI、CPCI-S(原ISTP)三大檢索收錄和引用論文的統計分析結果,作為評價學術論文水平和國際影響力的主要依據之一[1]。
EI創刊于1884年,由美國工程情報公司出版發行[2],是目前全球最全面的工程領域二次文獻數據庫,側重提供應用科學和工程領域的文摘索引信息,涉及核技術、生物工程、交通運輸、化學和工藝工程、照明和光學技術、農業工程和食品技術、計算機和數據處理、應用物理、電子和通信、控制工程、土木工程、機械工程、材料工程、石油、宇航、汽車工程以及這些領域的子學科。
EI數據庫作為三大索引里工程技術領域重要的檢索工具,是SCI的重要補充,但EI數據庫僅有收錄,沒有引用檢索(也是三大索引中唯一),不能體現出EI數據庫收錄論文對EI論文的引用與他引情況。隨著我國科研人員產出成果的與日俱增,論文查收查引業務量不斷增加,科研工作者對于論文收錄與引用質量要求也越來越高,他們不僅希望發表的論文被更高學科分區(比如Q1區期刊)的期刊錄用,也希望論文能有更高的引用與他引數量。在競爭激烈的學術氛圍中,人們越來越希望EI論文能實現跨庫引用檢索,即在Web of Science數據庫(以下簡稱“WOS數據庫”)中檢索EI論文的引用與他引情況,以此來反映EI論文的高質量。
利用主題詞Engineering Village(EI;同義詞EI-Village或不同拼寫形式EI Village)和查收查引(及其同義詞或近義詞,如代查代檢、引文查證、引用檢索等)在中國知網數據庫中檢索并查看檢出文章的內容,并未在相關文獻中發現國內有關于EI論文跨庫檢索實現引用他引檢索的相關研究。筆者結合工作實際,利用VBA語言研發了EI論文跨庫引用檢索軟件,可以自動提取收錄于EI論文中的標題、作者、DOI號等,并生成相關檢索式,通過SeleniuBasic控制瀏覽器自動實現WOS數據庫進行引文檢索,獲取引用他引數據,并運用Excel宏完成引用和他引的統計分析,控制Word宏輸出符合需求的檢索證明。程序代替了人工檢索引用他引的步驟,真正實現了EI論文的WOS數據庫引用自動化檢索與數據處理、模板式輸出檢索證明,降低了工作強度,同時提高了準確度和工作效率。
1 設計思路
軟件實現EI論文的跨庫引用檢索與引用數據導出,并通過Excel宏自動快速統計引用和他引次數,具體流程如圖1所示。
EI收錄查詢是檢索人員根據用戶委托對申請檢索論文進行EI數據庫收錄查詢的操作,檢索人員需要通過標題、作者、來源出版物、出版年、DOI號等字段在EI數據庫中檢索確定論文的收錄情況。EI收錄查詢除了可以用來確定委托論文是否有被EI數據庫收錄,同時也是對委托論文進行修正和規范的過程(在沒有機構知識庫的情況下,委托人提交的論文可能出現信息錯誤、不完整、不規范等情況),EI收錄查詢是做好EI引用的基礎和前提條件。
EI收錄檢索完成后的數據,可作為論文引用檢索數據源導入程序,并通過程序提取DOI(Digital Object Identifier)號。DOI是數字對象唯一標識符,是云計算背景下最佳的“大數據”樣本存儲和應用技術,也是數字時代的“身份證”號碼,具有唯一性、持久性、兼容性、互操作性、動態更新的特點[3]。作為科技論文“身份證”的DOI號,可以用來作為EI論文跨庫Web of Science數據庫批量檢索論文引用情況的關鍵字段。程序將提取到的全部DOI號輸入Web of Science數據庫進行被引參考文獻檢索,再將生成的引文列表數據全部導出進行數據分析。如果通過DOI檢索,得出引用為0,則可以直接生成Word版論文收錄證明。
Excel數據分析主要通過施引論文(EI收錄論文)的DOI號到引文數據集中去做匹配,引文數據集包含了參考文獻的相關信息,其中就有DOI號,匹配到相同的DOI號,則為引用1次,依此類推,得出EI論文的引用次數。再通過作者來排他引,可得到EI論文的他引次數,最終獲得論文的總引用次數和總他引次數。
最后格式化的Word版檢索證明生成,是利用Word的郵件合并功能,批量化生成標準格式的論文收錄與引用檢索證明。
2 VBA編程實現
2.1 VBA編程語言
VBA(Visual Basic for Applications)是1993年由微軟公司開發的應用程序共享一種通用的自動化語言,它是Visual Basic的一種宏語言,是在其桌面應用程序中執行通用的自動化(OLE)任務的編程語言。主要用來擴展Windows的應用程序功能,特別是Microsoft Office軟件,也可說是一種應用程式視覺化的Basic 腳本。
寄生于VB應用程序而生的VBA語言,更強大的集成于Microsoft Office軟件,尤其是Excel和Word辦公軟件。首先,VBA更關注辦公數據的處理,因為收錄與引文數據的標準化處理、引用他引次數的統計分析,在Excel中能更直觀地呈現和統計分析;其次,個人用戶或團體用戶的引文數據相對簡單且操作重復,處理量較小,用Excel就足以勝任;另外,Excel可以無縫銜接地輸出到宏Word的檢索證明模板,宏Word的檢索證明模板維護方便,便于按用戶需求隨時修改;最后,VBA不需要另外安裝軟件運行環境,只要裝有Microsoft Office軟件便可以將宏程序模塊復制過去,保存后便可直接運行,宏模塊體積一般只有幾十KB大小,小巧而應用靈活。綜上考慮,筆者選擇VBA語言。
2.2 實現過程
2.2.1 提取DOI字段及編寫引用檢索語句
EI數據庫收錄的論文都有一個唯一的DOI號,用Excel格式從EI數據庫導出的EI收錄詳細數據,可以在DOI字段列輕松提取所有論文的DOI號,還可以用邏輯或(OR)語句將所有的DOI號串聯起來,寫出適合WOS數據庫被引參考文獻檢索的語句出來,如DOI=(10.1109/JIOT.2019.2953476 OR 10.1109/TNSE.2022.3163279)。
運用VBA通過SeleniumBasic在WOS被引參考文獻界面,選定好引用論文的所在數據庫(SCIE、SSCI、CPCI-S、CPCI-SSH等)及限定論文出版年后,輸入DOI檢索語句即可匹配所有的引用論文(程序代碼如圖2所示)。執行“檢索”得到的被引文獻的列表后,全部選中再點擊“查看結果”便可生成引文列表,再將所有引文記錄導出“制表符分隔文件”,記錄內容包含“全記錄與引用的參考文獻”,導出的文件格式為TXT(導出選項設置如圖3所示),獲取并導出引文數據實現過程的部分軟件代碼如圖4所示。
2.2.2 引文數據合并及引用他引統計
將導出的引文數據導入Excel,通過Excel宏完成引用他引分析與計算,所有引文文章的數據中的CR字段都包含了被引論文的DOI號,通過DOI號可以與施引文章映射起來,通過檢索得出每篇被引文章的引用次數,再通過施引文獻與被引文獻作者的逐一對比,得出自引與他引的次數,結果如圖5所示。軟件采用最嚴格的他引計算標準,即除作者及合作者以外文獻被其他人的引用,即引用文獻和被引文獻中,只要有一個作者相同,即為自引。在作者的對比中,又會出現作者名縮寫與全拼形式的問題,所以在比對前,首先要統一作者姓名格式。
2.2.3 格式化檢索證明生成
完成了引用與他引數據的分析與統計,最后按照用戶的需求,輸出為Word格式的檢索證明(檢索證明部分形式如圖6所示)。調查發現,每個查收查引機構都有自己的一套檢索證明格式化模板,雖然呈現形式各異,但檢索證明內容基本上是相同的。本軟件" 采用Word軟件郵件合并的功能,通過域名的方式,與Excel的各字段連接,將結果數據逐一、逐字段地輸出到Word模板,并根據檢索項目,對檢索證明自動進行格式調整,生成“日期+姓名+檢索項目”格式命名的Word文檔檢索證明。
3 效果對比
軟件開發至今,已經在筆者工作部門運行了2年,經歷了WOS數據庫網頁大改版,因對數據庫網頁基本上是一次利用,故而對程序影響較小。軟件安裝簡便、維護更新容易、運行效率高、查準率較高,獲得了部門同事的青睞。本軟件的設計思路出自筆者之前開發的基于VBA的WOS論文引用檢索軟件[4],軟件的運行用時與軟件可移植性對比均與其一致,前款軟件橫向對比的國內自行研發的軟件有:高營等[5-9]研發的論文查收查引軟件,對比的項目有對10、50、100篇文章進行引文檢索的用時及軟件可移植性等,因此與其他同類軟件的對比數據可參考前文,這里不再贅述。
本軟件同時具有很強的擴展性,不僅可以查引用他引次數,還可以限定引用年限(5年或其他)、檢索不同的引文數據庫(SCIE、SSCI、CPCI-S、CPCI-SSH或WoS核心合集),而且還可以檢索WOS核心合集收錄論文發表當年或最新年份的JCR影響因子與分區,并具備第一作者與通信作者的輔助判斷能力,可以滿足用戶論文查收查引的各項檢索需求。
4 軟件的優化改進
4.1 用標題補檢漏檢非標準引用項
通過DOI號進行引文檢索,會因為引文參考文獻數據著錄不規范或者不完整,出現關鍵信息字段如DOI數據缺失、錯誤或不完整等情況而導致極少數的個別漏檢,對于漏檢的問題,本軟件再輔以標題進行二次檢索,找出存在的非標準引用項,對于非標準引用數據中沒有DOI號或DOI拼寫錯誤的其余引文數據再比對標題、作者、來源出版物、出版年甚至卷期號、頁碼等字段來進行人工甄別,便可將漏檢的引用數據補齊進來。
4.2 軟件實現了第一作者與通信作者的檢測與標注。
論文收錄與引用檢索證明已經廣泛應用于各類項目基金申報評獎、職稱評定等領域,論文作者發表的位置排序也是論文質量評估的重要指標,第一作者、共同第一作者及通信作者等排位順序一般會獲得相應的權重系數。軟件通過EI收錄數據的分析統計,可實現第一作者與通信作者的檢測與標注,對于共同第一作者,因EI數據庫不作區分與標注,EI收錄數據也沒有字段記錄共同第一作者,所以需查看論文原文,暫時無法實現,需配合人工完成。
4.3 軟件實現了斷點續傳功能
在軟件執行過程中,比如引用檢索、非標準引用檢索、檢索證明生成等階段,因網絡延時、PC故障等原因,可能會出現程序中斷現象,軟件通過記錄程序執行進程,實現了各階段中斷后可再次從中斷處繼續運行的功能。
5 結語
(1)本軟件實現了EI論文的跨庫(WOS數據庫)批量引用檢索,據文獻考查,在國內同行實屬先例。之前的EI論文,要么是不給查引用他引數據,要么就得檢索人員手動檢索。人工檢索需要逐條檢索EI論文的引用次數,再手動比對作者來排除自引得到他引次數,這樣既繁雜又重復,費時費力且容易出錯;另外又因為跨庫檢索,數據庫對數據格式的要求不同,國內相關的論文查收查引軟件也難以實現此功能,這也是檢索人員不愿意給EI論文查引用他引的原因所在。
(2)本軟件的開發,是對本人之前開發的基于VBA的WOS論文引用檢索軟件的一個補充和拓展,實現了英文科技論文三大索引(SCIE、CPCI-S和EI)數據庫引用他引的批量自動檢索,如果再配以機構知識庫的數據規范,便可實現英文論文的三大索引平臺的收錄與引用的批量自動檢索,軟件甚至實現了WOS核心合集(SCIE、SSCI、CPCI-S、CPCI-SSH)收錄論文的JCR期刊影響因子與分區的自動檢索(包括最新和當年數據),這極大地提高了檢索人員的工作效率。另外,科研論文的水平質量評估除了作者的排位(包括第一作者、共同第一作者及通信作者等)、期刊影響因子與分區(包括科睿唯安JCR影響因子與分區和中科院影響因子與分區)、高被引等指標因素外,論文的引用與他引次數的多少也是重要的評估指標,EI論文跨庫(WOS)引用他引檢索的實現完善了科研論文的質量評估。
程序今后的拓展方向是實現查收查引業務的自動化、平臺化,查收查引自動化平臺將對接校園一卡通認證系統、機構知識庫、查收查引檢索系統、電子簽章系統等。用戶通過一卡通認證登錄平臺,在平臺嵌入的機構知識庫中搜索勾選所要檢索的論文后,填寫檢索項目與需求,點擊提交檢索任務,查收查引系統可以自動掃描平臺提交的檢索任務,并完成查收查引項目檢索,直接生成電子版檢索證明文檔,用戶在平臺完成付費后便可獲得加蓋電子簽章的檢索證明。
參考文獻
[1]賀偉,劉鵬,姜旭,等.山東建筑大學學術論文被三大檢索收錄引用情況分析[J].山東建筑大學學報,2011(1):92-94.
[2]百度百科.三大檢索[EB/OL].(2023-05-30)[2023-05-19].https://baike.baidu.com/item/三大檢索/6581002.
[3]百度百科.數字對象唯一標識符[EB/OL].(2023-04-11)[2023-05-31].https://baike.baidu.com/item/數字對象唯一標識符/2820022?fr=ge_ala.
[4]曾永杰.基于VBA語言的Web of Science數據庫論文引文檢索軟件設計與實踐[J].圖書情報導刊,2023(2):53-58.
[5]高營.基于WOS API的論文自動查收查引程序設計與實現[J].圖書館研究與工作,2019(4):82-85.
[6]王學勤,郝丹,鄭菲,等.“查收查引報告自動生成系統”應用實踐研究[J].圖書情報工作,2014(16):131-137.
[7]藺梅芳,翟燕,張宇娥.應用Python語言的引文檢索自動化軟件設計與實踐[J].四川圖書館學報,2016(3):42-45.
[8]涂穎哲.論文查收查引工具軟件的設計與應用實踐[J].農業圖書情報學刊,2015(8):34-38.
[9]虞晨琳.基于Python語言的WOS引文檢索軟件設計與實現[J].新世紀圖書館,2020(11):53-56.
Design and implementation of cross database citation retrieval software for EI papers based on VBA language
Abstract: From literature research, there is a lack of relevant research on the citation of EI articles in China. The article introduces the detailed design, implementation process, and critical code of Cross Database Citation Retrieval Software for EI Papers Based on VBA Language and SeleniumBasic technology. The software fills the gap in domestic Cross Database Citation Retrieval Software for EI Papers.
Key words: paper cited reference retrieval; cited retrieval software; EI; EI reference; VBA