


摘? 要:為研究高校各二級單位對ESI某學科的貢獻度,需對近十年來SCI和SSCIS收錄論文(Article和Review)的地址字段信息進行自動化分析處理,以統計各學院機構的發文及被引頻次情況。文章提出了一種基于Matlab的WOS地址字段提取與分析方法,可以高效快速地地檢索WOS地址字段,篩選屬于本校的地址字段,從中提取論文所屬的二級單位英文名稱并匹配所屬首單位,進而分析計算各二級單位在不同學科下的論文貢獻度。
關鍵詞:ESI;Matlab;WOS地址字段
中圖分類號:TP311 文獻標識碼:A 文章編號:2096-4706(2021)17-0065-04
Abstract: In order to study the contribution of each secondary unit in colleges to a discipline of ESI, it is necessary to automatically analyze and process the address field information of papers included in SCI and SSCIS (Article and Review) in recent ten years, so as to make statistics on the document issuance and citation frequency of colleges and institutions. This paper proposes a WOS address field extraction and analysis method based on Matlab, which can efficiently and quickly retrieve the WOS address field, screen the address field belonging to the college, extract the English name of the secondary unit to which the paper belongs and match the first unit, and then analyze and calculate the paper contribution of each secondary unit in different disciplines.
Keywords: ESI; Matlab; WOS address field
0? 引? 言
WOS(Web of Science)是美國科學情報研究(ISI)于1997年推出的基于網絡的引文索引數據庫,它將SCI、SSCI、AHCL這3個引文數據庫集成在1個平臺上,具備多數據庫同時檢索的功能[1]。ESI(Essential Science Indicator)又稱為基本科學指標數據庫,是科睿唯安公司推出的對科研機構研究成果及學科發展態勢定量分析和評價的工具,也是“雙一流”建設中對一流學科評價的極為重要的參考依據[2]。
ESI和WOS數據庫是衡量科學研究績效,跟蹤科學發展趨勢,評價高校、學術機構、國家/地區國際學術水平及影響力的重要評價工具[3],目前國內各高校都將學科是否進入ESI全球前1%以及ESI高被引論文的數量作為衡量高校學科發展的重要指標。高校圖書館是學校的學術性服務機構,為ESI學科建設服務已成為當前各高校圖書館發展的重要任務和研究課題[4]。
為了統計分析高校各二級單位在不同學科下的ESI發文總數及總被引頻次數據,本文利用WOS數據庫中的ESI期刊,選用近十年來Article和Review的論文,選取論文的地址字段作為分析的對象。從WOS數據庫下載的論文信息的地址字段中包含作者姓名、學校英文縮寫名稱、學院機構英文名稱等信息,為了準確快速地獲取論文所屬首機構的信息,需要對WOS地址字段進行數據清洗,檢索匹配提取,進而分析計算各學院機構在不同學科下論文貢獻度。何春建提出了一種從WOS地址字段提取二級機構數據的半自動數據清洗方法[5],劉賢玉介紹了利用WOS快速統計學校(學院)論文的技巧[6],謝群提出了一種在WOS中準確進行中文機構檢索的方法[7]。為了保證數據的準確性,通常都是人工進行數據統計分析,但是工作量十分繁瑣,工作效率極低;而上述提及的半自動清洗方法雖然提高了工作效率,但準確性較差。為了減少在數據處理過程中出現的人工誤差并且提高工作效率,本文設計實現了一種基于MATLAB的WOS地址字段數據提取與分析方法(MW),可以快速高效的對大量論文的WOS地址字段數進行讀取、檢索匹配、分割提取、去重合并及計算分析,大大方便了日常工作。
1? MW方法介紹
1.1? 函數表達
在本文中,主要利用了MATLAB的xlsread、writetable函數對文檔進行讀寫操作,strcmp、strfind函數對數據進行檢索匹配,regexp(A, a,' split')正則表達式對數據進行分割提取,unique、strcat函數對數據進行去重合并,.etc最后對得到的數據進行分析計算。
1.2? 程序設計思路
首先讀取包含本校近十年來SCI和SSCI(Article和Review)論文的Excel文檔,該文檔中的論文信息不包含地址字段信息,因此需要根據論文的WOS號從WOS數據庫下載的論文信息中檢索匹配提取對應的地址字段信息,再截取地址字段信息中所需的學校縮寫名稱及學院機構英文名稱形成新的地址字段信息,按截取順序為其標序。在查詢過程中發現有地址缺省的情況,對該種情況的論文進行人工查詢,并將該篇論文的WOS號與其屬于本校的首機構及序號信息一一對應,記錄存儲成如表1所示形式的“WOS號對應表.xlsx”Excel文檔,以便以后查詢。
由于漢語拼音的因素帶來英譯重名及別稱、俗稱等情況[4],有的存在英文字符拼寫錯誤的情況,學校縮寫英文名稱存在多種形式,本文統計的形式就有12種,將其匯總在如表2所示的“school.xlsx”Excel文檔中,使用~ isempty(strfind(raw1, school))函數篩選屬于本校的地址字段信息及序號。
由于各學院機構和其包含的眾多下屬院系及機構存在眾多英文名稱,且存在英文字符拼寫錯誤的情況,為了匹配篩選后屬于本校的地址字段信息中包含的學院機構英文名稱對應的中文學院機構名稱,圖書館信息戰略研究部的工作人員通過平時的積累記錄形成了如表3所示形式的“學院機構匹配表.xlsx”excel文檔(目前統計記錄了31個學院機構)。
然后對篩選后得到的屬于本校的地址字段信息進行處理,該地址字段信息包含需要查詢的學院機構英文名稱,通過isempty()函數從學院機構匹配表中檢索匹配得到該篇論文所屬的學院機構中文名稱及其序號。針對一篇論文存在多個所屬學院機構的問題,根據機構序號提取該篇論文的首學院機構信息,最后根據“Timesited”字段計算得到各學院機構的論文貢獻度,將處理后的EXCEL文檔輸出并繪制相關餅狀圖。
程序設計流程圖如圖1所示。
2? MW方法設計
2.1? 文檔讀寫模塊
使用xlsread函數對待處理的EXCEL文檔進行讀操作:
[~,~,raw1]=xlsread(filename1);
使用cell2table函數將數據轉化為表格形式,再使用Writetable函數將處理后的數據輸出為EXCEL文檔:
T=cell2table(raw1);
Writetable(T,filename1,'WriteVariableNames',false)
2.2? 數據檢索匹配分割提取模塊
為了獲取本校近十年來SCI和SSCI(Article和Review)論文所屬的學院機構信息,需獲取地址字段信息,地址字段信息中包含該篇論文的學院機構英文名稱。但是本校近十年來SCI和SSCI論文文檔中的論文信息不包含地址字段信息,因此需要首先通過strcmp函數從WOS數據庫下載的論文庫中檢索匹配論文的WOS號,根據WOS號一一對應提取出對應的地址字段,再通過strfind函數及regexp(A,a,'split')正則表達式分割提取得到的地址字段,截取所需的學校縮寫名稱及學院機構英文名稱形成新的地址字段信息,并按截取順序為其標序,那么A論文的地址字段截取成以下三段:1.[Nanjing Univ Sci & Technol, Sch Chem Engn];2.[Beijing Jiaotong Univ, Minist Educ, Key Lab Luminescence & Opt Informat];3.[Nanjing Univ Sci & Technol, MIIT Key Lab Adv Solid Laser]。該模塊的核心代碼由以下程序實現:
#檢索匹配提取地址字段信息
If ( strcmp (raw1 {row_j , col1}, raw2{row_i , col2}))
test (row_j , 1) = row_j;
test (row_j , 2) = row_i;
raw1 {row_j, col1} = raw2{row_i , col2};
#分割地址
Address = regexp ( raw1{ row_j , col1 }, '; [', 'split' );#分割從WOS庫中檢索得到的地址字段
count = size (Address , 2);#分割的段數即總的通訊地址數
disp ( ['通訊地址數量:' , num2str ( count ) ]);
#對每個段進行分割
提取并形成新的地址字段添加到raw1中
if ~isempty(strfind(Address{1,y},'] '))
address=regexp(Address{1,y}, '] ', 'split');
raw1{row_j,col+y+1}= address{1,2};
else
raw1{row_j,col+y+1}=Address{1,y};
end
#通訊地址的序號
raw1{1,col+y+1}=y;
end
2.3? 查詢去重合并模塊
首先通過isempty()及strfind()函數對截取的每一段地址字段信息進行篩選,得到屬于本校的地址字段信息及序號。A論文屬于本校的地址字段信息及序號為:1.[Nanjing Univ Sci & Technol, Sch Chem Engn];3.[Nanjing Univ Sci & Technol, MIIT Key Lab Adv Solid Laser]。然后讀取學院機構匹配表的excel文檔,使用isempty()及strfind()函數對地址字段中的學院機構英文名稱逐一查詢,檢索到匹配項則返回該論文所屬的學院機構中文名稱及其序號,由于有的地址字段包含多個學院機構英文名稱,返回的學院機構數據存在重復的情況,因此再使用unique()、strcat()函數對程序返回的學院機構數據進行去重合并操作,得到每篇論文所屬的學院機構中文名稱及序號,A論文的所屬學院機構為[化工學院1,電子工程與光電技術學院3]。最后,使用writetable函數,將待查論文的所屬學院機構信息數據輸出成excel文檔形式,該模塊的核心代碼由以下程序實現:
#篩選獲取屬于本校的地址字段信息
If ~isempty(strfind(raw1{row_j,col+y+1},school{1,s}))
#查詢所屬學院機構
If ~isempty(strfind(raw1{row_j,col+y+1},raw4{1,i}))
if isempty(raw1{row_j,raw1_col+y})
raw1{row_j,raw1_col+y}=
string([raw4{2,i},num2str(y)]);
else
raw1{row_j,raw1_col+y}=[raw1{row_j,raw1_col+y},string([raw4{2,i},num2str(y)])];
end
#去重及合并
raw1{I ,raw1_col+j}=unique
(raw1{i ,raw1_col+j});
count =size(raw1{i ,raw1_col+j},2);
if count >1
for c=2: count
raw1{i,raw1_col+j}(1)=strcat(raw1{i,
raw1_col+j}(1),',',raw1{i,raw1_col+j}(c));
end
raw1{i,raw1_col+j}=raw1{i,raw1_col+j}(1);
end
if ~isempty(raw1{i ,raw1_col+j})
raw1{i ,col1}=strcat(raw1{i,col1},',',
raw1{i,raw1_col+j});
end
2.4? 提取首學院機構模塊
由于一篇論文可能存在多個通訊地址的情況,為了便于統計,本文選用論文所屬的首機構信息作為統計各二級機構在不同學科下論文貢獻度的標準。在3.2節中已經獲取了本校近十年來SCI和SSCI(Article和Review)論文所屬的機構信息及序號信息。
在本節中,首先通過isempty()函數獲得每篇論文通訊地址中所有機構字段的序號,再通過regexp(A,a,'split')正則表達式分割提取得到首機構序號,最后得到每篇論文所屬的首機構信息,A論文的所屬首機構為化工學院。該模塊的核心代碼由以下程序實現:
#獲取所有學院機構字段的序號
if ~isempty(txt1{i,j})
raw1{i ,col1}=strcat(raw1{i,col1},',',
num2str(raw1{1,j}));
end
#分割提取首序號
if ~isempty(strfind(raw1{I ,col1},','))
address = regexp(raw1{i, col1}, ',', 'split');
raw1{i,col1}=address{1,1};
end
2.5? 學科劃分模塊
為了模擬本校各二級單位在不同學科下的ESI發文總數及總被引頻次數據,需要將近十年來WOS數據庫中的ESI期刊論文(僅選取Article 和 Review)按學科進行劃分(ESI下設22個學科),使用strcmp函數將3.4節獲取的raw1中存儲的數據信息按學科進行劃分,得到22個學科每個學科下的各機構發表的論文信息。該模塊的核心代碼由以下程序實現:
#按22個學科進行劃分
j =2;
for i =2:row
if strcmp(raw1{i , Area_col1},'subject')
raw3(j,:)=raw1(i ,:);
j=j+1;
end
end
2.6? 數據計算分析模塊
若該篇論文的首機構數目為n,引用次數為m,則每個首機構的該篇論文被引頻次為m/n,該篇論文的占比為1/n。
最后計算每個學科下各二級單位的論文數N,被引頻次M(N篇論文的引用次數和),得到篇均被引頻次M/N。
本節以某學科為例,用表格和餅狀圖的形式分別直觀的展示不同二級單位在論文數貢獻度以及被引頻次貢獻度情況,如表4、圖2、圖3所示。
3? 結? 論
隨著“雙一流”建設步伐的加速,各高校對ESI學科建設日益重視。圖書館可通過模擬分析研究本校各學院機構對ESI不同學科的論文貢獻度,作為評估學院及學校教師科研水平的重要指標,對學校潛力學科的挖掘及學院自身學術科研水平的發展有很大的指導意義。
本文主要設計實現了一種基于MATLAB的WOS地址字段數據提取與分析方法,通過分析本校各二級單位在ESI不同學科下的發表論文數貢獻度及被引頻次貢獻度,以圖表形式對比展示,了解某ESI潛力學科在不同二級單位的科研產出情況。
參考文獻:
[1] 桑萊絲.SCI論文在科研水平評價中的地位和作用 [J].統計與決策,2007(15):59-60.
[2] 張寧,梁盟.高校圖書館服務ESI潛力學科建設探索——以山東農業大學圖書館為例 [J].圖書館學刊,2021,43(5):55-59.
[3] 畢玲玲,孫海燕,李延剛,等.基于ESI和InCites的高校潛力學科發展預測——以中國海洋大學為例 [J].內蒙古科技與經濟,2021(12):113-116.
[4] 劉勇.“雙一流”建設背景下高校圖書館服務ESI學科建設的內容與策略 [J].圖書情報工作,2017,61(9):53-58.
[5] 何春建.從WOS地址字段提取二級機構數據的半自動數據清洗方法 [J].新世紀圖書館,2017(8):56-58+70.
[6] 劉賢玉,周小東.基于WebofScience快速統計學校(學院)論文的技巧 [J].圖書情報工作,2013,57(S2):210-212+207.
[7] 謝群.在WebofScience中準確進行中文機構檢索的方法研究 [J].圖書館論壇,2011,31(1):155-157+154.
作者簡介:顏斌(1996.02—),女,漢族,江蘇省淮安人,助理館員,碩士研究生,研究方向:圖書館、計算機。