基于機構(gòu)知識庫成果引文分析的數(shù)字資源保障策略研究*

2022-04-24 02:02:54陳雅迪史淑英張雪蕾邵晶

大學(xué)圖書館學(xué)報 2022年2期

□陳雅迪史淑英張雪蕾邵晶

1 引言

經(jīng)過20余年的發(fā)展，多數(shù)圖書館在數(shù)字資源建設(shè)方面基本形成了自己的保障體系。在數(shù)字資源高速發(fā)展的過程中，一般會存在重采購、輕評估，重資源價值、輕使用價值等問題。如何對保障體系進行綜合評價，對現(xiàn)有體系進行微調(diào)，在經(jīng)費受限的前提下盡可能滿足讀者的需求，是現(xiàn)階段數(shù)字資源建設(shè)的重點和難點。在評估數(shù)字資源的用戶需求方面，較為傳統(tǒng)的方法是通過數(shù)據(jù)庫商提供的統(tǒng)計報表、基于網(wǎng)絡(luò)流量、反向代理等方式以分析讀者的使用情況，盡管這類方法能夠評估用戶對已購數(shù)字資源的使用偏好，但卻不能發(fā)現(xiàn)未購置數(shù)字資源中是否有用戶的核心需求，難以判斷圖書館所采購的數(shù)字資源是否保障到位。

為了全面評估用戶需求，學(xué)界提出通過引文分析來檢驗圖書館的文獻信息保障水平，聚焦用戶的研究成果，考察高頻引用數(shù)字資源的保障情況。引文模式揭示了科學(xué)知識的產(chǎn)生、驗證和交流發(fā)展的一般性規(guī)律，因此，通過引文分析，圖書館可確定用戶在科研過程必不可少的資料范圍。引文模式能夠更全面、客觀、有針對性地為館藏建設(shè)提供決策支持，其優(yōu)勢在于：(1)圖書館可針對機構(gòu)、院系、學(xué)科的特定用戶群體，開展學(xué)術(shù)成果引文分析，實現(xiàn)精準(zhǔn)文獻保障評估；(2)引文來源渠道多元化[1]，并不局限于圖書館已購館藏數(shù)字資源。因此，引文模式既可以用于衡量用戶對已購數(shù)字資源的真實需求，為未來數(shù)字資源續(xù)訂提供決策依據(jù)；也可以用于查漏補缺，發(fā)現(xiàn)讀者高頻引用但未被購買數(shù)字資源，進而調(diào)整館藏數(shù)字資源配置。

2 引文分析相關(guān)研究

引文分析的發(fā)展可劃分為四個階段：萌芽期(20世紀(jì)20-50年代)、奠定期(20世紀(jì)50-80年代)、發(fā)展期(20世紀(jì)80年代以后)和繁榮期(至今)。在引文分析的萌芽期，雖未能形成系統(tǒng)性的理論，但相關(guān)探索為后期研究展奠定了知識基礎(chǔ)[2]，如格羅斯(Gross)首次通過引文分析法確定了化學(xué)專業(yè)的常用期刊范圍，開創(chuàng)了引文分析的先河[3]。在奠定期，加菲爾德(Garfield)提出了引文索引檢索方法[4]，《科學(xué)引文索引》發(fā)布，更加完善的引文分析開始被應(yīng)用于館藏建設(shè)與評估[5]。但是在本階段，統(tǒng)計過程只能通過手工查閱，限制了引文分析的效率。在發(fā)展期階段，隨著計算機技術(shù)的發(fā)展，引文索引數(shù)據(jù)庫在線開放，參考文獻獲取效率顯著提升，同時大量引文分析研究成果涌現(xiàn)[6]。到繁榮期階段，引文數(shù)據(jù)庫不再被Web of Science壟斷[7]，Scopus、谷歌學(xué)術(shù)(Google Scholar)等多個平臺相繼出現(xiàn)，對數(shù)字資源的覆蓋范圍也更加廣泛[8]，用戶可自由檢索來自不同來源的引文數(shù)據(jù)來評估各類數(shù)字資源的引用。

雖然引文繁榮于商業(yè)領(lǐng)域，但是作為學(xué)術(shù)界科學(xué)對話的一種方法，也激發(fā)了圖書館在數(shù)字資源保障評估和數(shù)字資源建設(shè)配置等方面的研究。早在2005年，劉慶亮等就針對學(xué)位論文引文進行了數(shù)字資源保障分析[9]。之后也有不少學(xué)者采用類似方法對某一學(xué)科或某一類型文獻的引文進行分析，評估數(shù)字資源保障情況[10-14]。隨著引文分析方法逐漸被圖書館所重視，形成了以CASHL為代表的基于引文分析的數(shù)字資源評估實踐[15]。上海交通大學(xué)在通過引文分析作者引用行為的基礎(chǔ)上，探索引文分析系統(tǒng)的需求，聯(lián)合南京昆蟲軟件公司合作開發(fā)了數(shù)字資源利用績效分析平臺(ERS)，ERS系統(tǒng)被廣泛應(yīng)用于數(shù)字資源保障評估實踐[16]，這標(biāo)志著將引文分析用于數(shù)字資源保障評估形成了產(chǎn)業(yè)化。雖然基于引文分析的利用涉及到方方面面，但在自動化收割特定對象的數(shù)字資源保障情況方面尚未有系統(tǒng)解決方案，受制原因主要包括以下幾個方面：

(1)缺少精準(zhǔn)分類的數(shù)據(jù)基礎(chǔ)。在評估特定科研群體保障情況時，由于不同科研人員提交的學(xué)術(shù)成果存在機構(gòu)地址不規(guī)范、全稱縮寫不一致等問題，圖書館通常需要投入大量人力和時間，進行繁瑣而耗時的成果歸屬匹配工作，制約了引文分析開展的范圍和頻率。

(2)缺少多源數(shù)據(jù)集成機制，已有研究大多只針對特定機構(gòu)的某一個學(xué)科分析，其調(diào)查范圍局限、樣本量較少[17]，不能反映用戶信息需求的全貌；已有研究大多針對期刊層級，缺少數(shù)據(jù)庫級別統(tǒng)計，在包庫訂購模式已經(jīng)成為主流采購方式的今天，僅對期刊進行引用分析，難以為采訪決策提供直接性的依據(jù)。

(3)缺少對讀者常用數(shù)字資源的自適應(yīng)界定方法。常見的經(jīng)驗性方法，如采用對引用頻次前99種期刊計算保障率[18]，或剔除被引頻次數(shù)小于1或小于5的數(shù)字資源[19]等方式受主觀因素影響較大，不同的研究者的標(biāo)準(zhǔn)也存在差異，不利于實施推廣。也有研究采用“二八定律”或“布拉德福定律”界定常用數(shù)字資源，但實際的數(shù)據(jù)分布可能并不符合理論規(guī)律。如希爾維亞(Sylvia)在研究中發(fā)現(xiàn)，排名最高的前23%的期刊僅產(chǎn)生了66%的引用[20]；扎夫倫尼沙(Zafrunnisha)在研究中發(fā)現(xiàn)，引文的過度集中導(dǎo)致數(shù)據(jù)分布不符合布拉德福定律[21]。因此，如果直接沿用理論公式，則可能導(dǎo)致常用數(shù)字資源的估計過于狹窄或?qū)挿骸?/p>

引文分析可準(zhǔn)確評估機構(gòu)科研群體對于數(shù)字資源的使用情況，通過調(diào)整采購策略滿足各科研群體的核心需求。本文針對科研群體的引文分析研究，直接復(fù)用西安交通大學(xué)機構(gòu)知識庫中精準(zhǔn)分類到學(xué)院的研究成果數(shù)據(jù)，從期刊、數(shù)據(jù)庫維度綜合評估，全面把握校級、院級用戶的常用數(shù)字資源；在常用數(shù)字資源的界定上，采用引文曲線“肘點”作為判別依據(jù)，自適應(yīng)地確定用戶常用數(shù)字資源范圍，從而保證數(shù)字資源評估的全面性、客觀性和準(zhǔn)確性。

3 基于機構(gòu)知識庫成果引文分析的數(shù)字資源保障評估關(guān)鍵技術(shù)

3.1 運用引文分析實現(xiàn)數(shù)字資源統(tǒng)計利用的技術(shù)框架

機構(gòu)知識庫已完成了西安交通大學(xué)成果院系的歸屬分配，開展引文分析時可直接抽取院系成果數(shù)據(jù)；建立應(yīng)用程序編程接口(Application Programming Interface，API)數(shù)據(jù)通道，打通分散的異構(gòu)數(shù)據(jù)平臺，整合機構(gòu)知識庫、引文數(shù)據(jù)庫和已購數(shù)字資源目錄，形成多源數(shù)據(jù)集成分析的有效機制，并運用自適應(yīng)算法界定讀者的常用數(shù)字資源，獲得客觀性的評估結(jié)果。技術(shù)框架如圖1所示。

圖1 基于機構(gòu)知識庫的引文分析技術(shù)框架

3.2 機構(gòu)知識庫中各學(xué)院發(fā)文的引文收集過程

之所以使用機構(gòu)知識庫的成果數(shù)據(jù)進行引文分析，是因為機構(gòu)知識庫已實現(xiàn)對研究成果按署名單位歸屬到學(xué)院，能為學(xué)院級的引文分析提供精準(zhǔn)分類的數(shù)據(jù)基礎(chǔ)。借助引文數(shù)據(jù)庫的API，可實現(xiàn)機構(gòu)知識庫中各學(xué)院發(fā)文的引文收集。其具體流程如下：

(1)獲得引文數(shù)據(jù)庫的API訪問權(quán)限，根據(jù)引文數(shù)據(jù)庫的API調(diào)用規(guī)范，對機構(gòu)知識庫的研究成果建立數(shù)據(jù)訪問策略，包括對引文信息的請求方式、請求間隔控制、響應(yīng)格式處理等。

(2)通過引文數(shù)據(jù)庫的API發(fā)送數(shù)據(jù)請求，請求參數(shù)包括研究成果的識別號、請求參數(shù)；服務(wù)器經(jīng)驗證后返回對應(yīng)參考文獻。根據(jù)參考文獻入藏號，進一步利用API數(shù)據(jù)視圖，查詢參考文獻對應(yīng)的出版來源。

(3)依據(jù)機構(gòu)知識庫對研究成果的精準(zhǔn)分類，統(tǒng)計全校、各學(xué)院研究成果所引用的參考文獻的來源期刊、出版商等信息，并根據(jù)其引文曲線識別其中的常用數(shù)字資源，進一步評估已購數(shù)字資源對常用期刊、數(shù)據(jù)庫的覆蓋情況。

3.3 常用數(shù)字資源的界定方法

高需求和低需求數(shù)字資源可根據(jù)引文信息的離散分布來區(qū)分。大量研究表明，在特定領(lǐng)域中，學(xué)者對文獻的引用呈現(xiàn)出不均勻的分布規(guī)律：其“期刊-被引量”的降序排列曲線呈現(xiàn)“長尾”形態(tài)，即位于頭部的少數(shù)期刊集中了大量被引量。在經(jīng)費限制條件下，頭部高頻使用的數(shù)字資源，應(yīng)當(dāng)被甄別為常用數(shù)字資源，對其優(yōu)先保障；頻次較低、處于引文分布尾部位置的期刊應(yīng)酌情考慮。在界定常用數(shù)字資源范圍時，應(yīng)當(dāng)從引文分布實際情況出發(fā)，對引文分布中集中了高頻引用的“頭部”數(shù)字資源實現(xiàn)自適應(yīng)劃分。

引文分布曲線呈現(xiàn)為“長尾形態(tài)”，需要明確“頭部”與“尾部”的最佳分割點。如圖2，由引文曲線的形態(tài)可知，隨著排序增加，引用量先是陡峭下降，隨后平緩；其下降幅度逐漸減小，并最終趨于穩(wěn)定。因此，“頭部”與“尾部”數(shù)字資源的最佳分割點即為引文曲線降幅明顯放緩的點，即曲線的“肘點”。引文曲線的肘點可通過計算曲線相鄰兩點間夾角的最小值進行判別，該方法被稱為“肘形判據(jù)”。采用“肘形判據(jù)”界定常用數(shù)字資源范圍的步驟如下：

將某用戶群體所用數(shù)字資源按引用量降序排列，其數(shù)字資源集合為X={x1,x2，…，xn}，數(shù)字資源引用量序列為Y={y1,y2,…,yn}，數(shù)字資源排名序列為R={1,2，…，n}，假設(shè)序列Y嚴(yán)格單調(diào)遞減，由圖2可知，某點(i,yi)與相鄰兩點連線的夾角θi為：

圖2 引文曲線肘點計算示意圖(1)在本例中引文曲線在(4,y4)處取得θ的最小值，故可確定肘點為(4,y4)。

(1)

其中，

(2)

θb=arctan(yi-yi+1)

(3)

采用“肘形判據(jù)”，則Y的肘點(z,yz)應(yīng)滿足：

(4)

需要注意的是，“肘形判據(jù)”適用于嚴(yán)格單調(diào)遞減的曲線。但在實際中，存在多個數(shù)字資源具有相同引用量的情況，導(dǎo)致引文曲線呈現(xiàn)為如圖3所示的階梯形態(tài)。如果直接應(yīng)用肘形判據(jù)，則肘點計算可能會出現(xiàn)偏差。

圖3 階梯型引文曲線、改進后的引文曲線肘點判別結(jié)果對比(2)如對階梯型引文曲線直接應(yīng)用“肘型判據(jù)”，由于受到曲線階梯形態(tài)的干擾，肘點判別結(jié)果并非頭部數(shù)字資源和尾部數(shù)字資源的最佳分割點；改進后的引文曲線為嚴(yán)格單調(diào)遞減，采用“肘型判據(jù)”計算可獲得正確的結(jié)果。

(5)

求取θ最小值處的肘點(rz,yz)，則用戶所引用的前rz個數(shù)字資源就是常用數(shù)字資源C(X):

C(X)={xi,1≤i≤rz}

(6)

3.4 校級重要核心數(shù)字資源的構(gòu)建方法

為了最大限度保障學(xué)校重要核心數(shù)字資源，應(yīng)兼顧校級用戶整體的常用數(shù)字資源評估和院級常用數(shù)字資源的評估，以便將學(xué)院高頻利用的專業(yè)性數(shù)字資源納入到校級常用數(shù)字資源列表中，最終構(gòu)建出校級重要核心數(shù)字資源列表。其構(gòu)建策略如下：

(7)

4 基于機構(gòu)知識庫成果引文分析的數(shù)字資源保障評估實踐——以西安交通大學(xué)為例

4.1 校級科研成果發(fā)文的引文分析的數(shù)據(jù)模型構(gòu)建過程

以西安交通大學(xué)機構(gòu)知識庫作為學(xué)校各學(xué)院科研成果發(fā)文的信息來源，選擇2019年第一單位或第一作者單位為“西安交通大學(xué)”的學(xué)術(shù)成果。數(shù)字資源類型為期刊、會議等連續(xù)出版物(在后文統(tǒng)稱為數(shù)字資源)，共計11064條。以Scopus數(shù)據(jù)庫作為參考文獻信息的主要來源，通過API接口獲取研究成果的參考文獻信息，構(gòu)建如圖4所示的數(shù)據(jù)結(jié)構(gòu)ER模型，其過程如下：

圖4 西安交通大學(xué)機構(gòu)知識庫成果引文分析的ER模型

(1)數(shù)據(jù)導(dǎo)入。連接機構(gòu)知識庫數(shù)據(jù)庫，創(chuàng)建機構(gòu)發(fā)文數(shù)據(jù)表，其屬性包括：機構(gòu)知識庫成果ID、標(biāo)題、作者、發(fā)表時間、所屬學(xué)院、成果的SCOPUS ID。

(2)收集參考文獻數(shù)據(jù)。在Elsevier Developers中申請數(shù)據(jù)請求權(quán)限、身份標(biāo)識秘鑰API KEY。對每一條發(fā)文數(shù)據(jù)，通過GET方法向API中傳入API KEY和SCOPUS ID，選取檢索分面VIEW=REF，獲取參考文獻的SCOPUS ID。通過API接口進一步查詢參考文獻的詳細(xì)信息，獲得題名、作者、ISSN號、出版商名稱等字段并創(chuàng)建參考文獻信表。

(3)規(guī)范引文數(shù)據(jù)。由于引文數(shù)據(jù)中，同一種期刊、數(shù)據(jù)庫存在多種寫法，如ISSN號為0003021X的期刊就有三種寫法：JAOCS,JournaloftheAmericanOilChemists’Society、JournaloftheAmericanOilChemistsSociety、JournaloftheAmericanOilChemists’Society；Elsevier出版商寫法多達17種，如“Elsevier Ltd”“Elsevier Science Ltd”“Elsevier Sci LtdExeter, United Kingdom”等。不規(guī)范的寫法顯著影響后續(xù)統(tǒng)計結(jié)果，應(yīng)進行數(shù)據(jù)清洗和規(guī)范化處理：采用ISSN作為期刊唯一標(biāo)識；通過關(guān)鍵詞聚類+人工甄別，將出版商信息統(tǒng)一標(biāo)識為出版商關(guān)鍵詞Publisher，并建立出版商信息關(guān)鍵詞映射表。

(4)統(tǒng)計期刊引文頻次和數(shù)據(jù)庫利用頻次。對機構(gòu)發(fā)文數(shù)據(jù)表按照學(xué)院分組，共獲得17個學(xué)院發(fā)文數(shù)據(jù)表。將機構(gòu)發(fā)文數(shù)據(jù)表、學(xué)院發(fā)文數(shù)據(jù)表與參考文獻信息表通過SCOPUS ID連接，對參考文獻信息表中的ISSN和Publisher應(yīng)用COUNT 方法進行統(tǒng)計，獲得學(xué)校、學(xué)院對期刊的引文頻次及數(shù)據(jù)庫的利用頻次，按照引用量降序排列，建立校級、院級的期刊引用頻次統(tǒng)計表和數(shù)據(jù)庫利用頻次統(tǒng)計表。

(5)期刊與數(shù)據(jù)庫的利用分析。以學(xué)校、學(xué)院為統(tǒng)計單位，分別獲得校級和院級期刊引文曲線、數(shù)據(jù)庫利用曲線，得到全校、各學(xué)院的常用期刊和常用數(shù)據(jù)庫，然后對常用期刊、常用數(shù)據(jù)庫與已購數(shù)字資源建立關(guān)聯(lián)查詢，評估已購數(shù)字資源對常用數(shù)字資源的覆蓋情況。

4.2 常用期刊的保障分析

根據(jù)建立的校級、院級期刊引用統(tǒng)計表，分別繪制全校用戶及各學(xué)院的期刊引文曲線。如圖5所示，引文分布均呈長尾形態(tài)，但其集中程度有所不同。從實際引文分布來看，校級用戶和大部分學(xué)院的引文分布均不符合“二八分布”。當(dāng)研究范圍越廣泛時，所引用的文獻分布的集中程度越弱；當(dāng)研究范圍越集中時，所引用的文獻分布的集中程度也越強。因此，出現(xiàn)了實際的引文分布不符合理論規(guī)律的情況。因此，采用“肘型判據(jù)”區(qū)分引文曲線中的頭部數(shù)字資源、確定校級及院級的常用期刊范圍更為合理。

圖5 西安交通大學(xué)全校、各學(xué)院對期刊的引文曲線及肘點分布

通過計算肘點，將排名在肘點位置之前的期刊劃分為“全校常用期刊列表”“各學(xué)院常用期刊列表”。從常用期刊的數(shù)量來看，各學(xué)院存在明顯差異。對于電氣工程學(xué)院、材料科學(xué)與工程學(xué)院、外國語學(xué)院等學(xué)院，其引用的期刊種類相對較少，因此常用期刊的數(shù)量較少；對于醫(yī)學(xué)部、生命科學(xué)與技術(shù)學(xué)院、機械工程學(xué)院等學(xué)院，其引用的期刊種類較多，因此其常用數(shù)字資源的數(shù)量也較多。該現(xiàn)象可能與學(xué)科分支、交叉程度有關(guān)，交叉和分支越多的學(xué)院，其引用的來源期刊也越廣泛。雖然不同學(xué)院的常用數(shù)字資源數(shù)量存在差異，但其累積引用率大體相近，均位于71.82%附近。

由“全校常用期刊列表”“各學(xué)院常用期刊列表”可知，如圖6所示，有624種期刊既存在于“全校常用期刊列表”中，也存在于“各學(xué)院常用期刊列表”中。有1026種期刊存在于“各學(xué)院常用期刊列表”中，但并未被“全校常用期刊列表”包含，表明這些期刊盡管在校級用戶的期刊引用列表中排名靠后，但對特定學(xué)院科研群體不可或缺。有121種期刊存在于“全校常用期刊列表”中，但未被“各學(xué)院常用期刊列表”包含，表明這些期刊的主要用戶分散于不同學(xué)院，盡管在每個學(xué)院的期刊引用列表中其排位都不夠突出，但綜合來看，卻反映了不同學(xué)院用戶群體的共性需求。因此，在構(gòu)建“校級重要核心期刊集合”時求取并集，即1771種期刊。

圖6 西安交通大學(xué)全校常用期刊和各學(xué)院常用期刊關(guān)系

將“校級重要核心期刊集合”在圖書館已購期刊導(dǎo)航中關(guān)聯(lián)查詢，分析其保障率，計算結(jié)果如下：已購期刊對“校級重要核心期刊”的總體保障率為98.31%，各學(xué)院的保障情況如圖7所示，其中8個學(xué)院的常用期刊達到了100%保障，9個學(xué)院的常用期刊保障率超過了95%；未保障期刊的數(shù)量僅占1.69%，整體表明圖書館校級、院級的常用期刊保障充分。

圖7 西安交通大學(xué)各學(xué)院常用期刊保障情況

在未保障的期刊中，有一些是小型學(xué)協(xié)會或小語種期刊。例如APA出版的JournalofPersonalityandSocialPsychology、PsychologicalBulletin和PsychologicalMethods，均為管理學(xué)院的常用期刊。盡管其引用量在校級期刊引用統(tǒng)計表的排位相對靠后，但在管理學(xué)院的期刊引用統(tǒng)計表中排在前列。日本JAPAN Institute of Metals(JIM)出版的MaterialsTransaction,盡管不是各學(xué)院頭部引用的期刊，但在校級期刊引用統(tǒng)計表中排在前10%，體現(xiàn)了多個學(xué)院的共同需求。對于這類常用期刊，可以根據(jù)需要予以保障，例如購買紙質(zhì)期刊，或以文獻傳遞的方式進行保障。

4.3 常用數(shù)據(jù)庫的保障分析

為了確定全校、各學(xué)院的常用數(shù)據(jù)庫，首先將參考文獻歸屬到對應(yīng)的數(shù)據(jù)庫中，獲得各個數(shù)據(jù)庫的被利用頻次，按照利用頻次降序排列繪制全校、各學(xué)院對數(shù)據(jù)庫的利用頻次曲線。如圖8所示，全校數(shù)據(jù)庫利用頻次曲線呈高度集中態(tài)勢。根據(jù)引文曲線的肘點計算，發(fā)現(xiàn)其肘點位于第53個數(shù)據(jù)庫，可確定校級常用數(shù)據(jù)庫的范圍為排名前5.4%的數(shù)據(jù)庫，其提供的引用量占總量的90.54%。其中，Elsevier、IEEE、ACS、Wiley、AIP等數(shù)據(jù)庫是利用頻次最多的數(shù)據(jù)庫。通過與數(shù)據(jù)庫導(dǎo)航比對，校級常用數(shù)據(jù)庫的保障率達到了100%。

各學(xué)院的數(shù)據(jù)庫利用頻次曲線如圖8所示，經(jīng)計算，其肘點位置分布于數(shù)據(jù)庫的前6%至33%之間。相較于全校數(shù)據(jù)庫利用頻次曲線，學(xué)院的引文分布相對分散；表明校級常用數(shù)據(jù)庫的優(yōu)勢在學(xué)院細(xì)分后出現(xiàn)下降，一些在整體排位相對靠后的數(shù)據(jù)庫顯現(xiàn)出對特定學(xué)科的支撐作用。

圖8 西安交通大學(xué)全校、各學(xué)院對數(shù)據(jù)庫的利用頻次曲線及肘點分布

經(jīng)計算，學(xué)院常用的數(shù)據(jù)庫共101個。其中有30個數(shù)據(jù)庫位于校級常用數(shù)據(jù)庫的列表中。有71個數(shù)據(jù)庫雖不在全校數(shù)據(jù)庫利用頻次曲線的頭部，但卻是學(xué)院常用的數(shù)據(jù)庫。如，醫(yī)學(xué)部排名第8位的BioMed Central數(shù)據(jù)庫，在校級數(shù)據(jù)庫利用頻次排行中位于第69位；人居環(huán)境與建筑工程學(xué)院引用排名第3位的American Society of Civil Engineers(ASCE)，在校級數(shù)據(jù)庫利用頻次排行中位于第105位；管理學(xué)院引用排名第6位的American Psychological Association數(shù)據(jù)庫，在校級數(shù)據(jù)庫利用頻次排行中位于第119位。因此，僅以全校常用數(shù)據(jù)庫作為參考會忽視不同學(xué)院科研所需的特色型數(shù)據(jù)庫。

因此，基于統(tǒng)籌兼顧原則，通過對校級常用數(shù)據(jù)庫和各學(xué)院的常用數(shù)據(jù)庫求取并集，構(gòu)建“校級重要核心數(shù)據(jù)庫集合”。通過與已購數(shù)據(jù)庫目錄進行比較，分析其保障情況。經(jīng)過計算，“校級重要核心數(shù)據(jù)庫集合”的保障率為93.71%，各學(xué)院的常用數(shù)據(jù)庫保障情況如圖9所示。

圖9 西安交通大學(xué)各學(xué)院常用數(shù)據(jù)庫的保障情況

其中，10個學(xué)院的常用數(shù)據(jù)庫的保障率達到100%，7個學(xué)院的常用數(shù)據(jù)庫保障率超過85%。總體來看，對全校、各學(xué)院常用數(shù)據(jù)庫保障都處于較高水平。

對于未保障的數(shù)據(jù)庫集合進行分析，發(fā)現(xiàn)數(shù)據(jù)庫中43%的數(shù)字資源可以在Elsevier、Wiley、Springer、Taylor & Francis等數(shù)據(jù)庫中找到全文；沒有替代性全文數(shù)字資源的數(shù)據(jù)庫僅有一家，即American Psychological Association(APA)數(shù)據(jù)庫。由于該數(shù)據(jù)庫同時位于管理學(xué)院、公共政策與管理學(xué)院、外國語學(xué)院等學(xué)院的常用數(shù)據(jù)庫中，因此可考慮需求針對性采購。

5 總結(jié)與思考

5.1 利用機構(gòu)知識庫開展數(shù)字資源保障評估是一種周期短、見效快的方法

目前，數(shù)字資源保障評估的難點和痛點在于，難以掌握學(xué)院對數(shù)字資源的利用情況、發(fā)現(xiàn)未購買的潛在的專業(yè)性數(shù)字資源需求。在開展數(shù)字資源評估時，往往是對全校用戶整體發(fā)文情況分析，忽視了各學(xué)院對數(shù)字資源利用情況的不同。根據(jù)研究結(jié)果，如果僅對全校用戶整體發(fā)文進行引用分析，就會導(dǎo)致學(xué)院特有的、專業(yè)性的常用數(shù)字資源需求難以被發(fā)現(xiàn)，不能判斷學(xué)院的常用需求是否保障到位。學(xué)院發(fā)文的引文分析之所以難以開展，其根本原因在于研究成果的學(xué)院歸屬確認(rèn)需要耗費巨大工作量。研究結(jié)果表明，利用機構(gòu)知識庫開展數(shù)字資源評估是一種周期短、見效快的方法，能夠?qū)崿F(xiàn)對校級、院級常用數(shù)字資源需求的全面評估。因為機構(gòu)知識庫已經(jīng)實現(xiàn)了機構(gòu)發(fā)文可精確歸屬到所屬學(xué)院，省去了引文分析中學(xué)院歸屬的工作，因此能夠顯著提高數(shù)字資源評估分析的效率。

5.2 以“肘點”法界定常用數(shù)字資源相較“二八分布”更為客觀合理

研究結(jié)果表明，大多數(shù)學(xué)院發(fā)文對期刊的引文曲線、對數(shù)據(jù)庫的利用頻次曲線均不符合“二八分布”。因此，在確定常用數(shù)字資源范圍時，不可照搬理論公式，否則可能導(dǎo)致常用數(shù)字資源的估計范圍過大或過小。在確定常用數(shù)字資源的范圍時，應(yīng)當(dāng)采用自適應(yīng)的方法。通過“肘形判別”確定曲線“肘點”、界定常用數(shù)字資源范圍是一種行之有效的方法，對于不同文獻集中程度的曲線均具有很好的適應(yīng)性，能夠有效識別常用數(shù)字資源的范圍。

5.3 基于期刊的引文分析和數(shù)據(jù)庫的利用分析有利于重建圖書館話語權(quán)

數(shù)字資源的采購?fù)且詳?shù)據(jù)庫為單位而進行的一種大宗貨物采購，在購置之初確實極大地豐富了圖書館數(shù)字資源數(shù)量，使得用戶能夠獲取的信息內(nèi)容成倍增長。但是，隨著數(shù)字資源提供商之間的合并、重組、代理權(quán)的變更等，甚至于以盈利為目的各種資本的注入，以“數(shù)據(jù)庫”為單位的“一攬子”交易，給圖書館的經(jīng)費使用帶來了巨大的壓力，而這些“一攬子”交易中的數(shù)字資源內(nèi)容往往由數(shù)字資源提供商確定，圖書館在這個過程中話語權(quán)缺失。本研究有助于圖書館掌握每個數(shù)據(jù)庫的成本效益；有助于圖書館掌握每種期刊的使用情況，確定其中被高頻引用的常用數(shù)字資源。從而有助于重拾圖書館在采購方案制定過程中的話語權(quán)，促進圖書館支付的成本產(chǎn)生與之相匹配的科研產(chǎn)出效益。

6 結(jié)語

文章提出了基于機構(gòu)知識庫成果引文分析的實施思路，并以西安交通大學(xué)為例，評估圖書館對全校用戶及17個學(xué)院的公開發(fā)表成果所引用參考文獻的保障水平。相較于傳統(tǒng)方法，基于機構(gòu)知識庫成果引文分析方法有效提升了處理效率，有利于開展期刊級別和數(shù)據(jù)庫級別的全面分析，有助于評估機構(gòu)整體核心需求和學(xué)院特色需求。

本研究主要針對校級、院系公開發(fā)表文獻的引文數(shù)據(jù)進行分析，未對學(xué)位論文、課題申報書等其他未公開類型資料進行統(tǒng)計。未來可進一步拓寬研究對象的范圍，進行更為全面的文獻保障評估研究。此外，由于引文信息不能反映文摘型、數(shù)值型等其他非全文數(shù)據(jù)庫的被利用情況，因此，對于這類數(shù)據(jù)庫的保障評估方案還應(yīng)進行進一步的探索。