□陳雅迪 史淑英 張雪蕾 邵晶
經(jīng)過20余年的發(fā)展,多數(shù)圖書館在數(shù)字資源建設(shè)方面基本形成了自己的保障體系。在數(shù)字資源高速發(fā)展的過程中,一般會存在重采購、輕評估,重資源價值、輕使用價值等問題。如何對保障體系進行綜合評價,對現(xiàn)有體系進行微調(diào),在經(jīng)費受限的前提下盡可能滿足讀者的需求,是現(xiàn)階段數(shù)字資源建設(shè)的重點和難點。在評估數(shù)字資源的用戶需求方面,較為傳統(tǒng)的方法是通過數(shù)據(jù)庫商提供的統(tǒng)計報表、基于網(wǎng)絡(luò)流量、反向代理等方式以分析讀者的使用情況,盡管這類方法能夠評估用戶對已購數(shù)字資源的使用偏好,但卻不能發(fā)現(xiàn)未購置數(shù)字資源中是否有用戶的核心需求,難以判斷圖書館所采購的數(shù)字資源是否保障到位。
為了全面評估用戶需求,學(xué)界提出通過引文分析來檢驗圖書館的文獻信息保障水平,聚焦用戶的研究成果,考察高頻引用數(shù)字資源的保障情況。引文模式揭示了科學(xué)知識的產(chǎn)生、驗證和交流發(fā)展的一般性規(guī)律,因此,通過引文分析,圖書館可確定用戶在科研過程必不可少的資料范圍。引文模式能夠更全面、客觀、有針對性地為館藏建設(shè)提供決策支持,其優(yōu)勢在于:(1)圖書館可針對機構(gòu)、院系、學(xué)科的特定用戶群體,開展學(xué)術(shù)成果引文分析,實現(xiàn)精準(zhǔn)文獻保障評估;(2)引文來源渠道多元化[1],并不局限于圖書館已購館藏數(shù)字資源。因此,引文模式既可以用于衡量用戶對已購數(shù)字資源的真實需求,為未來數(shù)字資源續(xù)訂提供決策依據(jù);也可以用于查漏補缺,發(fā)現(xiàn)讀者高頻引用但未被購買數(shù)字資源,進而調(diào)整館藏數(shù)字資源配置。
引文分析的發(fā)展可劃分為四個階段:萌芽期(20世紀(jì)20-50年代)、奠定期(20世紀(jì)50-80年代)、發(fā)展期(20世紀(jì)80年代以后)和繁榮期(至今)。在引文分析的萌芽期,雖未能形成系統(tǒng)性的理論,但相關(guān)探索為后期研究展奠定了知識基礎(chǔ)[2],如格羅斯(Gross)首次通過引文分析法確定了化學(xué)專業(yè)的常用期刊范圍,開創(chuàng)了引文分析的先河[3]。在奠定期,加菲爾德(Garfield)提出了引文索引檢索方法[4],《科學(xué)引文索引》發(fā)布,更加完善的引文分析開始被應(yīng)用于館藏建設(shè)與評估[5]。但是在本階段,統(tǒng)計過程只能通過手工查閱,限制了引文分析的效率。在發(fā)展期階段,隨著計算機技術(shù)的發(fā)展,引文索引數(shù)據(jù)庫在線開放,參考文獻獲取效率顯著提升,同時大量引文分析研究成果涌現(xiàn)[6]。到繁榮期階段,引文數(shù)據(jù)庫不再被Web of Science壟斷[7],Scopus、谷歌學(xué)術(shù)(Google Scholar)等多個平臺相繼出現(xiàn),對數(shù)字資源的覆蓋范圍也更加廣泛[8],用戶可自由檢索來自不同來源的引文數(shù)據(jù)來評估各類數(shù)字資源的引用。
雖然引文繁榮于商業(yè)領(lǐng)域,但是作為學(xué)術(shù)界科學(xué)對話的一種方法,也激發(fā)了圖書館在數(shù)字資源保障評估和數(shù)字資源建設(shè)配置等方面的研究。早在2005年,劉慶亮等就針對學(xué)位論文引文進行了數(shù)字資源保障分析[9]。之后也有不少學(xué)者采用類似方法對某一學(xué)科或某一類型文獻的引文進行分析,評估數(shù)字資源保障情況[10-14]。隨著引文分析方法逐漸被圖書館所重視,形成了以CASHL為代表的基于引文分析的數(shù)字資源評估實踐[15]。上海交通大學(xué)在通過引文分析作者引用行為的基礎(chǔ)上,探索引文分析系統(tǒng)的需求,聯(lián)合南京昆蟲軟件公司合作開發(fā)了數(shù)字資源利用績效分析平臺(ERS),ERS系統(tǒng)被廣泛應(yīng)用于數(shù)字資源保障評估實踐[16],這標(biāo)志著將引文分析用于數(shù)字資源保障評估形成了產(chǎn)業(yè)化。雖然基于引文分析的利用涉及到方方面面,但在自動化收割特定對象的數(shù)字資源保障情況方面尚未有系統(tǒng)解決方案,受制原因主要包括以下幾個方面:
(1)缺少精準(zhǔn)分類的數(shù)據(jù)基礎(chǔ)。在評估特定科研群體保障情況時,由于不同科研人員提交的學(xué)術(shù)成果存在機構(gòu)地址不規(guī)范、全稱縮寫不一致等問題,圖書館通常需要投入大量人力和時間,進行繁瑣而耗時的成果歸屬匹配工作,制約了引文分析開展的范圍和頻率。
(2)缺少多源數(shù)據(jù)集成機制,已有研究大多只針對特定機構(gòu)的某一個學(xué)科分析,其調(diào)查范圍局限、樣本量較少[17],不能反映用戶信息需求的全貌;已有研究大多針對期刊層級,缺少數(shù)據(jù)庫級別統(tǒng)計,在包庫訂購模式已經(jīng)成為主流采購方式的今天,僅對期刊進行引用分析,難以為采訪決策提供直接性的依據(jù)。
(3)缺少對讀者常用數(shù)字資源的自適應(yīng)界定方法。常見的經(jīng)驗性方法,如采用對引用頻次前99種期刊計算保障率[18],或剔除被引頻次數(shù)小于1或小于5的數(shù)字資源[19]等方式受主觀因素影響較大,不同的研究者的標(biāo)準(zhǔn)也存在差異,不利于實施推廣。也有研究采用“二八定律”或“布拉德福定律”界定常用數(shù)字資源,但實際的數(shù)據(jù)分布可能并不符合理論規(guī)律。如希爾維亞(Sylvia)在研究中發(fā)現(xiàn),排名最高的前23%的期刊僅產(chǎn)生了66%的引用[20];扎夫倫尼沙(Zafrunnisha)在研究中發(fā)現(xiàn),引文的過度集中導(dǎo)致數(shù)據(jù)分布不符合布拉德福定律[21]。因此,如果直接沿用理論公式,則可能導(dǎo)致常用數(shù)字資源的估計過于狹窄或?qū)挿骸?/p>
引文分析可準(zhǔn)確評估機構(gòu)科研群體對于數(shù)字資源的使用情況,通過調(diào)整采購策略滿足各科研群體的核心需求。本文針對科研群體的引文分析研究,直接復(fù)用西安交通大學(xué)機構(gòu)知識庫中精準(zhǔn)分類到學(xué)院的研究成果數(shù)據(jù),從期刊、數(shù)據(jù)庫維度綜合評估,全面把握校級、院級用戶的常用數(shù)字資源;在常用數(shù)字資源的界定上,采用引文曲線“肘點”作為判別依據(jù),自適應(yīng)地確定用戶常用數(shù)字資源范圍,從而保證數(shù)字資源評估的全面性、客觀性和準(zhǔn)確性。
機構(gòu)知識庫已完成了西安交通大學(xué)成果院系的歸屬分配,開展引文分析時可直接抽取院系成果數(shù)據(jù);建立應(yīng)用程序編程接口(Application Programming Interface,API)數(shù)據(jù)通道,打通分散的異構(gòu)數(shù)據(jù)平臺,整合機構(gòu)知識庫、引文數(shù)據(jù)庫和已購數(shù)字資源目錄,形成多源數(shù)據(jù)集成分析的有效機制,并運用自適應(yīng)算法界定讀者的常用數(shù)字資源,獲得客觀性的評估結(jié)果。技術(shù)框架如圖1所示。

圖1 基于機構(gòu)知識庫的引文分析技術(shù)框架
之所以使用機構(gòu)知識庫的成果數(shù)據(jù)進行引文分析,是因為機構(gòu)知識庫已實現(xiàn)對研究成果按署名單位歸屬到學(xué)院,能為學(xué)院級的引文分析提供精準(zhǔn)分類的數(shù)據(jù)基礎(chǔ)。借助引文數(shù)據(jù)庫的API,可實現(xiàn)機構(gòu)知識庫中各學(xué)院發(fā)文的引文收集。其具體流程如下:
(1)獲得引文數(shù)據(jù)庫的API訪問權(quán)限,根據(jù)引文數(shù)據(jù)庫的API調(diào)用規(guī)范,對機構(gòu)知識庫的研究成果建立數(shù)據(jù)訪問策略,包括對引文信息的請求方式、請求間隔控制、響應(yīng)格式處理等。
(2)通過引文數(shù)據(jù)庫的API發(fā)送數(shù)據(jù)請求,請求參數(shù)包括研究成果的識別號、請求參數(shù);服務(wù)器經(jīng)驗證后返回對應(yīng)參考文獻。根據(jù)參考文獻入藏號,進一步利用API數(shù)據(jù)視圖,查詢參考文獻對應(yīng)的出版來源。
(3)依據(jù)機構(gòu)知識庫對研究成果的精準(zhǔn)分類,統(tǒng)計全校、各學(xué)院研究成果所引用的參考文獻的來源期刊、出版商等信息,并根據(jù)其引文曲線識別其中的常用數(shù)字資源,進一步評估已購數(shù)字資源對常用期刊、數(shù)據(jù)庫的覆蓋情況。
高需求和低需求數(shù)字資源可根據(jù)引文信息的離散分布來區(qū)分。大量研究表明,在特定領(lǐng)域中,學(xué)者對文獻的引用呈現(xiàn)出不均勻的分布規(guī)律:其“期刊-被引量”的降序排列曲線呈現(xiàn)“長尾”形態(tài),即位于頭部的少數(shù)期刊集中了大量被引量。在經(jīng)費限制條件下,頭部高頻使用的數(shù)字資源,應(yīng)當(dāng)被甄別為常用數(shù)字資源,對其優(yōu)先保障;頻次較低、處于引文分布尾部位置的期刊應(yīng)酌情考慮。在界定常用數(shù)字資源范圍時,應(yīng)當(dāng)從引文分布實際情況出發(fā),對引文分布中集中了高頻引用的“頭部”數(shù)字資源實現(xiàn)自適應(yīng)劃分。
引文分布曲線呈現(xiàn)為“長尾形態(tài)”,需要明確“頭部”與“尾部”的最佳分割點。如圖2,由引文曲線的形態(tài)可知,隨著排序增加,引用量先是陡峭下降,隨后平緩;其下降幅度逐漸減小,并最終趨于穩(wěn)定。因此,“頭部”與“尾部”數(shù)字資源的最佳分割點即為引文曲線降幅明顯放緩的點,即曲線的“肘點”。引文曲線的肘點可通過計算曲線相鄰兩點間夾角的最小值進行判別,該方法被稱為“肘形判據(jù)”。采用“肘形判據(jù)”界定常用數(shù)字資源范圍的步驟如下:
將某用戶群體所用數(shù)字資源按引用量降序排列,其數(shù)字資源集合為X={x1,x2,…,xn},數(shù)字資源引用量序列為Y={y1,y2,…,yn},數(shù)字資源排名序列為R={1,2,…,n},假設(shè)序列Y嚴(yán)格單調(diào)遞減,由圖2可知,某點(i,yi)與相鄰兩點連線的夾角θi為:

圖2 引文曲線肘點計算示意圖(1)在本例中引文曲線在(4,y4)處取得θ的最小值,故可確定肘點為(4,y4)。
(1)
其中,
(2)
θb=arctan(yi-yi+1)
(3)
采用“肘形判據(jù)”,則Y的肘點(z,yz)應(yīng)滿足:
(4)
需要注意的是,“肘形判據(jù)”適用于嚴(yán)格單調(diào)遞減的曲線。但在實際中,存在多個數(shù)字資源具有相同引用量的情況,導(dǎo)致引文曲線呈現(xiàn)為如圖3所示的階梯形態(tài)。如果直接應(yīng)用肘形判據(jù),則肘點計算可能會出現(xiàn)偏差。

圖3 階梯型引文曲線、改進后的引文曲線肘點判別結(jié)果對比(2)如對階梯型引文曲線直接應(yīng)用“肘型判據(jù)”,由于受到曲線階梯形態(tài)的干擾,肘點判別結(jié)果并非頭部數(shù)字資源和尾部數(shù)字資源的最佳分割點;改進后的引文曲線為嚴(yán)格單調(diào)遞減,采用“肘型判據(jù)”計算可獲得正確的結(jié)果。

(5)
求取θ最小值處的肘點(rz,yz),則用戶所引用的前rz個數(shù)字資源就是常用數(shù)字資源C(X):
C(X)={xi,1≤i≤rz}
(6)
為了最大限度保障學(xué)校重要核心數(shù)字資源,應(yīng)兼顧校級用戶整體的常用數(shù)字資源評估和院級常用數(shù)字資源的評估,以便將學(xué)院高頻利用的專業(yè)性數(shù)字資源納入到校級常用數(shù)字資源列表中,最終構(gòu)建出校級重要核心數(shù)字資源列表。其構(gòu)建策略如下:

(7)
以西安交通大學(xué)機構(gòu)知識庫作為學(xué)校各學(xué)院科研成果發(fā)文的信息來源,選擇2019年第一單位或第一作者單位為“西安交通大學(xué)”的學(xué)術(shù)成果。數(shù)字資源類型為期刊、會議等連續(xù)出版物(在后文統(tǒng)稱為數(shù)字資源),共計11064條。以Scopus數(shù)據(jù)庫作為參考文獻信息的主要來源,通過API接口獲取研究成果的參考文獻信息,構(gòu)建如圖4所示的數(shù)據(jù)結(jié)構(gòu)ER模型,其過程如下:

圖4 西安交通大學(xué)機構(gòu)知識庫成果引文分析的ER模型
(1)數(shù)據(jù)導(dǎo)入。連接機構(gòu)知識庫數(shù)據(jù)庫,創(chuàng)建機構(gòu)發(fā)文數(shù)據(jù)表,其屬性包括:機構(gòu)知識庫成果ID、標(biāo)題、作者、發(fā)表時間、所屬學(xué)院、成果的SCOPUS ID。
(2)收集參考文獻數(shù)據(jù)。在Elsevier Developers中申請數(shù)據(jù)請求權(quán)限、身份標(biāo)識秘鑰API KEY。對每一條發(fā)文數(shù)據(jù),通過GET方法向API中傳入API KEY和SCOPUS ID,選取檢索分面VIEW=REF,獲取參考文獻的SCOPUS ID。通過API接口進一步查詢參考文獻的詳細(xì)信息,獲得題名、作者、ISSN號、出版商名稱等字段并創(chuàng)建參考文獻信表。
(3)規(guī)范引文數(shù)據(jù)。由于引文數(shù)據(jù)中,同一種期刊、數(shù)據(jù)庫存在多種寫法,如ISSN號為0003021X的期刊就有三種寫法:JAOCS,JournaloftheAmericanOilChemists’Society、JournaloftheAmericanOilChemistsSociety、JournaloftheAmericanOilChemists’Society;Elsevier出版商寫法多達17種,如“Elsevier Ltd”“Elsevier Science Ltd”“Elsevier Sci LtdExeter, United Kingdom”等。不規(guī)范的寫法顯著影響后續(xù)統(tǒng)計結(jié)果,應(yīng)進行數(shù)據(jù)清洗和規(guī)范化處理:采用ISSN作為期刊唯一標(biāo)識;通過關(guān)鍵詞聚類+人工甄別,將出版商信息統(tǒng)一標(biāo)識為出版商關(guān)鍵詞Publisher,并建立出版商信息關(guān)鍵詞映射表。
(4)統(tǒng)計期刊引文頻次和數(shù)據(jù)庫利用頻次。對機構(gòu)發(fā)文數(shù)據(jù)表按照學(xué)院分組,共獲得17個學(xué)院發(fā)文數(shù)據(jù)表。將機構(gòu)發(fā)文數(shù)據(jù)表、學(xué)院發(fā)文數(shù)據(jù)表與參考文獻信息表通過SCOPUS ID連接,對參考文獻信息表中的ISSN和Publisher應(yīng)用COUNT 方法進行統(tǒng)計,獲得學(xué)校、學(xué)院對期刊的引文頻次及數(shù)據(jù)庫的利用頻次,按照引用量降序排列,建立校級、院級的期刊引用頻次統(tǒng)計表和數(shù)據(jù)庫利用頻次統(tǒng)計表。
(5)期刊與數(shù)據(jù)庫的利用分析。以學(xué)校、學(xué)院為統(tǒng)計單位,分別獲得校級和院級期刊引文曲線、數(shù)據(jù)庫利用曲線,得到全校、各學(xué)院的常用期刊和常用數(shù)據(jù)庫,然后對常用期刊、常用數(shù)據(jù)庫與已購數(shù)字資源建立關(guān)聯(lián)查詢,評估已購數(shù)字資源對常用數(shù)字資源的覆蓋情況。
根據(jù)建立的校級、院級期刊引用統(tǒng)計表,分別繪制全校用戶及各學(xué)院的期刊引文曲線。如圖5所示,引文分布均呈長尾形態(tài),但其集中程度有所不同。從實際引文分布來看,校級用戶和大部分學(xué)院的引文分布均不符合“二八分布”。當(dāng)研究范圍越廣泛時,所引用的文獻分布的集中程度越弱;當(dāng)研究范圍越集中時,所引用的文獻分布的集中程度也越強。因此,出現(xiàn)了實際的引文分布不符合理論規(guī)律的情況。因此,采用“肘型判據(jù)”區(qū)分引文曲線中的頭部數(shù)字資源、確定校級及院級的常用期刊范圍更為合理。

圖5 西安交通大學(xué)全校、各學(xué)院對期刊的引文曲線及肘點分布
通過計算肘點,將排名在肘點位置之前的期刊劃分為“全校常用期刊列表”“各學(xué)院常用期刊列表”。從常用期刊的數(shù)量來看,各學(xué)院存在明顯差異。對于電氣工程學(xué)院、材料科學(xué)與工程學(xué)院、外國語學(xué)院等學(xué)院,其引用的期刊種類相對較少,因此常用期刊的數(shù)量較少;對于醫(yī)學(xué)部、生命科學(xué)與技術(shù)學(xué)院、機械工程學(xué)院等學(xué)院,其引用的期刊種類較多,因此其常用數(shù)字資源的數(shù)量也較多。該現(xiàn)象可能與學(xué)科分支、交叉程度有關(guān),交叉和分支越多的學(xué)院,其引用的來源期刊也越廣泛。雖然不同學(xué)院的常用數(shù)字資源數(shù)量存在差異,但其累積引用率大體相近,均位于71.82%附近。
由“全校常用期刊列表”“各學(xué)院常用期刊列表”可知,如圖6所示,有624種期刊既存在于“全校常用期刊列表”中,也存在于“各學(xué)院常用期刊列表”中。有1026種期刊存在于“各學(xué)院常用期刊列表”中,但并未被“全校常用期刊列表”包含,表明這些期刊盡管在校級用戶的期刊引用列表中排名靠后,但對特定學(xué)院科研群體不可或缺。有121種期刊存在于“全校常用期刊列表”中,但未被“各學(xué)院常用期刊列表”包含,表明這些期刊的主要用戶分散于不同學(xué)院,盡管在每個學(xué)院的期刊引用列表中其排位都不夠突出,但綜合來看,卻反映了不同學(xué)院用戶群體的共性需求。因此,在構(gòu)建“校級重要核心期刊集合”時求取并集,即1771種期刊。

圖6 西安交通大學(xué)全校常用期刊和各學(xué)院常用期刊關(guān)系
將“校級重要核心期刊集合”在圖書館已購期刊導(dǎo)航中關(guān)聯(lián)查詢,分析其保障率,計算結(jié)果如下:已購期刊對“校級重要核心期刊”的總體保障率為98.31%,各學(xué)院的保障情況如圖7所示,其中8個學(xué)院的常用期刊達到了100%保障,9個學(xué)院的常用期刊保障率超過了95%;未保障期刊的數(shù)量僅占1.69%,整體表明圖書館校級、院級的常用期刊保障充分。

圖7 西安交通大學(xué)各學(xué)院常用期刊保障情況
在未保障的期刊中,有一些是小型學(xué)協(xié)會或小語種期刊。例如APA出版的JournalofPersonalityandSocialPsychology、PsychologicalBulletin和PsychologicalMethods,均為管理學(xué)院的常用期刊。盡管其引用量在校級期刊引用統(tǒng)計表的排位相對靠后,但在管理學(xué)院的期刊引用統(tǒng)計表中排在前列。日本JAPAN Institute of Metals(JIM)出版的MaterialsTransaction,盡管不是各學(xué)院頭部引用的期刊,但在校級期刊引用統(tǒng)計表中排在前10%,體現(xiàn)了多個學(xué)院的共同需求。對于這類常用期刊,可以根據(jù)需要予以保障,例如購買紙質(zhì)期刊,或以文獻傳遞的方式進行保障。
為了確定全校、各學(xué)院的常用數(shù)據(jù)庫,首先將參考文獻歸屬到對應(yīng)的數(shù)據(jù)庫中,獲得各個數(shù)據(jù)庫的被利用頻次,按照利用頻次降序排列繪制全校、各學(xué)院對數(shù)據(jù)庫的利用頻次曲線。如圖8所示,全校數(shù)據(jù)庫利用頻次曲線呈高度集中態(tài)勢。根據(jù)引文曲線的肘點計算,發(fā)現(xiàn)其肘點位于第53個數(shù)據(jù)庫,可確定校級常用數(shù)據(jù)庫的范圍為排名前5.4%的數(shù)據(jù)庫,其提供的引用量占總量的90.54%。其中,Elsevier、IEEE、ACS、Wiley、AIP等數(shù)據(jù)庫是利用頻次最多的數(shù)據(jù)庫。通過與數(shù)據(jù)庫導(dǎo)航比對,校級常用數(shù)據(jù)庫的保障率達到了100%。
各學(xué)院的數(shù)據(jù)庫利用頻次曲線如圖8所示,經(jīng)計算,其肘點位置分布于數(shù)據(jù)庫的前6%至33%之間。相較于全校數(shù)據(jù)庫利用頻次曲線,學(xué)院的引文分布相對分散;表明校級常用數(shù)據(jù)庫的優(yōu)勢在學(xué)院細(xì)分后出現(xiàn)下降,一些在整體排位相對靠后的數(shù)據(jù)庫顯現(xiàn)出對特定學(xué)科的支撐作用。

圖8 西安交通大學(xué)全校、各學(xué)院對數(shù)據(jù)庫的利用頻次曲線及肘點分布
經(jīng)計算,學(xué)院常用的數(shù)據(jù)庫共101個。其中有30個數(shù)據(jù)庫位于校級常用數(shù)據(jù)庫的列表中。有71個數(shù)據(jù)庫雖不在全校數(shù)據(jù)庫利用頻次曲線的頭部,但卻是學(xué)院常用的數(shù)據(jù)庫。如,醫(yī)學(xué)部排名第8位的BioMed Central數(shù)據(jù)庫,在校級數(shù)據(jù)庫利用頻次排行中位于第69位;人居環(huán)境與建筑工程學(xué)院引用排名第3位的American Society of Civil Engineers(ASCE),在校級數(shù)據(jù)庫利用頻次排行中位于第105位;管理學(xué)院引用排名第6位的American Psychological Association數(shù)據(jù)庫,在校級數(shù)據(jù)庫利用頻次排行中位于第119位。因此,僅以全校常用數(shù)據(jù)庫作為參考會忽視不同學(xué)院科研所需的特色型數(shù)據(jù)庫。
因此,基于統(tǒng)籌兼顧原則,通過對校級常用數(shù)據(jù)庫和各學(xué)院的常用數(shù)據(jù)庫求取并集,構(gòu)建“校級重要核心數(shù)據(jù)庫集合”。通過與已購數(shù)據(jù)庫目錄進行比較,分析其保障情況。經(jīng)過計算,“校級重要核心數(shù)據(jù)庫集合”的保障率為93.71%,各學(xué)院的常用數(shù)據(jù)庫保障情況如圖9所示。

圖9 西安交通大學(xué)各學(xué)院常用數(shù)據(jù)庫的保障情況
其中,10個學(xué)院的常用數(shù)據(jù)庫的保障率達到100%,7個學(xué)院的常用數(shù)據(jù)庫保障率超過85%。總體來看,對全校、各學(xué)院常用數(shù)據(jù)庫保障都處于較高水平。
對于未保障的數(shù)據(jù)庫集合進行分析,發(fā)現(xiàn)數(shù)據(jù)庫中43%的數(shù)字資源可以在Elsevier、Wiley、Springer、Taylor & Francis等數(shù)據(jù)庫中找到全文;沒有替代性全文數(shù)字資源的數(shù)據(jù)庫僅有一家,即American Psychological Association(APA)數(shù)據(jù)庫。由于該數(shù)據(jù)庫同時位于管理學(xué)院、公共政策與管理學(xué)院、外國語學(xué)院等學(xué)院的常用數(shù)據(jù)庫中,因此可考慮需求針對性采購。
目前,數(shù)字資源保障評估的難點和痛點在于,難以掌握學(xué)院對數(shù)字資源的利用情況、發(fā)現(xiàn)未購買的潛在的專業(yè)性數(shù)字資源需求。在開展數(shù)字資源評估時,往往是對全校用戶整體發(fā)文情況分析,忽視了各學(xué)院對數(shù)字資源利用情況的不同。根據(jù)研究結(jié)果,如果僅對全校用戶整體發(fā)文進行引用分析,就會導(dǎo)致學(xué)院特有的、專業(yè)性的常用數(shù)字資源需求難以被發(fā)現(xiàn),不能判斷學(xué)院的常用需求是否保障到位。學(xué)院發(fā)文的引文分析之所以難以開展,其根本原因在于研究成果的學(xué)院歸屬確認(rèn)需要耗費巨大工作量。研究結(jié)果表明,利用機構(gòu)知識庫開展數(shù)字資源評估是一種周期短、見效快的方法,能夠?qū)崿F(xiàn)對校級、院級常用數(shù)字資源需求的全面評估。因為機構(gòu)知識庫已經(jīng)實現(xiàn)了機構(gòu)發(fā)文可精確歸屬到所屬學(xué)院,省去了引文分析中學(xué)院歸屬的工作,因此能夠顯著提高數(shù)字資源評估分析的效率。
研究結(jié)果表明,大多數(shù)學(xué)院發(fā)文對期刊的引文曲線、對數(shù)據(jù)庫的利用頻次曲線均不符合“二八分布”。因此,在確定常用數(shù)字資源范圍時,不可照搬理論公式,否則可能導(dǎo)致常用數(shù)字資源的估計范圍過大或過小。在確定常用數(shù)字資源的范圍時,應(yīng)當(dāng)采用自適應(yīng)的方法。通過“肘形判別”確定曲線“肘點”、界定常用數(shù)字資源范圍是一種行之有效的方法,對于不同文獻集中程度的曲線均具有很好的適應(yīng)性,能夠有效識別常用數(shù)字資源的范圍。
數(shù)字資源的采購?fù)且詳?shù)據(jù)庫為單位而進行的一種大宗貨物采購,在購置之初確實極大地豐富了圖書館數(shù)字資源數(shù)量,使得用戶能夠獲取的信息內(nèi)容成倍增長。但是,隨著數(shù)字資源提供商之間的合并、重組、代理權(quán)的變更等,甚至于以盈利為目的各種資本的注入,以“數(shù)據(jù)庫”為單位的“一攬子”交易,給圖書館的經(jīng)費使用帶來了巨大的壓力,而這些“一攬子”交易中的數(shù)字資源內(nèi)容往往由數(shù)字資源提供商確定,圖書館在這個過程中話語權(quán)缺失。本研究有助于圖書館掌握每個數(shù)據(jù)庫的成本效益;有助于圖書館掌握每種期刊的使用情況,確定其中被高頻引用的常用數(shù)字資源。從而有助于重拾圖書館在采購方案制定過程中的話語權(quán),促進圖書館支付的成本產(chǎn)生與之相匹配的科研產(chǎn)出效益。
文章提出了基于機構(gòu)知識庫成果引文分析的實施思路,并以西安交通大學(xué)為例,評估圖書館對全校用戶及17個學(xué)院的公開發(fā)表成果所引用參考文獻的保障水平。相較于傳統(tǒng)方法,基于機構(gòu)知識庫成果引文分析方法有效提升了處理效率,有利于開展期刊級別和數(shù)據(jù)庫級別的全面分析,有助于評估機構(gòu)整體核心需求和學(xué)院特色需求。
本研究主要針對校級、院系公開發(fā)表文獻的引文數(shù)據(jù)進行分析,未對學(xué)位論文、課題申報書等其他未公開類型資料進行統(tǒng)計。未來可進一步拓寬研究對象的范圍,進行更為全面的文獻保障評估研究。此外,由于引文信息不能反映文摘型、數(shù)值型等其他非全文數(shù)據(jù)庫的被利用情況,因此,對于這類數(shù)據(jù)庫的保障評估方案還應(yīng)進行進一步的探索。