趙曉黎 孫濟(jì)慶 李楠



〔摘要〕本文從數(shù)字出版和知識服務(wù)技術(shù)的角度,對中外文獻(xiàn)數(shù)據(jù)庫進(jìn)行比較分析,發(fā)現(xiàn)由于發(fā)展歷程不同,導(dǎo)致中外文獻(xiàn)數(shù)據(jù)庫的特征形式不同,在資源和知識服務(wù)方面存在差異。
〔關(guān)鍵詞〕中外文獻(xiàn)數(shù)據(jù)庫;文獻(xiàn)資源;知識服務(wù);技術(shù)服務(wù)
DOI:10.3969/j.issn.1008-0821.2016.08.001
〔中圖分類號〕G25074〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2016)08-0003-07
〔Abstract〕This article compared and analysed the literature databases at home and abroad from the perspective of digital publishing and technology service.It was found that as the development history of the databases were different,the characteristics of Chinese and foreign literature database were different either.So there were differences in resources and knowledge service.
〔Key words〕chinese and foreign literature database;literature resources;knowledge service;technology service
對文獻(xiàn)數(shù)據(jù)庫的研究是專業(yè)領(lǐng)域關(guān)注的重點(diǎn)之一,其研究主要探討數(shù)據(jù)庫的檢索功能、資源收錄情況、檢索效率與服務(wù)功能[1-5]。而文獻(xiàn)數(shù)據(jù)庫作為數(shù)字出版的具體產(chǎn)品形態(tài)之一,還缺乏從其原始出版的角度對其進(jìn)行探究。本文擬以中外科技文獻(xiàn)全文數(shù)據(jù)庫為研究對象,選取國外SpringerLink數(shù)據(jù)庫和ScienceDirect數(shù)據(jù)庫,以及國內(nèi)使用較為廣泛的萬方數(shù)據(jù)庫和維普數(shù)據(jù)庫,以數(shù)字出版為視角,探析中外科技期刊全文數(shù)據(jù)庫資源的差異;通過研究對比知識服務(wù)技術(shù)方面的不同,探索技術(shù)應(yīng)用前景;為相關(guān)領(lǐng)域的專業(yè)人員了解中外科技文獻(xiàn)全文數(shù)據(jù)庫、為國內(nèi)數(shù)據(jù)庫的深入發(fā)展提供借鑒。
1中外文獻(xiàn)數(shù)據(jù)庫的出版差異探析
11中外數(shù)據(jù)庫發(fā)展歷程
中外數(shù)據(jù)庫的發(fā)展歷程有較大的差異,形成了不同的特征。從國外文獻(xiàn)數(shù)據(jù)庫出版發(fā)展歷程看,其與紙質(zhì)文獻(xiàn)具有很清晰的出版脈絡(luò)。數(shù)據(jù)庫出版的產(chǎn)品都以紙質(zhì)文獻(xiàn)出版為基礎(chǔ),主要文獻(xiàn)數(shù)據(jù)庫的出版商基本就是紙質(zhì)文獻(xiàn)的出版社。因此,憑借著深厚的內(nèi)容資源,這些傳統(tǒng)出版商根據(jù)自身的特點(diǎn)和優(yōu)勢,形成了文獻(xiàn)資源規(guī)模大、品種穩(wěn)定、文獻(xiàn)更新速度快等特征。如,德國的施普林格集團(tuán)以及荷蘭的愛思唯爾集團(tuán),都是大型的數(shù)據(jù)庫出版商。他們旗下的SpringerLink和ScienceDirect數(shù)據(jù)庫是傳統(tǒng)的出版集團(tuán)進(jìn)行數(shù)字化轉(zhuǎn)型的成果之一。
同發(fā)達(dá)國家相比,我國數(shù)據(jù)庫產(chǎn)業(yè)起步較晚,90年代進(jìn)入市場化運(yùn)作[6]。我國傳統(tǒng)出版商規(guī)模較小,擁有的內(nèi)容資源有限,因此缺乏進(jìn)行數(shù)字化轉(zhuǎn)型的動力。在我國,形成了一批第三方文獻(xiàn)資源集成的數(shù)據(jù)庫商。萬方數(shù)據(jù)庫和維普數(shù)據(jù)庫都是由科技公司主導(dǎo)的文獻(xiàn)資源集成的數(shù)字出版形態(tài)。他們將傳統(tǒng)出版商或其他機(jī)構(gòu)的內(nèi)容資源集成在一起,形成一個專門提供各種類型電子文獻(xiàn)資源的集成平臺,而不是內(nèi)容出版者。從出版的角度來講,萬方數(shù)據(jù)庫和維普數(shù)據(jù)庫并不是真正意義上的數(shù)字出版。其優(yōu)勢在于集成資源數(shù)量規(guī)模要大于國外文獻(xiàn)數(shù)據(jù)庫;但其內(nèi)容更新速度受到出版社的阻礙,往往容易產(chǎn)生很多知識產(chǎn)權(quán)的糾紛,影響文獻(xiàn)收錄的穩(wěn)定性。
12文獻(xiàn)資源探析
內(nèi)容資源是文獻(xiàn)數(shù)據(jù)庫的基礎(chǔ)。中外全文數(shù)據(jù)庫的發(fā)展歷程不同,導(dǎo)致這些文獻(xiàn)數(shù)據(jù)庫的數(shù)據(jù)源也有很大不同。
121文獻(xiàn)資源的數(shù)據(jù)源差異
國外文獻(xiàn)數(shù)據(jù)庫由出版集團(tuán)主導(dǎo),因此其數(shù)字資源大部分是出版集團(tuán)自身的紙質(zhì)出版物,他們是文獻(xiàn)數(shù)據(jù)庫的數(shù)字資源來源和基礎(chǔ)。如ScienceDirect數(shù)據(jù)庫將愛思唯爾出版社出版的2 500多種期刊和11 000多種圖書數(shù)字化出版。而SpringerLink數(shù)據(jù)庫的數(shù)字資源也大部分來自施普林格出版集團(tuán)出版的2 000多種學(xué)術(shù)期刊和超過7 000多種圖書數(shù)字出版產(chǎn)品。
相比之下,國內(nèi)的主要文獻(xiàn)數(shù)據(jù)庫數(shù)字資源來源于對已出版的紙質(zhì)文獻(xiàn)進(jìn)行二次加工,使之?dāng)?shù)字化。如萬方數(shù)據(jù)庫和維普數(shù)據(jù)庫就是將紙質(zhì)文獻(xiàn)資源掃描后進(jìn)行數(shù)字化處理,形成數(shù)字資源。
122文獻(xiàn)的數(shù)量與品種差異
國外全文數(shù)據(jù)庫收錄的大部分都是出版集團(tuán)出版的刊物,數(shù)量是有限的。而國內(nèi)全文數(shù)據(jù)庫屬于集成平臺,形成的期刊資源規(guī)模更大。
SpringerLink數(shù)據(jù)庫是目前全球最大規(guī)模的電子圖書數(shù)據(jù)庫,目前可檢索到圖書約為210 000本。而ScienceDirect數(shù)據(jù)庫包含34 000余種圖書,且數(shù)量不斷增長。國外數(shù)據(jù)庫的電子圖書更新速度也較快,2016年5月檢索發(fā)現(xiàn)數(shù)據(jù)庫中已經(jīng)出現(xiàn)2016年出版的新圖書。萬方數(shù)據(jù)庫中收錄了約為48 000余種圖書,但早在2013年12月6日停止更新,而維普數(shù)據(jù)庫沒有收錄圖書。
國內(nèi)的集成平臺收錄的期刊資源規(guī)模比國外更大,如萬方數(shù)據(jù)庫,除了收錄期刊論文,還收錄了包括專利、報告、地方志等內(nèi)容在內(nèi)的多種資源。另外,國外數(shù)據(jù)庫出版商同時出版的期刊和圖書被收錄在同一數(shù)據(jù)庫,但國內(nèi)數(shù)據(jù)庫的電子期刊和電子圖書是分開收錄的。國內(nèi)數(shù)據(jù)庫的文獻(xiàn)資源擴(kuò)展取決于數(shù)據(jù)庫商的版權(quán)談判能力與規(guī)范化程度。
123數(shù)字資源時滯性的差異
由于數(shù)字資源與紙質(zhì)資源形成方式不同,國內(nèi)數(shù)據(jù)庫文獻(xiàn)具有明顯的時滯性。而以數(shù)字出版為主體的國外數(shù)據(jù)庫往往不存在時滯現(xiàn)象。筆者于2016年5月9日,在ScienceDirect數(shù)據(jù)庫中,以愛思唯爾出版集團(tuán)出版的期刊《Omega》為對象,查看其在數(shù)據(jù)庫中的最近更新。檢索發(fā)現(xiàn):最新的文章于2016年4月30日以在編文章(article in press)的形式出現(xiàn)在ScienceDirect上,也就意味著《Omega》期刊已經(jīng)錄用該論文,同時分配有DOI號碼,可以立即被引用。而在SpringerLink數(shù)據(jù)庫中,以《Academic Psychiatry》期刊為例,檢索到最新刊載的文獻(xiàn)為2016年5月第2期40卷,另外,在線優(yōu)先出版的文獻(xiàn)更新到2016年5月8日。國外數(shù)據(jù)庫均不存在數(shù)字文獻(xiàn)的時滯現(xiàn)象。
排除掉國內(nèi)全文數(shù)據(jù)庫的優(yōu)先出版情況,筆者以《情報理論與實(shí)踐》及《情報雜志》兩種期刊為例,于2016年3月8日,分別在萬方數(shù)據(jù)庫和維普數(shù)據(jù)庫進(jìn)行檢索查詢,發(fā)現(xiàn):在萬方數(shù)據(jù)庫中,《情報理論與實(shí)踐》的最新一期為2016年3月刊,而《情報雜志》的最新期刊則為2016年1月刊;維普數(shù)據(jù)庫中,《情報理論與實(shí)踐》最新一期為2016年3月刊,而《情報雜志》則為2015年2月刊。紙質(zhì)期刊實(shí)際出版時間與網(wǎng)上電子資源出版時間的時間差至少為2個月。國內(nèi)文獻(xiàn)數(shù)據(jù)庫的電子資源具有一定的時滯性。
中外文獻(xiàn)數(shù)據(jù)庫在時滯性上的差異,原因在于:
(1)由于是第三方集成,在版權(quán)交易過程中為了保護(hù)傳統(tǒng)出版社的利益,保證紙質(zhì)文獻(xiàn)的經(jīng)濟(jì)效益,數(shù)據(jù)庫中的電子文獻(xiàn)必須晚于傳統(tǒng)紙質(zhì)出版物的發(fā)行;
(2)第三方集成平臺將整合的各類文獻(xiàn)資源數(shù)字化,并存儲至數(shù)據(jù)庫中需要一定時間,因此會出現(xiàn)一定的滯后性。
124OA期刊出版的差異
國外全文數(shù)據(jù)庫在開放獲取運(yùn)動中扮演了重要的角色,在開放獲取開始被學(xué)術(shù)界認(rèn)識和利用的過程中,各大文獻(xiàn)數(shù)據(jù)庫出版商也積極出版OA期刊和論文,實(shí)現(xiàn)學(xué)術(shù)的無邊界共享,推動了開放獲取運(yùn)動的發(fā)展[7]。
SpringerLink數(shù)據(jù)庫包含了3個開放獲取出版平臺。以BioMed Central Group為例,在BMC出版的280多種經(jīng)同行評議的開放獲取期刊中,有近180種期刊被SCI收錄,其中175種期刊獲得影響因子。而在ScienceDirect中的3800多種電子期刊,有500多種是開放獲取期刊。
國外全文文獻(xiàn)數(shù)據(jù)庫出版OA期刊的數(shù)量較多,占數(shù)據(jù)庫期刊總量的比重也較大,這說明經(jīng)過較長時間的發(fā)展,OA期刊在國外得到了一定的認(rèn)可,發(fā)展態(tài)勢良好。國外文獻(xiàn)數(shù)據(jù)庫中出版的OA期刊經(jīng)過嚴(yán)格的同行評議制度,被SCI收錄,具有較高的影響因子和學(xué)術(shù)影響力。
像萬方和維普這類全文文獻(xiàn)數(shù)據(jù)庫,由于是第三方集成,沒有出版權(quán)限,缺乏自行出版的OA期刊,只能提供OA期刊和論文的鏈接。目前我國提供OA期刊資源的平臺主要有中國科技論文在線及中國科技期刊開放獲取平臺,這些平臺支持OA期刊的出版,也整合各種中外的OA資源。萬方數(shù)據(jù)庫中提供約為270萬篇OA論文的鏈接,這些OA論文主要來源于DOAJ、PubMed、SRP等平臺。
2中外文獻(xiàn)數(shù)據(jù)庫知識服務(wù)技術(shù)探析
隨著知識交流的加深,文獻(xiàn)數(shù)據(jù)庫除了提供大量優(yōu)質(zhì)、及時的文獻(xiàn)資源,深化多元化的知識服務(wù)成為文獻(xiàn)數(shù)據(jù)庫技術(shù)新的發(fā)展方向。數(shù)據(jù)關(guān)聯(lián)與計(jì)量可視化是知識服務(wù)技術(shù)應(yīng)用的主要方向,本文擬從此角度對中外文獻(xiàn)數(shù)據(jù)庫開展知識服務(wù)作探析。
21文獻(xiàn)數(shù)據(jù)庫中的數(shù)據(jù)關(guān)聯(lián)
文獻(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)是文獻(xiàn)數(shù)據(jù)庫采用知識服務(wù)技術(shù)的主要方式,此類關(guān)聯(lián)可分為文獻(xiàn)外部特征關(guān)聯(lián)與文獻(xiàn)內(nèi)容特征關(guān)聯(lián)[8]。
211文獻(xiàn)外部特征關(guān)聯(lián)
文獻(xiàn)外部特征的關(guān)聯(lián),是指通過文獻(xiàn)作者、機(jī)構(gòu)、刊名等文獻(xiàn)外部特征數(shù)據(jù)相互之間的關(guān)聯(lián)。從其特征分析這是一種淺層次的關(guān)聯(lián),主要通過文獻(xiàn)固有的外部特征詞的相互匹配。此類關(guān)聯(lián)目前在中外文獻(xiàn)數(shù)據(jù)庫中具有普遍性,如作者關(guān)聯(lián)。
數(shù)據(jù)庫中的作者關(guān)聯(lián)可以是同作者的文獻(xiàn)關(guān)聯(lián),或是相關(guān)作者關(guān)聯(lián)。
同作者的文獻(xiàn)關(guān)聯(lián),即可反映某一作者所著的所有文獻(xiàn)。這是作者關(guān)聯(lián)中最常見的關(guān)聯(lián)模式。通過這種關(guān)聯(lián),可以查閱到數(shù)據(jù)庫收錄的該作者的所著文獻(xiàn),從而了解某一作者的研究內(nèi)容及研究現(xiàn)狀。
有些數(shù)據(jù)庫還提供同作者的信息關(guān)聯(lián),關(guān)聯(lián)到作者的信息中,除了作者單位、聯(lián)系方式等,還包括作者的H指數(shù)、總發(fā)文量、總被引量等信息。這些信息是判斷作者影響力的直觀指標(biāo)。
相關(guān)作者關(guān)聯(lián),即關(guān)聯(lián)到與某文獻(xiàn)內(nèi)容相關(guān)的其他文獻(xiàn)的作者。這種相關(guān)性是基于合作、引證或內(nèi)容相似等關(guān)系形成的。若兩個或多個作者之間合著過文獻(xiàn),則認(rèn)為該兩個或多個作者存在合作相關(guān)關(guān)系;在相互引證的文獻(xiàn)中,某些研究內(nèi)容可能有相似或重合的部分,即可認(rèn)為這些文獻(xiàn)的作者存在著引證的相關(guān)關(guān)系;而內(nèi)容相似則是從文獻(xiàn)整體內(nèi)容上,如果某兩篇或多篇文獻(xiàn)中包含相似或相同的主題特征詞,則認(rèn)為這些文獻(xiàn)的作者存在關(guān)聯(lián)。
以萬方數(shù)據(jù)庫為例,通過文獻(xiàn)《當(dāng)前階段我國科技期刊數(shù)字出版盈利模式探析》一文,得到的結(jié)果頁面顯示“作者”可以實(shí)現(xiàn)跳轉(zhuǎn)(見圖1);任意點(diǎn)擊某作者,顯示出數(shù)據(jù)庫中收錄的該作者所有的文獻(xiàn)(見圖2)。另外,萬方數(shù)據(jù)庫中的“相關(guān)學(xué)者”為讀者提供了與原文獻(xiàn)作者相關(guān)的學(xué)者,這種相關(guān)性是通過原文獻(xiàn)中前兩個關(guān)鍵詞的“或”關(guān)系得到的,“相關(guān)學(xué)者”數(shù)量較多。
作者關(guān)聯(lián)是數(shù)據(jù)庫常見的關(guān)聯(lián)形式。通過這種關(guān)聯(lián)可以很好地掌握某一作者的具體研究內(nèi)容及關(guān)注點(diǎn);通過“相關(guān)作者”了解在該研究領(lǐng)域內(nèi)其他相關(guān)的研究人員,并可以繼續(xù)了解這些學(xué)者的具體研究內(nèi)容及關(guān)注點(diǎn)。通過這種循環(huán)往復(fù)的關(guān)聯(lián)過程,使得以“作者”為中心的各種知識如網(wǎng)狀鋪開,知識的關(guān)聯(lián)性得到加強(qiáng),從而擴(kuò)大了檢索的范疇。
212文獻(xiàn)內(nèi)容特征關(guān)聯(lián)
內(nèi)容特征關(guān)聯(lián)是基于文獻(xiàn)內(nèi)容主題領(lǐng)域之間的關(guān)聯(lián)。根據(jù)不同的關(guān)聯(lián)方法,筆者將其分為3個層次,內(nèi)容關(guān)聯(lián)由淺到深可分為:引文關(guān)聯(lián)、特征詞關(guān)聯(lián)以及內(nèi)容擴(kuò)展關(guān)聯(lián)。
(1)引文關(guān)聯(lián)
引文雖然也可歸屬于文獻(xiàn)的外部特征,但其卻可以反映文獻(xiàn)主題領(lǐng)域。引文關(guān)聯(lián)是基于文獻(xiàn)外部特征性質(zhì)的淺層次的內(nèi)容關(guān)聯(lián)。通過引用和被引的角度,使得相關(guān)文獻(xiàn)關(guān)聯(lián)起來,形成文獻(xiàn)知識鏈,不僅可以追溯到文獻(xiàn)的知識源頭,還可以掌握課題知識領(lǐng)域發(fā)展的脈絡(luò)和方向[9]。
在現(xiàn)有的中外數(shù)據(jù)庫中,包含了非常豐富的引文關(guān)系。在文獻(xiàn)顯示頁面可以找到文獻(xiàn)的引用文獻(xiàn)及引證文獻(xiàn)。通過這些引用和引證文獻(xiàn),還可以了解文獻(xiàn)之間的共引關(guān)系及同被引關(guān)系等。
以ScienceDirect數(shù)據(jù)庫為例,文獻(xiàn)Digitisation of publishing:Exploration based on existing business models共69條參考文獻(xiàn),這其中能被ScienceDirect數(shù)據(jù)庫收錄或?qū)崿F(xiàn)跳轉(zhuǎn)的都可以直接關(guān)聯(lián)(見圖3)。除此之外,文獻(xiàn)的引證文獻(xiàn)(見圖4)也被列出,點(diǎn)擊每篇文獻(xiàn),則會跳轉(zhuǎn)到具體的全文中,點(diǎn)擊“view more articles”,則會跳轉(zhuǎn)至Scopus數(shù)據(jù)庫,顯示出所有引證文獻(xiàn)的題錄信息。圖3ScienceDirect數(shù)據(jù)庫中的參考文獻(xiàn)的關(guān)聯(lián)
圖4ScienceDirect數(shù)據(jù)庫中引證文獻(xiàn)的關(guān)聯(lián)
中文數(shù)據(jù)庫也有類似的引文關(guān)聯(lián)功能。但中外數(shù)據(jù)庫中最大的差異在于:提供具體引文信息的數(shù)據(jù)庫有所不同。萬方數(shù)據(jù)庫和維普數(shù)據(jù)庫得引文關(guān)聯(lián)都是通過數(shù)據(jù)庫內(nèi)部提供,這是因?yàn)閲鴥?nèi)數(shù)據(jù)庫是第三方集成平臺,擁有大量的文獻(xiàn)集成資源,這些關(guān)聯(lián)的引文都收錄于數(shù)據(jù)庫內(nèi)部。而國外的數(shù)據(jù)庫是由出版商主導(dǎo)的數(shù)字出版,收錄的文獻(xiàn)包括本出版集團(tuán)出版的文獻(xiàn)、以及少數(shù)其他出版集團(tuán)的文獻(xiàn);而一篇文獻(xiàn)的引用文獻(xiàn)或引證文獻(xiàn)涉及的范圍很廣,同時被該數(shù)據(jù)庫收錄的可能性較小,因此需要跳轉(zhuǎn)至其他數(shù)據(jù)庫。如ScienceDirect數(shù)據(jù)庫就是利用Scopus隸屬同一家公司實(shí)現(xiàn)在ScienceDirect中引文關(guān)聯(lián),再由Scopus鏈接至具體文獻(xiàn)的全文內(nèi)容。
(2)特征詞關(guān)聯(lián)
特征詞是文獻(xiàn)中反映文獻(xiàn)內(nèi)容特征的詞。在中外數(shù)據(jù)庫中,普遍包含的特征詞之間的關(guān)聯(lián),主要有關(guān)鍵詞關(guān)聯(lián)及相關(guān)詞關(guān)聯(lián)。
中文數(shù)據(jù)庫中的關(guān)鍵詞是作者對文獻(xiàn)內(nèi)容特征標(biāo)引的詞,是文獻(xiàn)中客觀存在的詞。關(guān)鍵詞往往反映了一篇文獻(xiàn)的主要研究內(nèi)容。國外數(shù)據(jù)庫中的特征詞包含了作者關(guān)鍵詞和數(shù)據(jù)庫標(biāo)引詞。在國內(nèi)數(shù)據(jù)庫中,關(guān)鍵詞關(guān)聯(lián)的主要形式是基于相同關(guān)鍵詞的文獻(xiàn)關(guān)聯(lián),即關(guān)聯(lián)到其他以該關(guān)鍵詞標(biāo)引的文獻(xiàn)。以維普數(shù)據(jù)庫為例,點(diǎn)擊具體的關(guān)鍵詞,就會顯示出所有以該關(guān)鍵詞為標(biāo)引的其他文獻(xiàn)的題錄信息(見圖5)。圖5維普數(shù)據(jù)庫中關(guān)鍵詞關(guān)聯(lián)
相關(guān)詞關(guān)聯(lián)是另一種特征詞關(guān)聯(lián)的關(guān)聯(lián)形式。中外數(shù)據(jù)庫在此關(guān)聯(lián)中略有差別。
如萬方數(shù)據(jù)庫中的相關(guān)詞關(guān)聯(lián)是指“相關(guān)檢索詞”關(guān)聯(lián)。在萬方數(shù)據(jù)庫中,系統(tǒng)會推送出多個與該文獻(xiàn)相關(guān)的檢索詞(見圖6)。圖6萬方數(shù)據(jù)庫中的相關(guān)詞關(guān)聯(lián)
在SpringerLink數(shù)據(jù)庫中的相關(guān)詞關(guān)聯(lián)是指“相關(guān)概念”關(guān)聯(lián),文獻(xiàn)中包含的某些概念或相似概念都會被列舉出來。這些概念往往都經(jīng)過規(guī)范化處理。讀者通過相關(guān)概念詞,可關(guān)聯(lián)到該概念的其他文獻(xiàn)。從一篇文獻(xiàn)挖掘出一部分相關(guān)概念,再將這些概念融合到其他文獻(xiàn)中,再通過其他文獻(xiàn)發(fā)掘其他相關(guān)主題概念詞,從而形成一種主題網(wǎng)絡(luò),了解主題之間的關(guān)系,查閱與研究有關(guān)的文獻(xiàn)整體概貌,以提升數(shù)據(jù)庫的知識服務(wù)水準(zhǔn)。
(3)內(nèi)容擴(kuò)展關(guān)聯(lián)
內(nèi)容擴(kuò)展關(guān)聯(lián)屬于深層次的內(nèi)容特征關(guān)聯(lián)。其主要是通過某一篇文獻(xiàn)內(nèi)容,分析該文獻(xiàn)所屬研究領(lǐng)域,提取具體研究內(nèi)容概念,實(shí)現(xiàn)與類似研究文獻(xiàn)之間的關(guān)聯(lián)。
由于內(nèi)容擴(kuò)展關(guān)聯(lián)技術(shù)難度較大,目前中文數(shù)據(jù)庫對內(nèi)容擴(kuò)展關(guān)聯(lián)功能應(yīng)用處于起步階段。相較之下,國外數(shù)據(jù)庫的內(nèi)容擴(kuò)展關(guān)聯(lián)有一定程度的應(yīng)用。以SpringerLink數(shù)據(jù)庫為例,該數(shù)據(jù)庫提供某篇文獻(xiàn)的研究主題以及所屬行業(yè)領(lǐng)域(見圖7)。這些主題及行業(yè)領(lǐng)域都是以主題詞表進(jìn)行規(guī)范化標(biāo)引的,專業(yè)性較強(qiáng)。通過一篇文獻(xiàn),就可以清楚了解該文獻(xiàn)研究包含的主題,了解該文獻(xiàn)涉及的產(chǎn)業(yè)領(lǐng)域,通過這些關(guān)聯(lián),還可以找到該研究主題或產(chǎn)業(yè)領(lǐng)域的其他相關(guān)文獻(xiàn),從而擴(kuò)展了原文獻(xiàn)的內(nèi)容。
從引文關(guān)聯(lián)到特征詞關(guān)聯(lián)再到內(nèi)容擴(kuò)展關(guān)聯(lián),是中外數(shù)據(jù)庫中內(nèi)容關(guān)聯(lián)由淺入深的關(guān)聯(lián)。也是數(shù)據(jù)庫知識服務(wù)技術(shù)應(yīng)用由淺入深的具體表現(xiàn),中外數(shù)據(jù)庫都在利用各種技術(shù)進(jìn)行深化數(shù)據(jù)庫的知識服務(wù)。
22文獻(xiàn)數(shù)據(jù)庫中的計(jì)量與可視化
計(jì)量功能主要是應(yīng)用文獻(xiàn)進(jìn)行計(jì)量分析與評價,從直觀的數(shù)字形式來表達(dá)文獻(xiàn)內(nèi)涵的規(guī)律??梢暬瘧?yīng)用則是對圖7SpringerLink中內(nèi)容擴(kuò)展關(guān)聯(lián)
文獻(xiàn)內(nèi)涵的知識或計(jì)量的結(jié)果圖形的形式表達(dá),以更直觀地表達(dá)出數(shù)據(jù)或知識之間的關(guān)系。
221數(shù)據(jù)庫的計(jì)量功能
文獻(xiàn)計(jì)量是中外數(shù)據(jù)庫中的較為普遍采用的功能。從整體上分析,計(jì)量功能的應(yīng)用主要分為兩種:一是簡單的計(jì)數(shù)統(tǒng)計(jì)。這種計(jì)量方式普遍存在于中外數(shù)據(jù)庫中,如文獻(xiàn)瀏覽量、下載量、學(xué)者發(fā)表的文獻(xiàn)數(shù)量等,這些客觀數(shù)據(jù)是反映用戶行為,不經(jīng)過模型計(jì)算,并且隨時間的動態(tài)變化。
另一種計(jì)量是指特定模型下計(jì)量評價分析,提供的數(shù)據(jù)指標(biāo)往往是經(jīng)過計(jì)算過程的得出的,也是一種動態(tài)數(shù)據(jù),其具備評價功能。如H指數(shù),可評價學(xué)者的學(xué)術(shù)能力;影響因子可了解期刊的學(xué)術(shù)影響力等。
目前中文數(shù)據(jù)庫都是采用數(shù)據(jù)庫內(nèi)部數(shù)據(jù)完成計(jì)量功能,而國外數(shù)據(jù)庫則是利用外部計(jì)量工具完成計(jì)量,如利用bookmetrix,對SpringerLink數(shù)據(jù)庫中的圖書信息進(jìn)行計(jì)量。
222數(shù)據(jù)庫的可視化工具
為了增強(qiáng)用戶體驗(yàn),更直觀表達(dá)數(shù)據(jù)之間的相互關(guān)系,可視化處理成為中外文獻(xiàn)數(shù)據(jù)庫重要的發(fā)展的趨勢之一。可視化主要包括3種形式[10]:縱向可視化,用于表示某一特征的隨時間變化的狀態(tài);橫向可視化,用于表達(dá)在同一時間狀態(tài)下不同特征之間的相互關(guān)系;交叉的可視化,則將縱向時間軸與橫向特征軸相結(jié)合后的總體數(shù)據(jù)狀態(tài)。
國內(nèi)數(shù)據(jù)庫對可視化運(yùn)用較多,各種簡單計(jì)數(shù)統(tǒng)計(jì)都可以用縱向或橫向可視化表示。如在維普智立方中,以“文獻(xiàn)數(shù)據(jù)庫”為檢索對象,則可分別進(jìn)行橫向與縱向圖形展示;利用360°網(wǎng)絡(luò)圖,則可將多種橫向分析進(jìn)行交叉分析,得到包含如研究領(lǐng)域、機(jī)構(gòu)、所屬學(xué)科、作者、題名、期刊等文獻(xiàn)特征的網(wǎng)絡(luò)關(guān)系圖,以此了解各個文獻(xiàn)特征之間的關(guān)系及關(guān)聯(lián)情況。圖8萬方數(shù)據(jù)庫“文獻(xiàn)數(shù)據(jù)庫”的360°網(wǎng)絡(luò)圖
而國外數(shù)據(jù)庫內(nèi)部的圖形展示有一定局限。如,SpringerLink數(shù)據(jù)庫中,利用可視化功能可進(jìn)行主題詞關(guān)聯(lián),分析文獻(xiàn)主題概念詞之間的關(guān)聯(lián)信息以及相關(guān)的文獻(xiàn)信息。圖9SpringerLink數(shù)據(jù)庫中可視化關(guān)系圖
由于可視化功能受到越來越多的重視,因而數(shù)據(jù)庫商專門編輯出版了一些專業(yè)化的文獻(xiàn)計(jì)量與可視化工具,如Citespace、HistCite等,這些工具可將從數(shù)據(jù)庫中導(dǎo)出的文獻(xiàn)數(shù)據(jù)進(jìn)行分析并進(jìn)行可視化處理。
3結(jié)語
本文從出版角度分析了中外文獻(xiàn)數(shù)據(jù)庫不同的發(fā)展歷程,可以發(fā)現(xiàn)國外文獻(xiàn)數(shù)據(jù)庫是以數(shù)字出版為主,多以出版集團(tuán)的出版物為主構(gòu)成數(shù)據(jù)庫的文獻(xiàn)資源。由于出版機(jī)構(gòu)有嚴(yán)格的同行評議制度,文獻(xiàn)質(zhì)量都能得到很好的控制。而國內(nèi)文獻(xiàn)數(shù)據(jù)庫基本屬于第三方文獻(xiàn)集成的數(shù)據(jù)平臺,匯集各類資源運(yùn)用數(shù)據(jù)庫技術(shù)提供服務(wù),其并不擁有文獻(xiàn)的版權(quán)。但由于集成的原因,導(dǎo)致數(shù)據(jù)源、文獻(xiàn)時滯性和有關(guān)OA期刊的出版,都有很大的不確定性。
正是由于發(fā)展歷程的不同,也導(dǎo)致了中外文獻(xiàn)數(shù)據(jù)庫在數(shù)據(jù)關(guān)聯(lián)與計(jì)量可視化應(yīng)用方面存在較大差異。國外數(shù)據(jù)庫是出版集團(tuán)主導(dǎo)的,因此更加注重?cái)?shù)據(jù)庫的內(nèi)容資源的加工質(zhì)量,引文關(guān)聯(lián)、計(jì)量與可視化基本都是通過外部專業(yè)軟件來進(jìn)行的。而國內(nèi)數(shù)據(jù)庫以科技公司為主導(dǎo),偏重技術(shù)層面,在內(nèi)容加工方面缺乏經(jīng)驗(yàn);而在擴(kuò)大數(shù)據(jù)庫的使用功能,多樣化各類文獻(xiàn)的關(guān)聯(lián),開發(fā)計(jì)量和可視化功能等方面具有一定優(yōu)勢。
參考文獻(xiàn)
[1]章亞娟.互聯(lián)網(wǎng)上三種外文期刊數(shù)據(jù)庫的文獻(xiàn)檢索比較研究[J].圖書情報工作,2003,(5):77-79,86.
[2]袁小翠.網(wǎng)絡(luò)信息搜集工具分析之CNKI與重慶維普的比較[J].科技廣場,2012,(4):156-159.
[3]江洪,王微.國內(nèi)外數(shù)據(jù)庫平臺用戶信息服務(wù)功能比較研究[J].圖書館學(xué)研究,2014,15:72-77,83.
[4]譚捷,張李義,饒麗君.中文學(xué)術(shù)期刊數(shù)據(jù)庫的比較研究[J].圖書情報知識,2010,(4):4-13.
[5]王軍輝,李丹亞,余希田,等.國內(nèi)外部分文獻(xiàn)數(shù)據(jù)庫檢索系統(tǒng)相關(guān)文獻(xiàn)功能淺析[J].中華醫(yī)學(xué)圖書情報雜志,2010,(5):68-71.
[6]羅曼.數(shù)據(jù)庫出版發(fā)展研究[D].武漢:武漢理工大學(xué),2013.
[7]初景利,李麟.國內(nèi)外開放獲取的新發(fā)展[J].圖書館論壇,2009,29(6):83-88.
[8]王曰芬.面向知識服務(wù)的信息分析及應(yīng)用研究——以文獻(xiàn)數(shù)據(jù)庫為來源[J].情報理論與實(shí)踐,2011,(3):54-57,34.
[9]周健.網(wǎng)絡(luò)文獻(xiàn)數(shù)據(jù)庫知識服務(wù)功能及其評價研究[D].鄭州:鄭州大學(xué),2012.
[10]趙丹群.試論學(xué)術(shù)期刊文獻(xiàn)數(shù)據(jù)庫計(jì)量分析功能的開發(fā)[J].圖書情報工作,2008,(10):45-47,96.
(本文責(zé)任編輯:馬卓)