〔摘 要〕為了幫助用戶全面了解中國知網、維普、萬方三大中文期刊全文數據庫的質量,采用文獻調查和數據庫檢索相結合的方法,就期刊收錄數量、收錄年限、完整程度、論文可下載程度、數據處理效率、數據處理質量等6個非技術性因素進行比較分析,總體上中國知網優于維普和萬方,萬方則優于維普。針對數據庫存在的質量問題,建議服務商從規范著錄、質量反饋等方面加強質量建設,并建議用戶選擇中國知網期刊全文庫檢索論文以提高檢全率,以及組建數據出版集團以提高競爭力。
〔關鍵詞〕期刊全文數據庫;中國知網;維普;萬方;質量述評
DOI:10.3969/j.issn.1008-0821.2015.09.016
〔中圖分類號〕G2507 〔文獻標識碼〕A 〔文章編號〕1008-0821(2015)09-0084-05
〔Abstract〕For helping the users know fully the 3 Chinese full-text journal databases quality of CNKI,VIP and Wan Fang(WF)database,the paper used the combined methods with the literature survey and databases retrieval and comparative analysis in journals included,age limited,complete degree,papers downloaded degree,data processing efficiency and quality from non-technical factors.CNKI is better than VIP and WF in general and WF is better than VIP.Aiming at the quality problems of the databases,it is proposed that the service providers strengthen the quality construction of databases from the standard cataloging and the quality feedback and choose the CJFD of CNKI to improve the recall ratio for users,and form a data publishing group to improve the competitiveness for service providers.
〔Key words〕full-text journal database;CNKI;VIP;Wan Fang;quality review
20世紀90年代,我國期刊數字化建設發展迅速,形成了中國知網(CNKI)、維普(VIP)和萬方(WF)三大期刊全文數據庫(以下簡稱“三大期刊庫”)鼎立的局面,但經過20多年的發展,它們在期刊收錄數量、收錄年限等方面發生了很大變化。2008年4月,萬方與中華醫學會簽訂了合作協議,取得了中華醫學會、中國醫師協會等權威機構主辦的220余種醫學期刊(其中核心期刊71種)的獨家經營權[1];中國知網也取得2 300余種期刊[2](其中核心期刊1 073種)的獨家經營權(數量可能會增加),初步形成了壟斷經營的局面。
激烈競爭的結果,必然引發期刊收錄數量的變化,一些被獨家授權的期刊,都得從已經收錄但未獲得授權的期刊庫中作相關處理,不再提供全文服務。因此,重新評估三大期刊庫的質量,對于幫助用戶了解其質量現狀和數據庫商改進質量具有重要的現實意義。
1 三大期刊庫質量研究現狀
筆者以題名為檢索點,“中文期刊數據庫”為檢索詞,模糊匹配,在中國知網《學術文獻總庫》中檢索,結果有266篇,去除不相關文獻,研究三大期刊庫質量的文獻有38篇(檢索時間為2015年4月1日)。
曹開江從“收錄與更新”兩方面比較三大期刊庫收錄醫學文獻的質量,認為“數據庫收錄期刊的數量和回溯時間體現數據庫的覆蓋量,而覆蓋量的大小反映了數據庫的權威性、完整性。數據庫更新速度越快,時效性越高。”[3]谷景亮統計三大期刊庫收錄期刊的重復率,認為重復收錄給用戶“造成人力、物力、財力的巨大浪費”[4]。譚捷從“重復率、更新延遲”等方面分析三大期刊庫質量,認為“中國數字出版面臨著一個嚴重的問題就是收錄的期刊重復率較高”[5]。李玉玲從“期刊種數、文獻數量、學科范圍、權威性、重復度、時間跨度、更新頻率”7個方面評價三大期刊庫質量[6]。趙靜娟從“文獻收錄數量、收錄范圍、收錄內容的權威性、收錄年限、內容更新頻率”5個方面評價中國知網和維普的質量[7]。劉武宏以輕工業、食品工業、化工工業等學科的部分期刊為調查對象,比較三大期刊庫的論文上傳效率,通過計算得出“維普數據滯后7個月左右,中國知網數據滯后3個月左右,萬方數據滯后10個月左右”的結論[8]。
在收錄期刊數量上,多數作者以數據庫簡介中報道的數據為依據,與實際收錄數量存在很大差異;有些作者將三大期刊庫重復收錄視作不合理做法,這是將其等同于圖書館重復采購文獻的錯誤觀點。三大期刊庫屬于綜合性數據庫,數量決定質量,如果收錄不全就不能保障用戶需求。目前,不少圖書館要引進三大期刊庫,就是因為它們存在互補性,只有全部購買才能滿足用戶的需求,是無可奈何的事情;有些作者以“滯后月數”來衡量論文的上傳效率是不合理的,因為期刊的出版周期有季刊、雙月刊、月刊、半月刊、旬刊和周刊等,因而難以反映真實情況。只有用“滯后期數”來衡量才能直觀反映其更新效率,即在同一時間內,誰收錄最新一期誰的效率就最高,誰收錄最新一期的期刊數量最多誰的效率就最高。至于三大期刊庫的數據處理質量,目前沒有相關研究。endprint
針對上述研究的不足,本文分別利用中國知網舊版主頁、維普主頁和萬方主頁的“期刊導航”功能,從期刊收錄數量、收錄年限、完整程度、論文可下載程度、數據處理效率(包括論文上傳、期刊信息的更新等)、數據處理質量(包括文字錄入、題名標引、期數標引、作者標引、原文完整性等)等6個方面比較其質量。
檢索功能的強弱也是衡量期刊數據庫質量的指標之一,但這個指標屬于技術層面的因素,一些作者也作了比較系統的論述。如賈文靜從檢索方式、檢索導航、檢索結果等方面比較三大期刊庫的差異,認為“三大中文期刊數據庫的檢索功能多樣,有不同的側重點,體現了各自的發展特色”[9]。為了避免重復,本文著重從非技術性因素比較三大期刊庫的質量。
2 三大期刊庫非技術性質量現狀
21 收錄數量
三大期刊庫屬于綜合性數據庫,期刊保障程度的高低是衡量其質量的最重要指標。
中國知網有綜合期刊庫和學術期刊庫之分。綜合期刊庫(包括學術期刊和非學術期刊)為舊版系統收錄,打開“期刊大全”后,顯示收錄10 399種[10](包括停刊,下同);學術期刊庫為新版系統(2012年9月24日啟用)收錄,打開“期刊導航”后顯示收錄8 194種[11];在核心期刊的收錄上,筆者利用舊版“核心期刊導航”(分七大專輯)功能,經統計共1 973種。
維普收錄期刊的數量,據公司介紹有“12 000余種”[12],但打開“期刊大全”后并沒有顯示收錄的總數量,而是在其設置的“醫藥衛生、工程技術、自然科學、農業科學、社會科學”五大專輯的學科名稱后,以括號的方式顯示每個學科收錄期刊的數量。筆者通過統計共21 921種,比公司介紹的數量多出9 000余種,這是由于各學科重復收錄造成的。如在“工程技術”專輯中,劃分了“一般工業技術(201)”、“電工技術(298)”等20個學科,其中“工業技術學報及綜合類(4 228)”所收錄的期刊與其他19個學科收錄的期刊幾乎是重復的;在核心期刊的收錄上,維普沒有在“期刊大全”中設置“核心期刊導航”來反映收錄數量,但通過二次檢索,可檢索到核心期刊的數量。方法是先打開“期刊大全”,然后隨意輸入某種期刊名稱,點擊“搜索”后進入結果界面,接著在結果界面選擇“僅顯示核心刊”后不用輸入刊名直接點擊“搜索”,結果顯示2 349種(其《產品服務》介紹有“1 957種”)。
萬方收錄期刊的數量,據公司介紹有“7 000余種”[13],與維普一樣,不是在“期刊瀏覽”中顯示收錄的總數量,而是在其設置的“哲學政法、社會科學、經濟財政、教科文藝、基礎科學、醫藥衛生、農業科學、工業技術”八大專輯的學科名稱后,以括號的方式顯示每個學科收錄期刊的數量。筆者通過統計共8 533種;在核心期刊的收錄上,萬方通過在每個專輯中設置“核心刊”反映收錄的數量,筆者通過統計共3 217種(據公司介紹有“2 800余種”)。
從三大期刊庫收錄的數量來看,存在很大差異,其中維普收錄的數量似乎是最多的,但實際上是因收錄大量停刊、重復著錄、將改名期刊著錄多條數據以及有刊名無全文等造成的;在核心期刊的收錄上,也因來源、版本以及更新效率不同而形成很大差異。隨著中國知網獲得2 300余種期刊的獨家經營權,如果這些期刊原來都被維普和萬方收錄,將不再提供全文,因而其實際收錄數量會少得多。
2013年,我國出版期刊9 877種[14],其中2012年版《中文核心期刊要目總覽》(簡稱“2012年版《總覽》”)收錄核心期刊1 982種(其中人文社會科學類769種,自然科學類1 213種)。對于期刊庫收錄的期刊,人們一般認為是指目前正在出版發行的期刊(現刊),但事實上包括停止出版的期刊(過刊),因此三大期刊庫收錄現刊的數量與目前出版發行的數量存在一定差距。
22 收錄年限
期刊收錄年限的長短,可以反映文獻的完整程度,是衡量期刊庫質量的重要指標之一。
中國知網收錄期刊的年限,據介紹主要為1994年至今,但有3 500余種期刊回溯至創刊年;維普收錄期刊的年限,據介紹主要為1989年至今;萬方收錄期刊的年限,據介紹主要為1998年至今。
從數據庫介紹可以看出,維普的收錄時間最早,中國知網次之,萬方最遲,但由于中國知網有3 500余種期刊的收錄起始時間回溯至創刊年,因此在收錄年限上遠遠超過維普和萬方。
23 完整程度
考察期刊庫完整程度有3個指標:一是現刊保障程度;二是收錄年限是否連貫;三是期數是否齊全。
在現刊保障方面,三大期刊庫普遍存在“你有我無,你無我有”或者都沒有的情形。如《投資研究》僅中國知網收錄,《廣東橡膠》僅維普收錄,《城市建設》僅萬方收錄,而《中小學英語教學與研究》、《交際與口才》、《港口設計》、《上海漁業經濟》等期刊目前三大期刊庫都沒收錄。在收錄的現刊中,中國知網最多(約9 635種。計算方法是將目前出版的9 877種減去萬方獨家收錄的220種和維普獨家收錄的10種以及中國知網無收錄或停止收錄的非維普和萬方獨家收錄核心期刊12種),萬方次之(約7 532種。計算方法是將目前出版的9 877種減去中國知網獨家收錄的2 300種和維普獨家收錄的10種以及萬方無收錄或停止收錄的非中國知網和維普獨家收錄核心期刊35種),維普第三(約7 283種。計算方法是將目前出版的9 877種減去中國知網獨家收錄的2 300種和萬方獨家收錄的220種以及維普無收錄或停止收錄的非中國知網和萬方獨家收錄核心期刊74種),其中,2012年版核心期刊(1 982種)的收錄數量,中國知網1 887種,維普762種,萬方864種(見表1。統計時間:2015年4月10日至4月20日)。
在收錄年限的連貫性和期數的完整性方面,三大期刊庫都存在不足[15]。例如,《安徽大學學報(哲學社會科學版)》(雙月刊,1933年創刊),中國知網收錄年限為1933年至今,其中1933年收錄第1、2、3期,1934-1959年沒有收錄,1960-1977年間缺漏若干期,1978-1993年間缺1984年第4期,1994年至今收錄齊全;維普收錄年限為1993年至今,但1993年僅收錄第4期,1994-1999年全部沒收錄;萬方收錄年限為2000年至今,但缺2000年第3、6期。更為嚴重的是,近幾年出版的期刊,三大期刊庫也有缺漏。如截至2015年4月20日,《廣東農業科學》(半月刊)維普已收錄到2015年第2期,但缺2014年第15期;《建筑經濟》(月刊)萬方已收錄到2015年第3期,但缺2014年第4~9期;《建筑學報》(月刊)中國知網已收錄到2015年第3期,但缺2014年第9、10期。即使是暫時缺漏,也說明其工作程序是混亂的。endprint
24 論文可下載程度
論文可下載程度是指三大期刊庫收錄的文章是否都提供全文下載,有無保密或僅提供題名檢索而無全文下載的問題。筆者經過多年的檢索實踐,發現中國知網有一些文章如《農村留守老年人犯罪透視》、《Revised National Standard for Food Additives Protects Food Safety》等因保密不能下載全文;維普和萬方收錄的期刊中,則有個別年份個別期的文章不能下載。例如,1972年創刊的《湖南水產科技》(1984年改名為《湖南水產》,1991年改名為《內陸水產》,2010年改名為《當代水產》,維普著錄4條數據,中國知網和萬方著錄1條數據),維普收錄年限為1974年至今,但1991-1994年間以及1995年第12期收錄的文章,在點擊“下載全文”時卻提示因文章未收錄而不提供全文下載;萬方收錄年限為2001年至今,在2010年收錄的1~12期文章中,除了第10期可下載全文外,其余11期的文章都無全文下載(中國知網除了缺失的期數外,都可下載全文)。
25 數據處理效率
主要指期刊庫的論文上傳效率(用滯后期數來衡量)和期刊信息的更新效率。
筆者選取三大期刊庫共同收錄的728種核心期刊(其中圖書情報檔案類11種)為統計對象,比較它們在三大期刊庫中的論文上傳效率(見表4和表5。檢索時間:2015年4月20日)。
在論文上傳效率方面,中國知網“每日更新”[2],維普“每周五更新”[12],萬方“每周兩次更新”[1]。這是三大期刊庫在制度上確定的不同的更新周期。如在圖書情報檔案類11種核心期刊(其中月刊5種,雙月刊6種)中,收錄2015年第1至第3期的數量,中國知網8種,維普5種,萬方7種,結果表明中國知網快于維普和萬方,萬方則快于維普;再從三大期刊庫共同收錄的728種核心期刊上傳2015年的期刊數量來看,也可以得出相同的結論。
在三大期刊庫共同收錄的728種核心期刊中,中國知網上傳2015年的期刊數量為678種,占總數的931%,維普為456種,占總數的626%,萬方為624種,占總數的857%。
在期刊信息的更新方面,中國知網和維普分別設置“周期”和“刊期”欄目來標引期刊的出版頻率。但中國知網對《會計之友》(2011年改為旬刊)、《力學進展》(2008年改為雙月刊)、《生物物理學報》(2010年改為月刊)等9種核心期刊的出版頻率未作更新,維普對《廣西民族研究》(2014年改為雙月刊)、《教育與經濟》(2013年改為雙月刊)、《國家圖書館學刊》(2012年改為雙月刊)等29種核心期刊的出版頻率未作更新。萬方沒有標引期刊“出版周期”,有些僅在“簡介”中有所說明。
26 數據處理質量
數據處理質量是指工作人員在建庫過程中因操作不當造成的質量問題。主要包括5個方面:
261 文字錄入錯誤
例如,將“競爭”著錄成“竟爭”的題名,中國知網有116條記錄,維普有75條記錄,萬方有43條記錄;將“時間”著錄成“時問”的題名,中國知網有30條記錄,維普有270條記錄,萬方有187條記錄;將“吸入性”著錄成“吸人性”的題名,中國知網有18條記錄,維普有91條記錄,萬方有58條記錄。
262 題名標引不全或錯誤
例如,中國知網將《1957-2007中央教育科學研究所成立五十周年》中的“1957-2007”漏掉、維普將《1999-2008年我國SVM文本分類文獻計量分析》中的“1999-2008”著錄成“1999-21308”,將《GT4BZ封罐機送罐部分改進實用技術》中的“GT4BZ”著錄成“GT4B2”。
263 期數標引不當
對于一些以文字(如上、下;上、中、下)標識期數的半月刊或旬刊,三大期刊庫都沒有忠于原刊著錄,而是人為地用阿拉伯數字標引成24期或36期。例如,《材料導報》(半月刊)每月分A刊和B刊兩期出版,三大期刊庫標引成1~24期;《會計之友》(旬刊)每月分上、中、下三期出版,三大期刊庫標引成1~36期。又如《教育導刊》(1996年改為半月刊),每月分別用“上半月”和“下半月”標識期數,三大期刊庫當作兩種期刊處理,形成兩條相同的數據,如2014年12月的上半月和下半月兩期,都標識為“201412”,造成與原刊標識不一致。合理的做法應是如實標引,如2014年12月的兩期分別標引為“12月上”、“12月下”。這個問題也反映了一些期刊編輯部在期數標識問題上的隨意性(應統一用阿拉伯數字標識),會對圖書館的期刊登記工作、索取號的編制以及數據庫商的數據處理帶來不便。
此外,三大期刊庫存在期數重復標引或錯誤標引等問題。例如,中國知網重復標引《中國遠程教育》2013年第10期和2014年第12期、將《中國全科醫學》(旬刊,每月分“A”、“B”、“C”3期出版)2013年11、12月出版的A、B、C三期分別著錄成37~39和40~42期,漏掉了2月份的A期、3月份的B期、4月份的C期、6月份的A期、7月份的B期以及8月份的C期(對應的期數是4、8、12、16、20、24);萬方除了標引《制冷學報》(雙月刊)2012年第1~6期外,還將10月出版的第5期當作第10期加以標引;維普則對改名期刊重復標引全部期數。例如,經歷過3次改名的《當代水產》,實際上是1種期刊,維普卻當作4種期刊并且重復標引全部期數。
264 作者標引缺漏或錯誤
例如,中國知網未對《企業質量認證初探》的作者“張海明”做標引,將《初論圖書館識別系統》的作者“吳薓年”標引成“吳年”;萬方將作者“吳薓年”著錄成“吳徐年”的記錄有7條;維普將《期刊刊次號設計研究述評》的作者“楊肥生”標引成“楊月巴生”。此外,維普出現用拼音代替作者姓名的現象,如用“吳Tu年”代替“吳薓年”的記錄有13條。endprint
265 全文缺漏
例如,《醫學信息》2011年第1期刊登的《針灸治療面癱的臨床分析》,原文共兩頁(第175~176頁),中國知網缺失第175頁,《情報雜志》2010年第2期共刊登47篇文章,中國知網遺漏其中的《超鏈接分析方法及其測評方法——指標體系研究》;中國知網和萬方缺失《中國遠程教育》(半月刊)的下半月1~12期全文;維普僅提供《學校黨建與思想教育》(旬刊)每月上旬的全文,缺失中旬和下旬的全文。
3 結 語
數據庫質量決定服務商的競爭力,關乎買家的利益和用戶的利用,同時影響我國信息事業的可持續發展。因此,提高數據庫質量是服務商、用戶和國家相關管理部門的共同責任。
31 服務商提高數據處理質量的對策
數據處理是由人來完成的,建庫人員的業務水平和工作態度直接影響數據處理質量。數據庫商應重視數據處理中存在的問題,采取有力措施加強質量建設:一是制定科學合理的數據處理細則,促進數據處理的規范化和標準化,避免隨意性,特別要防止期數的缺漏和著錄錯誤,并統一采用《中國圖書館分類法》標引期刊,避免分類上的差異;二是建立嚴格的質量審核機制,獎罰分明;三是建立質量反饋制度,對反饋錯誤數據的讀者給予適當的獎勵(現金或話費)[16],以激發讀者參與質量建設的熱情。
32 用戶檢索數據庫的策略
從調查結果可以看出,中國知網在期刊收錄數量、收錄年限和完整性等方面都遠遠超過維普和萬方,這就為提高論文的檢全率提供了堅實的物質基礎。因此,用戶宜首選中國知網期刊庫檢索全文,以全面反映學科的研究現狀,進而提高數據分析的科學性、客觀性和準確性。同時,要認識到三大期刊庫存在的互補性,在中國知網期刊庫沒收錄的情況下再檢索維普或萬方期刊庫,以提高相關研究論文的完整性。
33 加強合作,組建數據出版集團
期刊數據庫以其保障程度高,更新速度快,檢索方便深受讀者的青睞。但目前中國知網和萬方開展的期刊獨家授權活動,不僅提高了自身的建設成本,也增加了用戶的使用成本,并將嚴重影響科技知識的傳播,對建設我國創新型社會帶來不利影響。因此,國家有關管理部門應站在戰略發展的高度來看待這個問題,防止這種行為繼續蔓延或被國外出版集團并購,惟一可以做大做強的舉措是由國家相關管理部門牽頭,聯合中國知網、維普和萬方組建數據出版集團,統一人馬、統一服務器,統一銷售,并明確分工(如中國知網主打中文期刊庫,維普主打外文期刊庫,萬方主打學位論文庫等),將目前具有互補
性的資源整合后,以原數據為基礎,重新組建若干個大型全文數據庫,以提高國內外競爭力。這樣既能保證資源的完整性,又能避免惡性競爭帶來的不良后果。
參考文獻
[1]產品與服務[EB/OL].http:∥www.wanfang.com.cn/8-2j-cpyfw.html,2015-04-25.
[2]數據庫介紹信息[EB/OL].http:∥acad.cnki.net/KNS/brief/result.aspx?dbprefix=CJFQ,2015-04-25.
[3]曹開江.我國三大全文期刊數據庫醫學數據質量的比較研究[J].圖書館理論與實踐,2008,(3):24-27.
[4]谷景亮,趙芳,曹先平.3大中文期刊數據庫收錄期刊重復情況探索[J].醫學信息學雜志,2011,(8):26-28.
[5]譚捷,張李義,饒麗君.中文學術期刊數據庫的比較研究[J].圖書情報知識,2010,(4):4-13.
[6]李玉玲,陳祥君,李惠.中文期刊全文數據庫模糊綜合評價[J].情報科學,2009,(12):1844-1847.
[7]趙靜娟,鄭懷國,譚翠翠,等.中文期刊全文數據庫的評價研究——以清華同方和重慶維普為例[J].現代情報,2009,(10):62-65.
[8]劉武宏.中文電子期刊數據庫數據滯后問題的探討[J].圖書館論壇,2008,(5):56-58.
[9]賈文靜.中文期刊全文數據庫檢索功能比較研究[J].情報探索,2012.(10):70-72.
[10]期刊導航[EB/OL].http:∥acad.cnki.net/Kns55/oldnavi/nNavi.aspx?NaviID=1,2015-04-25.
[11]期刊導航[EB/OL].http:∥epub.cnki.net/kns/oldnavi/nNavi.aspx?NaviID=100,2015-04-25.
[12]產品服務[EB/OL].http:∥www.cqvip.com/productor/prozk.shtml,2015-04-25.
[13]期刊[EB/OL].http:∥www.wanfangdata.com.cn/ResourceDescription/Periodical.aspx,2015-04-25.
[14]2013年全國新聞出版業基本情況[EB/OL].http:∥news.xinhuanet.com/newmedia/2014-08/13/c1268664462.htm,2015-04-25.
[15]方寶花.中文三大全文期刊庫存在的問題及改進措施[J].圖書館工作與研究,2011,(7):71-73.
[16]蔣鴻標.圖書館書目數據質量問題與控制研究[J].山東圖書館學刊,2012,(1):78-83.
(本文責任編輯:郭沫含)endprint