趙婭娜 (東南大學經濟管理學院 江蘇 南京 211189)
常 娥 (東南大學圖書館 江蘇 南京 211189)
書目版本數據是對文獻內容的重要揭示,有助于用戶鑒別和選擇不同版本的圖書。近年來,由于出版行業的蓬勃發展,圖書出版的數量和種類迅猛增長。2016年,全國共出版圖書49.99萬種,較2015年增長5.1%。其中新版圖書26.2萬種,增長0.8%,重版、重印圖書23.8萬種,同比2015年增長10.3%,占2016年出版總量的48%[1]。這些圖書進入圖書館后著錄要涉及查重問題,同時需要識別同一種文獻的不同版本,以便更好地進行文獻的聚集。但由于版本信息復雜多樣,版本的認定與著錄本身比較困難,對于某一種圖書版本的著錄會出現不同形式的著錄結果,究其原因可歸納為3種:第一,著錄規則的不同,我國當前對于圖書使用的著錄規則主要有《中國文獻編目規則》及其第2版、CALIS《中文圖書著錄規則》和《GB/T 3792.2 85/2006普通圖書著錄規則》,不同的規則在對版本進行著錄時有不同的要求[2]。第二,規則的變更以及規則描述的不清晰造成編目員理解的不一致,如對于說明著作內容特征的文字(縮寫本、繪畫本、英漢對照本等),《中國文獻編目規則》第一版中規定著錄于版本項,而《中國文獻編目規則》(第2版)規定一般不著錄于版本項[3]。第三,對反映圖書版本的著錄信息源前后描述不一致,如“中國分類主題詞表(第二版)/國家圖書館《中國圖書館分類法》編輯委員會編”,版權頁為“2005年9月第1版”的著錄[4]。版本信息著錄結果的不同,使得同一種圖書分散在各個地方,難以將各個不同版本的圖書進行聚集,讀者在利用書目系統查詢圖書時,只能檢索出同一題名的圖書。對于該書的不同版本資源,需要讀者自己識別,因而降低了讀者對書目查詢系統的使用體驗。而對于圖書編目人員而言,在對新入藏的圖書進行編目時,影響查重效率,造成同書多編,也不利于從歷史書目版本信息的著錄中發現對版本著錄存在的問題及進行更好的優化。
本文擬在深入分析文獻版本相關概念和常用文獻版本資源聚集方法基礎上,以中文機讀書目數據為例,提出同一種文獻不同版本數據歸類與識別模型,從而實現在已有機讀書目數據中同一種文獻不同版本資源的識別與聚集,以滿足普通用戶和專業人士的多重閱讀與研究需求,具有重要現實意義。
文獻版本研究由來已久。西漢伊始,人們就講究傳本,把手抄的書籍稱為“本”,每一代傳人整理的書籍稱為“傳本”。進入宋、元,雕版印刷術盛行,把印刷的書籍稱為“版”,版本由此而來。版本研究目的在于考究文獻版本優劣,發現善本。隨著現代社會出版技術的發展與進步,文獻版本越來越豐富,需要對不同版本書籍進行更好的編目與聚集,以滿足人們多重閱讀與研究需求。要實現同種文獻不同版本的聚集,需要了解什么是同一種文獻以及什么是同一種文獻的不同版本。
對于同一種文獻,王瑋琦認為,“同一責任者所寫的同一題材的書為同種書。允許書名改變,但題材內容和第一責任者不能變。”[5]馬蘭芳提出,“當題名、主要責任者、主要內容相同時被視為同一種書。”[6]郁德祥認為,“同類中凡書名相同、內容關聯、書名關聯、內容相同者被認為是同種書。”[7]這些學者對于什么是同一種書,都認同內容必須相同,而對于題名、責任者、出版、印刷等項是否相同則有不同的見解。本文認為由于第一責任者對文獻的創作負有主要責任,若第一責任者不同,說明文獻內容有可能發生了較大改動,可作為不同種文獻處理。所以同一種文獻是指同一責任者所著的主要內容相同的圖書,包括不同版次、不同譯者、修改者等改變了書名和體裁,但沒有改變第一責任者和主要內容的文獻。
對于同一種文獻的不同版本的認定,馬蘭芳認為,題名、責任者、內容完全相同時為同一版本,主要責任者和體裁不變,內容有所變動時作不同版本處理[6]。《中國文獻編目規則》(第二版)指出,版本是同一種文獻(出版物),因編輯、排版、裝訂或制作形式的不同而產生的不同的本子[8]。《普通圖書著錄規則圖例手冊》指出,出版本是指內容或形式上與原版有所不同的作品[9]。從對不同版本的認定可以看出,對于內容改變必然會產生不同的版本,但是對于形式改變是否應該認為是不同的版本,說法不一。因隨著圖書出版數量增加,其出版形式復雜多樣,在一定程度上出版形式的改變能影響用戶對圖書的選擇。所以本文認為當同一種文獻的內容或形式發生改變時,都應該認為是同一種文獻的不同版本。
圖書館在著錄書目時,意識到了多版本問題的存在,為了將文獻進行聚集,不同的學者提出了不同見解。趙伯興提出,通過采用規范控制、分類和字段連接方法來聚集翻譯作品[10];王玉梅提出,字段連接法、統一標目法和歸類一致法能夠實現對于原作與譯作、譯作與譯作的聚集[11];但梁美宏認為,趙伯興和王玉梅提出的版本聚集方法只能揭示兩兩之間的關系,關聯程度較低[12]。所以在此基礎上提出采用關聯分析的方法來實現不同文獻版本的深度關聯。目前常用的版本資源聚集方法共有4種:款目連接法、規范控制法、同一分類法和關聯分析法。
款目連接法主要指利用機讀目錄中相應字段實施控制。在中文機讀目錄中,主要通過451、452、453、454、455、456字段實現同一載體版本、不同載體版本,原作和譯作以及原作和復制品的書目連接。4--字段作為選擇性字段,雖然能實現書目連接,但實際應用操作難度較大,基本不做或很少做著錄。另外我國中文文獻用CNMARC著錄,外文用MARC21,實現中文和外文之間的連接較為困難,所以難以實現多版本文獻聚集。
規范控制法是指對圖書題名和作者名稱進行規范控制來實現書目連接。中文機讀目錄通過500字段的統一題名進行題名規范,作者名稱控制則建立人名規范擋。但因目前絕大部分圖書館自動化系統都沒有提供或者啟用規范及掛接功能[13],所以利用規范檢索點發現同一種文獻的不同版本的優勢實際上無法體現。另外雖然采用500字段對題名進行規范,但在實際操作中對于統一題名的選擇有較高要求。
同一分類法是指通過賦以統一的分類號和種次號,并且附加輔助區分號,在一定程度上能夠實現不同版本資源聚集和區分功能。但是著錄規則不統一及著錄人員對版本信息源理解的不一致等原因,導致這一方法仍未發揮出該有的作用。而且在實際書目檢索系統中,用某一分類號進行檢索,往往得到的是這一類書,鮮有包含同一種文獻的所有不同版本資源。
關聯分析法主要借用關聯數據名稱唯一性特點,構建了基于關聯數據和書目數據的文獻版本關系發現方法[12]。目前該方法只研究了單屬性版本關系發現,即只有一種屬性不同,其他版本屬性都相同的同種文獻版本關系,對于多屬性版本關系識別研究還未開展,如同版次不同版式關系、同版式不同版次版本關系、不同版次不同版式版本關系等。此外,通過關聯分析法實現圖書館中不同版本書目數據的聚集,首先要求將MARC中的書目發布為關聯數據,而當前圖書館發布關聯數據集較多的國家為德國、美國、英國、法國以及一些國際聯合項目,亞洲只有日本發布了關聯數據[14]。
綜上所述,這4種方式在一定程度上能夠實現同一種文獻不同版本資源的聚集,但在實際應用中作用不明顯。為了便于讀者在圖書的不同版本資源中進行選擇利用,本文嘗試在已有的機讀書目數據中進行多屬性版本文獻的自動識別與挖掘。
王玉梅提出文獻版本有多種表現形式,載體不同時會產生不同的版本,載體相同時對于普通圖書來說主要有原本與譯本、不同名稱、不同出版者、不同譯者、收錄叢書不同、影印本、注釋本7種[11];房亞玉根據實際工作中遇到的情況將版本類型歸納為版次、印次、出版單位、裝幀(裝訂、版式、冊次)、不同譯者、不同題名6種;何云、黃久斌通過對《普通圖書著錄規則圖例手冊》的理解,將版本歸納為版刻、版次、文種、文體、出版者等13個類型[15];梁美宏、曾建勛結合當前研究和實際編目情況歸納出版次、其他責任者、版刻、版式、裝幀形式、語言、卷冊、出版社、出版時間和書名共10種類型[13]。
對于版本的類型各個學者看法不一,本文結合現有研究同時根據對《普通圖書著錄規則圖例手冊》的理解,從形式和內容上歸納出12種版本類型的劃分依據,詳見表1所示。

表1 版本類型劃分依據及內涵
因文獻版本類型復雜,以上所列的版本類型在機讀數據中并不能一一對應,本文就機讀目錄中與版本相關的字段進行了整理,其對照關系如表2所示。

表2 中文文獻版本關系識別字段
綜上所述,本研究認為同一種文獻是指同一責任者所著的主要內容相同的文獻,包括由于不同版次、不同譯者、不同修改者等改變了書名和體裁,但沒有改變第一責任者的文獻。當同一種文獻的內容或形式發生改變時認為是同一種文獻的不同版本。本文以CNMARC數據為例,構建了文獻版本關系識別與挖掘模型,如圖1所示。
由圖1可知,文獻版本關系識別主要包含兩個步驟。
第一步,識別出某一種文獻的所有書目數據,主要采用“題名+第一責任者”進行挖掘。

圖1 文獻版本關系與挖掘模型
說明:CNMARC在著錄書目數據時,與題名相關的信息著錄在200$a正題名子字段和5--相關題名塊字段,責任者字段著錄在200$f第一責任者子字段、200$g其他責任者子字段和7--知識責任者塊。因此選用5--字段的內容和200$a作為識別文獻題名200$f的字段。200子字段中的第一責任說明和其他責任說明在7--字段會重復著錄,為了做一簡化處理,選用200子字段的信息。經過處理后CNMARC中中文圖書著錄項目中識別同一種文獻相關的字段及子字段(見表3)。
具體處理流程包含步驟1.1和步驟1.2兩步。
步驟1.1,給出原文獻的題名,若檢索出的文獻正題名200$a 與原文獻題名相同時,繼續比較與原文獻200 $f第一責任說明是否相同,若相同,則結束匹配,認為這是同一種文獻,然后輸出“判斷題名”之外的其他題名和輸出該文獻;若檢索出的文獻正題名200$a與原文獻不同,則取正題名之外的其他的題名與原文獻的題名比較,若相同,則繼續比較與原文獻200 $f第一責任說明是否相同,若相同,則結束匹配,認為這是同一種文獻,然后輸出“判斷題名”之外的其他題名和輸出該文獻,若與原文獻200 $f 第一責任說明不同,則結束匹配,認為這不是同一種文獻。
步驟1.2,從步驟1.1中得到的所有題名進行去重,除去與檢索題名相同的題名,形成新的檢索題名集,若新的題名集為空集,則結束檢索同種文獻,若非空,則進入步驟1.1檢索同種文獻。
第二步,將步驟一中輸出的所有文獻進行去重后進入第二步的版本歸類,將識別出的書目數據按屬性值匹配的方式歸入不同的版本類型。
說明:根據CNMARC書目版本數據中發現與版本相關的字段類型和實際聚類需求,將版本類型分為裝幀、語種、其他責任者、版次、出版發行者、出版發行時間6種類型,按CNMARC與版本相關的屬性逐項匹配,歸入所屬類別,因每個版本數據有多個屬性,可按版本的性質歸入多個類別。
首先將第一步識別出的所有文獻的010$b的值與原版文獻比較,若取值相同,則歸入該裝幀類,否則建立新的裝幀類別。不同版本語種的識別是通過101$a + 101$c來進行匹配的。其他責任者識別是將200$g與原版書目信息匹配,若相同,則歸入這一責任者數據集,否則建立新的數據集,實現不同的注者、譯者、校者的書目數據的聚類。版本識別是通過205$a,匹配,得到同一種文獻的修訂版、增訂版、第二版等。出版社的識別主要是210 $c數據與原版文獻的匹配,聚類得到不同出版單位出版的同一種文獻。時間識別是210$d出版發行時間來聚類,可以得到按不同時間出版的同一著作的不同版本。

表3 中文文獻同種文獻識別字段
以東南大學圖書館書目數據為數據源,針對法國作家Dumas Alexandre的作品Les trois mousquetaires的不同版本文獻資源進行識別與挖掘實驗。其原著為法語版,有原版和續版。原版法語名稱有“Les trois mousquetaires”“Trois mousquetaires”,英文譯名有“Three musketeers”,中文譯名有“三個火槍手”“三劍客”“三劍俠”“俠隱記”等。續版法語名稱為“Vingt ans apres”,中文譯名有“二十年后”“三個火槍手續集”“三劍客續”等。
第一步:同種文獻的判斷。

表4 第一輪檢索文獻判斷情況及去重后的題名
通過對法國作家Dumas Alexandre的作品Les trois mousquetaires進行版本挖掘,共經過三輪檢索與判斷:第一輪,以題名“三個火槍手”檢索,檢出24篇文獻,判別出同種文獻23篇,第二輪,以“二十年后”“效忠國王”等7個題名進行檢索,檢出文獻34篇,判別出同種文獻28篇,第三輪,以“三劍客”“Vingt ans apres”等4個題名進行檢索,檢出文獻20篇,判別出同種文獻16篇,每輪的檢索題名根據識別模型獲得。將三輪獲得的文獻根據001字段的值是否相同(001字段值具有唯一性),進行去重后獲得該作品的同一種文獻有38種。由于MARC數據源本身存在重復編目、錯編等問題,所以對38種文獻數據再進行人工清洗后,最終剩余33種文獻數據。詳細過程如下:
第一輪判斷:本文以Les trois mousquetaires最常用的中文譯名之一“三個火槍手”為題名進行檢索,共檢出24篇中文數據文獻,分別編號為A1-A24,提取出每條數據的正題名、其他題名信息和第一責任者,分別判斷每篇文獻與原著是否為同一種文獻。
以A1為例,判斷其是否為同一種文獻:
(1)判斷題名是否相同 A1題名:三個火槍手=檢索題名:三個火槍手,正題名相同
(2)判斷作者是否相同 A1:第一責任者=(法)大仲馬,作者是Dumas Alexandre的中文譯名
(3)判斷是否是同種文獻 是
(4)因為判斷題名為“三個火槍手”,輸出判斷題名之外的其他題 名:Trois mousquetaires,同時輸出A1。同理判斷文獻A2-A24,結果如表4所示。
第二輪判斷:以第一輪判斷去重后的7個題名為檢索題名進行第二輪檢索,共檢出34篇中文數據文獻,將檢出文獻編號為B1-B34,提取出每條數據的正題名、其他題名信息和第一責任者。與第一輪檢索結果判斷原理相同,依次判斷文獻B1-B34是否為同一種文獻,結果如表5所示。
第三輪判斷:以第二輪判斷去重后的4個題名為檢索題名進行第三輪檢索,共檢出20篇中文數據文獻,將識別出的文獻編號為C1-C20,提取出每條數據的正題名、其他提名信息和第一責任者,同理判斷C1-C20是否為同一種文獻,結果如表6所示。
因第三輪去重后題名為空集,所以結束檢索。
結論:共檢出78篇,進行判斷后發現同一種文獻67篇。因文獻的CNMARC的001字段具有唯一性,所以根據001字段去重,如前所述,由于MARC數據源本身存在重復編目、錯編等問題,所以經過人工清洗后最終獲得與原著構成同種文獻關系的33種文獻(詳細列表省略)。

表5 第二輪檢索文獻判斷情況及去重后的題名
第二步:對33種文獻根據版本類型進行歸類。
提取33種文獻的相關CNMARC字段,進行版本類型歸類,包括200$a、010$b、010$d、101$a+101$c、200$g、205$a、210$d和210$c這8個字段信息,部分信息如表7所示。200$a表示正題名;010$b表示文獻的裝幀類型,包括精裝、平裝等;010$d表示文獻的分冊出版情況;101$a表示文獻正文所用語種,101$c表示原著語種;200$g表示其他責任者,意為除第一責任者外,對文獻負有其他責任的人,包括譯者、改寫者等;205$a表示版本類型,如第2版、修訂版等;210$d表示出版時間;210$c表示出版單位。
本文根據表1給出的12種版本類型劃分依據,并結合33種同種文獻的版本信息,進行歸納總結后,將其劃分為8種版本類型,包括中文譯本、中英對照本、中法對照本等,具體版本類型及對應文獻信息如圖2所示。

圖2 文獻版本類型關系
中文版本 :中文版本的圖書涉及24種,匯集了包括“三個火槍手”“三劍客”“二十年后”等為文獻正題名的圖書,其中一部著作分兩冊出版的圖書有14種,以一冊形式出版的圖書有10種。圖書出版年從1978—2017年,其出版社種類繁多。
英文版本:英文版本有4種,正題名的形式有“The three musketeers”“三個火槍手”,以全一冊的形式出版,其中A17是英文縮寫本,由上海外語教育出版社于2003年出版,B16由Ladybird出版社于2008年出版,A9、A24由外語教學與研究出版社分別于2011年,1994年出版,但是A9的譯者是郝運、王振孫,A24的其他責任者是程靜英。
法文版本:法文版本有1種,為A23。原著經勒馬歇爾改寫,韓伏秋注釋。正題名被譯為三個火槍手,于1991年由商務印書館出版。
中英對照本:中英對照本有3種,其正題名形式有“三個火槍手”“三劍客”,全部以全一冊的形式出版,B19由中國大百科全書出版社于2001年出版,A13由航空工業出版社于2007年出版,A20由外語教學與研究出版社在1985年出版。
中法對照本:中法對照本有1種,題名全部被翻譯為“三個火槍手”,其中A8由R.de Roussy de Sales改編,李洪峰翻譯,于2011年由北京語言大學出版社出版。
精裝本:精裝本有5種,全部是中文譯本,翻譯者有李玉民、周克希、羅國林、王振孫等,其中3種以全兩冊的形式出版,2種以全一冊的形式出版,其中精裝版本多集中在2013—2015年出版。
注釋本:原著注釋本有3種,A17的正文是英文,注釋是中文;A24正文是英文,注釋是英文;A23正文是法文,注釋是中文。3種文獻都是以全一冊的形式出版,其出版社、出版年和其他責任者均不同。
續本:續本有6種,所有續本的正題名是“二十年后”,全部為中文譯本,部分圖書采用精裝的形式出版,其中3種圖書以全兩冊的形式出版,另外3種圖書以全一冊的形式出版,出版年從1982—2014年。
以法國作家Dumas Alexandre的作品Les trois mousquetaires在東南大學圖書館書目數據中進行版本挖掘,發現該文獻版本類型十分豐富,主要有中文版、英文版、法文版、中英對照版本、中法對照本、續寫本、注釋本、精裝本8種類型;涉及20個譯者和注釋者,其中李玉民翻譯出版的圖書種類最多;文獻出版時間跨度從1978至2017年,約30年之久,涉及出版社多達24家,其中上海譯文出版社、上海三聯書店出版的圖書較多。這些文獻版本聚集信息不僅可為Les trois mousquetaires作品的文學分析與研究,而且可為圖書館經典圖書的篩選和導讀工作提供幫助。
當前匯文系統的OPAC檢索基本無文獻版本聚集功能,在OPAC系統中需分別以Les trois mousquetaires不同改版題名進行檢索,并加以人工判斷才能識別出少量版本信息。若以當前在機讀數據中廣泛采用的以統一題名的方式進行版本挖掘,能夠檢索出以《三個火槍手》《三劍客》為正題名的文獻,但數量亦十分有限,主要是由于部分文獻在著錄時未著錄統一題名項,同時每篇文獻的統一題名的著錄不同,使得難以實現對所有版本的聚集。而本文建立的文獻版本挖掘模型能夠識別出以《三個火槍手》《三劍客》《The three musketeers》《二十年后》為文獻正題名的33種原著同種文獻,能夠起到較好的版本挖據與聚集功能。本文研究不足之處在于,對于原著的另外兩篇同種文獻,即正題名分別為《俠隱記》和《三劍俠》的文獻,卻沒有能夠進行有效聚集。
本文通過對版本的發現過程,同一種文獻和同種文獻不同版本的認定,常用的文獻版本聚集方法及版本數據在機讀數據中的表現,構建了文獻版本關系識別與挖掘模型,以Les trois mousquetaires作品為例,以“三個火槍手”作為檢索初始入口,能夠實現因裝幀不同、出版社不同、出版時間不同、版次不同、語種不同等同種文獻的發現。由于本文構建的文獻版本關系識別模型具有滾動性,因此以“三劍客”“The three musketeers”“二十年后”或“效忠國王”等為初始檢索入口,同樣能夠達到以“三個火槍手”作為初始檢索入口的挖掘效果。另外,因書目元數據本身在著錄的過程中一些人為因素存在一定的質量問題,會影響識別和版本聚類過程。在進行同種文獻識別過程中,文獻200$a 正題名、5--相關題名塊是識別因題名不同的同種文獻的關鍵字段,不同題名的文獻之間也因200$a正題名、5--相關題名塊之間存在一定的關系,所以能被識別出,若同種文獻題名之間沒有任何關系,則很難被識別出,例如本文研究中Dumas Alexandre的作品Les trois mousquetaires被翻譯為“俠隱記”和“三劍俠”沒有作為同一種文獻被識別出。因此對于題名變動較大或改換題名的同一種文獻的識別將成為本文今后進一步研究的方向。