●朱蓮花,黃衛東編譯(青島大學 圖書館,山東 青島 266071)
日本文書館制度的發展與圖書館、博物館相比較為落后,所以有關反映本地區地方文化特色的資料和時事資料保存在各個地區圖書館。這些資料保存在圖書館的“特殊文庫”“特別資料室”內,以不同于出版物的類型及格式存在,并向讀者提供服務。隨著近幾年數字化存檔、數字圖書館的發展,這些文書資料逐步公開化。本文根據近幾年有關電子化時代的發展狀況,對文書資料管理方法進行分析研究。
過去,圖書館的文書資料與圖書是以完全不同的方式來管理的。原因之一是,文書資料的分類、秩序體系跟圖書的分類體系有著很大的差別。
文書資料的保存,原則上按出處或者按原結構分類保存,關鍵的是要明確資料的制作地和繼承過程并且把整體資料看成一個群體,重點分析它的物理結構。在整理的過程中,雖然是根據內容和形態進行分類,但有關這些資料原有的秩序信息必須要完整地記錄下來。在這一點上,與根據內容來分類排架的圖書館原則有很多不同。
法國的文書資料管理體系較發達,特別是以公文為中心,在19世紀中期開始根據“出處原則”和“原秩序原則”對文書資料進行分類和排架。[1]日本文書館的文書資料管理制度從20世紀后期才開始發展,最初傾向于按照圖書館信息學進行目錄的分類和排架。[2]從1970年前后起,有人提出這種方法會破壞文書資料的原有秩序,提倡資料大體在按“公文”“私人文件”等分類[3]的基礎上,應重視資料出自哪家、哪個組織制作等“出處”信息[4]的觀點。此外,還主張區分目錄分類和排架分類的方法,以防止破壞文書資料原有秩序。這種重視資料原有秩序的管理方法主要先實行于公文等文書資料管理領域,后來逐漸普及到私人文件管理等領域。
經過以上的發展,以內容、形態及年代為中心分類的文書資料,逐漸變成從更多的資料特征來進行分類,同時添加出處或者資料的原秩序等信息,在目錄上進行“第1分類”“第2分類”等,從多角度對資料進行分類、排架。另外,有關文書資料實際的排架,除了明顯的形態不同之外,還重視出處和原秩序的排列,1980年以后更加重視對公文等文書資料根據出處分類的方法。[2]
在圖書館,文書資料與圖書資料的管理完全不同,大多數圖書館以不同的資料體系來保存。因此,在小規模的圖書館,讀者對這些資料的利用率未必很高,許多文書資料不能像一般的出版物那樣簡單地閱覽。
這類文書資料,隨著近年來的電子化和通過WEB等電子媒體的公開,閱覽及利用變得簡便。現在,除了國立和縣立的主要圖書館以外,大學以及主要城市圖書館也在開展把各種各樣文書資料以電子化方式公開的業務。例如,貴重資料視頻數據庫、貴重圖書和漢書,有關自然風景區的資料、歷史年代資料等。從這些文書資料產生的年代來看,主要是明治(1868年—1911年)以前的,最新的資料也就是戰前的資料等。地方圖書館電子化公開的文書資料主要是反映本地地方特色的資料。另外,一些圖書館也公開議會資料等,而有關行政文書之類的資料,原則上由國家或者各地區文書館以及相關行政機構保存并公開。因此,由圖書館保存并公開的文書資料主要是近代以前的歷史資料。其中,被電子化的資料類型主要是繪畫、地圖、織錦繪畫以及照片等圖像資料。關于文字資料,由于很難描述并且多數用了草體字,對一般人來說難以閱讀,因此,電子化公開的資料主要是通俗易懂的繪圖資料。今后的一個重要課題是如何使這些難懂的文字資料變成通俗易懂的內容并公開和應用。
雖說文書資料逐漸被電子化公開后便于利用,但是在現實中與圖書等其他資料之間的隔閡依然很大,缺乏與圖書資料之間的相互聯系。另外,圖書館的文書資料與博物館及文書館的資料之間的相互關聯也不充分。因此,這些文書資料的管理在電子化以后的課題是,如何把這些文書資料與館內的圖書或者縮微膠卷等模擬復制資料,以及與博物館、文書館或者其他圖書館等館外資料相互連接的問題。
圖書館文書資料的電子化可以采取各種各樣的方式,本文以下面的系統圖來說明比較常用的文書資料電子化方式的問題。

圖 圖書館文書資料的電子化
上圖所示的電子化資料對象是:圖書館現有的圖書資料和文書資料以及縮微膠卷等模擬復制資料,還包括近幾年增加的Born DigitalContents等。圖中用羅馬數字所表示的是實物資料或是原始資料,用英文字母表示的是被電子化的資料和及目錄數據。另外,中間的箭頭表示資料電子化的過程。其中,表示被電子化的文書資料和目錄數據的是:“B:電子化文書資料”和“A:電子化文書資料目錄數據”。文書資料的電子化方式有兩種:一種是圖中箭頭① 所示的從“Ⅰ:實物文書資料”電子化,另外一種是箭頭② 所示的從縮微膠卷或者底片膠卷等,即“Ⅱ:模擬復制資料”的電子化。另外,通過“A:電子化文書資料目錄數據”,可以鏈接“C:電子圖書數據”以及“E:其他圖書館、博物館、文書館等設施”的目錄數據。
上圖中圖書館保存的文書資料,主要可分為實物資料、模擬復制資料(指用縮微相機或者銀鹽相機拍攝的模擬復制資料)、電子化資料和圖書等4種。通過文書資料的電子化保存實物資料或者模擬復制資料,可以提高這些資料的利用率,并能更有效地保證資料的完整性。
近些年來,隨著數碼照相機性能的提高,從實物資料直接電子化的情況也比較多。一般來說,通過直接電子化可以獲取保存質量較高的文書資料信息,而通過模擬復制資料進行保存可能比實物資料的保存質量還差。因為資料里包含豐富的彩色或者微妙的信息,而通過直接電子化既能反映出其信息的豐富性,又可以降低成本。
如上所述,實行電子化時需根據資料的狀況以及各館的實際情況而定,但是,無論使用哪一種方式,必須先明確“實物文書資料”“模擬復制資料”“電子化資料”三者的功能。另外,在數字信息的目錄數據中,必須明確記錄電子化的資料是實物資料還是模擬復制資料。還有,用如上3種媒體保存同樣的資料時,必須相互參照各自的信息。比如,縮微膠卷用卷號和圈數來標記其資料的情況。收藏這種信息時,無論是將膠卷底片電子化還是將實物資料電子化,一定要把這些信息反映在電子化資料信息的目錄數據中。
另外,把刊登實物資料的概要、目錄或者照片等圖鑒作為圖書保存時,也要清楚記錄原始資料之間的關聯,即從圖書資料的目錄中能夠參照實物資料的ID,使這些資料相互對應。由此,可以把“實物文書資料”“模擬復制資料”“電子化資料”“圖書資料”等相互聯系起來保存并傳承下去。
近幾年,在圖書館和文書館保存的資料,不僅僅是物理性的資料,還有越來越廣泛普及最初就用電子媒體制作的BornDigitalContents。BornDigitalContents主要包括,地方圖書館記錄有關本館、學校以及公共設施舉辦的各種活動資料和廣告等信息的WEB網頁或者電子文書,還包括有關地區的活動資料和傳統儀式的數字信息。因此,在今后的電子圖書館業務中,Born DigitalContents保存將成為一個很重要的研究課題。
這些資料中一部分有可能存在對應于Born Digital Contents的“Ⅰ:實物文書資料”“Ⅳ:圖書資料”等關聯收藏資料中,因此,必須做好通過目錄數據獲得與其他資源之間關聯的信息記載。另外,Born Digital Contents的數據格式必須根據更為多樣的數據格式化方式格式化以后保存。如果電子化資料對象是WEB網頁內容時,一般情況下是用HTML文件或者用時事圖像如實地保存。但是遇到需要使用插入程序的情況,或者遇到對特定的OS以及瀏覽器依賴程度較高的資料時,對它的依賴環境必須獲取更詳細的信息。另外,為了能夠再現這些環境,必須同時保存OS以及瀏覽器的應用程序和各版本的插入程序。
但是,電子信息資源隨著硬件環境的變化,將來再現會很困難,因此,對于特殊的數據格式資料,可以考慮將“BornDigitalContents”紙本化作為“實物文書資料”來保存,或者制作成圖書作為“圖書資料”來保存。通過這種方法可以把同一種資料用實物和電子數據兩種方式保存,從而能應對因為環境變化而引起的各種問題。在這種情況下,對于“Born Digital Contents”“實物文書資料”“圖書資料”各自的目錄數據必須做好資料之間的相互對應的信息記述,從而能夠更加安全地對一種資料進行分散閱覽。
總之,希望各種形態的資料以互補的方式加以利用,而能起到相互鏈接各種資料的作用的就是目錄數據。
圖書館文書管理用的目錄數據必須對應前面所述的各種要素。目錄數據除了對應保存文書資料的要素以外,還要起到鏈接膠卷等模擬復制信息、圖書信息、Born DigitalContents以及與其他館之間信息交換的作用。為了能夠應對這些問題,必須掌握已有的各種目錄數據格式,設計一個適合于所有要素的目錄數據格式。
1980年興起了國際性目錄數據格式標準化的熱潮,1989 年由 ICA(InternationalCouncil Archives)[5]致力于記錄歷史資料記述標準化,并于1992年發表了“關于記錄歷史資料記述的聲明”(馬德里原則),從而制定了國際標準的原則。1994年出版了國際標準記錄史料記述一般原則ISAD(G)(General International Standard Archival Description) 的初版。
1993年,加利福尼亞大學的伯克雷學校制定了用SGML/XML文書記述語言的Encorded ArchivalDescription(EAD)目錄數據格式。這與前面所述的顯示概念和結構ISAD(G)原則相比,EAD是利用SGML/XML記述為前提,并且EAD還附有ISAD(G)和EAD的對應表。[6]
另一方面,針對圖書館用或者電子資料保存用的目錄數據中最典型的是1994年制作的DublinCore。[7]DublinCore是由極其簡單的15個要素組成的表示電子信息資源的目錄數據格式,也與ISAD(G)以及EAD的目錄數據要素相對應,近幾年互相變換各種不同目錄數據時都可以利用Dublin Core。但是,由于Dublin Core存在與MARC等已有的目錄數據格式之間互換性較難的問題,所以美國議會圖書館于2002年開發出了既對應于Dublin Core的簡便性,又具有MARC21多要素特點的目錄數據大綱MODS(Metadata Object Description Schema)。[8]MODS是由 20 個主要素和子要素組成的目錄數據大綱,主要是針對圖書館電子信息資源的目錄數據而設計的,它既對應現存的圖書,也對應WEB信息內容等電子信息資源。
另外,關于管理數字化數據的目錄數據,CCSDS(ConsultativeCommitteeForSpaceDateSystems) 構建了為保存數字化信息內容的OAIS參照模型。它把數字化信息分成內容信息(Content Information)、保存記述信息(Dresevation Description Information)、組合信息(Packaging Information) 以及與組合相關的信息(Descritive Informationaboutpackage) 共4點的參照模型,還有作為描述這個OAIS參照模型的組合信息部分的目錄數據。以美國議會圖書館為中心的研究集團提倡METS,[9]METS由記述目錄數據、管理目錄數據、文件組、結構圖以及操作等部分組成,是一個以OAIS模型為基準,給予電子信息資源目錄數據的格式。另外,OCLC與RLG的共同研究集團,共同研究基于OAIS模型的目錄數據大綱PREMIS,現已經進入最后的完成階段。
對于這種存在各種各樣格式的目錄數據標準,在圖書館實際利用率較高的是MODS。此格式除了可以對應Dublin Core所包含的標準要素以外,與MARC21的互換性也較好。并且MODS的要素通過Dublin Core,與EAD文書資料的各文書單位內容要素之間能互相變換。
關于數字信息,利用前面所述的PREMIS以及METS等目錄數據格式,可以保存相關數據。靈活運用這些目錄數據格式,能獲取保存數字信息所需要的最低限度的樣式、格式、再生環境等信息,把數字信息保存下來。
滿足以上條件的綜合目錄數據,可以以日本國立國會圖書館制定的“NDL數字存檔系統、目錄數據大綱”為例。這個目錄數據,整合MODS以及PREMIS[10]等目錄數據格式,以獲取實物文書資料和數字數據兩方面信息為目標。此格式可分為“信息組合目錄數據”“記述目錄數據”“技術目錄數據”“權利目錄數據”“保存目錄數據”“管理目錄數據”等,關于內容的信息適用于MODS,數字化的信息利用PREMIS的概念而設計。
如前所述,必須設計一個“實物文書資料”“模擬復制資料”“電子化資料”“Born Digital Contents”“圖書資料”等各種資料的目錄數據之間相互對應的目錄數據。目錄數據與文書不是相互獨立的個體,必須把兩者作為一個整體來記述。因此,怎樣描述這些結構將成為今后的研究課題。
前面研究了館內資料相互鏈接的重要性,而與館外資料之間的鏈接也很重要。有關圖書館的書籍數據,國立情報研究所通過NACSISCAT(綜合目錄數據庫)等系統,橫向制作和利用各種書籍資料。在數字化存檔和數字圖書館建設中,這種橫向連接信息的嘗試有幾例,但還為數不多。
其中,最先驅的例子是,國家文學研究資料館、國際日本文化研究中心、京都大學、歷史民俗博物館、大阪市立大學、東京大學史料編撰所、慶應義塾大學等機構,利用DublinCore轉換各個機構不同的目錄數據,并且使用Z39.50協議[11]連接各機構數字資料信息的研究項目。[12]該研究項目已成為人間文化研究機構研究的研究資源共享系統之一。
另外,作為國立國會圖書館和國立情報研究所開展構建綜合門戶的研究項目,國立國會圖書館開設了有關數字圖書館的門戶網站“NDL數字存檔門戶網站PROTA。[13]除了國會國立圖書館以外,多個機構已經構建了聚集電子化資料的信息網站,收藏這些信息的目錄數據是以Dublin Core為中心的國會國立圖書館的目錄數據大綱“DC-NDL”。
國立情報研究所作為總務省、文化廳的研究項目構建了“文化遺產在線”[14]網站,收集日本全國的博物館、美術館的資料信息,構建信息檢索系統。
但是,這些不同項目的各自連接信息的結構、使用的目錄數據大綱都有所不同,很難統一規定為一個標準格式的目錄數據。因此,今后各個館必須把握這些現狀,研究出更為通用的目錄數據格式,摸索電子化資料數據的鏈接方式。
如今圖書館的電子化文書資料管理,改變了文書資料與圖書資料完全分開保存的傳統的文書管理模式,提高了文書資料的利用率,并且為讀者提供了更加簡便的文書資料閱覽環境。另外,通過保存數字化信息,資料信息對后世的傳承也起到了一定的作用。但是,為了更好地發揮它的長處,更加需要文中圖所列出的各種資料之間的相互聯系。這種聯系除了包括把同一種資料用不同媒體保存時各種資料之間相互聯系以外,還要包括相關圖書以及其他機構保存的文書資料之間的鏈接等。相關的目錄數據,分別有文書館領域的目錄數據和在圖書館處理電子信息資源時所使用的目錄數據,以及專門處理電子信息資源的目錄數據等各種格式。根據現狀,必須研制出既適應實物資料又能獲取BornDegitalContents信息的目錄數據。
以這些目錄數據為媒介,促進保存同一種文書資料的圖書館、文書館、博物館等不同機構信息之間的橫向檢索等事業,加深數據的MLA(Modern Language Association)鏈接是一件非常緊迫的事情。
(譯自:(日)研谷紀夫.電子化時代圖書館的文書資料管理 [J].情報科學與技術,2008(11):554-559.)
[1](日) 青山英幸.Archives:Evidence,historicaldocu mentsand culturalheritage [J].Journalof the Japan Soci ety forArchivalScience,2004 (1):40-51.
[2](日)鈴江英一.近代史料的管理和史料認識[M].北海道:北海道大學圖書出版會,2003.
[3](日)小川千代子.電子記錄的存檔[M].(日本)東京:Nichigai Associates Inc,2003.
[4](日)大野瑞男.近世紀史料分類的原狀和基礎的課題[J].史料館研究期刊,1968(1):267-283.
[5]ICA.記錄史料記述標準化作業事業計劃[EB/OL].[2010-04-20].http://www.ica.org/.
[6](日)五島敏芳.日本的記錄史料記述EAD/XML化和記錄史料管理:圍繞記錄史料管理過程的EAD利用的地位 [J].情報知識學報,2003(12/4):3-21.
[7]DublinCore[EB/OL].[2010-04-20].http://www.dublincore.org/.
[8] MODS[EB/OL].[2010-04-20].http://www.loc.gov/standards/mods/.
[9] METS[EB/OL].[2010-04-20].http://www.loc.gov/standards/mets/.
[10] PRMIS[EB/OL].[2010-04-20].http://www.loc.gov/stan dards/premis/.
[11]美國議會圖書館Z39.50輔導資料[EB/OL].[2010-04-20].http://www.loc.gov/z39.50/.
[12](日) 山本泰則,等.關于DublinCore目錄數據和Z39.50協議為基準的人文科學系數據庫綜合檢索的實際驗證實驗[C]//人文學和計算機學術會論文集.(日本)東京,2004:199-206.
[13]國立國會圖書館數字存檔門戶PROTA[EB/OL].[2010-04-20].http://porta.ndl.go.jp/portal/dt.
[14] 文化遺產在線 [EB/OL].[2010-04-20].http://bunka.nii.ac.jp.