張曉林
摘要介紹了在魁北克城召開的國際圖聯第74屆大會上就開源軟件與學術圖書館未來、書目數據的開放與共享、新環境新視角下的元數據、物理數字對象保存、數字資源長期保存基礎結構、著作權限制與例外等方面的討論。
關鍵詞國際圖聯開源軟件書目數據共享元數據物理數字對象數字資源長期保存用戶權利著作權限制與例外
國際圖聯第74屆年會于2008年8月10日—14日在加拿大魁北克城召開,全球3000余名代表參加了大會。從專業的角度看,國際圖聯年會最核心的部分是分組學術會議,多達75場,有的以學術報告為主,有的以開放討論為主,有的則是專家討論形式。我根據自己工作和研究的需要,選擇參加了多個會議,下面就其中五個會議的熱點問題進行介紹(其他內容可到會議網站上查閱。
1開源軟件與學術圖書館的未來
學術與研究圖書館專業組的“學術與研究圖書館熱點問題”研討會,采取了開放討論形式,事先列出十多個熱點問題,每個問題設置一個討論桌,參會代表選擇加入到討論桌。我選擇的是“Open Sourceand the Future of Academic Libraries”(開源軟件與學術圖書館的未來)。
這個問題的起源,一方面是圖書館自動化系統產品和公司正不斷合并和被收購,例如sirsi和Dv—nix的合并為SirsiDynix,涉及到Unicorn和Horizon兩個系統,Ex Libris和Endeavor的合并為新的ExLibfs集團,而它們又分別被私人風險投資基金收購,這種趨勢可能導致圖書館自動化系統市場競爭者越來越少、日益被商業投資公司控制,進而使整個市場的技術進步、產品開發和競爭性受到極少數壟斷者的限制。另一方面是現在的圖書館自動化系統基本上還是按照傳統圖書館藏書管理模式開發,已經遠遠不能適應網絡環境下多元資源類型、多元組織方式和多元利用模式下新型圖書館服務的需要(而且這些需要還在不斷變化),可能需要通過開源軟件的開放視野、開放研發模式和開放系統結構來發展圖書館自動化系統。從這兩個背景出發,圖書館需要主動參與到(甚至組織)圖書館自動化系統軟件、尤其是開源軟件的開發中,例如最近美國梅隆基金會資助、杜克大學圖書館牽頭、全球近10個圖書館參加,一起提出下一代開源軟件的圖書館自動化系統的設計要求。其實,多數圖書館已經在很多方面(例如系統軟件、網絡服務器軟件、機構知識倉儲系統軟件等)都很習慣采用、甚至依賴諸如A,pache的開源軟件,有些圖書館還把首選開源軟件作為自己的系統開發政策。但要有效利用開源軟件,往往需要圖書館具備必要的持續的技術力量,對于一般圖書館將是個很大的挑戰,但通過聯合開發、建立開發者社區、與有關開源軟件支持公司合作等方式,可以減輕利用和長期維護開源軟件系統的負擔,就像Sakai的發展一樣。而且,已經有多種開源圖書館系統(例如Greenstone,Evergreen,Koha,PhpMylibrary,Emilda,OpenBiblio,iVia,NewGenLib等)和開源倉儲系統(例如DSpaee、ePrint、Fedora等)存在,其功能與性能都相當不錯,而且往往有開發者社區或專門非贏利團體支持其持續發展。實際上,圖書館還可以進一步采用開放的思路,不把自己看成是一個封閉和特殊的系統,而從廣義資源管,理系統和廣義信息服務系統的角度來重新認識自己,這樣就可充分利用開源的內容管理系統,甚至一般的商業化資源規劃與管理系統,例如霍普金斯大學圖書館提到它正積極考慮利用諸如SAP這樣的系統來支持日益復雜的信息資源及其服務的管理。我也提出,因為圖書館將與e-science、e-learn—ing、數字檔案館、數字博物館、數字出版與傳播等領域日益融匯,應該積極推進Open integration和OpenMach-up戰略,充分利用這些領域的大量的開源工具,通過開放的對象描述與封裝、開放接口、開放的服務與流程描述等,支持與任何領域的任意資源與服務進行動態聚合,支持個性化和動態的用戶信息體驗。事實上,“開源”不僅是個軟件問題,還包括要采取開放模式進行軟件開發,積極吸引用戶參與到需求分析和開發過程,而且不再試圖去獨立地建設一個完整的系統,而是依賴用戶與專家社區,開發可以不斷發展的、可以不斷與其他信息資源、信息系統和信息服務過程互操作的系統。這還與圖書館服務本身的開發模式相關,這是當今開放的信息環境的必然要求和強大能力所在。依靠開源思想,我們不但能夠打破系統商并購所帶來的挑戰,還能夠“從容應對”環境復雜化所帶來的系統復雜化挑戰。
2物理數字對象保存和長期保存基礎結構
保存與保護專業組與信息技術專業組等聯合舉行的分組會議,專門討論了物理數字對象長期保存和長期保存基礎結構(Digital Objects on Physical Carries and Digital Preservation Infrastructure)。
所謂物理數字對象,主要指以各種軟盤、CD—ROM、DVD為載體的出版物,這些出版物的內容都是數字化的,有些是文本形式,但多數是多媒體形態。從上世紀90年代起,各類圖書館(尤其是高校和公共圖書館)采購了大量的這類出版物,但隨著載體變化、技術換代、設備更新、人員替換等,我們很可能已經不知道這些媒介是什么(有多少人知道什么是"HyperCard”?),可能對這些媒介上的內容知之更少,從而談不上利用它們。因此,如何保護這類資源就成為一個嚴峻的挑戰。來自美國紐約大學的Mo—na Jimenez和英國大英圖書館的Rory Me[cod分別對這類物理數字對象的狀況和風險進行了調查和分析,指出它們可能遭受物理介質損壞、使用技術過時、內容格式過時、硬件設備損壞等風險,而且圖書館書目系統中往往缺乏這些出版物的著錄數據,即使有著錄數據,多數很少描述相應的技術信息(包括技術平臺及其生產廠家和文件格式等信息)。因此,那些收藏有較多這類出版物的圖書館應該首先進行風險評估,清楚掌握這些物理數字對象是什么、有什么內容、需要什么樣的軟件硬件來使用它們、在長期持續使用上面臨什么樣的危險,并建立相應的策略和技術過程來保護這些出版物上的內容(例如大英圖書館將這些媒介上的數字內容映射到聯機存儲系統上)。來自澳大利亞國家圖書館的ColinWebb特別介紹了該館保存物理數字對象的業務流程。該館從2003年起就開始將物理數字對象轉移到基于海量存儲的內容數據庫上,但為了提高轉移效率,開發了MediaPedia系統,全面管理關于各種媒介類型、各種數據格式、各種利用系統的信息,在它的支持下,通過一個計算機輔助的流程,把物理數字對象鏡像到海量內容數據庫中,并自動加
載數字簽名、進行METS封裝、把著錄信息加載到圖書館書目系統之中。來自英國Glasgow大學的DaisyAbboa通過一系列實例(包括音頻磁盤、多媒體CD、網站內容拷貝CD等),發現物理數字對象存在復雜的內容結構,包括簡單文件對象,也包括含有多個獨立文件的復合對象、含有多個相互關聯文件的復合對象、含有多個復雜文件的復合對象、含有多個獨立對象的群組對象以及含有多個相互關聯對象的群組對象。這些對象可能包含陳舊的文件格式,往往隱含內部復雜的文件關系,經常需要專門的瀏覽軟件(這些軟件又可能沒有和內容捆綁在一起一而裝載這些軟件的原來的瀏覽系統可能還不知所蹤)和額外的網絡或數據庫軟件才能使用,相關的技術說明卻無從尋覓。人們雖然可以根據文件擴展名,利用像WWW.filext.com這樣的網站和類似新西蘭國家圖書館文件元數據抽取工具查詢文件格式,如果多個物理載體之間存在著內容關聯,如果瀏覽系統使用專門的用戶控制系統,如果物理數字對象依賴額外的軟件或數據才能使用等等,沒有相應的技術說明,就可能陷入一籌莫展的地步。
數字資源長期保存分組會議的第二個內容是長期保存體系結構,來自美國加州大學CDL(California Di6tal Library)的Margaret Low首先回顧了CDL公共框架(CDL Common Framework)的基本原則,在SOA結構下,實現功能模塊獨立、存儲系統與其他保存流程相互獨立、所有存儲系統共享底層編碼、采用分布系統來支持可伸縮性。在此基礎上,CDL提出了針對機構倉儲型的基本保存模式、針對網絡資源存檔的復雜模式和針對復雜應用環境的柔性伸縮結構,爭取得到更大的靈活性和系統能力(through—put)。來自德國國家圖書館(DNB)的ReinhardAltenhsner介紹了德國的KOPAL項目,在德國聯邦教育研究部支持下,DNB和哥廷根大學圖書館在DIAS系統基礎上合作開發了koLibRi數據攝入模塊和檢索模塊,并在若干核心圖書館建立彼此分工合作的核心保存系統,其他機構可以通過一定機制獲得DIAS/koLibRi軟件建立自己的保存系統,也可委托核心圖書館保存自己的數據。當然,為了促進保存系統軟件及其服務能被廣泛采用,合作系統必須在服務定義、資源選擇規則、資源完整性真實性檢驗規則、保存工作流程、服務界面、合作責任與義務等方面達成協議。法國國家圖書館(BnF)的代表介紹了他們的SPAR長期保存系統建設計劃,將把數字化掃描數據、網絡存檔資源、出版商提交數據、自動收集的出版商數據、第三方系統提交數據和來自數字內容管理系統的數據等不同渠道的內容在統一系統下攝入和保存。為此,提出了Set/Group/Ob。jeet/File的基本內容結構,將利用一系列標準來組織被保存資源,例如MIX(靜止圖像)、TextMD(文本文件)、PREMIS(起源元數據)、DC(描述元數據)、METS(數據封裝)等,并利用PAlMASt作為與資源提供者談判的基礎。來自加拿大國家圖書館與檔案館(LAC)的Pam Armstrong介紹了他們開發的Virtu,al Loading Desk,作為一個攝入界面,支持對多種來源渠道的數據進行攝入處理,現在已經與加拿大政府的RecoMs,Documents and Information Manage。merit System相連,可直接接收各類數據。今后,LAC還將與加拿大出版商談判建立接收數據的通道。來自新西蘭國家圖書館(NLNZ)的steve Knight介紹了NLNZ的NationalDigitalHeritageArchive項目,在新西蘭數字戰略的指導下,提高數字資源長期保存的機構準備度,進行相應的能力建設,建立長期保存性能與效率的度量指標,建立資源創建者與提供者管理機制,建立流暢的運營流程,并將長期保存有機納入整個圖書館系統之中。他特別強調了隨著數字資源長期保存而出現的Business Change,圖書館今后的數字戰略將圍繞內容資源(不是目錄資源)來進行,這些內容資源才是圖書館的核心。來自美國Drexel大學的Andrea Japzon介紹了圖書館如何為個人數字資源(例如我們個人的文件、數字照片、數字音像資源等)建立可公共使用的數字保存系統,分析了可能的版權、隱私、公共信任度、系統結構支持度等問題。
3書目數據的開放和共享
“圖書館與Web 2.0”討論組舉行了一場關于開放和共享著錄數據的討論,來自OCLC、美國國會圖書館、盧森堡國家圖書館和SirsiDynix公司的有關代表作為Panel experts參與了討論。今年,OpenKnowledge Foundation針對美國國會圖書館2007《書目控制的未來》報告,指出這個報告令人遺憾地幾乎完全沒有談到書目數據的開放獲取,要求美國國會圖書館推動書目數據的開放獲取。這次討論就以此為起點,會議主持者首先放映了一個視頻短片“Free the data”,指出Wikepedia、Google Books、Wiki-source、LibraryThing、Amazon、OpenLibrary等都能提供豐富的書目及相關數據,而作為提出OpenAccess的積極推動者、并積極支持開放數據和開源軟件的圖書館,應該參照開放數據的八項原則,也把自己的書目數據解放出來,使得圖書館目錄變成開放資源。來自OCLC的Karen Calhotm針對這個要求,提出了有限制的開放的概念,她通過對Wikepedia、Sherpa/RoMEO、Amazon、ProQuest?AllMeSa Guide和Twitter等的分析,認為實際上沒有完全免費的開放數據,幾乎每個系統都有一定的限制條件,而且經濟來源性質可能決定各個系統的數據共享政策。她說,其實OCLC的成員圖書館可以任意使用自己本館在OCLC的數據,不過不能用于商業化的服務。美國國會圖書館的代表表示,它的書目數據在網絡上是免費檢索和單條下載,但批量數據仍然收費,主要是傳輸數據的成本費用,且用于支持對接收用戶的服務;它可以免費提供批量數據,但就難以提供相關的服務。
SirsiDynix公司的代表指出,實際上圖書館存在著一種“元數據思維定勢”(Metadata mind-set),把書目數據看得過于重要,當成自己不可或缺和用戶須臾不離的基礎。其實,隨著數字全文內容的逐漸普及和網絡化數字挖掘與關聯能力的日益提高,真正有意義的將不再是元數據本身,而是關于用戶行為(例如用戶標記一User tagging、用戶群體過濾—Col—laborafive filtering等)、用戶過程(用戶的教育、研究與管理工作流)和內容關聯(通過引用、鏈接、邏輯
語義等方式形成的內容間關系)的組織機制。如果說文獻本身屬于第一層次的內容組織機制(First or—der of content order),書目數據則是第二層次,而關于用戶行為與內容管理的信息則是第三層次(Thirdorder of content order)。利用第三層次,可以推演和歸納出新的組織機制和新的內容,避免僅僅依靠書目系統去硬性組織。與會專家和參會代表對此進行了熱烈討論。其實,類似Wikepedia和Amazon以及LibraryThing等都積極挖掘各類內容關聯信息,并記載、組織和利用用戶行為與用戶過程信息來靈活地組織、預測和引導信息獲取。所以,不應孤立地看待書目數據,而要從用戶本身工作流的角度,考慮如何把書目數據和其他內容(例如文獻全文,與文獻相關的借閱或購買信息,與內容有關的地點或事件或人物或數據或工具或新聞等信息,以及相關文獻、相關評論、合作作者等)關聯起來,而且在這個過程中充分考慮利用第三方數據資源一而不是自己重新做所有的事情。要做到這點,根本的是要突破圖書館長期依賴的書目范式(Bibliographic paradigm),這個范式實際上仍然把圖書館看成一種物體或對象(0b—jects)的存儲系統(盡管“物體”可能已經是數字化的),對于這個存儲系統來說,最重要的過程仍然是對物體進行采集(虛擬或物理的)、組織和檢索獲取的過程,最重要的工具仍然是著錄系統,最習慣的思維和做法是遇到任何信息需求都先考慮自己如何采集、描述、檢索和提供相應的內容對象,導致“無法采購就無法服務”、“無法編目就無法服務”。這種以“采購和編目”為核心的傳統模式已經受到強烈沖擊,而且限制了圖書館本來可以開拓的領域。圖書館書目系統本來可以作為一種可廣泛連接各種內容、靈活激發各類服務、豐富地融匯用戶活動和用戶社區的開放平臺,但我們沒做,結果LibraryThing等就做了,而且Google通過利用我們的書目系統、再連接其他系統就形成了用戶趨之若鶩的新的服務平臺。實際上,如果我們打破圖書館作為一種存儲庫和依靠復雜系統進行著錄控制的模式,利用信息網絡廣泛連接各類資源和信息技術深度挖掘相應的關聯與行為與過程信息的能力,我們有可能創造出真正以服務為核心的新的模式。考察Amazon和Wikepedia等系統,就可以看出它們并不局限于某種過程或工具,而是不斷地根據用戶服務的要求而擴展自己的內容和功能,而且在擴展過程中大量地利用其他系統的資源和服務,使得它們充滿了活力。人們進一步討論到,我們需要重新認識圖書館的根本任務(The business of libraries)和圖書館的實質產出(The products of libraries),不再死抱著自己的數據,而是從建設館藏和維護書目數據中跳出來,從圖書館作為一個地點發展到任何地點都變成圖書館(Karen Calhoun:From libraries as places to places as libraries),把圖書館推送到用戶環境和用戶過程;從簡單的檢索數據到開放的共享和關聯數據,不要在用戶研究、學習和生活的過程中豎立一個個的數據關口,而是致力于流暢的用戶體驗和效果。
4從新的視角認識和利用元數據
OCLC在這次會議上組織了一個專門的討論會“The New World of Metadata”,由OCLC總裁Jay Jor-don和負責WorldCat的副總裁Karen Calhoun介紹OCLC的新戰略思考,吸引了爆滿的聽眾。Jay Jor-don首先回顧了OCLC最近幾年有關研究報告中揭示的用戶行為變化,多數用戶首先通過搜索引擎檢索學術信息,多數用戶信賴從搜索引擎獲得信息,多數用戶非常關心能否獲得檢索到的信息,許多用戶經常使用和很依賴新的Web 2.0應用。因此,OCLC以及圖書館的生存與發展空間已經不再是簡單的圖書館本身,而是包括Web 2.0和整個信息產業的新環境,是包括從Discover到Dehver的整個服務鏈。OCLC以及圖書館應該從這個認識出發,形成自己的網絡空間(包括Web 2.0空間)服務模式,迅速擴大自己在網絡空間的滲透度、顯現度、相關度和可關聯性,成為適應現代和未來用戶的服務環境的有機組成部分。為此,OCLC提出了Maximize uptake(最大化參與度)、Increase efficiency(提高效率)、Moveto the network(轉移到網絡空間)、Build Web-scale(建立規?;W絡服務)和Create local value(開發本地化價值)等五個戰略。它積極開展與Google的進一步合作,包括從WorldCat連接Google Books的電子圖書;推出WoddCat Local系統,把WorldCat與機構的OPAC和其他資源與系統有機連接起來;開發WoddCat API,建立WorldCat的開發者社區,支持成員機構開發能深度利用WorldCat的新工具和新服務;收購EZProxy來探索遠程用戶認證服務;支持與出版界的合作,支持數字資源長期保存服務,與大英圖書館合作來支持期刊文章層次的著錄記錄以及服務;進而,推動圖書館間的合作,推動圖書館與檔案館、博物館等的合作,創造一個與互聯網規模相適應的Web-scale的圖書館合作體,同時逐步將OCLC的WorldCat變成一種開放的服務平臺,支持全世界圖書館和其他系統利用它來擴展新的用戶服務。
Karen Calhoun作為《書目控制的未來》報告的作者,在會上做了New World of Metadata的報告。她首先舉例分析了eBay、Wikepedia、HousingMaps,corn等系統上的元數據,發現這些系統提供了非常豐富的包括內容、使用、評價、關聯、后續利用等各方面的元數據。而且這些元數據可以是用戶輸入的、自動從內容中或使用統計數據中挖掘的、從第三方系統挖掘或關聯的、或者利用詞表或用戶標注自動生成的。這些“元數據”已經大大不同于圖書館編目規則中的“完整記錄”(Full record),意味著元數據本身的概念已變化。實際上,什么是元數據取決于所針對的內容體系、應用場景和應用過程,已經從局限于學術出版資源延伸到任何類型的內容和活動資源,從按照編目規則構建到依靠多種方法形成,從相對獨立和固化的目錄系統到松散、動態連接的“元數據云”,從依靠單一系統的產生與維護過程到跨越多個系統的復用(reuse)、混用(remix)和集成(inte—gration)過程。在這種環境下,圖書館應該打破孤立的書目系統和嚴格的“書目控制”的局限,更多地努力于將元數據推送到盡可能多的網絡系統和應用環境中,盡可能增加元數據的數字顯示度(Digital visi—