文/ Brewster Kahle
圖書館系統(tǒng) 2020 愿景從模擬到數(shù)字的轉(zhuǎn)型

文/ Brewster Kahle
如今人們通過在線渠道獲取信息,而這些信息往往被營利性平臺過濾。一本書如果不能在線閱讀,那么看起來就跟從來沒出現(xiàn)過似的。然而,大量的現(xiàn)代知識仍然只出現(xiàn)在印刷品上,并保存在圖書館中。因為經(jīng)費缺乏、電子圖書的限制等,圖書館尚未能滿足數(shù)字化的需求。目前已經(jīng)擁有技術(shù)和法律框架,可以實現(xiàn)圖書館系統(tǒng)在 2020 年前的變革。互聯(lián)網(wǎng)檔案(Internet Archive)是一個與圖書館合作伙伴共同工作的項目,它提出了將上百萬的書籍轉(zhuǎn)為在線版本的方案,以采購或數(shù)字化的方式,從那些在圖書館和教室中最廣泛擁有和使用的圖書開始。我們的愿景包括:數(shù)字圖書的大規(guī)模流通,讓擁有實體著作的圖書館用可借閱的數(shù)字化副本來取代它們。到2020 年,可以建立一個協(xié)作的數(shù)字圖書館收藏和流通系統(tǒng)。其中,數(shù)以千計的圖書館可以為下一代學(xué)習(xí)者解除模擬藏書的限制,使他們能免費、長期、公開地獲得知識。
我們希望看到的是一個現(xiàn)代版的亞歷山大圖書館,其中所有的人類出版物——圖書、音樂、視頻、網(wǎng)頁和軟件,可以為任意充滿好奇和有意愿獲得它們的人所用。為實現(xiàn)這樣的愿景而所需的技術(shù)和成本現(xiàn)在已經(jīng)得到了充分的認識,實際上,各種各樣的項目正在證明這是可以實現(xiàn)的。大規(guī)模將現(xiàn)代資料數(shù)字化的主要實體有三個:谷歌、亞馬遜和互聯(lián)網(wǎng)檔案——這很可能也是按照規(guī)模排列的順序。谷歌的目標是要將文本數(shù)字化來輔助用戶搜索。亞馬遜的圖書數(shù)字化項目幫助消費者在購買之前能夠瀏覽書籍。互聯(lián)網(wǎng)檔案項目已經(jīng)數(shù)字化了超過 250 萬本公共領(lǐng)域的圖書,使它們可以全部下載;還數(shù)字化了50萬本現(xiàn)代圖書,而且通過其開放圖書館站點上的借閱系統(tǒng)提供給盲人和閱讀困難者使用。
讓所有圖書都普遍可用,這一目標尚未實現(xiàn)。事實上,圖書館社區(qū)看來應(yīng)當形成一個更加健康的系統(tǒng),使作者、出版者、圖書館,以及最為重要的讀者和未來讀者,都能夠參與進來。
對于那些無法以電子形式購買的圖書,筆者正在提議通過協(xié)同努力,選擇那些 20 世紀和 21 世紀中最廣泛持有和使用的圖書并進行數(shù)字化,而且建設(shè)一個穩(wěn)健的系統(tǒng)來流通這些成果,面向上百萬人,最終面向數(shù)十億人。
麥克·萊斯克(Mike Lesk)被很多人認為是“數(shù)字化圖書館之父”。他曾經(jīng)對20世紀的書籍表示非常擔(dān)憂,稱我們尚未在數(shù)字化世界中形成“制度性責(zé)任”。他相信,19世紀及之前的材料都可以被數(shù)字化和獲取,21世紀的數(shù)字化形式的材料會非常有效地流通。然而,他認為20世紀的材料會受制于版權(quán)法機制,其中大部分都已經(jīng)絕版了,都被20世紀末期的法律鎖定,使得數(shù)字化展現(xiàn)出風(fēng)險。
當人們從模擬時代轉(zhuǎn)向數(shù)字時代時,關(guān)于“制度性責(zé)任”的評論仍然是恰當?shù)摹D壳埃驳摹⒋髮W(xué)的和國家的圖書館領(lǐng)導(dǎo)者們都不太清楚,如何能夠最好發(fā)揮其保存和獲取的作用。與此同時,在遠程數(shù)據(jù)庫中進行注冊變得越來越普遍,出版商們正在努力適應(yīng)圖書發(fā)行越來越穩(wěn)固地被少數(shù)寡頭控制的現(xiàn)狀。
在盡可能的情況下采購電子書,以及將目前在實體書架上的書有效地轉(zhuǎn)化到電子書架上去,這是圖書館可以邁出的一步。這樣顧客們就可以輕易地借閱實體圖書或電子版本之中的一個。
2010 年起,互聯(lián)網(wǎng)檔案開放圖書館(Internet Archive Open Library)就在探索對數(shù)十所圖書館(見圖1)所貢獻的 20世紀書籍進行協(xié)同收藏和借閱。通過開放圖書館的網(wǎng)站,我們可以一次性向一個用戶借出超過 50 萬卷的 1923 年以后的數(shù)字圖書。這個數(shù)字流通機制所采用的保護技術(shù),與出版商們出版電子書的 OverDrive和谷歌圖書(Google Books)等商業(yè)平臺是一樣的。在對多年以來上百萬人使用開放圖書館的觀察中發(fā)現(xiàn),這個辦法是可行的,繼續(xù)向前推進的時機已經(jīng)成熟。
以開放圖書館的做法為基礎(chǔ)持續(xù)擴展,到 2020 年將所有感興趣的圖書館都帶入數(shù)字化階段。很多圖書館已經(jīng)和互聯(lián)網(wǎng)檔案合作將 250 萬公共領(lǐng)域的電子書進行了數(shù)字化,在此基礎(chǔ)上,可以通過移動設(shè)備、網(wǎng)站和在線的圖書館目錄,將過去和現(xiàn)在的所有這些書提供給上百萬的讀者。圖書館社區(qū)有其巨大的收藏和強烈的公共服務(wù)使命,例如,在每個圖書館的在線卡片目錄中,當一本書存在數(shù)字版本時,可以在這本實體書的記錄上增加一個外部鏈接,使讀者能夠在屏幕上瀏覽這本書,或者是從家中很方便地借閱。采用這種方法,通過與圖書館目錄云服務(wù)商的協(xié)作,大規(guī)模從模擬形式轉(zhuǎn)換為數(shù)字形式,順利地豐富了圖書館的藏書。我們同樣可以和出版商合作,盡可能多地采購用于圖書館借閱的圖書。

圖1
為實現(xiàn)這個目標,需要多個行業(yè)的參與來進行上千所圖書館的數(shù)字化。這是與2004 年谷歌圖書搜索項目的本質(zhì)差別,該項目是谷歌和若干個大型研究性圖書館以集中方式將 20世紀的書籍轉(zhuǎn)為在線方式的嘗試。2008 年,谷歌圖書方案提出的一個集中控制的管理方式放棄了這個路線,并且在 2011 年因為壟斷而被法院叫停。
現(xiàn)在可以尋求一個去中心化的方案,其中很多出版商和圖書館,通過市場進行互動,而不再有一個單一的控制主體。今天圖書館的電子書授權(quán)許可經(jīng)常有限制性的條款,如果他們采購電子書時能夠獲得和實體書一樣的權(quán)利來借閱和保管的話,他們將服務(wù)得更好。由此向前發(fā)展,所有的書籍都可以這種方式為圖書館所用,即為了作者和出版商健康發(fā)展而提供收益,并以此獲得他們的支持。然而,對于無法以這種形式獲得的圖書,包括目前圖書館藏書中的絕大部分,以及目前出版的一些圖書,應(yīng)該如何處理?圖書館可以共同對這些材料有效地進行數(shù)字化,盡可能地減少重復(fù),而且能夠以和實體書同樣的限制方式提供數(shù)字化文本的借閱。
以這種方式,顧客可以自己選擇在屏幕上閱讀過去和現(xiàn)在的書籍;圖書管理員們可以繼續(xù)發(fā)揮在采購、組織、展示和保存人類的偉大著作方面的作用;出版商可以以市場定價來出售電子書;作者可以選擇如何發(fā)布他們的作品,包括通過出版商來獲取報酬。這也許聽起來有些老套,而且并不是特別的顛覆,但是其中有一個優(yōu)點,就是每個主體扮演的角色在結(jié)構(gòu)上都和他在歷史上所扮演的角色相類似。
為了將圖書館數(shù)字化,首先來討論一下成規(guī)模地將圖書進行數(shù)字化的分組方法,然后解決如何使他們得到最大化利用的問題。一所偉大圖書館的歷史核心,通常是 1923 年以前的書籍,都處在公共領(lǐng)域,因此也不存在影響發(fā)布的版權(quán)問題。擁有豐富的特有藏品的圖書館必須繼續(xù)對圖書進行編目和數(shù)字化,而且我們將繼續(xù)與上百圖書館合作將他們的特殊藏品數(shù)字化。但是,長長列表上的公共領(lǐng)域著作在過去的十年中已經(jīng)大致上兩次被數(shù)字化了:一次是圖書館與谷歌的合作,另一次是圖書館與互聯(lián)網(wǎng)檔案的合作。谷歌的項目掃描了大約 2500 萬本書,就其范圍而言更加徹底,然而不幸的是,對這些著作的使用是受限的。訂閱者可以通過HathiTrust系統(tǒng),來獲得對于谷歌圖書的有限使用;公眾可以通過谷歌圖書網(wǎng)站,每次下載一本某些公共領(lǐng)域的圖書。與此相對應(yīng),互聯(lián)網(wǎng)檔案所數(shù)字化的 250 萬本更舊一些的圖書是可批量使用的,而且對于公眾是免費使用的。實際上,從系譜學(xué)到生物多樣性研究在內(nèi)的內(nèi)容專家們非常活躍地從互聯(lián)網(wǎng)檔案中下載公共領(lǐng)域的材料,來支持創(chuàng)新宣傳和更加廣泛的公共利益。盡管我們?nèi)砸瓿商厥獠仄泛驼募臄?shù)字化,這在 1923 年之前已出版圖書的文集大致上都是在線的和可用的了,即便還有一些限制。
讓萊斯克焦慮的 20世紀的圖書,同樣也因為版權(quán)問題讓圖書館員們煩惱。在絕大多數(shù)的發(fā)達國家,一個組織可以把圖書進行數(shù)字化提供給盲人和閱讀障礙者;根據(jù) 2013 年馬拉喀什條 約(MarrakeshTreaty),簽約國可以將這些書籍與其他簽約國進行大規(guī)模共享,只要采取一種明確的法律許可方式。實踐中,這就意味著加拿大可以為了閱讀障礙者對一本任意時代的書籍進行數(shù)字化并提供節(jié)約成本的閱讀服務(wù),而且將這些數(shù)字化的拷貝與澳大利亞或二十多個其他國家的圖書館進行分享。美國法庭在“作家協(xié)會對谷歌”(Authors Guild v. Google)的一案中判定,大規(guī)模對圖書進行數(shù)字化的基本行為,即便是商業(yè)實體實施的,只要是基于“公平使用”(fair use)的原則,在美國都是合法的。
如果要建造類似于普林斯頓大學(xué)圖書館、耶魯大學(xué)圖書館、波士頓公共圖書館這樣規(guī)模的一所主要圖書館,將要求機構(gòu)提供大約 1000 萬本受到管理的數(shù)字化藏書,其中大部分是 1923 年以后的書籍。合作者們可以將一些圖書子集作為重點,如根據(jù) OCLC確定出的圖書館最廣泛持有的 120 萬本書,或根據(jù)開放課程表項目(Open Syllabus Project)確定的至少出現(xiàn)在一個課程表上的 100 萬本書。在建設(shè)核心藏書的同時,合作者團隊可以確保對主要主題領(lǐng)域的全面覆蓋。從論述目的出發(fā),可以來規(guī)定:1000 萬本書是我們支持一個廣泛有用的公共數(shù)字圖書館系統(tǒng)所需要的。
建造一個包含 1000 萬本圖書的協(xié)作的數(shù)字化藏書,將要求圖書館和其他合作者有效地執(zhí)行下列職能:協(xié)調(diào)藏品開發(fā),以避免重復(fù)勞動;提供本地的和基于云的訪問;提供分布式的保存。
更廣泛地,這些收藏的建設(shè)需要有圖書館管理者或者管理途徑來選擇最有用的書,然后通過流程確定哪些書籍已經(jīng)被數(shù)字化了。還要有機構(gòu)和供應(yīng)商能夠為那些遺失的實體版本提供來源,以進行數(shù)字化。參與其中的組織要能夠為這些職能提供經(jīng)費和人員支持,無論是基于自身內(nèi)部經(jīng)費,還是慈善來源。或者,可以從一些已有經(jīng)費保障的項目開始,那樣它們將有助于塑造整個系統(tǒng)的其他部分。
對圖書進行優(yōu)先級分類仍然是個未決問題。一個方式是將藏書分組,其中一組是 K-16 學(xué)習(xí)者廣泛使用的核心圖書,還有若干組與重要主題相關(guān)的藏書。互聯(lián)網(wǎng)檔案項目可以集中精力來獲取和掃描大概100 萬到 200 萬卷的核心圖書;專業(yè)背景較強的合作圖書館,可以開發(fā)和掃描基于主題的藏書。例如,工程類學(xué)校可以在工程方面的圖書上努力,而法學(xué)院則可以聚焦法律類圖書。
必須繼續(xù)與谷歌圖書、HathiTrust和亞馬遜合作,以探索出更多協(xié)同一致的領(lǐng)域。沒有圖書館愿意把資源浪費在對一組文本進行多次數(shù)字化上。如果這些大規(guī)模的數(shù)字化者能夠愿意為合作努力做出貢獻,是有利于公共利益的。
同時還要研究哪些書籍在版權(quán)保護期之外,同時要對所有已經(jīng)數(shù)字化的著作建立一個全面的列表。這些都是支持我們工作的重要研究領(lǐng)域。
不同等級的使用
當建立起核心收藏后,每所圖書館就可以自行決定提供現(xiàn)代作品的方法。有些圖書館也許從對盲人和閱讀障礙者提供全面的使用作為起步,例如多倫多大學(xué)正在通過安大略大學(xué)圖書館理事會(Ontario Council of University Libraries, OCUL)和無障礙內(nèi)容電子門戶(Accessible Content E-Portal)這樣做。其他的如加利福尼亞大學(xué)等圖書館希望創(chuàng)建一個保存用副本。有些例如 HathiTrust也許將為非破壞性研究者的使用提供數(shù)據(jù)集。在這個將 20世紀的書籍變?yōu)樵诰€的整個方式中,使用模式的靈活性可能是一個重要的強項,不同國家的不同圖書館可以根據(jù)環(huán)境允許情況而扮演不同的角色。
通過對采購的和數(shù)字化的電子圖書提供借閱,圖書館能夠向前邁進一大步。互聯(lián)網(wǎng)檔案的數(shù)字化電子圖書借閱項目反映了傳統(tǒng)的圖書館實踐,每位讀者一次可以借閱一本書,然后其他人必須要等待這本書被手工歸還,或者兩周以后這本書將被自動歸還,然后提供給下一個正在等待的讀者。這種技術(shù)保護機制確保圖書每次只為一位讀者使用,與出版商用于保護正在發(fā)行的電子圖書的技術(shù)是一樣的。通過這種方式,開放圖書館網(wǎng)站表示了對版權(quán)問題的尊重,而且能夠利用圖書出版商們的經(jīng)驗和工具。加利福尼亞圖書館聯(lián)盟(California library consortium,Califa)設(shè)置了自有的借閱服務(wù)器,并且通過自有的基礎(chǔ)設(shè)施將采購的和數(shù)字化的圖書開放給所有的加利福尼亞居民。我們了解到,中國教育部同樣將其擁有的圖書每次借閱給一位中國主要大學(xué)中的讀者。不同國家的不同組織對使用圖書的各種方法進行嘗試,以平衡便捷和版權(quán)問題,都能學(xué)到東西并從中受益。
那么,如何流通數(shù)字化的電子圖書呢?有些圖書館將鏈接集成到圖書目錄中,這樣數(shù)字版本和實體副本的信息將會在同一個記錄中展現(xiàn)。圖書館也可以將鏈接總是指向互聯(lián)網(wǎng)檔案開放圖書館的副本,然而,如果這是一本現(xiàn)代圖書,那么可能整個世界范圍內(nèi)只能有一個可用的副本。圖書館也可以保存自有的數(shù)字化副本,并且管理自有的借閱系統(tǒng),就像 Califa 正在做的那樣。這樣,實際上每個圖書館都可以選擇不同的方法來為收藏的實體圖書提供數(shù)字化版本的借閱。這樣可以在對本地圖書館保持控制,同時享受到由其他人維護和更新的云端系統(tǒng)的便捷。
在目錄中開啟電子圖書的鏈接可以非常容易,因為現(xiàn)在很多圖書館將圖書目錄放置于主要目錄提供商的云服務(wù)上。說服這些提供商與整個社群合作,就能夠使得像打開數(shù)字化開關(guān)那樣向上百萬的用戶傳遞電子圖書。
分布式保存
既然我們努力奮斗于建立一個當今的亞歷山大圖書館,就應(yīng)當避免上一個亞歷山大圖書館的命運——被焚毀。如果它當時對每一個著作都建立一個副本,然后存放到印度或者中國,那么我們現(xiàn)在就能擁有亞里士多德的完整的著作以及歐里庇得斯的那些失傳的戲劇。我們的社區(qū)應(yīng)當為這些采購的和數(shù)字化的圖書保存多個副本。當很多圖書館滿足于在云端服務(wù)器上使用藏書時,也要允許和鼓勵一些圖書館在本地保存數(shù)字版本的圖書。
幸運的是,數(shù)字化的圖書都足夠緊湊,對于圖書館而言,保存它們是經(jīng)濟上可以接受的。即便是高分辨率的圖像和衍生的各種格式的數(shù)字化圖書,大小通常也就是500兆字節(jié),100萬本圖書也就是500太字節(jié)。
對采購的電子書和數(shù)字化圖書進行分布式保存,可以幫助確保圖書館中這些珍貴材料的長久性。
互聯(lián)網(wǎng)檔案項目已經(jīng)獲得了新的資金保障來建立“超級掃描中心”,從而實現(xiàn)大規(guī)模的上百萬圖書的數(shù)字化并顯著地節(jié)約成本。設(shè)置在亞洲的第一個超級掃描中心正在進行驗證性的生產(chǎn),我們預(yù)計,和目前在28個地區(qū)掃描中心進行圖書館內(nèi)掃描價格相比,它掃描圖書的成本大約是其 1/3。對于那些有意愿通過退出流通幾個月就能夠?qū)崿F(xiàn)大規(guī)模圖書掃描的合作者而言,互聯(lián)網(wǎng)檔案項目可以為它們節(jié)約50%~60% 的成本。我們正與一個大學(xué)的大型研究型圖書館洽談制定計劃,將50萬本現(xiàn)代書籍通過互聯(lián)網(wǎng)檔案的超級掃描中心來進行數(shù)字化。這個項目為該圖書館提供了藏書管理的新選項,實現(xiàn)對那些已經(jīng)遷移到館外存儲地的圖書的數(shù)字化的使用機制。圖書館員們將會發(fā)現(xiàn),降低成本的大規(guī)模數(shù)字化,將會成為藏書管理的強有力的工具。
過去的幾年中,互聯(lián)網(wǎng)檔案項目已經(jīng)建成了圖書館內(nèi)的圖書掃描系統(tǒng),集成了重復(fù)檢測目錄、查找數(shù)字化和集成化傳遞的功能。如果一些組織希望檢查全部藏書,找出那些既沒有被他們也沒有被別人數(shù)字化過的內(nèi)容,并且將這些文本進行數(shù)字化,這一系統(tǒng)將是非常有用的。同時他們也能在互聯(lián)網(wǎng)檔案項目中獲取他們所有圖書的數(shù)字版本。這些圖書基本上是在圖書館數(shù)字化的。

圖2
同時,我們也獲得了給互聯(lián)網(wǎng)檔案項目的資金捐贈承諾,用來數(shù)字化上百萬的圖書和其他資料。通過這個計劃,基于圖書館長團隊的推薦,同時考慮OCLC 和開放課程表項目等編輯的列表,互聯(lián)網(wǎng)檔案項目將尋求獲得和數(shù)字化一個核心的圖書收藏。這筆資金也為其他組織提供了一個選項,他們可以將適當?shù)膶嶓w圖書捐贈給互聯(lián)網(wǎng)檔案項目,然后獲得一個數(shù)字化的副本作為回報,不需要付任何的費用。
通過這些方式,圖書館可以選擇掃描持有藏書的最適合的辦法。我們現(xiàn)在提供的選項包括桌面頂級掃描(Table Top Scribe),即機構(gòu)采購硬件設(shè)施和利用自有人員進行掃描,如圖2所示;或者利用設(shè)在機構(gòu)中的區(qū)域中心,例如波士頓公共圖書館、多倫多大學(xué)、普林斯頓神學(xué)院和國會圖書館等。我們在亞洲超級掃描中心提供更便宜的價格來進行大規(guī)模的數(shù)字化,并對一些捐贈給互聯(lián)網(wǎng)檔案的適當?shù)牟牧线M行免費數(shù)字化。我們提供這么多掃描選項的目的,是為了鼓勵每個圖書館都能找到一種適合他們的模式來參與到這個協(xié)作收藏的建設(shè)中來。
數(shù)字化的成本
在互聯(lián)網(wǎng)檔案項目中,數(shù)字化的成本從每本書 10 美元到 30 美元不等,取決于掃描在哪里進行,離岸的還是圖書館中的。額外的成本,包括使用、存儲和數(shù)字化檔案的全生命周期管理,將來有可能成為主要成本。
目前的印刷版書籍經(jīng)常會有電子圖書格式,但是非常少有出版商愿意同意圖書館采購與實體書版權(quán)許可類似的電子圖書。如果我們協(xié)調(diào)采購行動,那么圖書出版商就有希望接受向圖書館銷售電子圖書,正如音樂出版商接受或者被迫接受將mp3銷售給提供更廣泛使用的服務(wù)一樣。
財務(wù)穩(wěn)定性
迄今為止,幾乎沒有討論涉及資金開銷和對系統(tǒng)的維護和增長提供支持財務(wù)模型。如果圖書館分擔(dān)數(shù)字化的負擔(dān),并且共享結(jié)果,那么某些人就有動力來“搭便車”,等待其他的圖書館將圖書數(shù)字化和提供服務(wù)。如果要打擊這種行為,這些沒有對數(shù)字化和后臺服務(wù)做出貢獻的圖書館就要為數(shù)字化的圖書的使用而付費。而且,也可以對想要保存本地副本的圖書館收取一筆一次性的傳送費用。我們還要對財務(wù)模式進行深入思考,以避免鼓勵支配性系統(tǒng)的形成而限制了創(chuàng)新。
在建設(shè)協(xié)同的數(shù)字化圖書館收藏和流通系統(tǒng)過程中,組織中的每個成員都有其角色。互聯(lián)網(wǎng)檔案項目已經(jīng)做好準備,要在掃描技術(shù)后臺基礎(chǔ)設(shè)施,以及服務(wù)于K-16 學(xué)生的核心圖書的數(shù)字化的慈善性經(jīng)費保障等方面做出貢獻。
如今的學(xué)習(xí)者都是在線尋求知識的,因此我們必須要能夠使圖書館顧客通過移動設(shè)備、網(wǎng)頁搜索和瀏覽在線的圖書館目錄來借閱電子圖書。通過成千上萬的圖書館的共同協(xié)作,可以為下一代學(xué)習(xí)者除模擬藏書的限制,使得對目前超出可及范圍的上百萬本圖書進行數(shù)字化訪問成為可能。這個中心目標,即為了讓將來的學(xué)生能夠不受物理限制地使用所有圖書,將在 2020年成為現(xiàn)實。
(責(zé)編:楊潔)
(翻譯:陳強 清華大學(xué)信息化工作辦公室)