夏素玲
早在20世紀90年代,我國已出現《荊楚文庫》《嶺南文庫》——第一批地方文庫的先行者。隨著中共中央辦公廳、國務院辦公廳印發的《關于實施中華優秀傳統文化傳承發展工程的意見》的頒布,地方文化工程大批涌現。這些工程是經過出版社或出版集團經過大量投入和多年經營,保存、記錄和積累了大量有關地方文化內容資源的成果,是研究地方文化的知識寶庫。而在大數據的浪潮下,地方文庫紛紛提出數據化建設的目標。
《湖湘文庫》2017年完成數字化再版,以網頁版和定制iPad形式展現。《廣州大典》2019年實現了廣州大典數據庫實現全文在線瀏覽,在廣州圖書館網站上免費對公眾開放使用。《浙江文叢》目前同步推出網絡版,以單本電子書銷售的形式呈現。《江蘇文庫》2019年10月隨著第二批成果的發布,宣布數據庫同步上市。
地方文庫數據化工程使知識在更大范圍、更大的空間內更方便地使用,讓原本束之高閣、的傳統文獻和學術成果擁有了更強大、更廣泛、更長久的生命力和影響力。在現行的數字化技術支持下,我們可以隨時隨地通過手機、平板電腦、閱讀器等多種終端閱讀去激活和使用,幾乎不受任何限制。
數字化的第一階段是建立數據庫,即將已出版或將出版的紙質圖書內容,以數字化形式進行錄入,建立數據庫。這項工作看似簡單,實現起來卻并不容易。
就學術論著而言,對于一開始便有數字化計劃的圖書,進行數字化出版的規范化要求相對簡單。但這“簡單”的程序也復雜。據原湖南省新聞出版局副局長、編委會常務副主任張光華介紹,《湖湘文庫》在轉錄時,“質檢環節包括,加工方質檢、天聞數媒質檢、天聞數媒復檢3個環節,3個環節均通過后方能入庫,若天聞數媒質檢發現文字錯誤率高于萬分之一,則發回加工方重新質檢,質檢完成后發回天聞數媒,若再次質檢文字錯誤率高于萬分之一,則該書由天聞進行全文質檢”。而對于時間久遠的舊版書、絕版書,它們甚至沒有電子排版的文件,所以這一類圖書必須重新走一遍錄入、排版、文字編校等傳統出版流程,然后再新增程序化編輯加工。一言蔽之,舊書當新書重頭做。
地方文獻的難度比起學術論著就更高了。影印古籍,源文件多為圖片,一般只能做到書名、作者和關鍵詞檢索,無法實現全文任意檢索和跨文本檢索,數據庫檢索功能受到極大的限制,難以體現大數據的優勢。古籍整理圖書,其文本處理難度最高。如繁簡的規范轉換,生僻字、通假字、造字等對字庫的要求,亦稱異名造成模糊詞辨析的難度,校注形式的文本多樣化等,都是普遍而又大量存在,并且無法繞開的攔路虎。對搜索引擎的智能化提出了非常專業的要求。
在文本完成處理錄入后,接下來就是數據庫模型的設計。它必須完成兩大任務,一是強大的搜索功能,一是智能化的篩選功能。每一個數據庫都具備搜索功能,但搜索的能力卻參差不齊。地方文庫的數據是以書為單位錄入,那么到搜索階段,是只以書為單位,還是以整個文庫為單位,甚至是實現和其他數據庫的跨數據搜索功能?這在搜索力度和使用效果、效率上都相差甚遠。此外,個別地方文庫還同時收錄地方文獻,數據庫工程技術的要求就需同時面對上述所有的困難了。
在這方面,我們欣喜地看見中華書局的《中華經典古籍庫》已走在前面,并取得了很多成功的經驗。它實現了繁體字、簡體字、異體字關聯檢索,還增加了人名異稱的關聯從而實現了更精準的人物檢索。在全文檢索這塊,它對基本的全文檢索提供了一些檢索范圍,比如說正文、校注、書名、標題等,按照范圍檢索,讓檢索的結果更加準確。加上其額外提供的自動生成出處和紀年、換算、檢索、瀏覽歷史、書簽等輔助功能,就筆者使用感受而言,確實在現有的古籍數據庫中脫穎而出。當然也會難免存在一些問題,但瑕不掩瑜,它無疑為地方文庫的建設提供了一個極具參考意義的建設模板。
強大的數據搜索功能和智能化的篩選功能極大地為學者查閱參考資料提供了方便,從而大大為學術研究提速前行,有力推動地方文化學術研究的發展。同時我們也應該看到,像《中華經典古籍庫》的數據庫項目建設背后,是有強而有力的人力、物力、技術的支撐。有國家層面的經濟和政策上的支持,有中華書局和其他合作出版社幾十年的內容積累,有巨大的前期投入和人才的保障。即便如此,使用者仍需支付較高的費用,讀者門檻高。這方面,像《廣州大典》在廣州圖書館向讀者免費公開使用的做法,無疑能惠及更多讀者,更接近傳承和弘揚中國優秀傳統文化的目標。
一是在內容數據庫的基礎上,建立地方文化專家庫,開設地方文化線上學院。作者是已出版圖書和將出版圖書的內容提供者,更是內容延伸發展的支撐人,為數據化延伸發展提供可能。地方文庫作者大部分為高等學校教師、研究機構的學術研究人員,他們的知識傳授和研究都局限于課堂和機構內,傳達時間和范圍都有很大限制。地方文化學院是一個走出傳統課堂和研究機構的專業授課線上平臺,主要業務是根據地方文庫框架搭建課程板塊,邀請作者線上開授公益講座、收費專業課程,搭建完整的地方文化課程體系。每個板塊下,設置學術動態信息與地方高校、圖書館、研究機構作信息對接;開設學術論壇,給予自由開放的學術討論空間。另外,開設有償的專家學者一對一學術指導,讓使用者能自由、靈活地與專家學者直接對話、溝通,可謂享受高校研究生的同等待遇。
地方文化學院線上平臺第一任務是最大化挖掘作者資源的商業價值,擴展出版社和作者在紙質圖書、電子圖書以外的多元化經營,建立互贏互利、共同成長的友好關系,有利于作者隊伍的壯大和長足發展。第二任務是把原來每一本書的目標讀者群統合起來,建立穩定的信息輸送渠道,用更多元化的方式來創造和滿足讀者的需求,從而創造出地方文庫出版更大的規模和長遠的發展。地方文化學院線上平臺對出版機構打破傳統出版的區域限制,把傳統出版的內容資源和作者資源作最大限度地跨領域擴展和媒體融合,同時把原有讀者切換成使用者,用更多元化的手段方式來吸引更多使用者聚合在線上平臺,從而反哺傳統出版行業的圖書銷售上來。
二是嫁接在數據庫內的精準營銷。新的內容提供方式能吸引和凝聚更多的使用者,讓讀者群體清晰,營銷變得精確,同時提出更多樣化多手段的要求。顯性的營銷,如在專家庫的專家介紹下羅列專家的已出專著,各個板塊下羅列經典書目,邀請專家打造專業推薦書單、私家書單,結合學術信息動態鏈接相關圖書,隨時發布書評和每周圖書點擊榜、口碑榜等。隱形的營銷,以鏈接形式出現。如使用數據庫搜索時能羅列相關圖書的推薦,有相同關注需求的其他用戶所關注的圖書信息,專家授課和講座時提及的書目彈出鏈接,等等。
三是為用戶提供智能化的私人服務。根據用戶填寫的需求調查表、搜索過的內容關鍵詞和閱讀使用數據,計算用戶需求數據,自動生成私人化的課程和閱讀方案,推薦相應課程、圖書和專家。并在使用過程中不斷修正需求方向,調整推薦方案,成為用戶學習和研究地方文化的專業向導,加大用戶的粘連度和接受度。從數據當中分析用戶的購買、閱讀等行為,能幫助出版社開發更對口的選題項目,制定更精準的營銷策略。
總體而言,地方文庫數據化建設的初級目標是讓地方文庫的文獻和論著變為電子數據,激活和延長每本圖書的生命。中級目標是圍繞地方文庫的圖書內容和作者資源,為用戶提供更多元化的服務,擴大用戶需求和使用群體。高級目標是幫助傳統出版業與互聯網、新媒體、大數據相結合,與高新技術手段來完成出版行業時代變革的華麗轉身。這過程雖深度依賴技術,但內容供應才是出版行業最根本和最擅長的工作,更是數據化建設的靈魂所在。內容提供商終究掌握著出版數據建設的主動權。我們拭目以待,得到政府大力支持的地方文庫在數據化的道路上實現社會效益和經濟效益的雙豐收。