吳明致+劉天旸+張小東
摘要數字出版產業的迅猛發展使傳統出版業面臨新媒體和新業態的嚴峻挑戰。實現辭書出版向數字化轉型和融合發展,出版大量優質的數字化辭書,可以更好地滿足用戶的需要。廣泛采用先進技術和生產方式,對加快辭書數字化轉型,提高數字化辭書的質量,具有重要作用。文章根據我國辭書的特點、實現數字化轉型的需求,扼要介紹可支持數字化辭書發展的計算機信息技術。
關鍵詞辭書出版數字化技術基礎
當今,以數字通信技術、多媒體交互技術、移動互聯網技術為代表的技術革命正在改變和重塑傳統出版業。數字出版以數字技術為核心,對傳統出版理念、出版流程、傳播方式發起了一場全方位的顛覆性創新。與傳統出版相比,數字出版具有周期短、傳輸快、空間大、即時化、交互性、查閱方便、綠色環保等諸多優點。
辭書是圖書中十分重要的一類,歷來被視為“沒有圍墻的大學”“不開口的老師”,在方便用戶解惑釋疑、擴充知識、提高文化修養、順利進行社會交際諸方面具有特殊的作用。辭書實現數字化轉型發展,可借助計算機信息技術更好地為用戶服務,多維度地滿足用戶需求。當然,因為數字出版的技術含量高,辭書數字化發展也極其需要先進的計算機信息技術支持。
從我國辭書界的現狀來看,尚有相當多的辭書編纂者和辭書出版單位的出版專業技術人員,由于置身于非信息技術行業,對現今的計算機信息技術前沿狀況不夠了解,從而影響了采用已有先進技術來發展數字化辭書的主動性和積極性——或者根本不涉及數字出版,或者還在使用一些效率并不高的手段加工、制作數字化辭書,或者盲目地自行或委托相關企業重復研發一些技術系統。有鑒于此,本文擬對可以直接應用于數字化辭書的一些現有技術做簡要的分析、介紹,以有助于加快辭書出版數字化轉型的步伐。
一、 多樣化的內容展示技術
(一) 支持全終端顯示
隨著互聯網及移動互聯網的發展,個人計算機、平板電腦、手機、手持閱讀器等新媒介成為人們主要的信息渠道來源。與此相適應,使制作完成的數字化辭書自動適應用戶接收終端的特點,在技術上已經沒有任何障礙。數字化辭書能夠很方便地同時支持PC端web服務、移動App及第三方應用內的使用場景,滿足用戶隨時隨地使用辭書的需求。
(二) 支持富媒體形態
數字化辭書與傳統紙質辭書的區別之一,就是“富媒體”,即可以同時運用多種媒體手段。在已經較為成熟的信息技術支持下,富媒體形態的數字化辭書已經能夠實現這樣一些功能:
1. 文本內容顯示
采用流式排版技術,系統會根據用戶使用的終端設備屏幕特點進行自適應顯示,自動調整字行長度,保證在所有終端上均可完整顯示整個字行,用戶不必左右移動顯示窗口就能順利閱讀。
對于一些非標準字符(也稱“集外字”,如甲骨文、金文、篆文,古籍中的異體字、俗字,為辨識漢字形體或者展示漢字的筆畫順序而舉的“缺胳膊少腿”的字例,等等),以往考慮到數字化辭書需在網絡上傳播而一般只能用圖片形式置于文本內,不僅不能隨意縮放和進行檢索,而且常常不夠清晰。現在對非標準字符已經能夠準確地構造并通過網絡在各種終端上正常顯示,而且可與既有標準字庫內的字符一樣隨意縮放、自如檢索。
2. 圖片內容顯示
在用戶瀏覽時,辭書中的圖片會以縮略圖的方式顯示小圖。用戶點擊圖片后就會自動顯示原始圖片供用戶仔細觀看,用戶還可按自己的需要對原始圖片進行放大/縮小操作。數學公式、化合物分子式的顯示,也與圖片基本相同。
此外,紙質辭書中的圖片只能從一個方向展現物品或者景色,而數字化辭書可利用360度全景技術生成全景視圖,從而讓圖片中的對象自動或人機互動響應地做360度旋轉,讓用戶逐一觀察到物品的各個側面或者四面八方的景象。利用動畫展示技術,可以生動地表現物品內部的動態變化,如植物的生長機制、食物在人體內的消化過程、發動機的運行原理等。
3. 音頻、視頻內容播放
數字化辭書中如果包含用音頻、視頻方式表現的信息內容,用戶利用辭書頁面上設置的播放控制器,就可以根據自己的需要實現開始播放、暫停、停止播放等功能,通過相應的音頻或視頻信息來加深對辭書內容的理解。播放時顯示的進度條能夠隨時告訴用戶已經播放了多少內容、還有多少內容,音頻、視頻內容的總時長為多少等。
此外,音頻、視頻內容也可由用戶選擇設置自動播放與否,而播放視頻內容時用戶還可對全屏播放或自適應屏幕播放進行選擇。
鑒于數字化辭書中音頻與視頻內容所包含的信息容量更加豐富,這些音頻、視頻內容有可能時長較長。數字化辭書可以幫助用戶精確定位到想要查看的音頻、視頻片段,既可以節省時間,提高效率,又可以減少非必要的整個音頻、視頻文件傳輸的流量成本。
(三) 支持多維度智能檢索
多維度智能檢索包括全文檢索、單獨資源檢索、圖片檢索、音視頻檢索、全文關鍵詞檢索、跨庫檢索等方式,可滿足用戶對數字化辭書內容資源的全方位提取和利用。
在檢索所采用的查詢方法和檢索結果的呈現上,通過相應的技術支持,數字化辭書也能夠大大優化。根據不同用戶的知識水平、使用習慣等,數字化辭書能夠提供多角度的檢索方法,不僅像紙質辭書那樣可利用音序法、筆畫筆形法、部首筆畫法等在相應的索引中查詢目標字詞,還可通過在檢索框內用多種輸入方法(如直接打字、復制粘貼相應字符)輸入目標字詞查詢,或者點擊辭書中設置的“熱詞”通過超鏈接直接轉到目標條目。
除此之外,數字化辭書還能實現“簡繁體同查并現”,即無論用戶提交的待檢字詞是簡化字形式還是繁體字形式,檢索系統能夠自動將互相對應的簡、繁體字視為同一個字進行查檢,而呈現的檢索結果也是既有簡化字文本,又有繁體字文本。在進行跨庫檢索時,用戶可以免除分別輸入簡化字和繁體字的繁瑣。
數字化辭書還可以實現智能搜索,幫助用戶更準確地查找到其需要的內容。借助人工智能技術手段,數字化辭書可以不再拘泥于用戶所輸入待查語句的字面本身,而是透過現象看本質,通過與知識庫的結合,準確地捕捉到用戶所輸入內容的真正意圖,并以此來進行搜索,從而更準確地向用戶返回最符合其需求的搜索結果。endprint
用戶的檢索輸入可以不限于文本輸入方式,數字化辭書可結合語音識別技術來實現語音輸入關鍵詞。語音輸入的語言單位不限于詞(單音詞或多音詞),還可以是短語或短句。通過分詞技術、語境分析技術、語義分析技術等方法,計算機能夠較準確地識別用戶意圖,從而更便捷地滿足用戶需求。
二、 數字化辭書資源加工與管理技術
(一) 辭書資源結構化加工
對傳統出版企業(尤其是專業的辭書出版企業)來說,將已有紙質辭書通過數字化加工制作成數字化辭書,是當前最為迫切的出版內容資源開發、利用、整合的途徑。為此,需要對辭書出版資源進行結構化標引,以實現內容資源的匯聚與可控性。
將紙質辭書內容轉化為二進制數字形態,不必耗費大量人力重新輸入,可對辭書頁面掃描后,利用光學字符識別(Optical Character Recognition,簡稱OCR)技術獲得數字文檔,對照原書校對后,再實施結構化加工。對已經采用數字形式保存的辭書資源(如電子排版文件,或者作者用計算機撰寫的條目),可以直接進行結構化加工。
辭書資源數字化加工過程中的許多工作,諸如碎片結構化標引、格式轉換、元數據標引等,都有相應的工具軟件支持,可較快地形成采用XML(Extensible Markup Language,可擴展標記語言)定義的結構化數字文檔。尤其是辭書,原本結構、格式就比一般圖書規整(格型性是辭書的特征之一),結合人工智能和機器學習技術,資源加工的過程能夠更加智能化,可以自動完成更多的工作,只在必要環節才需要人工介入處理。這就極大地提高了生產效率,節約了生產成本。
在辭書資源數字化加工過程中,針對音頻、視頻內容資源可以采用流媒體碎片化標引技術進行局部(即片段)標引,從而實現音頻、視頻內容的標記式“虛擬分割”。這種方法不同于物理分割文件,不會破壞音頻、視頻文件本身的完整性。
(二) 辭書資源編輯加工
數字化協同編輯系統平臺支持多用戶共同在線工作。利用該平臺進行新辭書的選題開發和審稿、編輯加工,可以大大提高工作效率,縮短出版周期。
辭書編纂對體例的要求特別高。以往辭書編輯在處理稿件時,除了審核內容的正誤之外,常常需要花費大量時間對稿件體例進行修改、調整。數字化協同編輯系統平臺能夠按照具體辭書的特點,事先準備好各類條目的模板,作者編寫條目時就像填表一樣把有關內容置于相應的規定位置,而且有些模式化的用語可以讓作者在規定的詞表中選擇。這樣形成的辭書條目就可以保證體例統一、規整,有利于編輯集中精力于內容的審核、加工,而不必在體例上再耗費時間和精力。同時,作者和責任編輯及復審、終審人員都在同一平臺上工作,相互溝通十分方便,可以在作者編寫階段就及時發現一些問題,并對原先所定體例中的不足之處進行完善。
數字化協同編輯系統平臺不僅僅定位于辭書內容的編輯工作,更多地是用于各種數字出版產品的加工和制作,是一種全新的內容生產平臺,其特點主要有:
第一,靈活多樣的內容結構化重組。利用該平臺,出版單位能夠很方便地將已經實現碎片化、結構化的辭書資源靈活地重新開發、整合、增添多媒體表現方式等,生產出釋疑解惑更加到位、更加切合用戶需求的各種新辭書。
第二,在線的交互式排版。平臺集成多種排版發布的模板,并與多種排版系統實現對接。技術編輯人員可以基于XML完成辭書內容的交互式排版,直接在線實現可視化的文本、表格、公式、圖片、音頻、視頻、鏈接等各種元素的混合編排,再按照紙質辭書、一般數字辭書、交互式多媒體數字辭書等不同形態辭書產品的不同特點,選擇相應的模板發布,真正達到“一次編輯、多元發布”。
第三,在線知識化標引。知識標引是數字化辭書開發、整合中很關鍵的一個環節,需要按照專業知識體系對辭書中的知識元、知識點等進行標引。需要由熟知學科、專業知識的專門人士來完成。作者和責任編輯是最了解辭書內容的,可由他們在平臺上在線合作完成知識標引和主題標引。這可以使標引所用的關鍵詞比較規整、統一。
第四,扎實掌握進度。辭書編纂常常是多人合作的項目,在數字化協同編輯系統平臺上,主編和責任編輯都能隨時把握各位編寫者的工作進度,并針對存在的問題及時進行人力或工作任務量的調整,從而可保證辭書的編纂按預定計劃完成。
(三) 數字化辭書資源管理
數字資源管理技術是數字化辭書出版的底層支撐系統。它可將原來分散的文本、圖片、音頻、視頻等多種形式的數字內容資源匯聚、整理、加工標引以后,統一存儲在數字化全媒體資源庫中進行管理、挖掘和服務。其核心目標是為數字化辭書出版提供一個集數據存儲、管理、檢索、加工、發布和服務于一身的資源服務中心,對各個業務系統提供數據支撐。
數字資源管理系統還支持版本管理,版權信息管理,以及資源的復用、導出管理。
此外,在數字化辭書的營銷方面,有會員管理系統,按內容、時間、地域、用戶數量靈活組合的多種計價模式,有用戶數據采集分析等方面的新興技術可供使用,以不斷擴大數字化辭書的傳播范圍,提高營銷的效率。此不贅述。
三、 辭書的數字版權保護技術
發展和創新技術保護手段,可以有效地從源頭上切斷非法復制、傳播和利用作品的途徑。從技術方面對數字化辭書內容進行保護,是一種“未雨綢繆”的預防措施,比“事后補救”的保護方法更加有效。
數字版權保護技術已經能夠解決以下幾方面的問題:
一是數據內容保護。利用數據加密技術、數據包安裝保護技術和數據授權控制技術,銷售網站要從版權權利人那里得到數字化辭書的銷售許可后才能向用戶銷售。用戶通過網上支付方式購買使用權,獲得授權后才能閱讀辭書內容,進行各種查詢,但是不能將整部辭書下載,并且銷售的次數由軟件自動計數,版權權利人可據以與銷售網站進行款項結算。endprint
二是文本內容保護。利用相應的軟件,版權權利人能夠對用戶的文本復制行為進行有效控制。最為嚴格的是嚴禁復制,用戶只能閱讀辭書文本內容,但是不能對屏幕上出現的內容進行包括打印在內的任何方式的復制,甚至連一般計算機操作系統自帶的或第三方軟件提供的“截屏”功能、屏幕錄像功能等,都可被禁止。其次是受限復制,即允許用戶在專門獲得授權后,可以為善意的合理引用、搜集資料而適當復制辭書的部分詞條,但是每次復制的字符數量是受到控制的,而且在24小時內只能復制一定的次數,過量復制會被版權保護系統自動禁止。
三是圖片內容保護。通過數字水印技術,可以在辭書的圖片中嵌入人類感官不能直接感知的隱蔽型版權標志。這樣,如果有侵權者把從數字化辭書中復制下來的圖片用于非法目的,版權權利人就可以很容易地鑒別相應圖片的來源,并以此為證據請求法律保護。當然,如果用戶出于善意目的復制圖片,只要符合著作權法的規定,那就不會影響使用。離線庫圖片粉碎技術則對圖片實施更加嚴格的版權保護,其實際效果與對文本的嚴禁復制類似。用戶只有在其接收終端設備與權利人的數字化辭書發布服務器聯機的狀態下,才能正常看到辭書中的圖片。一旦接收終端與服務器斷開連接,圖片就自動粉碎,變成無法辨認的亂碼。顯然,在這樣的情況下,圖片也是不能復制的。
四是內容篡改防范。利用這種技術,消費者對接收終端上呈現的文字、圖片等內容,都只能觀看,但是無法修改。這就能始終保證數字化辭書的內容不被他人歪曲、變更,有效地保護版權權利人的作品完整權。
四、 結語
數字出版是以數據通信技術、移動互聯網技術、多媒體技術、智能化技術等高新技術為基礎,融合與傳承人類文明和傳統出版內容而發展起來的新興出版業態,它的出現不會完全取代傳統紙質出版物,但將在出版物市場中拓展出新的盈利空間和傳播渠道。這為辭書出版帶來了前所未有的生機與活力,為增強和完善辭書的使用價值與服務價值提供了現實的可能性。
辭書出版與數字信息技術的融合發展,是辭書出版的戰略性轉型,極具歷史意義。借助于數字信息技術的大發展,打造辭書出版的新時代,是歷史發展的必然趨勢。傳統的辭書編纂者和出版者要充分發揮自身優勢,強強聯合謀共贏,立足創新拓發展,積極利用新興媒體和新技術改造編纂、出版流程,在跨媒體、多終端的數字化出版道路上探尋新的發展空間。
參考文獻
1. 金翔宇,孫正興,張福炎.一種中文文檔的非受限無詞典抽詞方法.中文信息學報,2001(6): 34—40.
2. 李廣超,李欣.中國傳統出版企業的數字化轉型.今傳媒,2014(12): 77—79.
3. 李自滿.傳統出版企業數字化轉型升級現狀及對策——以中國商務出版社為例.出版廣角,2015(5): 34—36.
4. 王金鳳.我國出版社數字出版的版權問題與對策研究.安徽大學碩士學位論文,2011.
5. 楊慧娟.傳統出版向數字出版的轉型及創新研究.鄭州大學碩士學位論文,2013.
6. 曾偉,霍思遠.數字出版版權保護存在的問題及對策研究.新聞界,2015(3): 50—53.
7. 張國強.我國數字化辭書的現狀與問題.辭書研究,2007(2): 12—20.
8. 張紹麟.辭書與數字化研究.上海: 上海辭書出版社,2005.
(吳明致大數據治理與服務重點實驗室上海201203)
(劉天旸北京大學信息科學技術學院智能科學系北京100871)
(張小東上海精靈天下數字技術有限公司上海201210)
(責任編輯馬沙)endprint