童力軍
面向知識服務的《辭海》數(shù)字化之路
童力軍
《辭海》的數(shù)字化之路包括數(shù)字化目標的設定、內容數(shù)據(jù)庫建設、數(shù)字出版云平臺建設。通過“三步走”戰(zhàn)略,完成《辭海》數(shù)字化轉型,從而為用戶提供動態(tài)化、多維度、多媒體、立體式的知識內容,提高用戶的參與度、關注度、滿意度,進一步拓展辭海品牌在網(wǎng)絡空間的傳播力和影響力。關鍵詞:《辭海》;數(shù)字化;數(shù)據(jù)庫;出版云平臺
《辭海》的數(shù)字化之路起步于20世紀90年代中期,即《辭海》(第五版)編纂出版工作之時,當時的數(shù)字化不僅僅是改鉛字排版為電腦排版,為此專門制作了《辭海》字庫,更重要的是利用計算機輔助工具,協(xié)助排序、查核參見和制作索引等工作。這些工作如使用傳統(tǒng)人工方式,費時費力且易出差錯,而運用計算機技術,效率非常高,“僅用三個小時就完成了八萬多個百科條目的排序工作”[1]382。本世紀初,根據(jù)第五版編纂出版過程中利用計算機的工作經(jīng)驗,進一步完善了各種計算機輔助工具,并在此基礎上開發(fā)編制了“上海辭書出版社工具書查詢系統(tǒng)”,它以簡單直觀的窗口界面,提供《辭海》以及上海辭書出版社出版的一大批優(yōu)秀工具書的全文檢索功能,成為第六版編纂出版工作中不可或缺的輔助工具。
《辭海》(第六版)除了在編纂出版過程中不斷嘗試各種數(shù)字化手段外,在數(shù)字化產(chǎn)品形態(tài)方面的重大突破是于2010年3月30日推出了第一款自主開發(fā)設計的數(shù)字閱讀終端產(chǎn)品——辭海悅讀器。它不僅內置了《辭海》(第六版)的內容和兩百種優(yōu)秀圖書,而且提出了一系列創(chuàng)新理念:
第一,以提供內容為根本——除了閱讀功能以外,還要滿足用戶檢索、批注等要求;不斷提供眾多優(yōu)質內容資源,并通過無線上網(wǎng)實現(xiàn)上傳下載。
第二,以技術創(chuàng)新為先導——使用最新的觸摸手寫屏幕;自主研發(fā)了電子書標準格式Epub,率先采用了三重密匙的DRM版權保護機制。
第三,以質量第一為要求——在高效率的內容轉檔的基礎上對所有內容進行人工校對,要求同紙質出版物一樣,差錯率控制在萬分之一以下。
第四,以打通產(chǎn)業(yè)鏈為關鍵——旨在實現(xiàn)內容與終端的完美結合,在搭建優(yōu)質內容資源平臺(如內容轉檔平臺、資源推送平臺、版權保護平臺等)的基礎上,建立合理的利益分配機制,形成內容提供企業(yè)、技術開發(fā)企業(yè)、制造企業(yè)、銷售企業(yè)的聯(lián)合。[1]384
后來因為各種原因,最終未能成功實現(xiàn)商業(yè)化運作,但這是《辭海》第一個真正的數(shù)字化產(chǎn)品,其經(jīng)驗教訓為后來者提供了重要借鑒。
今天,互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)正加速普及,在線檢索、在線學習、在線交互已經(jīng)成為人們獲取知識的普遍方式。網(wǎng)絡上海量的音頻、視頻、多維動態(tài)模擬都是傳統(tǒng)紙質工具書所不能承載的。各種在線工具書成為用戶最常用的查詢和參考依據(jù),但是現(xiàn)有的在線工具書在知識信息的真實性、權威性乃至意識形態(tài)導向等方面都存在問題,因而用戶迫切需要能提供權威、準確信息的在線知識服務平臺。作為具有巨大影響力的綜合性詞典,《辭海》理應、也能夠擔當起這一重任。所以,當今的《辭海》應該走數(shù)字化之路,走傳統(tǒng)出版與新興出版融合之路,用今天時髦的詞匯,就是“互聯(lián)網(wǎng)+《辭海》”。
《辭海》數(shù)字化的目標是建立面向知識服務的《辭海》數(shù)字出版云平臺,實現(xiàn)《辭海》內容從編纂、管理、發(fā)布、運營等全流程的網(wǎng)絡化和數(shù)字化,并建立起全產(chǎn)業(yè)鏈的工具書數(shù)字出版服務平臺,建成權威的漢語基礎知識服務平臺,以適應用戶在互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)上方便、快捷、準確獲取科學、權威知識的迫切需求。簡而言之,《辭海》數(shù)字化不僅是其內容的數(shù)字化,而且其編纂方式、產(chǎn)品形態(tài)、傳播方式都要數(shù)字化,只有通過內容編纂、知識管理、應用發(fā)布、運營服務等流程的數(shù)字化和網(wǎng)絡化,才能實現(xiàn)《辭海》編纂方式的變革、產(chǎn)品形態(tài)的革命和傳播方式的升級,最終達到為用戶提供知識服務的目標。具體如下:
一是編纂方式的變革。第一版《辭海》實行閉門編纂,由當時中華書局編輯部不到二十位編輯承擔,他們每天從各種書籍和報刊上去收集詞匯并撰寫釋文,前后花費了二十多年時間。20世紀50年代啟動第二版編纂時,改為開門編纂,吸納全國各學科領域專家、學者參與編纂。此后,全國眾多一流專家、學者參與了各版《辭海》的修訂編纂工作。這是《辭海》權威性、準確性的根本保障。但是隨著互聯(lián)網(wǎng)時代到來,知識更新的加快,各種維基式在線百科產(chǎn)品的崛起,傳統(tǒng)的十年一修訂的模式已不適應時代的需要,迫切需要我們在編纂方式上的突破,由傳統(tǒng)的集中開門編纂變?yōu)槿粘5膶崟r開放編纂,更重要的是讓每一個使用《辭海》的用戶都可參與到編纂工作中來,把專家、學者編纂的專業(yè)性和大眾參與的開放性緊密結合起來。
二是產(chǎn)品形態(tài)的革命。主要是實現(xiàn)一次采編制作,多平臺、多產(chǎn)品發(fā)布,即突破傳統(tǒng)的以紙為介質的彩圖本、縮印本和普及本等產(chǎn)品形態(tài),順應信息化時代數(shù)字出版潮流,基于目前互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)環(huán)境,以個人電腦、移動終端、電子閱讀器等為載體,通過網(wǎng)絡版、手機版、微信版、電子版,以及封裝數(shù)據(jù)庫等各種產(chǎn)品形式展現(xiàn)給用戶。伴隨產(chǎn)品形態(tài)的革命而來的是內容的突破,將新增音頻、視頻等多媒體資源,構建起一個有聲、有色、有形的立體百科。
三是傳播方式的升級。以前用戶要使用《辭海》必須要購買或借閱,歷次修訂版《辭海》的總銷量達到630萬套,學科分卷本的總銷量更是達到了2200萬冊,2009年出版的第六版的銷量也超過40萬套——這在我國的大型圖書中是絕無僅有的,但是傳統(tǒng)紙質版因銷售渠道和價格等因素,還是限制了很多用戶擁有和使用這部權威工具書。數(shù)字化的在線《辭海》將因其便捷、部分內容免費且能及時更新等特點而惠及中國最廣大的用戶。
以上是從出版社角度而言的《辭海》數(shù)字化路徑。從用戶角度從發(fā),《辭海》數(shù)字化的最終產(chǎn)品形態(tài),可概括為三句話:有聲、有色、有形的多媒體《辭海》,海納百川卻又實時更新的《辭海》,隨時隨地可查詢的《辭海》。
所謂有聲、有色、有形的多媒體《辭海》,就是從形式上講,數(shù)字化《辭海》將在紙質版原有的準確,精煉釋文的基礎上,結合各種音頻、圖像、視頻、動畫,甚至三維模型等,構建起一個有聲、有色、有形的立體百科,突破傳統(tǒng)紙質版僅能閱讀文字和少量圖片的局限,給用戶更豐富的閱讀體驗。
所謂海納百川卻又實時更新的《辭海》,就是從內容上講,數(shù)字化《辭海》不僅要繼承紙質版《辭海》釋文準確可靠的特點(即查得準),還應根據(jù)網(wǎng)絡使用的需要和網(wǎng)絡容量不受限制的特性,大幅度地擴展詞條,確保用戶查得率高(即查得全),同時還需要及時改錯糾錯,及時增補新詞條,及時補充完善新義項,及時充實多媒體內容和深度學習相關的鏈接(即更新及時)等等。
所謂隨時隨地可查詢的《辭海》,就是從應用上講,數(shù)字化《辭海》將不僅有PC網(wǎng)絡版,而且還將以手機版或微信版甚至漢字輸入法等形式出現(xiàn),使得它可以很好地滿足用戶在不同場景的便捷化使用。比如,用戶在閱讀一篇文獻,或者在街頭看見陌生詞語需要查閱時,可以直接使用手機拍照即可查閱。又比如,用戶在與友人聊天,或上網(wǎng)瀏覽時,可以通過觸摸或鼠標選詞的方式,直接查閱《辭海》,甚至可以直接問“辭海機器人”。

《辭海》歷版數(shù)據(jù)庫首頁
《辭海》要實現(xiàn)數(shù)字化轉型,最為重要的是內容數(shù)據(jù)庫建設,因為這是體現(xiàn)《辭海》使用價值的關鍵所在。數(shù)據(jù)庫儲存用戶最為需要的各學科、各專業(yè)領域的大量知識、信息,而為了保證數(shù)據(jù)庫內容的政治性、思想性、科學性、知識性、正確性,編輯、校對人員對全部內容數(shù)據(jù)都必須認真審讀、仔細加工、全面校核。同時,為了滿足知識服務的需要,還要對諸多入庫數(shù)據(jù)的體例進行規(guī)范,對它們的屬性一一予以標引。這些工作量大面廣,需要出版專業(yè)技術人員付出大量艱辛的智力和體力勞動。
為了服務《辭海》(第七版)編纂出版工作,同時為用戶提供知識服務,《辭海》數(shù)字化轉型中要建設七大核心內容數(shù)據(jù)庫,包括《辭海》歷版數(shù)據(jù)庫(第一至第六版)、《大辭海》數(shù)據(jù)庫、語文詞典數(shù)據(jù)庫、百科辭典數(shù)據(jù)庫、圖片數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、標準數(shù)據(jù)庫。七大數(shù)據(jù)庫總字數(shù)約5億。辭海編纂處和上海辭書出版社的專業(yè)技術人員多年來在內容數(shù)據(jù)庫建設方面投入了大量精力和時間,目前尚只能說初見成效,建成了《辭海》歷版數(shù)據(jù)庫(第一至第六版)和《大辭海》數(shù)據(jù)庫。七大核心數(shù)據(jù)庫簡要介紹如下:

《大辭海》數(shù)據(jù)庫首頁
一是《辭海》歷版數(shù)據(jù)庫。它收錄從1936年至2009年六個版本八個版別(含第三版和第四版分卷本)1.2億字的內容,不僅提供詞條和全文檢索、精確和模糊檢索、多條件復合檢索等功能,以及版本、學科、專題導航,而且還提供任意兩版之間相同詞頭釋文的比較、詞條收藏、分享和糾錯反饋等功能。
二是《大辭海》數(shù)據(jù)庫。《大辭海》是以《辭海》為基礎編纂的特大型綜合性辭典。項目的編纂出版持續(xù)了17年時間,至2015年全部出齊,計38卷42冊,條目數(shù)約28.5萬條,字數(shù)5000多萬字。它以學科分類,不僅充分反映中國政治、經(jīng)濟、文化和科學技術等各個領域的歷史、現(xiàn)狀,同時還介紹世界各國的知識和信息,展現(xiàn)科學技術迅猛發(fā)展的新面貌。全書融古今、中外、語文和百科知識于一體,內容豐富,資料可靠。它的出版,填補了我國特大型綜合性辭典的空白。《大辭海》數(shù)據(jù)庫收錄《大辭海》38卷的全部內容,通過結構化的存儲管理,不僅實現(xiàn)詞條分卷分類展示、詞條檢索與全文檢索等多種瀏覽、檢索方式,還提供PDF溯源、詞條收藏、分享和糾錯反饋等功能。
三是圖片數(shù)據(jù)庫和多媒體數(shù)據(jù)庫。數(shù)字化《辭海》不是紙質版內容的簡單數(shù)字化,而是在紙質版內容的基礎上,結合各種音頻、視頻、動畫,甚至三維模型等,構建一個立體百科,同時要實現(xiàn)全文語音朗讀和詞條語音搜索。
四是標準數(shù)據(jù)庫。為了讓編纂者從因兼顧內容和形式而造成效率低下且易出錯的困境中解放出來,進一步提升詞條內容質量,必須建立一系列的標準數(shù)據(jù)庫,為《辭海》編纂者在撰寫過程中和編輯在審稿過程中提供幫助。這些主要有中國歷史紀年、中國古今地名、組織機構名稱、人名譯名等十幾個標準數(shù)據(jù)庫。
五是語文詞典數(shù)據(jù)庫和百科辭典數(shù)據(jù)庫。為了提高檢得率,提升用戶體驗,數(shù)字化《辭海》平臺上需要搭建更豐富的辭典數(shù)據(jù)資源,為此將選取上海辭書出版社最具代表性的45部1.2億字的語文詞典和130部超過2億字的百科辭典,把它們結構化、碎片化,建成大型數(shù)據(jù)庫,作為數(shù)字化《辭海》的基礎數(shù)據(jù)。
數(shù)字出版的特征之一是業(yè)務活動的平臺化,“數(shù)字出版產(chǎn)品及服務的生產(chǎn)、提供、消費直接通過數(shù)字出版平臺展開,數(shù)字出版產(chǎn)業(yè)的發(fā)展對平臺的依賴程度高”。[2]《辭海》的數(shù)字化之路自然還包括各種平臺的建設。我們計劃構建由數(shù)字資源管理系統(tǒng)、網(wǎng)絡協(xié)同編纂系統(tǒng)、多渠道多終端發(fā)布系統(tǒng)、在線知識服務系統(tǒng)等四大系統(tǒng)所組成的《辭海》數(shù)字出版云平臺。
數(shù)字資源管理系統(tǒng)對收集整理的原始內容資源、數(shù)字化加工的各類資源、建成的數(shù)字資源庫等進行統(tǒng)一存儲和管理,不僅包括出版的最終內容產(chǎn)品,還包括在生產(chǎn)過程中產(chǎn)生的過程數(shù)據(jù)。
網(wǎng)絡協(xié)同編纂系統(tǒng)是基于XML技術,其最大特點是實現(xiàn)內容的格式化編纂。整個編纂過程是出版社在編纂平臺上制定各種類型條目的體例,作者按照既定的體例在編纂平臺上撰寫條目內容、建立參見鏈接等,編輯在編纂平臺上進行條目的審核、校對工作。
XML編輯工具具有體例規(guī)范檢查、拼寫檢查、交叉引用、評論注釋、條目版本比對、條目字數(shù)控制、條目學科分布比例控制、圖片與內容的關聯(lián)推薦、名詞術語規(guī)范檢查、敏感詞檢測、誠信檢測、相似或重復內容提示等功能。同時,協(xié)同編纂平臺還具有豐富的內容管理功能,如項目流程管理和數(shù)據(jù)統(tǒng)計等。項目流程管理方面會充分考慮《辭海》編纂過程中的各種情況:制定編纂流程、建立編纂任務、用戶權限控制、分配條目、指定或變更條目負責人、監(jiān)管條目編纂進度,等等。數(shù)據(jù)統(tǒng)計方面提供各學科條目比例、修改率、錯誤率等。

協(xié)同編纂系統(tǒng)界面
該平臺的建立,將大大提高《辭海》編纂的效率和質量,不過因為開發(fā)時間周期的關系,作者在這一版中將無法使用,但后期的編輯將在平臺上進行。該系統(tǒng)目前已上線測試。
多渠道多終端發(fā)布系統(tǒng)以“一次制作,多元發(fā)布”為指導思想,即根據(jù)用戶的需求快速形成不同介質、不同手段的產(chǎn)品和服務,從而最大限度地實現(xiàn)資源的充分利用,降低出版成本,滿足不同用戶需求。該系統(tǒng)主要解決發(fā)布各種形態(tài)產(chǎn)品的問題。
在線知識服務系統(tǒng)將實現(xiàn)人與權威知識的聯(lián)接。所謂知識服務是以信息和知識的搜尋、組織、分析、重組為基礎,根據(jù)用戶的問題和環(huán)境,融入用戶解決問題的全過程中,提供能有效支持知識應用和知識創(chuàng)新的服務。數(shù)字化《辭海》將從單純滿足用戶的知識查檢需求向全方位知識服務轉變。由于《辭海》涵蓋所有學科,為此我們將建立以《辭海》為主干的人類知識譜系,也就是說,如果用戶想獲取各個學科的基礎知識,他都能在“《辭海》在線知識服務系統(tǒng)”上獲得。
《辭海》數(shù)字化轉型是一個重大工程,不可能一蹴而就。采取“三步走”戰(zhàn)略是比較符合實際的。第一步是至2019年,完成上面所說的建設四大系統(tǒng)和七大數(shù)據(jù)庫的任務,初步建成不列顛百科式的《辭海》網(wǎng)絡版(包括網(wǎng)頁版、App版、微信版等),不僅詞條由13萬條增加到50萬條,而且更重要的是新增大量多媒體內容;第二步是至2024年,建一個維基百科式的《辭海》網(wǎng)絡版,即開放編纂、專家審核的發(fā)布系統(tǒng),基礎內容大大突破《辭海》(第七版),把在線知識服務系統(tǒng)建設成為融古今中外各種知識于一體的寶庫,使之真正成為人類知識的海洋,具體目標是詞條達到500萬條;第三步是2029年紙質版《辭海》(第八版)將完全從在線數(shù)據(jù)庫中抽取約13萬個條目,經(jīng)編輯在較短時間內加工而成,不需要像現(xiàn)在這樣需提前5年開始編纂。“三步走”戰(zhàn)略的實現(xiàn),將宣告《辭海》數(shù)字化轉型的最終完成。
當然,要實現(xiàn)這個目標,僅靠《辭海》現(xiàn)有的作者和編輯隊伍,哪怕是借助網(wǎng)絡協(xié)同編纂工具系統(tǒng)也是無法實現(xiàn)的。這就需要《辭海》在編纂方式上實現(xiàn)又一次的突破,第一版是閉門編纂,第二至第七版是開門編纂,以后將是開放編纂,讓每一個使用《辭海》的用戶參與到編纂工作中來。當然,我們在借鑒開放式百科編纂方式的同時,仍然需要加強專家和編輯的審核,仍然會有三審制,仍然需要發(fā)揚一絲不茍、字斟句酌、作風嚴謹?shù)摹稗o海精神”,因為權威性是《辭海》的核心競爭力。最終目標是要把專家、學者編纂的權威性與大眾參與的開放性、現(xiàn)代網(wǎng)絡擁有的包容性和多樣性結合起來。
《辭海》數(shù)字化轉型是系統(tǒng)工程,僅靠辭海編輯委員會、辭海編纂處和上海辭書出版社之力是很難完美實現(xiàn)的,還需要借助其他單位的合作。因此,推進《辭海》數(shù)字化轉型的思路包括四個方面。
1. 技術層面:與國內大型互聯(lián)網(wǎng)企業(yè)合作,以保持在技術上的先進性。
2. 資本層面:成立合資公司(辭海數(shù)字傳媒有限公司)來研發(fā)和運營數(shù)字化《辭海》。
3. 產(chǎn)品層面:爭取與互聯(lián)網(wǎng)巨頭的各種產(chǎn)品進行捆綁,充分利用其傳播渠道的巨大影響力來達成我們廣泛傳播的公益性目標。
4. 內容層面:采用PUGC模式,即依靠專業(yè)用戶生產(chǎn)內容,最終使得在線《辭海》的內容在廣度和深度上均有別于傳統(tǒng)紙質版。我們將采用簽約方式來保持強大的專業(yè)作者隊伍,以授權方式爭取多媒體資源,以一絲不茍、字斟句酌、作風嚴謹?shù)摹稗o海精神”來編輯出版數(shù)字化《辭海》。這不僅可以保證數(shù)字化《辭海》內容的準確性與權威性,而且可以保證內容更新及時,從而在網(wǎng)絡百科中樹立辭海新的品牌形象。
總之,我們希望通過實施《辭海》數(shù)字化工程,為用戶提供動態(tài)化、多維度、多媒體、立體式的知識內容,提高用戶的參與度、關注度、滿意度,從而進一步拓展辭海這個品牌在網(wǎng)絡空間的傳播力和影響力,最終取得社會效益和經(jīng)濟效益的雙豐收。
[1] 徐慶凱,秦振庭. 辭海論[M].上海:上海辭書出版社,2015.
[2] 國家新聞出版廣電總局出版專業(yè)資格考試辦公室.數(shù)字出版基礎(2015版)[M].北京:電子工業(yè)出版社,2015.
(作者單位:上海辭書出版社)