出版業在數字化建設中的地位
出版業是人類進行信息交流的重要工具,當文字、圖片、聲音、圖像都可以應用計算機處理,數字化浪潮蜂擁而至,傳統出版業受到沖擊。信息技術高度發達,信息資源呈爆炸性增長,數字化信息資源成為信息交流的主要內容,信息經濟在國民經濟中占有較大比重,是進入信息社會的標志。因此,出版業在一個國家的信息化進程中有著極其重要的作用,發達國家無不重視對出版業的信息技術改造,斥以巨資,加以扶持,重點是對學術期刊建立雙軌出版體制。
美國早在20世紀60年代就投資1000多萬美元對一系列基礎學科的二次文獻進行信息技術開發,如CA(化學文摘)、BA(生物文獻)EI(工程索引)MEDLARS(醫學索引)等文摘刊物,在20世紀60年代中期先后建成機器可讀的二次文獻數據庫,并建成聯機情報檢索系統為美國及全世界提供服務。這些是世界上最早的電子出版物,也是最早的雙軌出版機制。目前美國這類出版物占世界同類產品擁有量的67%。同時國會圖書館研制成MARC機讀目錄,并產生OCLC聯機編目系統。1980年代又支持出版商先是以軟盤,后是用光盤出版一次文獻的電子出版物(即全文數據庫),其出版量占世界該類出版物總量的三分之二。1990年代通過各種政策鼓勵大批學術期刊和重要的報紙建立雙軌出版體制,將印刷版報刊數字化并進入網絡,開發其他網絡數據資源。當美國政府提出“信息高速公路”計劃時,他們已經擁有相當豐富的數字化信息資源,進而實施“數字圖書館”工程,將載體型電子出版物和因特網上數字信息資源整合重組,將一些已經絕版的歷史資料轉換為數字化資源,為美國及全世界的用戶提供數字化檢索服務,從而占據因特網上數字信息資源的絕對優勢。美國出版業的發展,生產的數字化產品及其增加的信息技術附加值,不僅在美國進入信息化社會的過程中做出了貢獻,也為美國在全球信息資源,也就是信息經濟上居于壟斷地位發揮了重要作用。
國內外學術期刊數字出版的不同做法
學術期刊是最早提供數字版,也是用戶市場最大的出版物,國內外的情況大體相同。但具體做法上差別很大,因而就有不同的效果。
國外是由期刊出版集團為主運作,IT企業提供技術支撐條件,采用雙軌出版方式。使用同一電子文件,既可生產印刷版,又可產生數字版。用戶可采取訂印刷版,獲得數字版使用權;或單獨購買數字版使用權。早期有光盤版,現在很少了。用戶可選訂任何一種期刊,無須成批訂購。由于電子文件在付印前即已在網上發布,用戶無論采取那種訂購方式,均可先讀到數字版,我國用戶可在見到印刷版前2~3個月見到該刊的數字版,效果很好。加之有完善的管理措施,未見出現知識產權方面的問題。
我國是由IT企業以合作方式從期刊出版單位獲得數字版使用權,在印刷版出版后,以期刊的計算機排版文件進行二次加工,將幾千種期刊集中發售數字版,與印刷版經營無關。用戶分別訂購印刷版或數字版,兩者沒有聯系。期刊編輯部出于自身利益考慮,一般在印刷版發行相當時間以后,向IT企業提供電子文件,因而數字版滯后。又由于期刊出版單位與IT企業之間利益關系的不平衡,合作方式常有變化,各IT企業包含的期刊種類很不穩定,不便用戶選擇使用。另外,用戶不能單獨訂購某一期刊,必須整類訂購,增加了不應有的負擔。
問題的嚴重性
發達國家在數字圖書館的研究中,均有較大資金投入,開發學術期刊雙軌出版系統,如美國的TULIP項目與英國的ELINOR項目。可在出版學術期刊印刷版的同時,產生其數字版,并在印刷版發行之前在網上發布。由于中文信息處理的特殊性,這些軟件不能用于中文期刊的雙軌出版。國內現有三個主要期刊數字版運營公司,均采取早期CORE項目二次加工方式,“每篇文章有兩種版本:掃描的圖像和利用SGML標記的文字版本。”因而存在問題較多,除上面提到的數字版發布時間滯后,還有加工成本高,元數據標識程度低,引文處理不及時,檢索效果差等問題。IT企業與期刊出版單位的合作關系不穩定、難以持久是更大的潛在問題。
現在國內幾家期刊數字版運營企業都采用一般文獻數字處理軟件,屬于低水平重復勞動。他們之間為爭奪期刊出版單位合作與擴大數據庫訂戶,競爭很激烈。如不及早采取對策,當境外商家挾資金與技術優勢進入時,有全線崩潰的危險。對此不能掉以輕心,目前已是迫在眉睫,亟待采取應對措施。
雙軌出版將長期存在
雖然期刊的數字化程度較高,但用戶對印刷版與數字版的需求是并存的。直到目前,用戶在閱讀上,還是以印刷版為主(有關統計說明,在70%以上),只是在檢索時以數字版為主,這是由兩者不同特點決定的。因而雙軌出版技術是長期需求,需要引起業內人士的高度重視。印刷版與數字版分別制作的現象,與此極不適應。
歷史上曾經有過文獻數據庫與文摘期刊制作出版兩張皮的教訓,文獻數據庫本質上是檢索刊物的延伸與發展,是檢索刊物的機讀化。國外的CA、BA、EI等等無不如此。開始時是用計算機排印印刷版的副產品,后來用以建立數據庫進行檢索服務,形成情報檢索系統。我國引進國外文獻數據庫,建立服務系統的工作是由圖書、情報部門做的。隨后研制我國文獻數據庫的工作也就由圖書、情報部門(主要是科委系統領導的情報部門)承擔,與原有檢索類期刊的編輯出版脫節,另起爐灶,重復制作,制作數據庫的費用比編輯出版期刊的費用還要高。兩者之間還有許多矛盾。雖然也想過各種辦法企求解決(如“刊庫合一”),但體制因素的局限,到現在這個關系也沒有完全理順。成本高,效率低,難以形成產業化經營。
現在,期刊的數字化進程,又重復出現這一分別制作出版的現象,應當引起有關部門的注意,我們交的學費夠多的了。
適合國情的雙軌出版解決方案
國外的雙軌出版系統,是以XML語言編寫數字版處理軟件,用XSL方式設計一個輸出軟件,將XML語言處理結果進行排版印刷處理。

這等于重新開發了一個排版系統。由于漢字信息處理沒有解決,因而國內尚未有引進。如我國自己開發,不僅開發費用太高,而且所有出版、排版、印刷單位均需更新排版軟件,難以承受。這是雙軌出版系統在我國一時未能出現的原因之一。
比較可行的做法是,利用XML的靈活性,另行研制一個軟件,與現有各種排版軟件結合,將線性結構的排版文件改造為同時具有結構性功能,組合成復合出版系統,可用于期刊的雙軌出版。這樣做,原有的排版軟件可以繼續使用,期刊出版單位投入很少,即可實現雙軌出版。并完全掌握期刊數字版的版權,建立本單位的數字資產管理系統,為全社會提供服務,從而大幅度增加信息技術附加值。
復合出版系統的技術特點
復合出版系統是在應用排版軟件錄入排版過程中,對電子文本進行結構化標識處理。對每篇論文進行標識,包括對引文的自動處理。根據每一期刊及所用排版軟件的特點,可預先設置各種錄入模板和輔助處理軟件,錄入排版人員可在不增加工作量的情況下,實現結構化處理。
結構化處理的結果,同一排版文件,既可用以生產印刷版,又可產生數字版。還可產生與現有人工編制內容相同的文摘數據庫、索引數據庫、引文數據庫等等。因為是從期刊排版印刷文本中產生的,不用校對,完全一致。不僅提高了數據質量,而且這些文摘、索引、引文的元數據,存在于期刊數字版的對象數據之中,大大減少了數據存儲的冗余。這樣的標識深度,將有效地提高數字版的檢索結果。并可做到數字版在印刷版之前向用戶提供服務,因而有很大的社會效益與經濟效益。
復合出版系統是由期刊編輯部使用的,印刷版與數字版都由編輯部掌握,也就可以采取統一發行的方法,從而可以做到在印刷版之前,發布數字版,理順各種關系,有效地解決上述存在的各種問題。
期刊數字版運營企業的機遇
雙軌出版既是對現有期刊數字版運營企業的挑戰,也為他們帶來新的機遇。我國期刊出版單位沒有形成國外那樣的集團,既無力進行軟件開發與維護,產生數字版以后也難以獨立進行經營。期刊數字版運營企業,可利用自身資金、市場、網絡與技術條件和已有數千家合作伙伴的優勢,進行雙軌出版系統開發投入,以掌握技術推廣、維護、完善的先機,在對期刊出版單位提供技術支持的基礎上,建立新的合作關系。
最好的方式是形成企業性質的期刊數字出版合作聯盟,每一期刊出版單位為其成員,利益共享。逐步形成為一種新型出版集團。
初步的做法,可在技術與網絡支持下,承擔期刊的雙版發行業務(可與期刊印刷版發行商合作),全面打造期刊的國內外市場。
在當前條件下,哪家企業抓住雙軌出版技術開發的先機,它就可以在這一輪競爭中走在前面。