◎文/劉成勇 中國版本圖書館館長、中央宣傳部出版物數據中心主任
印刻著中華文明發展流變的版本以其厚重文化特性及豐富資源屬性,歷來被我國官方所重視。中國版本圖書館作為新中國成立次年即組建的專司出版物版本征集、典藏、管理的國家機構,數十年來,一以貫之地忠實履行以出版物版本為核心的國家版本資源的整理、發掘、搶救、保護職責,截至2018年底,實物版本資源已達740萬種、約1000萬冊(件),為延續中華文脈、傳承中華文明作出了重要貢獻。
2018年,伴隨黨的十九大深化黨和國家機構改革東風,中國版本圖書館轉隸中央宣傳部,副牌更名為“中央宣傳部出版物數據中心”。在堅定文化自信建設社會主義文化強國的時代背景和大數據成為國家級發展戰略創新變革社會各業的技術背景下,打造社會效益與經濟效益“雙效俱佳”的國家級權威出版物數據中心亟待破題。
把握政策利好 靶向行業痛點
2015年9月,國務院印發的《促進大數據發展行動綱要》系統部署了我國大數據發展工作,大數據正式成為國家級的發展戰略。幾年來,大數據從理論研究進入實際應用,從全面總體的指導規劃逐步向各大行業、細分領域延伸,公安部、教育部等部委相繼出臺了關于大數據的發展意見和方案,大數據也日益成為加速融合發展的出版產業參與市場競爭的基礎資源與關鍵要素。產業政策層面,《新聞出版業“十三五”科技發展規劃》明確指出,新聞出版業正在成為與科技深度融合發展的關鍵領域;提出要在“十三五”時期,鼓勵開展行業數據深度挖掘,探索建立行業信息數據管理服務平臺,搭建覆蓋面廣、跨產品形態、貫穿產業鏈的基礎數據共享平臺。
政策利好背后映襯的是不容樂觀的出版產業大數據應用現實狀況。從近年國家新聞出版署發布的新聞出版產業分析數據來看,出版業庫存暴漲、生產周期長、市場反應遲緩、產能過剩,供需不匹配一定程度上制約著行業的高質量發展。其問題種種,與出版業的大數據建設和應用方面存在諸多薄弱環節相關。
當前,出版行業數據分散在不同市場主體手中,導致主管部門與出版行業主體之間、產業鏈上下游主體之間信息不暢,信息系統缺乏互聯互通,產業鏈數據尚不能真正融合匯聚、高效共享,強強聯合、共享協同差距甚遠。從廣義上的出版大數據角度看,出版大數據的相關主體尚未厘清角色定位和利益共同點,數據合作模式不清晰,在一定程度上制約了出版大數據資源的開放創新、共享利用和可持續發展。
目前,政府部門對行業的監管手段較落后,對相關統計數據的深度挖掘不夠,對管理人員自身經驗依賴較大,主觀因素偏多;出版單位選題及營銷策劃、圖書館館配規劃等關鍵決策雖普遍采用第三方數據支撐,但由于采集的多是與經濟效益相關的市場數據,產業鏈數據不全,統計分析客觀性不強,難以實現決策的科學性。各行業領域對出版大數據的應用還處在初級階段,大量有價值的信息沒有得到及時、有效地挖掘和深度開發利用,出版大數據對行業的驅動力明顯不足。
出版機構、發行商、圖書館、科研院所、館配商、數據服務商、電商平臺等不同主體占據各自領域優勢,手握分散的出版相關數據資源,呈“割據”狀態,區域或體制壁壘難以打破。不同主體建設的數據服務平臺存在各自的局限性,出版大數據資源無法盤活,整合優勢、互利共贏的數據合作模式尚未有成功案例。這不僅造成重復建設和資源浪費,更在一定程度上造成了各方互不信任的困境,已成為制約行業高質量發展的主要瓶頸。
一個基本行業共識是:要從根本上扭轉上述痼疾,必須以大數據應用驅動出版業供給側改革,推動出版產業轉型升級,構建行業級、權威可信的出版大數據服務平臺。在這一歷史進程,中國版本圖書館肩負的出版物數據中心責無旁貸、不可缺位,必須充分發揮獨有資源稟賦,抓緊進行以出版物為核心的數字版本資源建設應用,使其與達千萬冊級別的海量實物版本資源相互呼應、互為補益,既是推動社會主義文化大發展大繁榮的使命所系,也是順應大數據發展浪潮的應勢之舉。
版本資源稟賦突出 數據職能不斷加強
從信息化建設視角觀察,中國版本圖書館出版物數據職能建設發展歷經了肇始萌芽期(1950~1992)、積累生發期(1993~2009)、提速發展期(2010~2019)三個階段,而“三個日趨”主線始終貫穿全程:69年來,中國版本圖書館保藏版本實物資源日趨豐富、數據職能建設手段日趨多樣、數字資源建設成果日趨豐厚,成為打造國家級權威出版物數據中心的深厚基礎和獨有優勢。
上世紀50年代,我國出版物數據編制的職能開始向中國版本圖書館集中。1951年8月,《全國新書目》創刊,最初由出版總署圖書期刊司編印,10月,《全國新書目》改由出版總署圖書館編輯出版。1956年3月,《全國總書目》出版發行,最初由新華書店總店編輯,1957年12月,《全國總書目》改由版本圖書館編輯。1958年1月,版本圖書館開始編印資料,匯集各類專題目錄,全國圖書、報紙、期刊出版情況,圖書分類統計等,從當時情況看,出版物數據編制和統計職能已成為版本圖書館的一項重要職能和重要業務。
1958年,為了科學管理館藏出版物,中國版本圖書館進行了兩項重大革新:一是對新到樣本采用登錄號排架;二是對手工填寫的“館藏書目名錄(卡片式)改為油印謄寫,同時印制多套目錄,包括書名目錄、分類目錄、著者目錄、出版者目錄、翻譯書目錄等,從不同角度反映館藏圖書情況,這一辦法沿用了40多年。
這一時期,中國版本圖書館在出版物數據職能開發方面進行了兩大探索:一是提供書目資政服務。
1958年1月,文化部出版事業管理局將圖書、期刊、報紙出版統計報表職能劃歸版本圖書館。版本圖書館開始編印《圖書簡報》《出版資料》等內部參考資料,為出版行政管理部門等單位提供出版統計資料。1958年—1989年,先后向文化部、外交部、國家出版事業管理局等部門提供《1957年中央直屬報紙、雜志、圖書出版統計》《蘇聯書籍出版統計》《我國翻譯出版羅馬尼亞圖書書目》等資料500余份。二是出版版本資料。
從20世紀70年代起,中國版本圖書館充分利用館藏資源優勢,整理編纂了大量珍貴的版本資料,為傳承文化、保護典籍、惠澤后人作出了不凡貢獻。1977年,版本圖書館編纂的《魯迅思想研究資料》出版,1980年先后編纂了《全國少年兒童圖書綜錄(1949—1979)》《古籍目錄(1949.10—1976.12)》《1949—1979翻譯出版外國古典文學著作目錄》等高質量版本資料集。20世紀90年代以來,版本圖書館參與編輯的《中國藏學書目(1949—1991)》《中國藏學書目續編(1992—1995)》和《中國藏學書目三編(1996—2000)》由外文出版社出版。20世紀90年代以來,中國版本圖書館持續加強信息技術力量,有序推進項目建設,先后建成了CIP信息系統、書號實名申領系統、館藏樣本編目系統等,促進了行業信息的共建共享,提升了行業的信息化水平。20世紀90年代初開始組織實施圖書在版編目(CIP)國家標準;2000年,圖書在版編目(CIP)國家標準實施已覆蓋全國所有570余家出版社;圖書在版編目(CIP)工作模式從“手工操作”發展到“網絡編目”,圖書在版編目系統經過三次升級改造后,安全性、穩定性和可擴展性得到了有效提升,數據制作周期從10至15天縮短為1至3天,年核發量達32萬條。
2009年1月8日,書號實名申領全面推開,全國579家圖書出版單位全部實現通過互聯網進入書號實名申領信息系統,進行申領書號、條碼的工作。同年5月,圖書、音像制品、電子出版物和期刊等出版物的條碼制作、發放方式也實現了網絡化。
于2008年開始實施的樣本資源搶救工程極大提高了館藏資源的數字化率;實施典藏品資產管理項目,對全部征繳到館的出版物樣本進行資產清理整理登記管理,有效探索了出版物樣本管理的方式和工作流程;對征集到館的175萬頁圖書樣本啟動數字化掃描工作,使傳統的依圖書實物編目方式開始逐步向“依圖編目”方式轉變,從而優化了征集藏管工作的業務流程,提高了數據采集、數據制作速度,提高了樣本的安全性和數據的時效性。
除了實物資源,版本圖書館的版本數據資源也在不斷優化升級。2008年開始,中國版本圖書館實施了“館藏出版物樣本搶救項目”,數字化轉存瀕危館藏出版物樣本。該項目累計完成了13萬多張宣傳畫、200多萬頁連環畫、3萬多小時音像制品和電子出版物樣本及期刊等其他館藏的數字化轉存工作,為館藏版本的安全保管和數字化轉型打下了堅實的基礎,也為館藏出版物的開發利用積累了豐富的資源。
經過近70年的發展,中國版本圖書館已成為我國規模最大、最為完整的新中國版本資源庫,保藏圖書、報紙、期刊、音像及電子出版物、卷軸、碑帖、拓片、圖片、地圖、教學掛圖、技術標準、盲人讀物、掛歷、年歷、明信片、樂譜、歌片、影印古籍等實體館藏21類、740 萬種、1000萬冊,其中老宣傳畫13萬種,文物級資源近20萬種。

圖1 中國版本圖書館1949年—2018年館藏量趨勢圖
在海量實物版本資源的基礎上,自2010年起,中國版本圖書館數據資源建設邁入快速發展期,當年5月,國家新聞出版總署調整直屬單位機構,中國版本圖書館加掛條碼中心牌子,原條碼中心的書號核發、條碼制作等職能劃入中國版本圖書館。2017年,中國版本圖書館試點發放網絡文學作品標識。2018年中國版本圖書館上線出版社年檢數據系統。中國版本圖書館出版物數據方面的職能進一步增強,數據業務涵蓋書號核發、條碼制作、圖書在版編目、網絡文學作品標識推廣等,形成了一個從印前信息一直到樣書管理的完整的工作鏈和數據鏈。
自此,中國版本圖書館形成了行業權威、業界獨有的五大核心數據資源庫——書號實名申領數據庫、圖書在版編目CIP數據庫、館藏出版物樣本數據庫、網絡文學作品標識數據庫和出版社年檢數據庫。其中目錄型數據總計1224.5萬條,包括國際標準書號(ISBN)數據244.9萬條,圖書在版編目(ISBN)數據389.1萬條和中國機讀目錄(CNMARC)數據590.5萬條。
中國版本圖書館數據特色鮮明。一是數據品種豐富。從出版物數據類型看,中國版本圖書館對圖書、音像、電子出版物、網絡文學作品等出版物生產前后多個時點數據進行采集、加工、處理、標引和管理,形成了各具特色的五大數據。二是數據內容多。書號實名申領、圖書在版編目數據(CIP)、館藏出版物樣本數據都包含有眾多的字段,內容豐富,各有所長。比如圖書在版編目數據(CIP)包含52個字段。而書號實名申領、館藏出版物樣本數據較圖書在版編目數據(CIP)更為豐富。三是數據關聯度強。從樣本實物與數據關聯看,構建了出版物各類元數據、元數據與實物樣本等不同層次的關聯關系。四是數據應用廣。除向管理部門提供分析報告、掃黃打非和文化執法數據服務外,還應用到出版社選題服務、出版社數據資源建設、圖書館館藏資源建設等實際工作中。
與此同時,近年來中國版本圖書館立足于五大數據庫資源優勢,積極開發數據資源,拓展數據服務對象,創新數據服務方式,逐步探索出了一套以政府為依托、以公益為目的、以市場為導向、產學研相結合的出版物數據服務體系。從用戶對象來看,持續為北京、上海、新疆等“掃黃打非”一線地區,全國“掃黃辦”等文化市場監管和執法部門提供數據查詢接口以及指揮系統集成的相關的技術支持;為人民出版社、人民美術出版等出版機構提供書目數據檢索、篩選、分析、數字統計、圖書數字化轉存以及定期數據產品的更新增量服務;為中文在線教育科技發展有限公司、同方知網(北京)技術有限公司、中國國際圖書貿易集團有限公司、浙江手機閱讀基地、中國高等教育文獻保障系統管理中心(CALIS中心)等提供多元化的數據信息產品及服務。從服務方式看,除卻按年度以每周為更新周期提供數據信息產品,還加強對出版物數據服務用戶的行為、數據用途及需求的分析,提供一次或多次數據定制服務。成功案例包括同同方知網(北京)技術有限公司合作整合出版物信息資源,為終端用戶提供知識服務;為國家圖書館提供館配、聯機編目等業務系統的鋪底數據;為延安干部管理學院提供相關主題的數據研究分析報告,輔助其開展教學、宣傳、展示工作。
構建五大分數據中心 打造智慧數據服務體系
圍繞建設國家級權威出版物數據中心這一愿景,以促進出版業供給側結構性改革、推動出版業高質量發展為目標,中國版本圖書館將本著“從頂層設計、從源頭做起,從標準入手”的方針,在內部數據職能建設層面,構建全國出版物標識中心、全國出版物編目中心等五大分數據中心;在用戶服務層面,以黨和國家管理部門、出版單位、圖書館、館配發行及數據服務提供商、電商平臺、科研院所及知識服務商、社會公眾等七類用戶為服務對象,打造一體聯動的智慧數據服務體系。
全國出版物標識中心
將重點推進ISBN、CN、ISSN、期刊條碼的統一管理;拓展標識業務范圍,構建標識符關聯關系;加強網絡文學作品標識工作,實現作品信息、作者信息、權屬信息等內容全流程規范管理。全國出版物編目中心
將以出版物元數據資源為牽引和支撐,打通出版產業上下游數據鏈,融匯聚合多維度數據資源。全國出版物數字資源中心
將以數據建設和平臺開發為抓手,完善數字資源的采集、整理、保存、展示工作;以樣本資源搶救工程等項目為依托,逐步實現館藏樣本的數字化。全國出版物數據展示發布中心
重在建立基于海量版本內容的分級分類體系和相關標準,完成知識資源規劃,以此為依托進行版本知識內容建設和展覽展示設計制作,組織實施版本的對外宣傳與展示。全國出版物數據管理中心
意在加強對出版物數據管理的頂層設計和統籌布局,發揮數據對出版管理的重要作用,加大選題監控力度,加強數字出版管理、電子出版物和數字版本征繳、總分館業務管理,為管理決策提供更加科學的依據,不斷滿足新時代出版管理的要求。面向黨和國家管理部門,
出版物數據中心提供重點選題跟蹤分析、出版熱點分析、違規出版物檢測與預警、知識產權侵權溯源,出版輿情監控等出版宏觀調控與監管輔助決策服務;提供干部學習讀物個性化推薦、閱讀數據分析、跟蹤評價等終身閱讀與管理服務,推動建設基于大數據的學習型組織。面向出版單位,
出版物數據中心將提供選題、立項決策支持;提供珍貴老版本和遺失版本的復制服務;提供館藏數據,實現定制化歷史數據檢索和出版物資產盤點;通過對圖書市場全局、圖書館館藏數據、印刷周期的分析,匯集跟蹤用戶信息及行為大數據,為圖書定價、印數決策、營銷決策提供支撐。面向海外機構提供出版物元數據,為出版單位“走出去”搭建信息交換平臺。面向圖書館,
出版物數據中心將提供全年書目數據,實現對館配商的信用評價,為圖書館招標采購決策提供數據支撐;為文獻采訪、文獻編目提供基礎數據支撐;基于及時全面的CIP數據及館配數據,通過各領域圖書品種數量及占比、各出版社年度新書占比、圖書館館藏市場排名等統計分析數據,提供圖書館館配規劃輔助決策服務;通過出版物標識數據庫與圖書館館藏數據進行匹配,指導圖書館補藏工作;基于圖書在版編目全集數據,按學科方向、圖書分布、作者評價等數據進行數據分析,為圖書館館藏圖書質量評估提供客觀評價依據。面向電商平臺,
出版物數據中心將依托CIP數據為電商平臺提供查詢統計服務;違規出版物檢測與預警、知識產權侵權溯源等服務,幫助電商平臺進行圖書合規性、合法性監控;提供出版單位全面、及時的新書信息和索引服務;以及通過對市場動態信息的分析,輔助電商平臺了解圖書熱點、產業動態、把握政策導向,為采購圖書提供支撐。面向科研院所及知識服務提供商,
出版物數據中心提供完整、準確的專業學科方向的書目索引服務;通過建立作者庫、機構庫提供文獻關聯分析、研究和文獻互動傳播服務;通過權威、完整的CIP數據與論文參考文獻數據的關聯分析比對,提供學術不端查詢服務。面向社會公眾,
出版物數據中心將提供數字化、網絡化、虛擬化的藏品信息展示和體驗服務;利用圖書版本資源長期保存成果,開展珍貴散佚版本再版、再開發工作;推薦歷史珍貴圖書或當代精品圖書;提供個性化終身閱讀推薦服務。七秩芳華,奮斗始終。在習近平新時代中國特色社會主義思想偉大旗幟指引下,中國版本圖書館將堅定文化自信、增強文化自覺,堅持正本清源、守正創新,全面落實國家大數據戰略,加快信息化發展,著力打造政府主導、權威可信的出版物數據中心,助力政府、行業、企業等各領域數據資源開放共享,從出版產業鏈上中下游進行精確管理,為出版產業高質量發展創新賦能,不斷提升版本資源服務黨和國家工作大局的能力,推動新時代宣傳思想文化工作實現新作為。