李霄
[摘 要] 基于歐美英語圖書出版市場的產品元數據信息發展,通過介紹信息鏈上的主要業務主體及其作用,勾勒書業元數據的生命運行軌跡,并分析現階段數據信息在圖書產品發行中的應用、電子書元數據及對產品營銷的意義等突出問題,得出結論:元數據業務在未來發展中將逐漸與出版業務融合,對信息化系統也將不斷提出更高的要求,信息發展會趨向標準化與開放化。同時指出圖書元數據建設是一項行業性信息化整體方案,需要全行業共同參與維護。
[關鍵詞] 圖書產品 產品信息 元數據
[中圖分類號] G231 [文獻標識碼] A [文章編號] 1009-5853 (2017) 04-0035-05
Discussion about the Publication Metadata of the English Publishing Market Overseas
Li Xiao
(China Archives of Publications(Publications Data Center of the SAPPRFT),Beijing,100005)
[Abstract] Based on the English book metadata development in the European and the American publishing market, the paper introduces the participants of the data stream and draws its life circle, and discusses the core elements and current issues in the data business, with the conclusion that metadata business would gradually converge to the publishing process, with higher requirements of the information system, and the tendency of information standardization and liberalization, as well as pointing out that metadata is a integrated information scheme, which needs the participation of the whole industry.
[Key words] Book products Product information Metadata
元數據貫穿圖書產品的整個生命周期,主要用于作品創作、書號注冊、編輯、出品、預售營銷、各銷售渠道的分銷活動、預售交易、正式出版、出版后的營銷、讀者檢索與查詢、讀者選購、出版后的銷售交易、銷售跟蹤和商業智能等多個出版環節。本文基于歐美書業情況對元數據做簡要介紹。
1 書業元數據的由來
元數據始于出版社,出于產品的內部查詢功能,以及配合投放市場的相關營銷活動和讀者預訂購,產生了最初的描述圖書產品的基本信息,即產品元數據(title data)。隨著圖書產品出版發行的不同階段,信息會不斷變化,數據會被適時更新調整。
許多出版從業主體都會參與制造、傳遞、強化和使用圖書出版產品元數據,形成一條圖書元數據信息鏈,并且元數據信息會隨著進入不同的渠道產生不同的變化。信息鏈上游的數據靠近出版初期,由出版社和內容制造方產生,并流向下游的供應商、分銷商,最終通向讀者。通常情況下出版社包括自助出版者都會采用多種發行渠道,因此數據會被推向下游多個合作的發行主體。即使通過網站直銷,出版社也會與一些重點分銷商建立合作關系,盡可能靠近并了解讀者。
下游合作商將圖書元數據納入內部系統作商業用途,提供合適的產品和服務,例如建立在線訂購平臺、書目數據庫和數據推送,尤其是對批發商、大型分銷商、圖書館一類大客戶需要進行較為復雜圖書推介的B to B活動。
數據集成商、批發商和零售商通常掌握了更豐富的元數據信息,能進行系統查閱,且在質量和有效性上遠高于出版社,大多數的下游主體都有專業人員進行元數據加工和維護。
2 參與圖書元數據業務的相關主體
圖書元數據是由多種出版從業主體共同完成的,主要包括出版社、圖書數據集成商、發行商(批發商、電子書集成商和分銷商)、零售書店(獨立書店、連鎖書店、網絡書店)、圖書館和元數據管理集成商,他們對數據的貢獻和需求各有不同。
2.1 出版社
出版社是元數據的源頭,傳統出版社一旦決定出版,在創作期就開始記錄早期的元數據信息,例如標題、相關責任者、主題類型、預計出版時間等。自助出版者在簽署承諾文件后便登記這些基本信息,大型出版社會運用一些出版軟件系統來收集信息,小型出版社通常建立內部數據庫或excel表格來記錄這些信息。出版社收集這些信息主要用于編輯出版階段的跟蹤查詢、登記申領書號、準備營銷素材、提前通報給合作的發行商(一般是6個月)。數字出版的興起對圖書元數據的發展產生了深遠影響,由于數字化產品很大程度上需要依賴外部技術系統,致使相關產品的元數據信息變得不可控。目前,大量電子書產品由紙質作品轉化而來,完全獨立于傳統的出版流程,導致相關元數據信息既不能與紙質保持一致,也不符合行業通行的元數據規范標準。這對出版社加強技術合作、更新出版流程和行業標準既是機會也是挑戰。
2.2 圖書數據集成商
圖書數據集成商從出版社或其他信息源收集整理相關的出版信息,并開發成信息產品向業內提供服務。通常主要是各國家或地區的書號代理機構,既收集信息又提供服務,如美國的鮑克公司(Bowker)、英國的尼爾森(Nielsen),業務圍繞數據開展,不參與圖書交易。比較成熟的信息產品有“鮑克可供書目”數據庫和一些數據分析類信息服務產品。另一類是一些大型批發商,他們也編制、優化圖書產品信息,并打包出售,如美國的英格拉姆(Ingram Book),開發數據庫產品并出售給零售商和其他業內企業。
這些機構投入大量的人員、技術和資金來進一步加強、優化源自出版社的信息,建立龐大的數據庫并不斷開拓各種信息源,實現數據自動化控制,客觀上推動了出版物元數據的規范化和高效使用。
2.3 批發商
批發商主要面對零售商和圖書館,需要依靠產品元數據來提供倉儲、網絡訂購、貨運等諸多附加服務,從而實現B to B的有效供應。例如貝克與泰勒(Baker&Talor)的圖書源系統(Title Source)和 英格拉姆(Ingram)的電紙軟件系統(ipage),都能為大客戶提供多種分類瀏覽、定題搜索來選購圖書產品的功能。并且,還能依照客戶的需求,生成多種格式的圖書訂購單,以便客戶用于館藏查重。
元數據必須完整正確才能用于自動化信息服務,否則無法滿足客戶的需求。進入這一環節的元數據已經和出版社的不一樣了,因此大型批發商都會在提高元數據方面不斷投入,以保證元數據維持在較高的水平。
2.4 電子書集成商與分銷商
電子書集成商通常指為圖書館提供電子書和其他數字資源的企業,如強驅公司(OverDrive),伊博拉力公司(ebrary),我的圖書館(Mylibrary)。他們幫助圖書館建立信息平臺,滿足讀者的查詢、借閱等需求,同時也提供Marc格式的數據記錄來幫助建設館藏數據庫。電子書分銷商指提供電子書零售的企業,如蘋果公司、亞馬遜、巴諾書店,通過網站直接向讀者銷售電子書產品。隨著自助出版的飛速增長,一些新興的電子出版平臺如斯馬什華滋電子圖書公司(Smashwords),露露電子(Lulu),圖書寶貝公司(BookBaby),也向市場輸出了大量圖書元數據。然而,電子書集成商和分銷商提供的元數據信息工具一般都不符合通行的數據標準,在目前數據和產品擁擠不堪的市場環境中無法有效地服務于客戶。
2.5 零售商
元數據在圖書零售領域發揮著至關重要的作用,尤其是數字化內容產品和網購的盛行,數據對于圖書零售業的轉型發展至關重要。大多數實體書店(獨立書店和連鎖書店)都建立了網絡交易平臺,時刻掌握各門店的銷售動態,并根據產品的銷售數據來決定補貨,但客觀上也增加了成本。網絡書店更需要依托高質量的產品信息和適當的元數據應用。只有不斷優化讀者網購圖書的體驗才能在零售領域具有競爭力。
2.6 圖書館
圖書館是最早推動圖書元數據科技化和標準化發展的主體之一。早在1960年代,圖書館開始采用Marc格式的圖書數據信息來建立電子館藏目錄,到1970年代基本完成卡片目錄時代到電子目錄時代的更替。為滿足排架、館藏檢索等多種復雜需求,圖書館一般采用較為復雜的分類體系(《美國國會圖書館分類法》《杜威分類法》)和可控主題詞表。目前,圖書館界和出版業(出版業使用的元數據標準主要是ONIX)雖然對于圖書信息的需求有著諸多重合,然而它們對元數據都形成各自的標準體系,在信息對接上存在一定的障礙,一些服務于兩個行業的信息技術服務商和數據公司不得不增加額外成本來滿足不同客戶的需求。
3 圖書元數據的關鍵元素
3.1 圖書發行中的必要數據信息
理想狀態下,出版社都會掌握必要的元數據信息以滿足在圖書產品的編輯、出版、發行過程中所需實現的多項功能,主要包括信息獲取、版權查詢、編輯、制作出品、營銷、分銷、商貿交易、產品查詢、選購、銷售跟蹤、商務智能等。滿足這些功能的圖書產品數據主要分為三類:內容描述性數據、產品描述性數據和商務需求性數據,如圖2。
內容描述性數據主要包括標題(主標題和副標題)、作者/相關責任者、出版社(及版權信息)、版本信息、叢書信息、出版語言、目標讀者群、青少年讀者年齡分級、內容摘要、BISAC/BIC主題詞。這些信息都是成功在線銷售產品的關鍵信息,它必須準確描述所售圖書產品的內容本質和產品品質。
產品描述性數據包括產品形式(格式/裝幀/包裝)、軟硬件要求、幅度(頁數/文件大小)、體積和重量、件數、DRM/使用限制、數字化圖像。這類數據表述內容產品的種類、載體形式等,對產品發行活動至關重要。出版社需要掌握不同載體圖書產品(紙質產品、有聲書和數字產品)的市場表現情況,對營銷決策、商業智能、消費者行為分析都有重要意義。發行商通過產品的重量、體積、件數等信息來計算倉儲空間和貨運預算。
商務需求性數據主要有書號(ISBN)、價格、出版日期、出版社打折促銷信息、出版社狀態碼、產品可用性代碼、地域性權限、嚴格銷售日期、返回碼。消費者通常比較關注價格,出版社、發行商在圖書買賣中和商業決策中都需要這些信息。
3.2 有關電子書元數據信息的突出問題
除了三類必要性數據項,結合目前電子書發行實踐中出現的問題,有幾項關鍵信息值得探討。
3.2.1 書號問題
書號是標識圖書產品最通用的標識符,通常被建議為必要的信息元素。根據國際書號中心的派號原則,不同格式的電子書需要單獨申請書號[1],因此導致相同內容的作品會有多個產品記錄,客觀上增加了書號的成本(歐美國家的書號需要購買),因此在業內引起是否需要給不同格式但內容同質的電子書單獨分派書號的爭論。此外,電子書出版主體不斷增多,一些大型批發商也具備派發書號的資質,客觀上給電子書市場造成一定的混亂。理想狀況下,出版社應該為不同版本的電子產品單獨分派書號,將數字產品也納入ISBN體系里,才能出現在各類行業權威分銷平臺里,一些獨立電子書商(如亞馬遜、巴諾書店)出品的電子書沒有書號,就只能存在于各自的內部銷售數據庫里。
3.2.2 ONIX圖書元數據標準有關數字產品的描述性數據項
ONIX2.1版本主要適用于紙質書,有些產品數據項(如成書尺寸、重量等)不適用于電子書。新版本ONIX3.0更新了代碼表,擴展了對電子書和有聲書產品的描述性數據項,使其對數字圖書產品更具兼容性。此外,除了必要性數據項之外,對電子書產品還特別重視補充加強型數據對產品信息進行進一步描述,例如作者簡介、圖書評論、作品得獎情況等,因為這類信息對于電子書產品的市場推廣有重要意義[2]。
3.2.3 EPUB標準問題
除了產品元數據標準,電子出版產品還有文檔元數據標準,EPUB是業內較為通行的數字出版行業標準,由“國際數字出版論壇”(IDPF)推廣維持,除了亞馬遜Kindle不支持,谷歌播放(Google Play),愛布克(iBooks),努克(NOOK)等閱讀系統都支持EPUB格式的文件。它極大地豐富了元數據項,不僅能將元數據描述實施于文檔層面,還能深入到段落層面,從而更加豐富元數據、更深層次地掌握產品內容,能將Marc記錄或ONIX文檔包含在信息文檔內,也可以通過外部鏈接獲取相關信息。新版本EPUB3不僅涵蓋了書名、出版語言和標識符,還增加了時間戳(timestamp)作為一種新的對應單個文檔的標志符。在實施標準的過程中,出版社應該從市場流通的角度出發,仔細判斷哪些數據項是恒定的,而諸如定價、銷量、地域權限等一類變動性較大的信息項最好置于標準之外。元數據接收單位也應該充分認識EPUB標準,適時調整系統來應對這種格式的數據信息。此外,一些商戶在EPUB基礎上做了一些改動,研發了自身的標準,如亞馬遜的KF8,降低了文檔在不同設備中的兼容互通,雖然在商業上加強了一定的競爭性,但沖淡了行業標準的作用。
3.2.4 搜索引擎優化
所有網絡銷售的圖書產品都會將元數據信息運用于搜索引擎優化(Search Engine Optimization,SEO)方面,不僅限于電子書產品。早期商家會嘗試通過設計搜索引擎排名的算法來增加一些網站和產品的曝光率,后來這種做法被禁止。目前較為普遍的思路是通過優質的描述性內容來優化被檢索的效率,因為營銷性內容的檢索率光靠一般的關鍵詞是不行的,而應更多考慮怎樣描述圖書產品才能增加將其推送給目標讀者群的幾率。所有核心的元數據項都有助于搜索引擎優化的實現,一些網絡書店(亞馬遜、巴諾等)和出版社網站的搜索引擎僅限于內部的圖書產品數據庫,數據源由出版社直接提供,主流搜索引擎網絡公司對全網絡的信息進行檢索。出版社雖然不可能控制這些企業各自的搜索引擎算法和優化工作,而且圖書產品的銷售排名等信息還無法直接歸入元數據項,但他們都盡可能向分銷領域提供詳細的元數據信息。然而,沒有人能保證完整的元數據就一定會增加圖書的檢索率。
3.3 加強性數據對營銷具有重要意義
基礎性元數據項可以滿足產品的交易過程,而額外的加強性數據,如作者簡介或采訪、摘要、書評、獲獎情況、相關視頻等,能很大程度上豐富讀者的體驗,在讀者選購時產生不同的效果。此類數據通常都無法在出版前或出版初期補充上,但它們卻能在產品上市后相當長的時間里持續發揮促銷的功能。尼爾森公司曾發布過一本白皮書《論元數據與銷售量的關系》,論述了作者簡介與采訪數據項對產品銷售的積極作用,并建議補充多種加強性元數據項,如摘要、預覽和樣本章節、作者簡介和訪談、書評、作品獲獎情況、封面封底圖片、相關視頻等項,并論證它們對銷售的積極意義[3]。許多網絡書店(巴諾、亞馬遜)的自助出版平臺都設有作者頁面,可以看到他們的個人信息、圖片、視頻、博客、旅行事件。
4 出版業元數據業務的展望
數據管理公司(DATA CURATE)曾發布過一份調查,就出版業和元數據目前的阻礙和未來的發展問題,采訪了歐美書業參與元數據業務主要機構的負責人和業務代表,結果顯示實業者和專家們在一些看法上達成共識[4]。
4.1 數據業務與出版業務逐漸融合
未來的元數據制作和維護應該逐漸整合到產品出版的全過程。這意味著出版社要肩負更多責任,在數據業務上也需要更專業的培訓。但另一方面,也會導致更多數據被控制在出版社手中,成為機構的核心資產。電子書的元數據制作和維護應該充分與印制版產品相融合并保持一致。
4.2 數字信息化系統在諸多方面都有待于提高
目前的數字化信息系統一般很難滿足新世紀元數據業務的要求,主要表現在:系統的儲存能力和靈活性都無法適應急速增長的信息量和元數據的動態性;需要一次能管理一種產品的多個版本的元數據,而不是一次只能處理一種產品的元數據;紙質產品和數字產品的元數據業務鏈還無法整合;支持全項元數據及其使用的能力還不足;與業內合作伙伴進行健康、流暢的數據傳播功能(高效的、自動化的元數據傳遞和解析)還有待提高。
4.3 信息標準化和開放化有利于元數據的發展
業內專家一致認為,廣泛采用行業標準、推行最佳運行模式可以提高信息流的效率,促進信息自動化發展,提升信息質量并減少信息的重復和不穩定。并且,業內業外都會繼續提倡開放數據理念,無論是在出版業內還是出版業與圖書館之間,都應該積極分享優秀的元數據業務模式、商業模式、信息系統,支持元數據共享、數據連接,增加數據的開放程度。
4.4 信息化建設是全行業的整體運動
元數據信息建設不是業內某幾家企業或某一領域的企業能實現的,它是需要整個行業參與解決方案的一項整體運動。在信息鏈各個環節的出版社、發行商、信息商、技術商和圖書館需要達成共識,未來的出版業信息化是基本業態,任何一個機構都無法置身事外,行業的元數據信息健康關乎所有機構的利益,需要整個行業去維護。
注 釋
[1] International ISBN Agency. ISBN Users Manual[M/OL]. 6ed. United Kingdom: International ISBN Agency, 2012:12. https://www.isbn-international.org/content/isbn-users-manual
[2][3]Breedt Andre. White Paper: The Link Between Metadata and Sales[DB/OL]. [2016-09-29]. https://www.baidu.com/link?url=u8v7jL-2l5w9HWfEqrf2C5xvin3_SJyxC1qHSKOFpjwhgcN_jXwMtk5MyKyBEk0keWDUkFIo23O1yx5lCJV_mHY_4zS6fyjiZOAp_K9o3Q3&wd=&eqid=8713bed00002ee02000000025801a9de
[4] Register Renée,McIlroy Thad. The Metadata Handbook, A Book Publishers Guide to Creating and Distributing Metadata for Print and Ebooks[M]. Ohio: DATA CURATE, LLC, 2012: 75-76
(收稿日期:2016-10-23)