叢磊?陳俊武
【關? 鍵? 詞】出版業;數據交換;通用數據交換系統;端交換方案;中間標準庫
【作者單位】叢磊,出版產業通用數據交換技術重點實驗室,北京理工大學出版社;陳俊武,出版產業通用數據交換技術重點實驗室,北京理工大學出版社。
【基金項目】國家新聞出版署“出版產業通用數據交換技術重點實驗室”研究性課題。
【中圖分類號】TP311.521 【文獻標識碼】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2021.15.009
“互聯網+”時代,數據是出版企業的重要資產,對數據資產的挖掘與使用能力,是出版企業的核心競爭力[1]。當前,出版業信息化水平整體不高,數據共享、交換的能力普遍偏弱,雖然有部分出版企業實施了數據交換工作,但其使用的接口系統存在諸多問題,使得數據交換不能迅速普及,嚴重制約了出版業的發展。
一、出版業數據交換需求現狀
1.數據交換需求的多樣化
隨著“互聯網+”、大數據、云平臺等新技術、新應用的迅猛發展,數據除了量級上呈爆炸式增長,還呈現多樣化的特點。出版業數據的產生、使用、交換具有多源性、多類性和多向性。
從數據產生的源頭來分,包括行業主管部門、出版單位、流通服務單位(渠道商和服務商)、用戶(圖書館、科研院所等機構用戶和個人用戶)等產業鏈條上的各個節點方;從數據內容類型來分,包括機構數據、人員數據、產品數據、政務數據、商務數據、用戶數據和內容數據[2];從數據文件類型來分,包括記錄型和文件型;從數據交換的參與形式來分,包括參與方之間的一對一、一對多和多對多形式;從數據流向來分,包括內部系統對內部系統流向和內部系統對外部系統流向。
數據的多樣化也勢必帶來數據交換需求的多樣化,出版企業與上級部門之間需要定期進行匯總性的出版數據交換,出版企業與合作機構之間需要實時交換業務數據,出版企業各業務部門也需要從頭至尾的產品數據傳遞。大量多樣化的數據交換需求要求出版企業具備相匹配的數據交換能力,數據交換能力的強弱、數據交換的普及應用程度將直接影響出版企業乃至整個出版業的發展。
2.數據交換需求的迫切性
出版經歷了出版1.0時代(鉛與火)和出版2.0時代(光與電),現在已經到了出版3.0時代(數與網)[3]。隨著出版3.0時代的來臨,出版業對信息的數字化、共享化的需求,對流程規范化、標準化的需求,對大數據的收集、分析需求,都成為出版業亟須解決的問題。如果這些問題沒有得到解決,出版業就不可能在出版3.0時代進行數字化轉型升級,更不可能向出版4.0時代(云與端)演進。
對出版企業來說,數據交換對提高其無紙化辦公能力,避免重復勞動,提高工作效率,提高數據傳輸速度、準確度、安全性,簡化和規范業務流程,改善和提升產業上下游各節點的協同合作關系等都起到了至關重要的作用。因此,數據交換應成為出版企業的核心生產力之一,數據交換能力也理所當然地成為企業的核心競爭力之一。出版企業無論其規模大小,若要在“互聯網+”時代得到更好的發展,就要提升其數據交換能力,并解決其在數據交換過程中遇到的問題。
二、現有數據交換模式存在的問題
1.交換接口產品不具有通用性
多年來,出版業乃至各行各業都在積極探索數據交換的技術和生態解決方案,經過多年的嘗試和實踐,一些研究人員取得了較為可喜的研究成果,并進行了較為成功的應用。綜觀現階段我國的出版業,其流通環節的數據交換普遍采用“XML+FTP”的方式,均以《圖書流通信息交換規則》(CY/T 39-2006)為基本規范,輔以各出版企業和流通渠道自定義的規則為補充,形成數據交換業務單據的生成規范,然后各個信息系統生產廠商進行接口開發,實現業務單據所對應數據的讀寫、存取和傳遞。這種數據交換模式雖然解決了特定交換需求下兩個特定系統之間的數據交換問題,但仍存在其他問題,尤其是交換接口不具備通用性。具體表現如下。
(1)私有規則
接口是根據數據交換雙方協商一致的、特定的、私有的規則而開發,與出版業國標、行標的規則存在差異,且私有規則僅根據雙方實際需求協商制定,不能直接適用于其他機構,因此不具備通用性。
(2)接口定制
接口是兩個特定系統之間的業務邏輯和程序邏輯的代碼,即接口是定制開發的,只適用于兩個特定系統之間,并不適用于其他系統。而出版企業使用的系統千差萬別,因此一個接口很難在多個出版企業中通用。
(3)邏輯交織
接口中的業務邏輯和程序邏輯是設定好的,但出版企業系統中的業務邏輯并不是一成不變的。隨著時代的發展,出版企業在轉型升級過程中,業務邏輯勢必要發生改變,因此原來的接口無法繼續使用,必須對其進行二次開發或重新開發。
(4)特定版本
同一信息系統可能存在版本迭代現象,更新后的系統業務邏輯或程序邏輯或多或少都會發生變化,原來的接口只適用于迭代前的版本,不適用于迭代后的版本,所以接口不具備通用性。如果迭代后的系統未重新開發接口,則無法進行數據交換。比如云因出版ERP系統,舊版本為C/S架構,而新版本已全面改版成B/S架構,依據舊版本開發的接口必然不適用于新版本系統。
2.交換接口開發存在的問題
(1)依賴原廠
由于參與數據交換的兩個信息系統都必須開發接口,且當前出版企業技術力量普遍薄弱,因此信息系統接口基本只能由原開發廠商進行開發。有的開發廠商愿意主動地開發接口,但出版企業使用需要額外支付大量費用;有的開發廠商無力或不愿意進行接口開發,甚至有的開發廠商已經倒閉,接口無人開發,因而出版企業的數據交換無法進行。
(2)重復建設
出版業的出版流程是遵循行業標準規范的,各種接口中大部分功能性邏輯基本是相似的。雖然不同出版企業可能使用的是同一個系統,但由于具體業務存在差異且數據庫結構不同,因此數據讀寫邏輯代碼也不同。各出版企業均需要結合自身實際情況定制開發不同的接口,同一系統接口的重復建設度較高。
(3)費用高昂
接口開發是一項費時費力的工作,開發成本、維護成本、后期的使用成本均較高,開發廠商不僅要向出版企業收取信息系統版本迭代費用,還要收取接口的版本迭代費用。對單個出版企業而言,它的客戶數量可能是成千上萬的,每個客戶使用的系統可能各不相同,因此出版企業在進行業務對接時,就需要開發對應數量的接口,投入的開發成本和管理成本是巨大的。高昂的費用讓大多數想要實現數據交換的出版企業望而卻步,進而也阻礙了數據交換接口的開發和普及進程,加大了出版業數據收集和共享的難度。
(4)開發人員存在業務邏輯和標準規范理解差異
出版企業技術力量有限,因此接口的開發人員大多來自信息技術公司。他們對出版業務邏輯的理解和出版業規范或標準的理解存在偏差,且本身也可能存在程序開發水平的高低差異,故開發出的接口中,其業務邏輯和程序邏輯以及對出版業規范和標準的執行均存在不一致性和不確定性。這既不利于接口的順暢使用,也不利于出版業規范、標準的推廣和應用,很容易造成“有標準不用、有標準難用”的局面。
(5)安全保障程度差異
開發人員在開發現有交換接口時,只是在業務邏輯和程序邏輯上對數據進行處理,并未在信息交換的系統架構安全上做更多的考慮,使得交換的信息安全性得不到保障。目前,數據已成為出版企業的核心資產,是出版企業快速發展的核心競爭力。越來越多的出版企業開始重視信息交換的安全性問題,但提供數據交換服務的廠商建議用戶在接口投入使用前,必須先投入高昂的費用搭建信息安全架構。這就出現了“千萬費用已投入,分毫數據未交換”的現象。
正是因為當前數據交換存在上述問題,導致出版業數據交換接口不能通用,數據交換不能普及,大量信息系統以“信息孤島”的方式存在,嚴重制約了出版業的發展。因此,搭建一個使用成本低廉、接入方式簡單且多系統通用的數據交換系統,是解決出版業現有數據交換問題,保障行業未來良性發展的根本所在。
三、通用數據交換技術的研究意義
1.通用數據交換技術極大提升了工作效率
出版產業鏈上的行業主管部門、出版單位、銷售渠道、用戶單位等內外部都存在大量信息交換和復用需求。如果日常工作中系統間數據交換不借助軟件工具,完全通過手工錄入、加工的方式進行,那么數據交換和管理過程中需要耗費大量的人力成本和時間成本。通用數據交換技術能夠自動傳輸元數據和配套資源文件,可以極大提高各單位的工作效率。大量應用和實驗數據表明,1個業務人員在5個工作日完成的工作量,通過通用數據交換接口僅需0.5個工作日就可完成,工作效率的提高可達90%以上。
2.通用數據交換技術有效減少人工操作帶來的差錯和損失
在數據交換過程中,很難保證人工參與的環節不存在差錯。例如在教材發行高峰期,發行部門每天都要為各個渠道、院校開具不計其數的發貨單,大量的圖書發貨數據如果完全依靠人工錄入,可能會讓業務員手忙腳亂顧此失彼,極易產生差錯且很難及時發現,這就會對出版企業甚至下游銷售渠道的業務帶來極大影響。通用數據交換技術可以替代數據交換過程中人工的錄入操作,避免人工操作帶來的不確定性,從而減少數據交換過程中的差錯。
3.通用數據交換技術使出版產業鏈各節點數據融合共享
出版業的各類數據均分散在不同的產業鏈節點和主體中,導致主管部門與出版行業主體之間、產業鏈上中下游主體之間信息不暢,信息系統缺乏互聯互通,產業鏈數據不能真正融合[2]。通用數據交換技術可以消除信息系統間的壁壘,使產業鏈上各節點的數據真正得到共享,推進出版業智慧決策、智慧生產、智慧服務。
4.通用數據交換技術推動整個出版業健康發展
“互聯網+”的概念在出版業的體現是利用互聯網的手段,將大數據、云計算、物聯網等基于互聯網的新技術深度融入出版產業的各個環節中[4]。通用數據交換技術充分發揮互聯網在出版生產要素配置中的優化和集成作用,對提升出版業的生產力和創新力,以及實現出版業的快速創新發展有著極其重大的意義,將有效推動整個出版業的健康發展。
出版業通用數據交換系統的研究勢在必行。筆者通過分析可以確定,要想實現數據交換的通用和普及必須考慮現有的制約因素,從系統架構和應用生態上進行重構。在重構設計時,開發人員必須遵循科學的設計原則,才能開發出可通用化、易普及的數據交換系統。
四、數據交換通用化架構設計原則
在設計一個通用化的數據交換系統架構時,開發人員應當充分考慮導致數據交換系統不通用的根本原因,同時考慮現有交換接口開發存在的問題,從本質上提出解決之道。經過出版產業通用數據交換技術重點實驗室的大量理論研究及分析,筆者認為,開發人員在進行出版業通用數據交換系統架構設計時應遵循分離性原則、耦合性原則、抽象化原則、共用性原則和開放性原則5個原則。
1.分離性原則
出版業通用數據交換系統要實現通用化目的,首先應將待進行數據交換的信息系統的業務邏輯從通用化架構、邏輯上進行分離,即通用數據交換系統不得含有數據交換兩端系統的任何業務邏輯(進行數據交換的兩端系統以下簡稱“端系統”)。只有這樣,通用數據交換系統才可以回避各出版企業之間業務流程和系統的差異,達到僅需一套通用數據交換系統就可以實現任意端系統之間數據交換的目的。
由于各端系統存在業務邏輯不同、數據庫結構不同等原因,導致數據讀寫方式大不相同。為了實現接口的通用化,需要開發人員將端系統數據讀寫方法與接口系統本身分離,以保證公共接口部分的通用。研究表明,出版業數據交換通用化架構將讀取和寫入數據的業務邏輯單獨制作成標記化語言腳本代碼文件(如XML等,暫且稱其為“端交換方案”)。端交換方案是區分具體端系統、端系統版本及業務單據的。它不僅要符合出版業相關國家、行業標準的要求,還要符合待數據交換雙方協商一致的自定義規則要求。一個端交換方案應包含一個或一個以上的業務單據,且一個端交換方案應只對應一個固定版本的端系統。
2.耦合性原則
出版業務邏輯與數據交換接口分離之后,開發人員只需要開發接口公共功能部分形成系統,并支持不同端交換方案腳本的分析和運行,以此完成不同系統間的數據交換。端交換方案是端系統業務邏輯的繼承和實例化,其本質只是一個文本文件,不能直接運行。因此在出版業通用數據交換系統的邏輯架構中,必須設計一個能將端交換方案用于數據交換的耦合器,耦合器可以實現端交換方案與數據交換公共功能部分的協同運作,參與并控制各種端交換方案的運行,最終以應用程序形式部署到各個出版單位,并能以系統服務駐留模式長久運行。在每個端系統接入時,僅需進行一次簡單配置,加載對應的端交換方案即可自動實現數據交換,開發人員無須對端系統進行改造。
由于不同出版企業使用的系統千差萬別,不同的系統均需要適配不同的端交換方案,耦合器要協同運作各種端交換方案,就要求端交換方案在制作時需遵循統一的制作規范或標準。因此,耦合器應包含端交換方案制作器,其提供統一的端交換方案制作編輯工具,且制作編輯工具的制作規范或標準應由相關人員提前定義完成。
耦合器在出版業通用數據交換系統中接收到端交換方案時,會對其數據進行規范性校驗,例如ISBN的格式是否正確、出版日期的格式是否符合標準等。而規范性校驗的規則或標準應來自中間標準庫。中間標準庫是由相關國家標準、行業標準、企業標準及雙方協商一致的規則組成。符合中間標準庫要求的端交換方案才可以在出版業通用數據交換系統中發布,供出版企業進行選擇和應用。
3.抽象化原則
耦合器實現了各種端交換方案在出版業通用數據交換系統中有效可靠的解析和運作,其應包含數據處理、數據收發、數據校驗、數據安全、運行控制等通用功能,也必須是這些功能的抽象化器具集。
如耦合器在數據處理器中應抽象定義各種數據庫(如Oracle、Microsoft SQL Server、MySQL等)的連接方法;應抽象定義各種數據類型(如字段類型、字符集、文件類型等)的轉換處理方法。在數據收發器中,耦合器應抽象定義數據傳輸方法(如將數據通過HTTP、HTTPS、FTP、FTPS方式上傳下載等)。在數據校驗器中,耦合器應抽象定義字段型數據或文件型數據與中間標準庫的校驗方法(如出版日期的年月日是以“/”分隔還是以“-”分隔,傳遞的圖書封面尺寸是否符合要求等)。
耦合器中各種實現特定功能的方法(即功能器具)是經過功能抽象化后的通用方法,只有經過抽象化的通用方法才能適用于各種異型異構系統。如在數據庫操作時,耦合器將數據庫行為抽象為connect、select、insert、update、delete、up、down、import、export、execute等類型,將極大簡化接口開發復雜度,提高接口通用性。
4.共用性原則
為了使出版業通用數據交換系統可以被出版產業鏈條上的所有企業使用,開發人員在架構設計上就必須遵循系統共用性原則。即非個性化的操作和數據,都應使用共用模塊去保障,包括中間標準庫共用、耦合器共用、安全保障系統共用、接入呼叫系統共用等,最終達到收益共用、生態共用的效果。
出版業數據交換通用化架構采用“云平臺+客戶端”的模式,將端交換方案運行、端系統配置等放在客戶端;將復雜的內外網通訊呼叫系統、端交換方案發布系統、中間標準庫、數據分析系統、數據安全系統等放在云端,組成通用數據交換云平臺。這樣既滿足各種系統接入的差異化配置,又保證出版業通用數據交換系統的共用性,避免了眾多出版單位重復建設、重復投入的問題。
例如中間標準庫應整合與出版業相關的60余種出版、發行、信息類標準,如2006年頒布的《圖書流通信息交換規則》(CY/T 39-2006)、2013年頒布的《中國出版物在線信息交換圖書產品信息格式》(GB/T 30330-2013)等標準,將標準中規定的信息交換的內容、類型、格式規范、技術規范等形成中間標準庫,定義在云端,以共享的形式存在,以便各個端交換方案能對照共用。
5.開放性原則
要實現出版業通用數據交換系統的真正通用,應當做到該系統在推廣應用層面的普及。因此,系統在應用層面必須遵循開放性原則,即做到端交換方案制作開放、系統接入開放、中間標準庫開放。
(1)端交換方案制作開放
端交換方案實行“非唯一性”原則,應建立機制鼓勵更多的技術廠商和個人參與端交換方案的制作,這樣才能避免僅靠端系統原開發廠商開發的弊端。如用戶在使用端交換方案的過程中會產生流量,端交換方案可以實行定額流量免費、超額流量收費的方式。若端交換方案制作者能夠得到流量費分成,即技術廠商(或個人)能夠因端交換方案而獲得收益或回報,則可以促進相關人員創作端交換方案的積極性,避免僅靠端系統原開發廠商單打獨斗開發接口的局面,從而構建行業數據交換新的應用生態。在此種生態中,端交換方案也會成為一種“商品”,形成一個數據交換界的淘寶商城,“商品”的制作完全開放,使更多的單位、個人投入到該商品的生產、共享、競爭與消費中。
(2)系統接入開放
出版業通用數據交換系統的安裝下載均應采用免費接入的方式,無論用戶單位是否花錢,都可以自由使(試)用。即出版業通用數據交換系統在推廣應用時,遵循“低門檻”原則,改變出版企業對數據交換費用支出巨大的固有印象,讓想參與數據交換的出版企業盡可能地參與進來。
(3)中間標準庫開放
出版業通用數據交換系統的最大特點就是標準化,其每一個行為或動作都應該嚴格遵循各種國家或行業規范和標準。但一些非官方的標準或規范對出版業數據交換也是必不可少的,如有些用戶現實中有交換需求,但所處環境又無國家、行業標準,或者企業由于自身發展需要自主訂立私有規范等。因此,通用數據交換系統必須面向所有用戶公開,可以由需求方按照中間標準庫的設計規范,自行創作交換規范,形成準中間標準庫,讓出版業通用數據交換系統的使用單位實時地知道數據傳遞、使用應遵循的規范,只有這樣,端交換方案的制作才會有的放矢。中間標準庫的開放,有利于出版業諸多國家標準、行業標準、企業標準的落地應用,同時也能提高出版業對相應標準的應用水平,有利于整個行業的健康發展。
五、結語
“互聯網+”時代,模式的創新能帶來業務的創新和提高,創新的通用數據交換系統能有效地解決現有數據交換模式存在的諸多問題。我們要清醒地認識到,創新的業務模式和技術架構只是解決實際問題的一種途徑,重要的是創新業務模式和技術架構的應用生態。因此,出版業亟須構建一個“邏輯分離,應用貼合,共建共享”的出版業通用數據交換系統應用新生態,該生態的構建必將對出版業的健康發展起到巨大的推動作用。
|參考文獻|
[1]華為公司數據管理部. 華為數據之道[M]. 北京:機械工業出版社,2020.
[2]劉成勇. 樹立數據思維,建設新聞出版大數據體系[J]. 出版參考,2016(7):5-8.
[3]王娟,馮慧超. 國際圖書出版市場現狀及趨勢分析[J]. 今傳媒,2016(9):66-67.
[4]匡文波,童文杰. 論“互聯網+”出版的發展策略[J]. 出版發行研究,2015(6):9-12.