數字出版經歷了20多年的發展已經日漸成熟,各種產品和軟件讓大家感受到了數字內容資源應用的便捷和強大,而作為數字出版基礎的內容資源加工也伴隨著一起走過了一段艱苦的發展之路。在此期間由于標準和規范的缺失與信息溝通的不便,造成了不同地域和領域對數據加工的技術、文檔規格和質量要求等形成了不同的理解和認知[1]。進而在溝通時產生了歧義,對行業的發展起到了一定的負面影響。
因此,對內容資源數據加工領域的重要概念進行分析和溯源是非常必要的,本文意在通過對一些關鍵概念的解讀和辨析來推動對概念、術語的統一認知。
數據加工是一個廣泛的概念,所有對不同形態、類型和載體的數據的處理過程都可以稱之為數據加工。具體到數字出版領域,主要針對圖書、報紙、期刊、古籍、音視頻等形式的內容資源,通過專業化的解決方案,加工成文本文檔、音視頻文檔和專業內容文檔格式等多種可編輯電子文件格式的過程。一般通常細分為數字化加工、結構化加工和知識化加工。
顧名思義,數字化加工指的是從非數字形態到數字形態的加工過程。通常的非數字形態包括紙質、照片、模擬信號磁帶和錄像帶等,將這些資源通過“光—電”和“磁—電”等技術手段轉換成為二進制的數字信號并存儲起來,以便后續的加工和利用。對于紙質資源通常采用掃描儀等設備先轉換為數字圖像,再經過OCR軟件將其中的文字轉換為數字編碼;對于磁帶和錄像帶等資源往往采用專用的“模-數”轉換設備將模擬信號轉換為數字信號,再根據需要轉成特定的編碼數據。數字化加工是數據加工的基礎環節,為后續深加工提供了數據基礎,同時其成品數據也可以作為低端數字內容產品使用[2]。
在日常的交流中大家往往把“數據加工”和“數據化加工”混淆使用。雖不至于造成太大的困擾,但在不明確加工要求的時候也容易產生先入為主的歧義。
“結構化加工”的概念相對“數字化加工”使用的較少,以至于有些人不是特別清楚其中的含義。結構化加工是在數字內容基礎之上進行的加工,是通過技術手段揭示和描述內容資源的體例結構和屬性的處理過程。對于圖書、期刊等的結構化加工就是拆分篇章節;對于音視頻則可拆分到語句或鏡頭。加工時還要根據需要提取不同層級的屬性元數據。結構化加工揭示了內容的結構和組織方式,成果物通常使用XML語言來描述。成品數據可以支持多種數字內容產品的應用,同時也可用于知識體系建設和知識服務,或者作為人工智能探索和應用的高級素材[3]。
在實際工作中往往有人用數字化加工一詞代替結構化加工,或者不分場景的混用數字化加工和結構化加工,這樣很容易產生歧義和誤解。
結構化加工的概念提出時期,行業中還流行著另一個概念“碎片化加工”,而且至今還有一定范圍的使用。從字面上看碎片化加工是將內容進行細粒度的拆分,和結構化加工有些相似之處,都是對內容的分析和拆解。但碎片化加工只強調了內容的細化拆解,而結構化加工強調的是梳理內容的體例結構和層級。碎片化的概念只描述了細化加工的粒度,割裂了內容的結構;而結構化在描述體例結構的同時可以實現內容細粒度的應用。所以碎片化加工的說法有些片面,不能完整表達結構化所具有的含義,況且行業內似乎也沒有只做內容拆分不做結構描述的加工要求。
轉碼的概念出現在電子書日漸盛行的時期,其大意是指從各種紙書、排版文件或圖像PDF文件經過處理后生成Epub、Mobi(亞馬遜的早期格式)或矢量PDF的加工過程[5]。轉碼這個概念在互聯網內容運營商中較為普遍,但第一次接觸的人卻很難從字面中理解其含義。隨著結構化等概念的逐漸流傳,轉碼這個術語使用的范圍也慢慢變小。在實際工作中,轉碼可以改用更直接的說法來特指某類成品數據的加工,例如:Mobi加工、Epub加工或者PDF加工等。這樣可以清晰準確地說明加工需求。
知識化加工是近兩三年才逐漸明確含義的一條術語。隨著知識服務和知識體系建設等數字出版方向的不斷興起,如何應用知識體系成為數字出版人面臨的難題。近幾年摸索出了內容資源與知識體系建立關聯關系的應用方式,而這種將知識體系與內容資源進行關聯的加工方式稱之為知識化加工。知識化加工不僅盤活了內容資源,實現內容重組和聚類;也讓知識體系得到了內容資源的支撐,提高了知識體系的應用價值[7]。
數據加工的成品數據包括很多類型,以適用于不同的產品和應用環境。對于書報刊等圖文類內容資源,主要的包括版式文件和流式文件兩類數據。
版式文件指的是在版面中,文字、圖片等內容對象在版面中的位置相對于版面坐標原點(通常是版面的左上角)是固定的,不因版面大小、長寬比的變化或用戶的操作而發生位移。版式文件的呈現效果和紙質資源是一致的,這樣可以確保版面位置及布局所要表達的信息可以準確的傳遞給閱讀者。常見的版式文件類型包括:PDF文件、InDesign文件、CEB文件、OFD文件[8]、方正排版文件等。
版式文件比較適合于科技類、兒童、生活類圖書和期刊,可以讓版面信息豐富、活潑。但版式文件也有使用不便的時候。當版面較大而屏幕較小時,版式文件的呈現就必須選擇呈現局部版面或者壓縮版面呈現,不論哪種方式都會造成閱讀上的不適。
版式文件在應用上的限制引出了流式文件。與版式文件不同,流式文件中內容的位置不是固定的,而是可以根據版面大小和長寬比的變化而調整充滿整個版面的。這一調整的過程稱之為“版面重排”。支持版面重排的流式文件可以提供更多版式文件不具備的功能,例如字體大小調整、版面背景調整等。常見的流式文件類型包括:Epub、Mobi、TXT等。(Epub文件中有一種特殊的子類“Fix-Epub”是版式文件,是通過技術手段將版面固定下來的Epub文檔。)
流式文件比較適合小屏幕閱讀器或閱讀軟件使用。經過重排的圖文內容可以自動適應版面的尺寸,提供最佳的呈現效果。
半流式文件是介于版式文件和流式文件之間的文檔類型。其特點是文檔的整體表現出流式文檔的特點,而內容的局部卻表現出版式文檔的特點。具體來說就是文檔整體是流式存儲,除文字外的其他內容對象卻保持其相對位置關系不變,呈現效果與版式文件非常接近。半流式文件在字體、字號和版面大小變化時也可以進行“版面重排”,但不會像流式文件那樣徹底的重排,還會具有版式文件的版面布局特點。
半流式文件的常見類型是MicrosoftWord文件。其版式的特點讓Word文件既適合做紙書排版又適合做網絡發布,在小屏幕上閱讀時也有不錯的表現。
PDF文件(全稱Portable Document Format,是Adobe公司開發的電子文件格式)作為版式文件中最重要的文檔類型,是數據加工業務的一種重要成品數據類型。但由于PDF構成的復雜性和靈活性造成大家對PDF只關注其呈現效果而不重視其生成方式,使得對PDF的認知和理解有較大的差異性。
PDF是一種對象堆砌型的文檔結構。直觀的講就是把版面看成一塊畫布,將內容對象放置到畫布上形成版面效果。內容對象可以疊加放置也可以錯開放置,上面的對象會影響下面對象的呈現和選取(見圖1)。PDF文檔的這種結構特點使得同一種版式效果可以用多種方式來實現和展示。

圖1 PDF文檔結構示意圖
矢量PDF指的是PDF文檔中的字符都是以編碼的方式存儲和顯示的,并且字符的字形數據已經嵌入到PDF中。這種PDF的優點是可以拷貝和檢索、顯示美觀、文件尺寸較小。矢量PDF中的插圖和線條等內容對象如果和字符發生重疊,一般情況會放在字符的下方。例如文字下面的底圖等。
矢量PDF是版式文件中應用最廣的一種格式,也是數據加工領域輸出最常見的版式文件。規范的PDF文件在應用和后期加工處理的質量控制上起到重要的基礎性作用。
亂碼PDF也是矢量PDF的一種,它與規范的矢量PDF的差別就在于編碼的正確性上。矢量PDF中的字符都是以正確編碼方式存儲的,但有一種特殊情況是編碼可能是錯誤的。不論是人為的原因還是系統的原因使得部分或者全部字符的編碼是錯誤的,無法檢索和正常拷貝,這種PDF稱之為亂碼PDF。亂碼PDF可以在某種程度上防止文檔內容的丟失,但也給應用和后續加工帶來不少的麻煩和困難。
轉曲PDF也是矢量PDF的一種,它的特點是文檔中的字符不是以編碼的方式存儲的,而是直接存儲的是字形數據,換言之就是PDF文檔中沒有編碼。這樣的PDF在顯示上和規范的矢量PDF沒有什么區別,但是無法檢索和拷貝。轉曲PDF由于無法對內容進行修改,并且其中的所有字符和圖像的形狀和位置都是固定的,所以特別適合作為出版物終稿的載體,或者在CTP印刷、POD印刷和桌面印刷上應用。
在數據處理行業,圖像PDF一般指的是整個版面以圖片的形式作為PDF一頁的PDF文件。通常情況下PDF的每一頁只有一張整版圖,沒有其他的字符和線條。圖像PDF的制作通常也是將紙質文檔經掃描后打包在一起生成PDF文件。圖像PDF文件和掃描圖像在應用上沒有太大的區別,內容無法檢索和拷貝。同時文檔所占的空間也較大,不利于存儲和傳輸。
圖像PDF是數據加工領域中較初級的加工成果物,如果后續要提供更好的產品功能則需要對圖像PDF進行二次加工,生成雙層PDF或者矢量PDF。
雙層PDF通常被視為是圖像PDF的二次加工成果。所謂的雙層指的是在原有圖像PDF的圖像層上面再疊加一層文字層,并把文字層的屬性置為透明,這樣在應用時就可以檢索和拷貝了,同時不影響對圖像層的閱讀。文字層可以通過OCR加工得到的,在加工中要求字符與圖像相應的對位要精準,不能偏差太大。用戶實際看到的圖像層,而選擇和拷貝的則是文字層。這樣既能保證原版面的精準呈現,又能滿足檢索和拷貝的功能需求。
雙層PDF往往用在既注重版面樣式又希望實現檢索和拷貝功能的存量內容資源。
通過上述數據加工方面的術語辨析,可以看出不同概念的混淆確實會影響加工需求和成品數據規格,產生溝通上的歧義。希望大家都能通過理解術語的準確含義,盡量使用規范的概念稱謂,推動數據加工領域術語標準化的進程。