內(nèi)容資源數(shù)據(jù)加工術(shù)語(yǔ)辨析

2020-11-24 08:09:20

科技傳播 2020年20期

關(guān)鍵詞：內(nèi)容

數(shù)字出版經(jīng)歷了20多年的發(fā)展已經(jīng)日漸成熟，各種產(chǎn)品和軟件讓大家感受到了數(shù)字內(nèi)容資源應(yīng)用的便捷和強(qiáng)大，而作為數(shù)字出版基礎(chǔ)的內(nèi)容資源加工也伴隨著一起走過(guò)了一段艱苦的發(fā)展之路。在此期間由于標(biāo)準(zhǔn)和規(guī)范的缺失與信息溝通的不便，造成了不同地域和領(lǐng)域?qū)?shù)據(jù)加工的技術(shù)、文檔規(guī)格和質(zhì)量要求等形成了不同的理解和認(rèn)知[1]。進(jìn)而在溝通時(shí)產(chǎn)生了歧義，對(duì)行業(yè)的發(fā)展起到了一定的負(fù)面影響。

因此，對(duì)內(nèi)容資源數(shù)據(jù)加工領(lǐng)域的重要概念進(jìn)行分析和溯源是非常必要的，本文意在通過(guò)對(duì)一些關(guān)鍵概念的解讀和辨析來(lái)推動(dòng)對(duì)概念、術(shù)語(yǔ)的統(tǒng)一認(rèn)知。

1 關(guān)于數(shù)據(jù)加工

數(shù)據(jù)加工是一個(gè)廣泛的概念，所有對(duì)不同形態(tài)、類型和載體的數(shù)據(jù)的處理過(guò)程都可以稱之為數(shù)據(jù)加工。具體到數(shù)字出版領(lǐng)域，主要針對(duì)圖書(shū)、報(bào)紙、期刊、古籍、音視頻等形式的內(nèi)容資源，通過(guò)專業(yè)化的解決方案，加工成文本文檔、音視頻文檔和專業(yè)內(nèi)容文檔格式等多種可編輯電子文件格式的過(guò)程。一般通常細(xì)分為數(shù)字化加工、結(jié)構(gòu)化加工和知識(shí)化加工。

1.1 數(shù)字化加工

顧名思義，數(shù)字化加工指的是從非數(shù)字形態(tài)到數(shù)字形態(tài)的加工過(guò)程。通常的非數(shù)字形態(tài)包括紙質(zhì)、照片、模擬信號(hào)磁帶和錄像帶等，將這些資源通過(guò)“光—電”和“磁—電”等技術(shù)手段轉(zhuǎn)換成為二進(jìn)制的數(shù)字信號(hào)并存儲(chǔ)起來(lái)，以便后續(xù)的加工和利用。對(duì)于紙質(zhì)資源通常采用掃描儀等設(shè)備先轉(zhuǎn)換為數(shù)字圖像，再經(jīng)過(guò)OCR軟件將其中的文字轉(zhuǎn)換為數(shù)字編碼；對(duì)于磁帶和錄像帶等資源往往采用專用的“模-數(shù)”轉(zhuǎn)換設(shè)備將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)，再根據(jù)需要轉(zhuǎn)成特定的編碼數(shù)據(jù)。數(shù)字化加工是數(shù)據(jù)加工的基礎(chǔ)環(huán)節(jié)，為后續(xù)深加工提供了數(shù)據(jù)基礎(chǔ)，同時(shí)其成品數(shù)據(jù)也可以作為低端數(shù)字內(nèi)容產(chǎn)品使用[2]。

在日常的交流中大家往往把“數(shù)據(jù)加工”和“數(shù)據(jù)化加工”混淆使用。雖不至于造成太大的困擾，但在不明確加工要求的時(shí)候也容易產(chǎn)生先入為主的歧義。

1.2 結(jié)構(gòu)化加工

“結(jié)構(gòu)化加工”的概念相對(duì)“數(shù)字化加工”使用的較少，以至于有些人不是特別清楚其中的含義。結(jié)構(gòu)化加工是在數(shù)字內(nèi)容基礎(chǔ)之上進(jìn)行的加工，是通過(guò)技術(shù)手段揭示和描述內(nèi)容資源的體例結(jié)構(gòu)和屬性的處理過(guò)程。對(duì)于圖書(shū)、期刊等的結(jié)構(gòu)化加工就是拆分篇章節(jié)；對(duì)于音視頻則可拆分到語(yǔ)句或鏡頭。加工時(shí)還要根據(jù)需要提取不同層級(jí)的屬性元數(shù)據(jù)。結(jié)構(gòu)化加工揭示了內(nèi)容的結(jié)構(gòu)和組織方式，成果物通常使用XML語(yǔ)言來(lái)描述。成品數(shù)據(jù)可以支持多種數(shù)字內(nèi)容產(chǎn)品的應(yīng)用，同時(shí)也可用于知識(shí)體系建設(shè)和知識(shí)服務(wù)，或者作為人工智能探索和應(yīng)用的高級(jí)素材[3]。

在實(shí)際工作中往往有人用數(shù)字化加工一詞代替結(jié)構(gòu)化加工，或者不分場(chǎng)景的混用數(shù)字化加工和結(jié)構(gòu)化加工，這樣很容易產(chǎn)生歧義和誤解。

1.3 碎片化加工[4]

結(jié)構(gòu)化加工的概念提出時(shí)期，行業(yè)中還流行著另一個(gè)概念“碎片化加工”，而且至今還有一定范圍的使用。從字面上看碎片化加工是將內(nèi)容進(jìn)行細(xì)粒度的拆分，和結(jié)構(gòu)化加工有些相似之處，都是對(duì)內(nèi)容的分析和拆解。但碎片化加工只強(qiáng)調(diào)了內(nèi)容的細(xì)化拆解，而結(jié)構(gòu)化加工強(qiáng)調(diào)的是梳理內(nèi)容的體例結(jié)構(gòu)和層級(jí)。碎片化的概念只描述了細(xì)化加工的粒度，割裂了內(nèi)容的結(jié)構(gòu)；而結(jié)構(gòu)化在描述體例結(jié)構(gòu)的同時(shí)可以實(shí)現(xiàn)內(nèi)容細(xì)粒度的應(yīng)用。所以碎片化加工的說(shuō)法有些片面，不能完整表達(dá)結(jié)構(gòu)化所具有的含義，況且行業(yè)內(nèi)似乎也沒(méi)有只做內(nèi)容拆分不做結(jié)構(gòu)描述的加工要求。

1.4 轉(zhuǎn)碼

轉(zhuǎn)碼的概念出現(xiàn)在電子書(shū)日漸盛行的時(shí)期，其大意是指從各種紙書(shū)、排版文件或圖像PDF文件經(jīng)過(guò)處理后生成Epub、Mobi（亞馬遜的早期格式）或矢量PDF的加工過(guò)程[5]。轉(zhuǎn)碼這個(gè)概念在互聯(lián)網(wǎng)內(nèi)容運(yùn)營(yíng)商中較為普遍，但第一次接觸的人卻很難從字面中理解其含義。隨著結(jié)構(gòu)化等概念的逐漸流傳，轉(zhuǎn)碼這個(gè)術(shù)語(yǔ)使用的范圍也慢慢變小。在實(shí)際工作中，轉(zhuǎn)碼可以改用更直接的說(shuō)法來(lái)特指某類成品數(shù)據(jù)的加工，例如：Mobi加工、Epub加工或者PDF加工等。這樣可以清晰準(zhǔn)確地說(shuō)明加工需求。

1.5 知識(shí)化加工[6]

知識(shí)化加工是近兩三年才逐漸明確含義的一條術(shù)語(yǔ)。隨著知識(shí)服務(wù)和知識(shí)體系建設(shè)等數(shù)字出版方向的不斷興起，如何應(yīng)用知識(shí)體系成為數(shù)字出版人面臨的難題。近幾年摸索出了內(nèi)容資源與知識(shí)體系建立關(guān)聯(lián)關(guān)系的應(yīng)用方式，而這種將知識(shí)體系與內(nèi)容資源進(jìn)行關(guān)聯(lián)的加工方式稱之為知識(shí)化加工。知識(shí)化加工不僅盤活了內(nèi)容資源，實(shí)現(xiàn)內(nèi)容重組和聚類；也讓知識(shí)體系得到了內(nèi)容資源的支撐，提高了知識(shí)體系的應(yīng)用價(jià)值[7]。

2 關(guān)于版式與流式

數(shù)據(jù)加工的成品數(shù)據(jù)包括很多類型，以適用于不同的產(chǎn)品和應(yīng)用環(huán)境。對(duì)于書(shū)報(bào)刊等圖文類內(nèi)容資源，主要的包括版式文件和流式文件兩類數(shù)據(jù)。

2.1 版式文件

版式文件指的是在版面中，文字、圖片等內(nèi)容對(duì)象在版面中的位置相對(duì)于版面坐標(biāo)原點(diǎn)（通常是版面的左上角）是固定的，不因版面大小、長(zhǎng)寬比的變化或用戶的操作而發(fā)生位移。版式文件的呈現(xiàn)效果和紙質(zhì)資源是一致的，這樣可以確保版面位置及布局所要表達(dá)的信息可以準(zhǔn)確的傳遞給閱讀者。常見(jiàn)的版式文件類型包括：PDF文件、InDesign文件、CEB文件、OFD文件[8]、方正排版文件等。

版式文件比較適合于科技類、兒童、生活類圖書(shū)和期刊，可以讓版面信息豐富、活潑。但版式文件也有使用不便的時(shí)候。當(dāng)版面較大而屏幕較小時(shí)，版式文件的呈現(xiàn)就必須選擇呈現(xiàn)局部版面或者壓縮版面呈現(xiàn)，不論哪種方式都會(huì)造成閱讀上的不適。

2.2 流式文件[9]

版式文件在應(yīng)用上的限制引出了流式文件。與版式文件不同，流式文件中內(nèi)容的位置不是固定的，而是可以根據(jù)版面大小和長(zhǎng)寬比的變化而調(diào)整充滿整個(gè)版面的。這一調(diào)整的過(guò)程稱之為“版面重排”。支持版面重排的流式文件可以提供更多版式文件不具備的功能，例如字體大小調(diào)整、版面背景調(diào)整等。常見(jiàn)的流式文件類型包括：Epub、Mobi、TXT等。（Epub文件中有一種特殊的子類“Fix-Epub”是版式文件，是通過(guò)技術(shù)手段將版面固定下來(lái)的Epub文檔。）

流式文件比較適合小屏幕閱讀器或閱讀軟件使用。經(jīng)過(guò)重排的圖文內(nèi)容可以自動(dòng)適應(yīng)版面的尺寸，提供最佳的呈現(xiàn)效果。

2.3 半流式文件

半流式文件是介于版式文件和流式文件之間的文檔類型。其特點(diǎn)是文檔的整體表現(xiàn)出流式文檔的特點(diǎn)，而內(nèi)容的局部卻表現(xiàn)出版式文檔的特點(diǎn)。具體來(lái)說(shuō)就是文檔整體是流式存儲(chǔ)，除文字外的其他內(nèi)容對(duì)象卻保持其相對(duì)位置關(guān)系不變，呈現(xiàn)效果與版式文件非常接近。半流式文件在字體、字號(hào)和版面大小變化時(shí)也可以進(jìn)行“版面重排”，但不會(huì)像流式文件那樣徹底的重排，還會(huì)具有版式文件的版面布局特點(diǎn)。

半流式文件的常見(jiàn)類型是MicrosoftWord文件。其版式的特點(diǎn)讓W(xué)ord文件既適合做紙書(shū)排版又適合做網(wǎng)絡(luò)發(fā)布，在小屏幕上閱讀時(shí)也有不錯(cuò)的表現(xiàn)。

3 關(guān)于PDF

PDF文件（全稱Portable Document Format，是Adobe公司開(kāi)發(fā)的電子文件格式）作為版式文件中最重要的文檔類型，是數(shù)據(jù)加工業(yè)務(wù)的一種重要成品數(shù)據(jù)類型。但由于PDF構(gòu)成的復(fù)雜性和靈活性造成大家對(duì)PDF只關(guān)注其呈現(xiàn)效果而不重視其生成方式，使得對(duì)PDF的認(rèn)知和理解有較大的差異性。

PDF是一種對(duì)象堆砌型的文檔結(jié)構(gòu)。直觀的講就是把版面看成一塊畫布，將內(nèi)容對(duì)象放置到畫布上形成版面效果。內(nèi)容對(duì)象可以疊加放置也可以錯(cuò)開(kāi)放置，上面的對(duì)象會(huì)影響下面對(duì)象的呈現(xiàn)和選?。ㄒ?jiàn)圖1）。PDF文檔的這種結(jié)構(gòu)特點(diǎn)使得同一種版式效果可以用多種方式來(lái)實(shí)現(xiàn)和展示。

圖1 PDF文檔結(jié)構(gòu)示意圖

3.1 矢量PDF

矢量PDF指的是PDF文檔中的字符都是以編碼的方式存儲(chǔ)和顯示的，并且字符的字形數(shù)據(jù)已經(jīng)嵌入到PDF中。這種PDF的優(yōu)點(diǎn)是可以拷貝和檢索、顯示美觀、文件尺寸較小。矢量PDF中的插圖和線條等內(nèi)容對(duì)象如果和字符發(fā)生重疊，一般情況會(huì)放在字符的下方。例如文字下面的底圖等。

矢量PDF是版式文件中應(yīng)用最廣的一種格式，也是數(shù)據(jù)加工領(lǐng)域輸出最常見(jiàn)的版式文件。規(guī)范的PDF文件在應(yīng)用和后期加工處理的質(zhì)量控制上起到重要的基礎(chǔ)性作用。

3.2 亂碼PDF

亂碼PDF也是矢量PDF的一種，它與規(guī)范的矢量PDF的差別就在于編碼的正確性上。矢量PDF中的字符都是以正確編碼方式存儲(chǔ)的，但有一種特殊情況是編碼可能是錯(cuò)誤的。不論是人為的原因還是系統(tǒng)的原因使得部分或者全部字符的編碼是錯(cuò)誤的，無(wú)法檢索和正?？截?，這種PDF稱之為亂碼PDF。亂碼PDF可以在某種程度上防止文檔內(nèi)容的丟失，但也給應(yīng)用和后續(xù)加工帶來(lái)不少的麻煩和困難。

3.3 轉(zhuǎn)曲PDF

轉(zhuǎn)曲PDF也是矢量PDF的一種，它的特點(diǎn)是文檔中的字符不是以編碼的方式存儲(chǔ)的，而是直接存儲(chǔ)的是字形數(shù)據(jù)，換言之就是PDF文檔中沒(méi)有編碼。這樣的PDF在顯示上和規(guī)范的矢量PDF沒(méi)有什么區(qū)別，但是無(wú)法檢索和拷貝。轉(zhuǎn)曲PDF由于無(wú)法對(duì)內(nèi)容進(jìn)行修改，并且其中的所有字符和圖像的形狀和位置都是固定的，所以特別適合作為出版物終稿的載體，或者在CTP印刷、POD印刷和桌面印刷上應(yīng)用。

3.4 圖像PDF

在數(shù)據(jù)處理行業(yè)，圖像PDF一般指的是整個(gè)版面以圖片的形式作為PDF一頁(yè)的PDF文件。通常情況下PDF的每一頁(yè)只有一張整版圖，沒(méi)有其他的字符和線條。圖像PDF的制作通常也是將紙質(zhì)文檔經(jīng)掃描后打包在一起生成PDF文件。圖像PDF文件和掃描圖像在應(yīng)用上沒(méi)有太大的區(qū)別，內(nèi)容無(wú)法檢索和拷貝。同時(shí)文檔所占的空間也較大，不利于存儲(chǔ)和傳輸。

圖像PDF是數(shù)據(jù)加工領(lǐng)域中較初級(jí)的加工成果物，如果后續(xù)要提供更好的產(chǎn)品功能則需要對(duì)圖像PDF進(jìn)行二次加工，生成雙層PDF或者矢量PDF。

3.5 雙層PDF

雙層PDF通常被視為是圖像PDF的二次加工成果。所謂的雙層指的是在原有圖像PDF的圖像層上面再疊加一層文字層，并把文字層的屬性置為透明，這樣在應(yīng)用時(shí)就可以檢索和拷貝了，同時(shí)不影響對(duì)圖像層的閱讀。文字層可以通過(guò)OCR加工得到的，在加工中要求字符與圖像相應(yīng)的對(duì)位要精準(zhǔn)，不能偏差太大。用戶實(shí)際看到的圖像層，而選擇和拷貝的則是文字層。這樣既能保證原版面的精準(zhǔn)呈現(xiàn)，又能滿足檢索和拷貝的功能需求。

雙層PDF往往用在既注重版面樣式又希望實(shí)現(xiàn)檢索和拷貝功能的存量?jī)?nèi)容資源。

4 結(jié)束語(yǔ)

通過(guò)上述數(shù)據(jù)加工方面的術(shù)語(yǔ)辨析，可以看出不同概念的混淆確實(shí)會(huì)影響加工需求和成品數(shù)據(jù)規(guī)格，產(chǎn)生溝通上的歧義。希望大家都能通過(guò)理解術(shù)語(yǔ)的準(zhǔn)確含義，盡量使用規(guī)范的概念稱謂，推動(dòng)數(shù)據(jù)加工領(lǐng)域術(shù)語(yǔ)標(biāo)準(zhǔn)化的進(jìn)程。