王樞昊,甘霖,蔡超
(海峽出版發行集團有限責任公司 數字出版中心,福建 福州 350001)
隨著出版行業數字化轉型的加速發展,出版社對數字閱讀產品的生產投入逐年加大,加上移動互聯網技術的高速發展和智能移動終端的普及。以二維碼為入口的數字閱讀形態越發常態化,特別是近年來興起的以知識服務為理念的付費閱讀浪潮,讓出版單位更加意識到通過二維碼接入數字閱讀已被現代主流讀者群體所接受和認可。但是在內容生產端,由于出版單位對二維碼及其關聯資源的生產和投放缺乏有效的技術管理,使其在數字閱讀領域的應用存在一些弊端:一是紙質出版物在市場上長時間流通,而出版單位缺乏專業、持續的互聯網內容運營,二維碼失效的問題相當普遍;二是二維碼應用過程中因網絡技術問題導致的內容不安全時有發生,如域名盜用、DNS污染以及服務器攻擊等造成關聯內容被篡改,出現信息偏差,誤導讀者;三是出版單位投放二維碼的行為比較隨意,通常只是解決一時之需,大量存在對已投放的二維碼管理缺失,關聯內容資源存放過于分散,用戶掃碼行為無法跟蹤等情況。因此本文將針對出版資源管理與服務的特點,提出基于二維碼及其活碼的內容安全分發的系統解決方案。
二維碼可以分為堆疊式(行排式)二維條碼和矩陣式二維條碼。堆疊式(行排式)二維條碼形態上是由多行短截的一維條碼堆疊而成;矩陣式二維條碼以矩陣的形式組成,在矩陣相應元素位置上用“點”表示二進制“1”,用“空”表示二進制“0”,“點”和“空”的排列組成代碼。[1]

圖1 常見的二維碼
二維碼中的QR碼,最早是由日本Denso公司于1994年9月研制的一種矩陣二維碼符號,它具有一維條碼所具有的識別功能以及其它二維條碼所具有的信息容量大、可靠性高、可表示漢字及圖象等各種文字信息、保密防偽性強等優點。QR碼的“QR”是Quick Response 的縮寫。這種二維碼能夠快速讀取,與之前的條形碼相比,QR 碼能存儲更豐富的信息,包括對文字、URL 地址和其他類型的數據加密。QR碼具有很高的糾錯能力,所以QR碼圖像采集設備甚至能直接對液晶屏幕上顯示的QR圖像進行掃描、識別。[2]
QR碼呈正方形,只存在黑色和白色兩種模塊。在正方形的4個角存在3個,印有較小的類似“回”字的的圖案,分別位于左上、右上、和左下角,如圖2所示。這 3個圖像的主要功能是為了幫助解碼軟件快速的定位二維碼的圖像區域,使得圖像采集器不需要精確的對準QR碼,無論以任何角度掃描,QR碼仍可正確被讀取識別。
我們目前經常見到的二維碼都是QR碼,因其快速響應的特征已被廣泛使用,尤其是在移動互聯網,二維碼更加被稱之為:新時代的“流量的入口”。所以我們習慣上把QR碼直接稱為二維碼。正因為具有上述的特性,現在二維碼已經被廣泛的應用于包括圖書在內的出版物中,成為實體商品連接網絡空間的橋梁和入口。

圖2 QR碼的組成部分

圖3 QR碼和一維碼的比較
當前隨著互聯網技術的發展以及二維碼識別算法的不斷優化,出版物附帶光盤進行數字內容出版發行的方式已逐步被利用二維碼外鏈數字內容進行出版的模式所替代。將二維碼印刷在書、刊、報紙等出版物上分發出去。現代讀者通過使用微信,QQ,支付寶等高裝機率應用(Apps)的二維碼掃描功能,可以省去在移動設備上輸入URL地址的繁瑣過程,從而降低觀看數字內容的門檻,真正實現的“一鍵觀看”。但是另一方面,出版社編輯缺乏計算機專業知識和技能,將出版物配套的數字內容資源投放到互聯網上,并給予讀者良好的數字閱讀體驗一直是一個難題。雖然市場上不乏有百度云、七牛云等公共云存儲運營商,提供了較為豐富的網絡存儲服務,但是對于一般的出版社編輯來說,仍舊存在不小的技術障礙。同時隨著數字內容資源的不斷增加,出版單位對分散網絡資源的管理問題日益突出,加上出版社編輯普遍缺乏對已投放二維碼和數字資源的管理和運營意識,因此研究和架構業務針對性強的輔助服務系統,為出版單位提供一套管理解決方案就顯得尤為迫切。
鑒于出版行業在數字內容資源投放方面存在的上述問題,結合新聞出版廣電總局對出版業務的有關要求,我們提出了研發一套統一基于二維碼分發的出版資源管理與服務系統。該系統主要面向出版單位編輯人員,為他們提供便捷的數字內容資源二維碼生成及管理解決方案。同時負責內容審核及內容運營的人員可及時對出現問題的二維碼進行處理。該系統按照出版業務特點解決出版物配套數字內容資源的管理問題,簡化了編輯人員的操作復雜度,緩解了出版資源分散存儲的問題,將出版相關的圖、文、影、音、網絡試讀和互動數據進行了有效組織。每項資源均能獨立訪問,并生成訪問二維碼,供出版印刷使用。此外,針對傳統出版物用戶畫像模糊的問題,系統增加了掃碼統計和分析模塊,可以快速獲取讀者的信息,為出版單位的社群運營和內容運營提供精準的數據支撐。
研發系統不僅提供出版資源存儲后生成固定二維碼的功能,還提供根據統一資源定位符(URL)生成“活碼”的特色功能。對于固定二維碼鏈接資源的管理,我們采用賬號實名制,做到“操作有痕,有跡可尋”,即編輯需要實名開通賬號才能使用,有助于出版單位發現問題內容,查清問題根源。對于通過活碼跳轉的內容管理,我們采用網頁抓取,網頁正文提取,關鍵詞提煉及敏感詞掃描等自然語言綜合分析方法,定時掃描“活碼”對應的內容資源。發現不安全的內容時,責任編輯或內容管理員能夠便捷地“切斷”活碼與該內容之間的關聯,以降低影響。
系統數據資源整體邏輯關系與一般的書目管理系統類似,按照圖書分類,書目信息,章節內容,資源信息及輔助功能進行建設,參見圖4系統模塊示意圖。系統業務數據資源與用戶組及權限關聯,即相同角色之間產生的數據互不可見,上一級用戶對下屬用戶的數據可視。出版物分類由系統管理員進行操作,普通編輯沒有修改權限,編輯可以增加、刪除及修改歸屬于本人創建的相關內容,包括書目信息、章節內容、二維碼以及圖文影音等附屬數字資源。

圖4 系統的模塊示意圖
3.3.1 活碼原理
簡單來說,從普通二維碼到活碼,猶如就是古代刻板印刷術到活字印刷術的飛躍。活碼是二維碼的一種高級形態,通過短網址指向保存在云端的信息。活碼可以看成是系統對原資源的一種快捷表達方式。這樣將內容存儲在云端,可以隨時更新、可跟蹤掃描、統計。活碼可以表達圖片、視頻、大量文字內容,同時圖案簡單易掃。缺點是掃描時必須聯網。活碼比普通二維碼更靈活,同一個二維碼圖案可以變更不一樣的內容,從宣傳推廣或者記錄保存的長遠角度看,能適應及時更新的需求。[3]
3.3.2 活碼應用及構建
目前活碼的應用非常廣泛,特別是隨著網絡接入條件地不斷改善,隨時隨地接入網絡已不再困難。在出版行業中,活碼系統不僅適用于需要高可靠外鏈資源的情況,而且能夠彌合出版物與外鏈數字資源生產制作時間不同步的問題。
在研發系統中,活碼管理模塊與其他出版資源管理一致,配合短網址生成算法就可以將內容資源生成“活碼”。

圖5 活碼生成編輯器
3.3.3 “活碼”內容的監控
針對“活碼”內容關聯可變性較大的特性,結合出版業務要求,我們提出了使用網頁(內容)抓取與內容分析以及網頁縮略圖人工抽樣核查的方式,提升外鏈內容的可靠性及可用性。研發系統的內容分析模塊由網頁正文提取、關鍵字提煉和敏感詞掃描3個核心組件構成。具體如下:
1.網頁正文提取中間件能夠實現網頁內容的精確分析,自動分辨出網頁是屬索引頁面還是內容頁面。對于內容頁面,能夠高效剔除HTML標簽和導航、廣告等干擾性文字,返回實際有價值的正文內容。
2.關鍵字提煉應用了基于語義分析統計模型的文章關鍵詞提取中間件,能夠在全面把握文章主題的基礎上,提取若干個代表文章語義內容的詞匯或短語。
3.敏感詞掃描組件,可以設置一組關鍵詞,用于自動識別掃描各類敏感詞的變體,如繁體形式、中間加各類干擾噪音。[4]
基于上述組件,我們利用爬蟲技術獲取活碼關聯網址鏈接的全文內容,根據獲取的內容提煉核心詞匯,并記錄在該活碼的附屬內容中,相當于給該活碼內容打上了標簽。同時獲取的內容全文會通過敏感詞掃描處理,檢視是否存在敏感詞。系統發現涉及不安全內容時會提出預警,并將預警信息推送給具有相應權限的系統管理員和責任編輯,具體監控流程如圖6所示。除上述機器篩查以外,研發系統還具備對活碼映射網址鏈接進行快照的功能,定時將活碼對應的內容網頁快照保存在系統中,供管理人員快速檢視。該系統通過機器篩查和人工核查相結合的方式,大大增強了數字出版內容的可控性,提升了數字內容審校效率。

圖6 系統對活碼監控流程
出版資源管理與服務系統已在多家出版單位上線運行,后續我們計劃將該系統與現行的出版審校內部業務系統進行對接,進一步理順業務關系,優化系統功能,將審校完成的相關資源自動推送至研發系統,同步自動返回二維碼,以減少編輯上稿操作。通過技術改良,一方面可以減輕編輯的工作量,提升用戶操作便捷度,另一方面延伸了出版生產管理,出版內容從源頭到投放全流程均納入管理,進一步提升的內容生產安全。
通過對二維碼及其活碼特點的應用,結合出版單位數字內容資源相關的業務實際需求,我們組織研發了出版資源管理與服務系統,為出版單位二維碼和數字內容資源投放、統一管理提供了技術解決方案。該系統建立了對失效內容快速修復、變更的機制,加強了內容資源投放的安全性,完善了資源訪問的統計與分析,這有利于出版單位建立用戶畫像,提升數字內容運營能力。系統經出版單位試用,并逐步改進,已成為促進出版單位發展新興出版業務的重要支撐。