■文/楊建方
淺談基于圖像識別技術的云報紙
■文/楊建方
在信息技術飛速發展的今天,互聯網新媒體作為一種新興傳播方式,如雨后春筍般迅速崛起。互聯網新媒體憑借著多元化、及時性、快速性、互動性、廣泛性等特點,不斷沖擊傳統紙媒的發展。本文主要介紹圖像識別技術如何為傳統紙媒與互聯網新媒體牽線搭橋,使報紙的靜態內容翩舞靈動,使有限的篇幅擴充完善,使偏角的廣告立體呈現,衍生出全新的商業模式。
圖像識別;云報紙;傳統紙媒;融合;應用
在互聯網媒體異軍突起、傳統紙媒飽受沖擊的情況下,我們是否需要摒棄傳統紙媒,轉戰新興媒體呢?答案是否定的。在新媒體時代,各種信息良莠不齊,真假難辨,而紙媒多年發展的職業品性,使其對真實性的堅守近乎苛刻。同時傳統紙媒發展至今,往往具有強大的采編隊伍作為支撐,而新興媒體雖有海量性、廣泛性等特點,但其在原創性、深入報道上較傳統紙媒占劣勢。
綜合傳統紙媒和互聯網媒體的優勢,兩者融合發展迫在眉睫。現今大多數傳統紙媒仍然是將付費閱讀、廣告的模式從紙上搬到網上,為了解決這種純粹的文字數字化現狀,下面來介紹一下兩者深度融合的領路人之一(圖像識別技術)及其融合新事物(云報紙)的概要和應用。
1.1 什么是圖像識別技術
圖像識別技術是指通過圖像掃描、采集平臺獲取圖像信息,對圖像進行預處理,去除無關信息,將原始圖像轉換成適于計算機可處理的圖像特征,最終通過對特征的計算、比較和分析,判斷出圖像的狀態或本質,得到最終的輸出結果。
1.1.1 圖像信息獲取
圖像信息獲取是指通過掃描圖像或捕捉屏幕圖像的方法,將原始圖像用圖像矩陣中的像素點表示,每個像素用紅(R)、綠(G)、藍(B)三基色的8位灰度值(0-255)表示并存儲。其中捕捉屏幕圖像包括鍵盤捕捉、軟件捕捉、視頻捕捉、相機拍攝、攝像機拍攝、網絡下載、制圖工具等。
1.1.2 圖像預處理
圖像預處理主要是為了消除圖像中的無關信息(干擾、噪聲、差異等),將原始圖像轉換成適于計算機處理的圖像特征。總體來講,圖像預處理主要包括圖像的增強和圖像的復原[1]。圖像增強技術是指在圖像處理過程中將人們感興趣的圖像特征有選擇性地突顯出來,并削減或去除無關的信息,它主要包括灰度調整、平滑減噪、圖像銳化等。
1.1.3 圖像特征提取、分析
圖像特征提取旨在對圖像信息進行整理、分析、歸納,提取能準確反映圖像本質的特征值,同時最大限度地簡化數據,最終使這些特征值具備精簡性、完整性、準確性、可測性。1.2 云報紙概述
云報紙是指利用圖像識別技術,讀者通過智能移動終端設備拍攝報紙圖片、版面、標題等信息的方式,打開云端對應的多媒體互動信息。
2.1 融合現狀和缺陷
隨著互聯網的發展,人類在生產生活過程中,除了身臨其境的現實世界以外,還被虛擬世界所包圍,傳統紙媒作為現實世界的成員之一,如何改變兩者之間格格不入的窘境?當下大部分媒體采用版面刊登超鏈接二維碼的方式,有些媒體還采用交互式報紙、采寫個性化報紙等方式,試圖填涂兩者之間浩瀚的鴻溝,然如泥神過江,自身難保。
二維碼不屬于報紙版面內容,也不屬于廣告、新聞圖片范疇,它是強加給報紙的版面“補丁”,它雖然給讀者提供了豐富報紙內容的“傳送門”,卻影響了報紙版面的美觀性和直觀性。
為了解學生對三稿式寫作教學模式的認可度,明確他們的真實意見和態度,筆者使用李克特5級量表設計了調查問卷。問卷分為兩大部分,分別調研學生對句酷批改網作文反饋和三稿式寫作教學模式的態度和看法。調查于第十六周后測結束后的二十分鐘內進行,共收回有效問卷39份。之后筆者依據目的抽樣原則選取6名同學(優秀、中等和較差各兩名)進行了訪談。
交互式報紙以其昂貴的價格、復雜的工藝和未能解決批量生產等原因,使其在融合之路上“未引先迷”。
采寫個性化報紙需要復雜的技術、大量的采編人員,且市場小眾化、印刷復雜化。另外,讀者必須提前預告興趣內容,使讀者和采編人員需要大量的時間開銷。
2.2 融合措施介紹——淺析圖像識別技術在云報紙平臺中的運用
讀者使用智能終端設備(智能手機、PC等)的圖像識別工具,對傳統報紙、數字報紙等的圖片、版面、文字等進行掃描或捕捉,將獲取的區域以圖像形式在終端處理和識別,最終得到訪問云報紙內容的目的。本文以報紙核心內容之一的文字為例,對于圖像識別技術在云報紙中如何穿針引線,發表一下個人對云報紙平臺的淺薄理解,如圖1為云報紙平臺文字識別結構圖。
2.2.1 數據采集/存儲模塊
該模塊完成對圖像的獲取工作,通過對紙質報紙掃描,或通過爬蟲技術,對數字報紙定時采集和存儲,從而獲取研究樣本。存儲中由于有圖像文件需要處理,所以結合使用數據庫和文件系統的形式,采集的圖像直接保存在文件系統里,并利用數據庫存儲圖像的路徑、識別結果等,為生成字典打下基礎。訓練樣本模塊與分類識別模塊描述類似,這里不再展開。

圖1 云報紙平臺文字識別結構圖
2.2.2 圖像預處理模塊
該模塊主要完成對圖像的閾值分割(灰度化、二值化等)、邊緣提取和形態學處理三個環節,然后利用提取出來的邊緣信息計算文字的形狀特征。
Gabor變換屬于加窗傅立葉變換,Gabor函數可以在頻域不同尺度、不同方向上提取相關特征。另外Gabor函數與人眼的生物作用相仿,被廣泛應用于圖像紋理識別上。
該模塊將歸一化后的圖像與Gabor濾波器卷積從而得到Gabor特征。在圖像質量較差的情況下,為了提高平臺的識別率,可引入一種特征加權的技術。此方法根據特征矢量中鄰近分量的離散程度對其本身進行加權,從而使離散程度相對較小的特征分量在分類中的作用得到加強,并且使得離散程度相對較大的特征分量在分類中的作用得到減弱。[2]基本思路是將鄰近的特征抽取子窗口構成一個特征加權組,在這個組內按照相應的規則,進行權值計算,最后將求得的權值作用于該組內的各個特征值。最終將Gabor變換后的結果輸入分類識別模塊。
2.2.4 分類識別模塊
該模塊使用libSVM或Matlab的SVM作為支持向量機的實現,這里以libSVM加以闡述。平臺采用libSVM進行訓練和分類,選取國家一級字庫中的3755個常用漢字,以及二級字庫和部分低頻漢字,對于每個漢字,分別用m種常用字體和n個大小模板參數生成m×n個樣本,采用其中的(m-1)×n個作為訓練樣本,提供給SVM作為學習過程的輸入向量。學習完成后,針對剩下的n個作為測試樣本的圖像進行分類測試,從而實現文字識別。
3.1 云報紙在視頻中的應用——云播
云播主要包括云直播和云點播兩部分,云會議和云教育是目前云播的重要體現形式。
云會議作為目前最先進的通訊技術之一,使用戶擺脫了時間、地域的限制,通過網絡實現實時高清的遠程會議和交流。云報紙作為宣傳系統的重要成員組成,以其廣泛傳播的性質,預報會議開始時間、地點、內容、參會人員等,讀者僅需掃描報紙圖片即可準時進入會議現場,參會人員表達建議、媒體人員采寫稿件、受眾讀者發表評論,如臨其境。3.2云報紙在新聞中的應用——云新聞
云新聞是指基于云計算商業模式應用的新聞網絡平臺服務。在云平臺上,所有的新聞供應商、代理商、策劃服務商、戰略決策、價值管理、戰略投資、制作商、行業協會、管理機構、行業媒體、法律結構等都集中整合成資源池,各個資源相互展示和互動,按需交流,達成意向,達到放大企業的價值成長與基業常青的目的,從而降低成本,提高效率。[3]
3.3 云報紙在社交中的應用——云社交
云社交的引入,報紙版面僅需保留姓名、性別、年齡、工作等基本信息即可,讀者一掃,便在云端展示對應的詳細資料(即時QQ、MSN、微信、手機號碼等),相較于傳統報紙的社交更具及時性、直觀性、便利性、開放性、廣泛性。
3.4 云報紙在營銷策劃中的應用——云營銷
云報紙下的云營銷(以下簡稱云營銷)依靠云端軟件、報紙、移動智能終端等主要媒介,通過網絡把靜態營銷轉換成在智能終端的實時參與。比如促銷單位發放的優惠券刊登于報紙上,用戶掃描后直接進入領取兌換,做到“見報即優惠”。
3.5 云報紙在廣告和消費中的應用——云廣告、云消費
云報紙下的云廣告(以下簡稱云廣告)是基于云計算商業模式下的廣告服務平臺,通過智能終端掃描或捕捉報紙畫面,將靜態廣告以靜態或動態的多樣化形式呈現。
云報紙下的云消費(以下簡稱云消費)突破傳統店鋪面積限制、陳列限制、庫存限制,突破時間與空間限制,突破商品與服務限制,通過智能終端掃描或捕捉報紙畫面,將產品或服務以貨幣形式展示給用戶,用戶通過云支付方式快捷安全地支付。
云廣告、云消費作為云營銷的兩個重要分支,衍生出巨大的商機。
云報紙的運作需要大量的采編人員和新媒體運作人員,大家需要彼此互相支持、通力合作。
圖像識別技術作為當前重要的計算機前沿技術之一,云報紙僅僅是其應用領域的滄海一粟,作為一名報人,更作為一名技術工作者,需要更深入地挖掘探索,將其應用到報業發展的各個領域。在互聯網時代,運用圖像識別技術,使萬物互聯、萬“像”互聯。
[1] 孫鳳杰,崔維新,張晉保,張旭東,肖學東.遠程數字視頻監控與圖像識別技術在電力系統中的應用[J].電網技術,2005,29(5):81-83.
[2] 汪馭超,曹嘉.基于Matlab分析的Gabor濾波技術和SVM在交通標志識別中的應用研究[J]. 公路交通科技(應用技術版),2011(05):265-268.
[3] 萊蕪分類信息.洛陽g3云推廣服務中心 [EB]/[OL]. www. laiwunews.cn/xinxi/22238336.html,2016-07-09.
(作者單位:紹興日報社)
TN911.73
A
1671-0134(2017)04-073-02
10.19483/j.cnki.11-4653/n.2017.04.016