齊忠文
摘 要 將深度學習等人工智能技術應用于廣播電視節目內容監測中,提出利用人工神經算法解決人臉自動識別問題。探討BP神經網絡主要算法特點,進而給出人臉自動識別流程和方案設計。
關鍵詞 深度學習;人工神經網絡;人臉識別;BP網絡
中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2018)14-0026-02
隨著廣播電視的快速發展,傳統的人工監聽監看方式難以滿足內容監管的需要。一些虛假電視醫療廣告、購物短片極大損害廣播電視作為主流公共媒體的公信力,侵害人民群眾利益。部分違規電視廣告中虛假專家常常以不同身份,在多個購物短片、醫療廣告中扮演不同角色。在電視節目內容監管中,經常需要對上述包含有目標人物的電視節目進行快速分類,準確鑒別。面對海量電視節目,緊靠人工肉眼難以及時準確發現違規節目,因此,我們考慮利用深度學習技術應用在人臉自動識別中,對目標人物人臉進行智能識別,從而提高監測監管自動化程度,迅速發現及時處置違規節目。
1 深度學習技術
深度學習是人工智能研究一個重要的研究部分。它汲取了多個學科的研究成果。包括數學、統計學、信息學、通信原理、計算機基礎理論乃至哲學、心理學等方面的研究支持。換個角度來講,深度學習可以看作利用計算機科技模擬人類學習思考過程,從已知的激勵響應、函數結果中,不斷迭代優化函數模型,進而在提供新變量數據時,系統根據模型判斷出即將產生的激勵結果。近年來,受益于計算機和互聯網等信息技術的發展成就,深度學習在人工智能研究中得到飛速發展。在語音識別、輔助判定方面,研究成果頗豐。在視頻自動識別領域,深度學習也得到了積極應用。同語音智能識別相比,視頻圖像自動識別更加復雜。
2 人工神經網絡基本原理
人工神經網絡技術是采用計算機、網絡等技術模仿生物神經網絡的研究。人工神經網絡具有非線性、非有限性、非穩定狀態和非平衡性等特性。
1)非線性。自然界中大部分系統都是非線性的,我們將人工神經網絡中的神經元設置于開關兩種狀態,進而模擬非線性系統。
2)非有限性。神經網絡系統的響應,不只取決于單個單元,而取決于相互影響的多個單元。
3)非穩定狀態。人工神經網絡判定性能不是一成不變的,而是通過數據迭代,系統性能不斷提升進化完善。
4)非平衡性。通過數據迭代,性能不斷提升過程中,影響系統性能的單元并不均衡。某種狀態下,性能提升往往取決于特定函數的提升過程。
經過測試比較,目前,比較好的算法是基于反向傳播算法。基于反向傳播算法基本原理是通過輸入激勵和系統響應修正的不斷優化,來逐漸提升系統判定能力。分為兩個階段來完成,首先是激勵的正向輸入,然后是不斷逼近測試結果的系統調整。早期反向傳播網絡只有三層,input layer、hidden layer和output layer。受限于當時計算機硬件性能影響,基于反向傳播算法耗時較長,并未得到進一步發展。近年來,隨著信息網絡計算的進一步發展,計算機計算性能大幅提升。并受益于大數據、云計算等信息技術發展。基于反向傳播算法的深度神經網絡分析再次走入人們視野,展示出其應用價值。
人工神經網絡算法最大的優勢是,系統自動提取待檢樣本的特征。我們無需對樣本進行分解處理,這同以往的檢測識別方法相比,不僅節省了時間,簡化了流程,還提高了系統的魯棒性。例如在檢測電視節目中單幀畫面的時候,人工神經網絡系統自動提取畫面像素中的隱含特征。此外,利用人工神經網絡系統,各個人造神經元同時獨立工作,也提高了系統運算效率。
3 電視節目中人臉畫面識別處理
在電視節目人臉畫面中,存在人臉之外的無關信息。這些無關信息會對系統自動識別帶來干擾,增加系統負擔。另外也會導致系統迭代結果達不到優化效果。因此,首先,我們需要將節目畫面中人臉以外的節目信息過濾掉。
1)人臉偵測。人臉偵測的任務是在視頻節目每一幀畫面當中,檢測是否有人臉存在,并去除人臉以外信息,將人臉畫面提取出來。早期人臉偵測主要依靠與模板比對,通過色澤,對比度等信息比較完成。缺點是耗時長,識別率低。利用BP網絡的偵測設計,可以很好解決以上問題。Multi-task convolutional neural networks算法是我國深圳一家研究院提出的人臉偵測算法。一般來講,第一層p-net作用為控制人臉邊緣區域,并對同一人物畫面歸一化。第二層r-net作用為進一步確認人臉位置區域,去除第一層確認的非人臉區域。第三層可以理解為第二層深化,人臉部位區域更加準確。
電視節目中的人臉姿態千變萬化,顏色、大小、方向各不相同,如果不加處理即進行分類訓練,增加了后續分類判定的難度和準確性。因此,需要對不同姿態類別的人臉進行規范化處理,形成規范統一的人臉預處理樣本。目前比較好的歸一化方法一般采用仿射變換,即對電視圖像中的人臉進行平移縮放,規范至畫面中央。
2)人臉特征提取。經過預處理的人臉圖像各種特征在同對應的基礎模型各特征比較后,形成規范化的人臉特征參數,構成規范人臉特征向量,如圖1。利用卷積神經網絡將規范后的人臉特征向量對應至各節點,便于分類。不同類型的預處理過程,得到的特征向量維度并不相同。因此,我們采用將高維度向量降低維度,這樣我們可以在不減少信息熵的基礎上,降低系統設計難度和訓練時間,從而獲得比較好的合成特征向量。在合成特征向量中,會有很多冗余信息,這些信息會增加識別開銷,降低判定效率,在設計中一般采用稀疏特征向量映射方式解決這一問題。
3)人臉樣本數據庫資源。正如前文所述,深度機器學習的技術支撐是海量的數據資源和當前普遍低價高效計算能力(包含云計算支持)。而海量的數據中,必然含有對系統迭代優化零貢獻甚至是負貢獻的無效數據。雖然有一些研究機構提供相對數量的人臉樣本基本數據,但就目前來講,規范化的數據仍然顯得稀少珍貴。為了解決這一問題,部分研究機構開始構建并開放自己的人臉數據資源
庫[1]。VGGface數據庫目前包含260萬張人臉數據樣本。CASIA是國內最大的人臉數據庫,包含近50萬張人臉數據樣本。目前,也有使用計算機爬蟲技術在互聯網上搜索儲存人臉樣本資源的數據庫。相信這些數據在規范化后同樣可以得到廣泛使用。
4 人臉自動識別系統設計
基于電視節目對特定人物人臉識別的需求和深度學習技術特點,我們提出搭建人臉自動識別系統架構。系統應滿足7×24小時穩定運行、可擴展等要求。整個系統分為編目單元、處理單元和業務單元三部分。
1)編目單元。編目單元負責完成電視節目的下載、存儲和編目。首先從各監測系統(有線、無線、衛星等)中把待檢節目下載存儲。對下載后的節目進行初步識別、切段和標記。該單元還負責目標人物特征參數的存儲。
2)處理單元。處理單元是人臉自動識別系統的核心單元。主要負責偵測視頻圖像是否含有人臉信息,并去除人臉以外的干擾信息,對人臉位置進行校正對齊。將歸一化的人臉信息輸入深度學習系統,輸出判定結論。該單元還要完成系統的訓練學習任務,通過一次次數據迭代,完成優化系統功能。
3)業務單元。主要包括系統管理與參數設置,數據維護、監看任務管理。其中任務管理包括建立任務、實時或者下載任務。業務單元中,最重要的是人工審核處理。根據系統規劃,自動識別完成后,需要對比對結果進行復核。
4)業務流程。通過各監測系統,按需求下載待檢測節目錄像。對錄像節目進行預處理。預處理包括統一節目格式、歸一化人臉信息數據等。之后將處理后的人臉數據輸入檢測系統。系統將待檢數據同特征庫中的數據進行比對,檢測結果上報人工席位,最后由人工席位完成數據核準。人工席位不定期更新人臉數據庫,保證數據庫數據完整有效。
5 結論
深度學習技術已經廣泛應用于語音識別、圖像識別等人工智能領域。將深度學習、神經算法等人工智能技術應用于廣播電視節目內容監測的人臉比對等方面,將極大提高業務效率,從而更加準確發現違規節目,維護廣播電視秩序。相信人工智能技術的進一步發展會進一步加快其在廣播電視監測監管領域的成果轉化。
參考文獻
[1]郭麗麗,丁世飛.深度學習研究進展[J].計算化科學,2015,42(5):28-33.