吳錦晶



摘要:本系統(tǒng)針對(duì)網(wǎng)絡(luò)上大量的多媒體數(shù)據(jù)中敏感圖像、音視頻廣泛傳播的現(xiàn)狀,融合計(jì)算機(jī)視覺,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)對(duì)多媒體數(shù)據(jù)內(nèi)容進(jìn)行分析,旨在研發(fā)面向網(wǎng)絡(luò)空間的多媒體檢測(cè)分析技術(shù),對(duì)互聯(lián)網(wǎng)中圖像、音視頻等多媒體內(nèi)容進(jìn)行偵查和檢測(cè),為網(wǎng)絡(luò)有害內(nèi)容的發(fā)現(xiàn)與監(jiān)管提供關(guān)鍵技術(shù)支撐。系統(tǒng)重點(diǎn)是研究敏感圖像、音視頻檢測(cè)與檢索的關(guān)鍵技術(shù),并基于上述關(guān)鍵技術(shù)來研究敏感信息監(jiān)管方法,通過多種技術(shù)手段對(duì)網(wǎng)絡(luò)上傳播的有害內(nèi)容進(jìn)行識(shí)別和分析,為維護(hù)國家安全和穩(wěn)定提供技術(shù)保障。
關(guān)鍵詞:敏感;多媒體;計(jì)算機(jī)視覺;機(jī)器學(xué)習(xí)
中圖分類號(hào):TP311 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)14-0189-02
1 背景
隨著多媒體和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,人們?cè)絹碓蕉嘁揽烤W(wǎng)絡(luò)來獲取和發(fā)布信息,互聯(lián)網(wǎng)中存儲(chǔ)和傳播的信息對(duì)于大眾輿論的形成和傳播有巨大的影響,其中也隱藏著巨大的安全威脅。許多不法分子利用網(wǎng)絡(luò)自由交互的特點(diǎn),在網(wǎng)絡(luò)上散布各種有損社會(huì)和諧的言論,即所謂的敏感信息,這些信息一旦擴(kuò)散開來,往往會(huì)造成極其惡劣的影響,進(jìn)而帶來巨大的輿論壓力,并造成相當(dāng)?shù)慕?jīng)濟(jì)損失 [1]。因此,如何凈化網(wǎng)絡(luò)環(huán)境,及時(shí)、準(zhǔn)確對(duì)網(wǎng)絡(luò)敏感信息進(jìn)行識(shí)別成為相關(guān)部門急需解決的問題。本文提出一種網(wǎng)絡(luò)多媒體分析系統(tǒng),重點(diǎn)研究敏感圖像、音視頻檢測(cè)與檢索的關(guān)鍵技術(shù),研發(fā)面向網(wǎng)絡(luò)空間的多媒體檢測(cè)分析技術(shù),為網(wǎng)絡(luò)有害內(nèi)容的發(fā)現(xiàn)與監(jiān)管提供關(guān)鍵技術(shù)支撐。
2網(wǎng)絡(luò)多媒體分析系統(tǒng)
網(wǎng)絡(luò)多媒體分析系統(tǒng)主要包括:語種識(shí)別、音頻比對(duì)、聲紋識(shí)別、特定標(biāo)識(shí)檢測(cè)。
(1)語種識(shí)別:針對(duì)互聯(lián)網(wǎng)場(chǎng)景類型,定制研發(fā)語種識(shí)別系統(tǒng),對(duì)互聯(lián)網(wǎng)音視頻資料中的語音數(shù)據(jù)進(jìn)行分析處理,識(shí)別判斷其所屬語種,并支持按照業(yè)務(wù)需求拓展語種識(shí)別范圍。
(2) 音頻比對(duì):針對(duì)海量網(wǎng)絡(luò)數(shù)據(jù)傳播損耗和轉(zhuǎn)換等特點(diǎn),采用快速、高比對(duì)容錯(cuò)特性的音頻比對(duì)算法,在音視頻集合中,將與樣本內(nèi)容片段相同的部分提取出來。
(3) 聲紋識(shí)別:在海量語音中,提取不同說話人語音形成固有聲紋特征,最終識(shí)別分析出說話人的身份信息。
(4)特定標(biāo)識(shí)檢測(cè):基于深度學(xué)習(xí)的特定標(biāo)識(shí)檢測(cè)模型,實(shí)現(xiàn)包含特定目標(biāo)的敏感圖像檢測(cè)。
3系統(tǒng)的分析與設(shè)計(jì)
3.1語種識(shí)別
語種識(shí)別主要是利用計(jì)算機(jī)對(duì)語音數(shù)據(jù)進(jìn)行分析處理,并自動(dòng)識(shí)別判斷其所屬語種類型的過程。近年來隨著全球化的趨勢(shì)不斷增長,語種識(shí)別的重要性也逐漸顯現(xiàn)出來。語種識(shí)別可以用于跨語種語音識(shí)別系統(tǒng)、語音翻譯機(jī)、呼叫中心、語音文檔檢索等系統(tǒng)中[2]。
本系統(tǒng)針對(duì)實(shí)際應(yīng)用中的互聯(lián)網(wǎng)場(chǎng)景類型,主要實(shí)現(xiàn)對(duì)于語音中中文普通話語種的識(shí)別,并支持按照業(yè)務(wù)需求拓展語種識(shí)別范圍。由于系統(tǒng)中語種識(shí)別技術(shù)作為語音分類和連續(xù)語音識(shí)別、關(guān)鍵詞識(shí)別的前端模塊,并面臨海量復(fù)雜環(huán)境下的數(shù)據(jù)識(shí)別處理需求,該任務(wù)的準(zhǔn)確率和處理速度是本系統(tǒng)重點(diǎn)關(guān)注內(nèi)容。
(1)傳統(tǒng)GMM技術(shù)路線的語種識(shí)別性能已基本滿足常規(guī)語種識(shí)別任務(wù),而本系統(tǒng)針對(duì)網(wǎng)絡(luò)中音視頻數(shù)據(jù)的信道和背景環(huán)境復(fù)雜的情況,采用一種基于噪聲魯棒性的PNCC特征的語種識(shí)別系統(tǒng);并采用MMI準(zhǔn)則對(duì)各語種的GMM模型進(jìn)行區(qū)分性訓(xùn)練,同時(shí)采用SVM建模,避免經(jīng)典學(xué)習(xí)方法中過學(xué)習(xí)、維數(shù)災(zāi)難、局部極小等傳統(tǒng)分類問題,有效提升語種識(shí)別模型的噪聲魯棒性和模型區(qū)分能力。
(2)在保證系統(tǒng)模型識(shí)別效果的同時(shí),為確保系統(tǒng)效率滿足海量數(shù)據(jù)處理的應(yīng)用要求,本系統(tǒng)主要采用高斯聚類策略,在不降低聲學(xué)模型維度的基礎(chǔ)上,有效降低待運(yùn)算的高斯數(shù),從而降低運(yùn)算;并采用靈活的跳幀策略,在充分保證數(shù)據(jù)量以及效果的前提下,減少有效幀的使用,從而有效提高系統(tǒng)的效率。
3.2音頻比對(duì)
音頻比對(duì)技術(shù)是指從一段連續(xù)的音頻信息中搜索出是否存在指定的音頻序列、指定的音頻序列在該段連續(xù)的音頻序列中的起始位置和結(jié)束位置,以及指定音頻序列在該段連續(xù)音頻序列中的完整性的技術(shù)[3]。
本系統(tǒng)針對(duì)網(wǎng)絡(luò)中海量的音視頻文件,通過音頻比對(duì)技術(shù),在不同的音視頻文件中,將與樣本內(nèi)容片段相同的部分提取出來。由于互聯(lián)網(wǎng)中音視頻數(shù)據(jù)量巨大的情況以及語音傳播過程中存在有傳播損耗和轉(zhuǎn)換等特點(diǎn),音頻樣本比對(duì)需要具有較高的比對(duì)容錯(cuò)特性從而支撐網(wǎng)絡(luò)音視頻等多媒體的特性。
本系統(tǒng)采用快速特征提取方式來對(duì)音視頻內(nèi)容進(jìn)行采樣和標(biāo)記,一方面保證音視頻特征的代表性,另一方面保證在海量數(shù)據(jù)情況下的特征抽取速度;同時(shí)采用多級(jí)索引的方式來對(duì)音頻(含視頻抽取音頻)進(jìn)行檢索和比對(duì),以保證音頻樣本比對(duì)查找以及相似音頻聚類的快速響應(yīng)。
3.3 聲紋識(shí)別
聲紋識(shí)別,也稱為說話人識(shí)別,分為兩大類:聲紋鑒定(說話人辨認(rèn))和聲紋確認(rèn)(說話人確認(rèn)),前者是從若干講話人當(dāng)中分辨出特定語音資料的從屬者(一對(duì)多辨析),后者確定特定的語音資料是否從屬于指定的說話對(duì)象(一對(duì)一辨析)[4]。
本系統(tǒng)針對(duì)互聯(lián)網(wǎng)實(shí)際應(yīng)用場(chǎng)景,主要實(shí)現(xiàn)對(duì)于一對(duì)多辨析的聲紋鑒定。在海量語音中,通過語音信號(hào)提取代表不同說話人身份的相關(guān)固有聲紋特征,最終識(shí)別分析出特定敏感說話人的身份信息。
針對(duì)互聯(lián)網(wǎng)中音視頻數(shù)據(jù)量巨大以及來源豐富的情況,本系統(tǒng)采用聲紋識(shí)別技術(shù)中最先進(jìn)的聯(lián)合因子分析方法,在因子分析理論中,說話人的信息可以認(rèn)為是由一種所謂的“說話人因子”構(gòu)成,而信道信息又是由一種“信道因子”構(gòu)成,信道因素是影響系統(tǒng)性能最重要的因素,去除信道信息的影響可以大大提高識(shí)別率。本系統(tǒng)通過統(tǒng)計(jì)的方法估計(jì)出“說話人因子”和“信道因子”所在的空間,將每段具體信道情況下的“信道因子”去除,從而只保留“說話人因子”,有效提高系統(tǒng)識(shí)別率。
3.4 特定標(biāo)志檢測(cè)
特定標(biāo)志檢測(cè)技術(shù)主要分為離線模型訓(xùn)練和在線檢測(cè)識(shí)別兩個(gè)階段。模型訓(xùn)練階段主要利用標(biāo)注的正樣本和負(fù)樣本訓(xùn)練特定標(biāo)志的判別模型,用于判斷檢測(cè)識(shí)別階段的滑動(dòng)窗口中是否包含特定標(biāo)志;檢測(cè)識(shí)別階段則采用滑動(dòng)窗的方法掃描圖像區(qū)域,通過訓(xùn)練好的模型識(shí)別其中是否包含該特定標(biāo)志。
(1)模型訓(xùn)練。采用Adaboost學(xué)習(xí)算法建立特定標(biāo)志模型并訓(xùn)練一個(gè)強(qiáng)級(jí)聯(lián)分類器。Adaboost是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。其算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn),它根據(jù)每一輪訓(xùn)練中每個(gè)訓(xùn)練樣本的分類結(jié)果正確與否,以及上一輪的總體分類準(zhǔn)確率來確定每個(gè)樣本的權(quán)值。再將修改過權(quán)值的新訓(xùn)練數(shù)據(jù)送給下一輪分類器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類器通過級(jí)聯(lián)的方式組合起來,作為最終的決策分類器。
(2)檢測(cè)識(shí)別階段。利用上一步訓(xùn)練好的強(qiáng)級(jí)聯(lián)分類器,基于多個(gè)Adaboost弱分類器對(duì)不同的特征進(jìn)行依次分類來完成特定標(biāo)志的識(shí)別,即把多個(gè)Adaboost弱分類器串聯(lián)起來,然后提取每個(gè)滑動(dòng)窗中的不同特征,把這些特征依次輸入不同的Adaboost弱分類器中進(jìn)行判斷,只有當(dāng)所有的弱分類器都判斷為正,則表示該滑動(dòng)窗內(nèi)包含該特定標(biāo)志。這樣一是可以針對(duì)要識(shí)別的特定標(biāo)志選擇出對(duì)其最有效的特征表示方法;二是減少計(jì)算量,例如當(dāng)一個(gè)滑動(dòng)窗中的第一個(gè)特征沒有通過第一個(gè)分類器判斷為負(fù),即結(jié)束計(jì)算,直接判斷當(dāng)前滑動(dòng)窗中不含有該特定標(biāo)志,轉(zhuǎn)而處理下一個(gè)滑動(dòng)窗,這樣就能快速拋棄沒有該特定標(biāo)志的滑動(dòng)窗,達(dá)到快速識(shí)別的目的。
此外,對(duì)于待識(shí)別圖像,進(jìn)一步利用頻域圖像的相關(guān)性匹配減少滑動(dòng)窗口的掃描范圍。首先計(jì)算待識(shí)別圖像的頻域圖像,并利用特定標(biāo)志的模板在待識(shí)別圖像上進(jìn)行相關(guān)性匹配,根據(jù)得到的響應(yīng)獲取特定標(biāo)志在待識(shí)別圖像中的大致位置區(qū)域,將滑動(dòng)窗口的掃描范圍縮小到一個(gè)較小范圍內(nèi)。另外根據(jù)相關(guān)性匹配得到的區(qū)域大小,進(jìn)一步將滑動(dòng)窗的大小變化限制到一定范圍內(nèi),進(jìn)一步減小原始的搜索空間。相比于原始的滑動(dòng)窗算法在全圖和全尺寸的掃描,本系統(tǒng)大大減少了檢測(cè)的計(jì)算量,實(shí)現(xiàn)對(duì)特定標(biāo)識(shí)的實(shí)時(shí)檢測(cè)。
4 結(jié)束語
本系統(tǒng)針對(duì)網(wǎng)絡(luò)敏感信息的數(shù)據(jù)量巨大、來源豐富的特點(diǎn),主要實(shí)現(xiàn)了包括語種識(shí)別、音頻比對(duì)、聲紋識(shí)別、特定標(biāo)識(shí)檢測(cè)四類關(guān)鍵技術(shù)的研究和設(shè)計(jì),并在準(zhǔn)確率和處理效率上都提出了可靠有效地實(shí)現(xiàn)方法,更好地適應(yīng)網(wǎng)絡(luò)敏感信息識(shí)別的需求,為網(wǎng)絡(luò)有害內(nèi)容的發(fā)現(xiàn)與監(jiān)管提供了技術(shù)支撐。
參考文獻(xiàn):
[1]王浩.基于半監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識(shí)別[D]. 天津大學(xué), 2012.
[2]張衛(wèi)強(qiáng), 劉加. 基于聽感知特征的語種識(shí)別[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2009(1):78-81.
[3] 郭興吉, 范秉琪. 基于特征的音頻比對(duì)技術(shù)[J]. 河南師范大學(xué)學(xué)報(bào)(自然版), 2006, 34(2):35-38.
[4] 石燕. 聲紋識(shí)別技術(shù)研究[D]. 南京航空航天大學(xué), 2004.
【通聯(lián)編輯:王力】