網(wǎng)絡(luò)多媒體分析系統(tǒng)的分析與設(shè)計(jì)

2019-07-16 03:17:27吳錦晶

電腦知識(shí)與技術(shù) 2019年14期

吳錦晶

摘要：本系統(tǒng)針對(duì)網(wǎng)絡(luò)上大量的多媒體數(shù)據(jù)中敏感圖像、音視頻廣泛傳播的現(xiàn)狀，融合計(jì)算機(jī)視覺，機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)對(duì)多媒體數(shù)據(jù)內(nèi)容進(jìn)行分析，旨在研發(fā)面向網(wǎng)絡(luò)空間的多媒體檢測(cè)分析技術(shù)，對(duì)互聯(lián)網(wǎng)中圖像、音視頻等多媒體內(nèi)容進(jìn)行偵查和檢測(cè)，為網(wǎng)絡(luò)有害內(nèi)容的發(fā)現(xiàn)與監(jiān)管提供關(guān)鍵技術(shù)支撐。系統(tǒng)重點(diǎn)是研究敏感圖像、音視頻檢測(cè)與檢索的關(guān)鍵技術(shù)，并基于上述關(guān)鍵技術(shù)來研究敏感信息監(jiān)管方法，通過多種技術(shù)手段對(duì)網(wǎng)絡(luò)上傳播的有害內(nèi)容進(jìn)行識(shí)別和分析，為維護(hù)國家安全和穩(wěn)定提供技術(shù)保障。

關(guān)鍵詞：敏感;多媒體;計(jì)算機(jī)視覺;機(jī)器學(xué)習(xí)

中圖分類號(hào)：TP311 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2019）14-0189-02

1 背景

隨著多媒體和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，人們?cè)絹碓蕉嘁揽烤W(wǎng)絡(luò)來獲取和發(fā)布信息，互聯(lián)網(wǎng)中存儲(chǔ)和傳播的信息對(duì)于大眾輿論的形成和傳播有巨大的影響，其中也隱藏著巨大的安全威脅。許多不法分子利用網(wǎng)絡(luò)自由交互的特點(diǎn)，在網(wǎng)絡(luò)上散布各種有損社會(huì)和諧的言論，即所謂的敏感信息，這些信息一旦擴(kuò)散開來，往往會(huì)造成極其惡劣的影響，進(jìn)而帶來巨大的輿論壓力，并造成相當(dāng)?shù)慕?jīng)濟(jì)損失 [1]。因此，如何凈化網(wǎng)絡(luò)環(huán)境，及時(shí)、準(zhǔn)確對(duì)網(wǎng)絡(luò)敏感信息進(jìn)行識(shí)別成為相關(guān)部門急需解決的問題。本文提出一種網(wǎng)絡(luò)多媒體分析系統(tǒng)，重點(diǎn)研究敏感圖像、音視頻檢測(cè)與檢索的關(guān)鍵技術(shù)，研發(fā)面向網(wǎng)絡(luò)空間的多媒體檢測(cè)分析技術(shù)，為網(wǎng)絡(luò)有害內(nèi)容的發(fā)現(xiàn)與監(jiān)管提供關(guān)鍵技術(shù)支撐。

2網(wǎng)絡(luò)多媒體分析系統(tǒng)

網(wǎng)絡(luò)多媒體分析系統(tǒng)主要包括：語種識(shí)別、音頻比對(duì)、聲紋識(shí)別、特定標(biāo)識(shí)檢測(cè)。

（1）語種識(shí)別：針對(duì)互聯(lián)網(wǎng)場(chǎng)景類型，定制研發(fā)語種識(shí)別系統(tǒng)，對(duì)互聯(lián)網(wǎng)音視頻資料中的語音數(shù)據(jù)進(jìn)行分析處理，識(shí)別判斷其所屬語種，并支持按照業(yè)務(wù)需求拓展語種識(shí)別范圍。

（2）音頻比對(duì)：針對(duì)海量網(wǎng)絡(luò)數(shù)據(jù)傳播損耗和轉(zhuǎn)換等特點(diǎn)，采用快速、高比對(duì)容錯(cuò)特性的音頻比對(duì)算法，在音視頻集合中，將與樣本內(nèi)容片段相同的部分提取出來。

（3）聲紋識(shí)別：在海量語音中，提取不同說話人語音形成固有聲紋特征，最終識(shí)別分析出說話人的身份信息。

（4）特定標(biāo)識(shí)檢測(cè)：基于深度學(xué)習(xí)的特定標(biāo)識(shí)檢測(cè)模型，實(shí)現(xiàn)包含特定目標(biāo)的敏感圖像檢測(cè)。

3系統(tǒng)的分析與設(shè)計(jì)

3.1語種識(shí)別

語種識(shí)別主要是利用計(jì)算機(jī)對(duì)語音數(shù)據(jù)進(jìn)行分析處理，并自動(dòng)識(shí)別判斷其所屬語種類型的過程。近年來隨著全球化的趨勢(shì)不斷增長，語種識(shí)別的重要性也逐漸顯現(xiàn)出來。語種識(shí)別可以用于跨語種語音識(shí)別系統(tǒng)、語音翻譯機(jī)、呼叫中心、語音文檔檢索等系統(tǒng)中[2]。

本系統(tǒng)針對(duì)實(shí)際應(yīng)用中的互聯(lián)網(wǎng)場(chǎng)景類型，主要實(shí)現(xiàn)對(duì)于語音中中文普通話語種的識(shí)別，并支持按照業(yè)務(wù)需求拓展語種識(shí)別范圍。由于系統(tǒng)中語種識(shí)別技術(shù)作為語音分類和連續(xù)語音識(shí)別、關(guān)鍵詞識(shí)別的前端模塊，并面臨海量復(fù)雜環(huán)境下的數(shù)據(jù)識(shí)別處理需求，該任務(wù)的準(zhǔn)確率和處理速度是本系統(tǒng)重點(diǎn)關(guān)注內(nèi)容。

（1）傳統(tǒng)GMM技術(shù)路線的語種識(shí)別性能已基本滿足常規(guī)語種識(shí)別任務(wù)，而本系統(tǒng)針對(duì)網(wǎng)絡(luò)中音視頻數(shù)據(jù)的信道和背景環(huán)境復(fù)雜的情況，采用一種基于噪聲魯棒性的PNCC特征的語種識(shí)別系統(tǒng);并采用MMI準(zhǔn)則對(duì)各語種的GMM模型進(jìn)行區(qū)分性訓(xùn)練，同時(shí)采用SVM建模，避免經(jīng)典學(xué)習(xí)方法中過學(xué)習(xí)、維數(shù)災(zāi)難、局部極小等傳統(tǒng)分類問題，有效提升語種識(shí)別模型的噪聲魯棒性和模型區(qū)分能力。

（2）在保證系統(tǒng)模型識(shí)別效果的同時(shí)，為確保系統(tǒng)效率滿足海量數(shù)據(jù)處理的應(yīng)用要求，本系統(tǒng)主要采用高斯聚類策略，在不降低聲學(xué)模型維度的基礎(chǔ)上，有效降低待運(yùn)算的高斯數(shù)，從而降低運(yùn)算;并采用靈活的跳幀策略，在充分保證數(shù)據(jù)量以及效果的前提下，減少有效幀的使用，從而有效提高系統(tǒng)的效率。

3.2音頻比對(duì)

音頻比對(duì)技術(shù)是指從一段連續(xù)的音頻信息中搜索出是否存在指定的音頻序列、指定的音頻序列在該段連續(xù)的音頻序列中的起始位置和結(jié)束位置，以及指定音頻序列在該段連續(xù)音頻序列中的完整性的技術(shù)[3]。

本系統(tǒng)針對(duì)網(wǎng)絡(luò)中海量的音視頻文件，通過音頻比對(duì)技術(shù)，在不同的音視頻文件中，將與樣本內(nèi)容片段相同的部分提取出來。由于互聯(lián)網(wǎng)中音視頻數(shù)據(jù)量巨大的情況以及語音傳播過程中存在有傳播損耗和轉(zhuǎn)換等特點(diǎn)，音頻樣本比對(duì)需要具有較高的比對(duì)容錯(cuò)特性從而支撐網(wǎng)絡(luò)音視頻等多媒體的特性。

本系統(tǒng)采用快速特征提取方式來對(duì)音視頻內(nèi)容進(jìn)行采樣和標(biāo)記，一方面保證音視頻特征的代表性，另一方面保證在海量數(shù)據(jù)情況下的特征抽取速度;同時(shí)采用多級(jí)索引的方式來對(duì)音頻（含視頻抽取音頻）進(jìn)行檢索和比對(duì)，以保證音頻樣本比對(duì)查找以及相似音頻聚類的快速響應(yīng)。

3.3 聲紋識(shí)別

聲紋識(shí)別，也稱為說話人識(shí)別，分為兩大類：聲紋鑒定（說話人辨認(rèn)）和聲紋確認(rèn)（說話人確認(rèn)），前者是從若干講話人當(dāng)中分辨出特定語音資料的從屬者（一對(duì)多辨析），后者確定特定的語音資料是否從屬于指定的說話對(duì)象（一對(duì)一辨析）[4]。

本系統(tǒng)針對(duì)互聯(lián)網(wǎng)實(shí)際應(yīng)用場(chǎng)景，主要實(shí)現(xiàn)對(duì)于一對(duì)多辨析的聲紋鑒定。在海量語音中，通過語音信號(hào)提取代表不同說話人身份的相關(guān)固有聲紋特征，最終識(shí)別分析出特定敏感說話人的身份信息。

針對(duì)互聯(lián)網(wǎng)中音視頻數(shù)據(jù)量巨大以及來源豐富的情況，本系統(tǒng)采用聲紋識(shí)別技術(shù)中最先進(jìn)的聯(lián)合因子分析方法，在因子分析理論中，說話人的信息可以認(rèn)為是由一種所謂的“說話人因子”構(gòu)成，而信道信息又是由一種“信道因子”構(gòu)成，信道因素是影響系統(tǒng)性能最重要的因素，去除信道信息的影響可以大大提高識(shí)別率。本系統(tǒng)通過統(tǒng)計(jì)的方法估計(jì)出“說話人因子”和“信道因子”所在的空間，將每段具體信道情況下的“信道因子”去除，從而只保留“說話人因子”，有效提高系統(tǒng)識(shí)別率。

3.4 特定標(biāo)志檢測(cè)

特定標(biāo)志檢測(cè)技術(shù)主要分為離線模型訓(xùn)練和在線檢測(cè)識(shí)別兩個(gè)階段。模型訓(xùn)練階段主要利用標(biāo)注的正樣本和負(fù)樣本訓(xùn)練特定標(biāo)志的判別模型，用于判斷檢測(cè)識(shí)別階段的滑動(dòng)窗口中是否包含特定標(biāo)志;檢測(cè)識(shí)別階段則采用滑動(dòng)窗的方法掃描圖像區(qū)域，通過訓(xùn)練好的模型識(shí)別其中是否包含該特定標(biāo)志。

（1）模型訓(xùn)練。采用Adaboost學(xué)習(xí)算法建立特定標(biāo)志模型并訓(xùn)練一個(gè)強(qiáng)級(jí)聯(lián)分類器。Adaboost是一種迭代算法，其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器（弱分類器），然后把這些弱分類器集合起來，構(gòu)成一個(gè)更強(qiáng)的最終分類器（強(qiáng)分類器）。其算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)，它根據(jù)每一輪訓(xùn)練中每個(gè)訓(xùn)練樣本的分類結(jié)果正確與否，以及上一輪的總體分類準(zhǔn)確率來確定每個(gè)樣本的權(quán)值。再將修改過權(quán)值的新訓(xùn)練數(shù)據(jù)送給下一輪分類器進(jìn)行訓(xùn)練，最后將每次訓(xùn)練得到的分類器通過級(jí)聯(lián)的方式組合起來，作為最終的決策分類器。

（2）檢測(cè)識(shí)別階段。利用上一步訓(xùn)練好的強(qiáng)級(jí)聯(lián)分類器，基于多個(gè)Adaboost弱分類器對(duì)不同的特征進(jìn)行依次分類來完成特定標(biāo)志的識(shí)別，即把多個(gè)Adaboost弱分類器串聯(lián)起來，然后提取每個(gè)滑動(dòng)窗中的不同特征，把這些特征依次輸入不同的Adaboost弱分類器中進(jìn)行判斷，只有當(dāng)所有的弱分類器都判斷為正，則表示該滑動(dòng)窗內(nèi)包含該特定標(biāo)志。這樣一是可以針對(duì)要識(shí)別的特定標(biāo)志選擇出對(duì)其最有效的特征表示方法;二是減少計(jì)算量，例如當(dāng)一個(gè)滑動(dòng)窗中的第一個(gè)特征沒有通過第一個(gè)分類器判斷為負(fù)，即結(jié)束計(jì)算，直接判斷當(dāng)前滑動(dòng)窗中不含有該特定標(biāo)志，轉(zhuǎn)而處理下一個(gè)滑動(dòng)窗，這樣就能快速拋棄沒有該特定標(biāo)志的滑動(dòng)窗，達(dá)到快速識(shí)別的目的。

此外，對(duì)于待識(shí)別圖像，進(jìn)一步利用頻域圖像的相關(guān)性匹配減少滑動(dòng)窗口的掃描范圍。首先計(jì)算待識(shí)別圖像的頻域圖像，并利用特定標(biāo)志的模板在待識(shí)別圖像上進(jìn)行相關(guān)性匹配，根據(jù)得到的響應(yīng)獲取特定標(biāo)志在待識(shí)別圖像中的大致位置區(qū)域，將滑動(dòng)窗口的掃描范圍縮小到一個(gè)較小范圍內(nèi)。另外根據(jù)相關(guān)性匹配得到的區(qū)域大小，進(jìn)一步將滑動(dòng)窗的大小變化限制到一定范圍內(nèi)，進(jìn)一步減小原始的搜索空間。相比于原始的滑動(dòng)窗算法在全圖和全尺寸的掃描，本系統(tǒng)大大減少了檢測(cè)的計(jì)算量，實(shí)現(xiàn)對(duì)特定標(biāo)識(shí)的實(shí)時(shí)檢測(cè)。

4 結(jié)束語

本系統(tǒng)針對(duì)網(wǎng)絡(luò)敏感信息的數(shù)據(jù)量巨大、來源豐富的特點(diǎn)，主要實(shí)現(xiàn)了包括語種識(shí)別、音頻比對(duì)、聲紋識(shí)別、特定標(biāo)識(shí)檢測(cè)四類關(guān)鍵技術(shù)的研究和設(shè)計(jì)，并在準(zhǔn)確率和處理效率上都提出了可靠有效地實(shí)現(xiàn)方法，更好地適應(yīng)網(wǎng)絡(luò)敏感信息識(shí)別的需求，為網(wǎng)絡(luò)有害內(nèi)容的發(fā)現(xiàn)與監(jiān)管提供了技術(shù)支撐。

參考文獻(xiàn)：

[1]王浩.基于半監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識(shí)別[D]. 天津大學(xué)， 2012.

[2]張衛(wèi)強(qiáng)，劉加. 基于聽感知特征的語種識(shí)別[J]. 清華大學(xué)學(xué)報(bào)（自然科學(xué)版）， 2009（1）：78-81.

[3] 郭興吉，范秉琪. 基于特征的音頻比對(duì)技術(shù)[J]. 河南師范大學(xué)學(xué)報(bào)（自然版）， 2006， 34（2）：35-38.

[4] 石燕. 聲紋識(shí)別技術(shù)研究[D]. 南京航空航天大學(xué)， 2004.

【通聯(lián)編輯：王力】