許林 全民互聯科技(天津)有限公司
在互聯網高度發達的今天,網絡環境比較復雜,管理難度大,需要借助語義識別技術對網絡上輿情進行有效的監督,對凈化網絡環境,維護網絡秩序有很大幫助。下面將針對多媒體網絡信息特征、識別技術及流程展開分析。
1.文本信息語義識別特征
在多媒體網絡中,文本信息語義識別相對簡單,主要針對新聞、推文、評論等文本形式對其所要表達的情感、態度進行識別。文本信息語義識別主要有兩種方式:一是檢索、識別關鍵詞,在對文本信息分類上有效率優勢;二是通過分析詞句間的聯系識別文本語義,主要用于分析文本信息所包含的情感、態度等特征。文本信息識別發展較為成熟,識別率相較后三者有顯著優勢。
2.聲音信息語義識別特征
通常情況下,聲音信息不單獨存在,多作為視頻信息的附屬如新聞采訪、自媒體視頻等,由于視頻錄制環境的復雜性,聲音信息多存在噪聲,包含更多的情感因素,所以聲音信息識別要通過優化識別算法實現環境噪音的濾除和情感信息識別。
3.圖像信息語義識別特征
互聯網中圖像信息多見于文章插圖、新聞配圖、視頻所截取的分幀圖等,所包含的內容有人物、文字、背景等。為完整識別圖像信息,首先要采用人臉識別技術,對圖像中人臉進行定位并分析其表情,還可以深入發掘其身份信息;其次要以文字信息識別技術為基礎對對圖像中文字進行識別;最后還要分析圖像背景信息,重點識別敏感元素和關鍵物件。
4.視頻信息語義識別特征
由于視頻既包含分幀圖像還包括字幕、聲音等,在進行識別時應采取降維處理的方法進行處理。首先要進行鏡頭分割和分幀處理,以圖像信息識別方式進行分析;其次要截取適當的鏡頭,使字幕信息能完整顯示。除視頻內容識別外,視頻的分類、檢索也很關鍵,而視頻指紋概念的提出,有效提高了視頻檢索效率。
為了更好識別視頻、圖像、聲音以及文本的語義,從而實現網絡輿情的有效分析和深化應用,在掌握識別技術的同時還應符合語義識別的流程。首先進行特征識別,當獲取多媒體信息后應對分析其載體形式,并采取不同的識別方法;其次要對多媒體信息的語義進行識別,多采用先進算法實現各類信息的深度分析,對信息的真實性、所表現的態度、情感、內容以及敏感內容進行識別,從而獲取網絡輿情的真實語義。
多媒體網絡文本信息的語義識別主要針對新聞、評論、網絡文章等,所采用的的識別技術有兩類:一是分詞技術,該技術通過將文本信息同所具備的中文詞表進行比對,從而獲取詞句語義。但由于詞語排序不同語義會發生較大變化,這就需要在分詞時對語義分歧進行處理,要先確定歧義存在的位置,再利用T檢驗和雙字耦合度的方法予以消除;二是詞向量模型,主要是對文本信息進行轉換,使之能夠被計算機所理解,目前多采用基于神經網絡的Word2vec 模型,可實現詞向量的有效訓練,又可分為CBOW和Skip-gram 模型,前者利用上下文對當前詞進行預測,主要用于小型語料庫;后者利用當前詞對上下文進行預測,主要用于大型語料庫。
由于圖像信息中包含人物、背景、色彩、文字等多種特征信息,而圖像特征的提取是語義識別的關鍵,通常采用圖像分割技術來獲取圖像特征信息,常用方法有:閾值法、區域分割法、邊緣檢測法、小波法分析法、神經網絡法等,各有不同的應用優勢和不足,其中,神經網絡法在獲取圖像復雜特征信息上有較高精度,但是算法較為復雜,對數據依賴性大,識別效率較低。邊緣檢測法主要用于具有鮮明特點、特征易分離的圖像識別,雖然識別速率快,但精確度較低。
主要包含兩類:一是聲音預處理技術,這對于提高聲音信息識別精度尤為關鍵,具體分為三步:①帶通濾波,可將目標音頻外的頻段聲音進行過濾,使信噪比提高;②預加重處理,在數字濾波器的基礎上予以加重處理,使聲音信號更加平緩;③分段處理,先對聲音信號進行分幀處理,由于分幀后可能會造成不連貫,還要對分幀的信號進行加窗,常采用漢明窗。二是聲音特征提取技術,對于聲音特征的提取方法有:基于語音信號和基于非平穩信號兩種。
由于視頻中大多為漸變鏡頭,偶爾出現突變鏡頭,在視頻信息處理時,像素點檢測法可用于漸變和突變鏡頭的區分,能夠將突變鏡頭提取出來。漸變鏡頭也要進行分幀處理,常用雙閾值檢測的方法,還要注意確保字幕的完整性,方便語義識別。此外,關鍵幀提取對于減少視頻信息分析工作量有很大幫助。
綜上所述,語義識別技術是實現多媒體網絡輿情監控及預警的有效手段,面對復雜的網絡環境,政府應加大網絡監管,為人們提供安全、干凈的網絡環境。