陳宏揚
(廣東輕工職業技術學院,廣東 廣州 510300)
隨著互聯網技術的發展,視頻數據逐漸成為教育、娛樂、社交和商業領域的重要信息媒介。視頻數據不僅包含豐富的視覺信息,還包含大量語言信息,如對話、字幕和評論等。這些語言信息對視頻數據的理解和利用具有重要的作用,但同時也存在敏感、隱私和易變等問題。然而,視頻數據的傳輸、存儲、處理和使用過程中可能存在安全風險,例如個人信息、商業機密和政治觀點等敏感內容可能被泄露或篡改,導致經濟損失、聲譽損害和法律風險等后果。因此,對視頻類數據進行安全風險評估是保障視頻數據安全和合規性的重要手段。
然而,目前對視頻類數據安全風險評估的研究還比較缺乏,現有的方法主要集中在對視頻數據中的圖像信息進行分析和處理,往往忽視視頻數據中的語言信息。這些模型無法準確地識別和評估視頻數據中存在的各種語言相關安全風險,也無法有效地利用語言信息來提高視頻數據安全風險評估的效率和效果。
為了解決這一問題,本文提出了一種基于自然語言處理技術的視頻類數據安全風險評估模型,該模型用Transformer技術對視頻數據中的語音、文本等語言信息進行預處理、特征提取和融合,并進行安全風險評估,實現視頻類數據資產的自動化、智能化和精準化風險評估。
本文提出的模型具有以下優勢和創新點:(1)充分利用視頻數據中的語言信息,提高風險評估的準確性和有效性;(2)采用Transformer等先進的自然語言處理技術,提高風險評估的效率和性能;(3)適用于多種類型和場景的視頻類數據,提高風險評估的通用性和適應性。
參照信息安全風險評估方法,以視頻存儲設備、監控攝像頭等視頻類數據資產為評估對象,視頻類數據處理活動中所面臨的風險為評估內容,視頻類數據安全風險評估流程包括以下5個步驟。
從不同的來源和渠道收集視頻類資產的數據,如視頻標題、內容、元數據、標簽、用戶行為、情感、敏感度等,并構建特征向量表示視頻類資產的屬性。
對視頻數據進行清洗、格式轉換、分割等操作,將視頻數據轉化為適合自然語言處理技術的形式,如文本、語音等,并根據創建的視頻類資產安全評估指標,對視頻類資產進行標注,并添加安全等級的標簽,例如G級(適合所有觀眾)、PG級(需要家長指導)、R級(限制級)等,形成有監督的訓練數據集。
根據數據的特點和任務的需求,設計合適的自然語言處理模型,例如基于神經網絡、注意力機制、Transformer等技術的模型。模型能夠從視頻類資產的元數據中提取有效的特征,并根據特征判斷視頻類資產的安全等級。
通過訓練數據集對模型進行訓練,以優化模型的參數,并評估模型的性能,例如準確率、召回率、F1值等指標。訓練過程中可以使用一些技巧來提高模型的效果,例如預訓練、微調、數據增強等。
將訓練好的模型部署到實際應用場景中,例如高校MOOC及SPOC平臺、短視頻平臺、長視頻平臺、內容審核系統等。部署過程中需要考慮模型的可擴展性、可維護性、可解釋性等因素,并定期對模型進行更新和改進。
根據風險評估的結果,生成視頻類資產安全風險報告,包括風險等級、風險因素、風險影響、風險應對措施等內容,以便于相關人員及時了解和處理風險。
視頻類資產的安全風險評估模型指標需要考慮以下幾個方面。
標題長度應該適中,一般在10~20個字。標題內容應該與視頻內容相符,沒有虛假或夸大的信息,也沒有侮辱、誹謗、歧視或煽動性的言論。標題風格應該與視頻類型和目標受眾相匹配,不用過于正式或過于隨意的語氣,也不用過于專業或過于俗氣的詞匯。
內容主題應該符合視頻的類型和目的,不要涉及違法、反動、暴力、色情、賭博等敏感或禁止的主題。內容質量應該保證視頻的清晰度、流暢度、穩定度等技術參數,以及視頻的邏輯性、連貫性、完整性等結構參數。內容創意應該體現視頻的獨特性、新穎性、趣味性等藝術參數以及視頻的互動性、參與性、引導性等社會參數。
元數據是指描述視頻屬性和特征的數據,例如作者、日期、時長、格式、分辨率等。在元數據完整度上應該保證元數據包含了所有必要和重要的信息,沒有缺失或錯誤的數據。在元數據準確度上應該保證元數據與視頻實際情況一致,沒有虛假或誤導的數據。在元數據規范度上應該保證元數據遵循了統一和標準的格式和語言,沒有混亂或不一致的數據。
用于分類和標記視頻主題和內容的關鍵詞或短語,例如“喜劇”“動作”“教育”等。
標簽數量應該適當,不要過多或過少,一般在3~10個。標簽內容應該與視頻主題和內容相關,沒有無關或不恰當的標簽。標簽風格應該與視頻類型和目標受眾相匹配,不使用過于專業或過于俗氣的詞匯,也不用過于敏感或過于激進的詞匯。
用戶在觀看視頻時的操作和反饋,例如點贊、評論、分享、收藏等。在用戶行為頻率上應該反映視頻的受歡迎程度和影響力,沒有異常或異常高的行為數據。在用戶行為內容上應該反映用戶對視頻的真實和合理的意見和建議,沒有惡意或無意義的行為數據。在用戶行為風格上應該反映用戶對視頻的禮貌和尊重,沒有侮辱、誹謗、歧視或煽動性的行為數據。
用戶情感是指用戶在觀看視頻時產生的情緒和態度,例如喜悅、悲傷、憤怒、恐懼等。在用戶情感強度上應該反映視頻對用戶的情緒激發程度,沒有過于強烈或過于弱的情緒反應。在用戶情感極性上應該反映視頻對用戶的情緒傾向,沒有過于正面或過于負面的情緒評價。在用戶情感穩定性上應該反映視頻對用戶的情緒變化,沒有過于波動或過于單一的情緒狀態。
根據以上的安全風險評估指標,設計了視頻類資產安全風險等級分類表,如表1所示。

表1 視頻類資產安全風險等級分類
根據視頻類資產的各項指標計算其安全風險等級,定義一個綜合評分函數來計算視頻類資產的安全風險等級,如下所示:
其中,S為視頻類資產的綜合評分;wi為第i個指標的權重系數;wifi(xi)為第i個指標對應的評分函數;xi為第i個指標對應的元數據或用戶行為或用戶情感。綜合評分S越高,則表示視頻類資產的安全風險等級越低;反之,則表示視頻類資產的安全風險等級越高。
選擇基于Transformer的模型架構,Transformer是一種強大且靈活的神經網絡模型,可以有效地處理序列數據,如文本和音頻。Transformer利用了注意力機制,可以捕捉序列中不同位置之間的相關性,并實現并行計算,提高效率和性能。
將視頻類資產的元數據作為模型的輸入,將其轉換為數值向量,作為Transformer編碼器部分的輸入。使用預訓練的詞嵌入來表示文本類型的元數據,如標題、標簽等,使用數值歸一化來表示數值類型的元數據,如時長、分辨率等,使用獨熱編碼來表示類別類型的元數據,如格式、作者等。
將視頻類資產的安全等級作為模型的輸出,將其轉換為數值標簽,作為Transformer解碼器部分的輸出。使用交叉熵損失函數來衡量模型輸出和真實標簽之間的差異,并使用梯度下降算法來優化模型參數。
使用預處理后的數據集或已有的視頻類資產數據集來訓練模型,例如Tencent Video Dataset,是一個由騰訊提供的大規模中文多類型的視頻數據集,包含了10萬個騰訊視頻及其元數據和標簽,涵蓋了1 000多個類別,如“愛情”“懸疑”“歷史”等。這些數據集包含了大量的視頻類資產及其元數據和安全等級標簽。使用隨機劃分或交叉驗證的方法來劃分訓練集、驗證集和測試集,并使用批量梯度下降或隨機梯度下降的方法來更新模型參數。
使用準確率或F1得分等指標來評估模型在測試集上的表現,并與其他基準模型進行比較。并使用混淆矩陣或ROC曲線等可視化工具來分析模型在不同安全等級上的分類效果,并找出模型的優勢和不足。
視頻類數據安全風險評估模型的輸入、輸出和中間過程如圖1所示。

圖1 視頻類數據安全風險評估模型的結構
為了驗證本文提出的模型的有效性,使用Python語言和PyTorch框架實現了模型,并在Tencent Video Dataset上進行實驗。使用BERT作為預訓練的詞嵌入,使用Transformer作為模型的主體結構,使用Softmax作為模型的輸出層。使用Adam作為優化器,使用交叉熵作為損失函數,使用準確率和F1值作為評估指標。將數據集劃分為80%的訓練集,10%的驗證集和10%的測試集,并使用10個批次和20個迭代進行訓練。將本文提出的模型與以下3種基準模型進行了比較:(1)基于CNN的模型,使用卷積神經網絡對視頻類資產的元數據進行特征提取和分類;(2)基于RNN的模型,使用循環神經網絡對視頻類資產的元數據進行特征提取和分類;(3)基于SVM的模型,使用支持向量機對視頻類資產的元數據進行特征提取和分類。實驗結果如表2所示。

表2 實驗結果
可以看出,本文提出的模型在準確率和F1值上均優于基準模型,說明本文提出的模型可以有效地利用視頻類資產的元數據進行安全風險評估,并具有較高的性能和效果。
本文構建了一種基于Transformer的視頻類數據安全風險評估模型,利用自然語言處理技術對視頻類數據中的語言信息進行分析和處理,實現了視頻類數據資產的自動化、智能化和精準化風險評估。本文也存在一些不足,例如數據集來源較為單一,只使用了騰訊視頻數據集,可能存在一定的偏差和局限性。未來可以考慮使用更多來源和類型的視頻數據集,以提高模型的泛化能力和適應性。