葉雪潔 楊陽朝 李陽陽 周陽
摘要:多媒體技術的快速發展為電郵系統帶來了全新的機遇和挑戰,突出表現在網情分析難度增大、違規數據變種增多、反垃圾效果不明顯、高級防御能力偏弱、人機審核難度加大等方面。通過全網監測網情態勢、實時捕獲環境特征、建設內容風控體系、強化高級威脅防護、提高內容審核巡查等方式,電郵行業可以達到掌握關鍵信息動態、提高內容識別效果、及時發現隱藏風險、減少垃圾郵件干擾、降低人工審核成本等目標。未來,電郵行業應立足“技術+應用”發展道路,有效提高用戶體驗,推動人工智能與電郵行業融合創新,實現典型示范應用和“殺手锏”產品,基本形成技術標準、服務體系和產業生態鏈,推動智能化應用,提升產業發展水平。
關鍵詞:多媒體技術;電郵行業;內容識別;智能化應用
doi:10.3969/J.ISSN.1672-7274.2024.04.011
中圖分類號:TN 929.5,TP 391.44? ? ? ? ? 文獻標志碼:A? ? ? ? ? ? 文章編碼:1672-7274(2024)04-00-03
Research on the Development of Email Systems in the Context of Big Data
YE Xuejie, YANG Yangchao, LI Yangyang, ZHOU Yang
(China Electric Network Space Research Institute Co., Ltd., Beijing 100085, China)
Abstract: The rapid development of multimedia technology has brought new opportunities and challenges to email systems, particularly in the increased difficulty of network situation analysis, the increase in variants of illegal data, unclear anti spam effects, weak advanced defense capabilities, and increased difficulty in human-machine auditing. By monitoring the overall network situation, capturing environmental characteristics in real time, establishing a content risk control system, strengthening advanced threat protection, and improving content audit patrols, the email industry can achieve the goals of mastering key information dynamics, improving content recognition effectiveness, timely discovering hidden risks, reducing spam interference, and reducing manual audit costs. In the future, the email industry should focus on the development path of "technology+application", effectively improve user experience, promote the integration and innovation of artificial intelligence and the email industry, achieve typical demonstration applications and "killer" products, basically form technical standards, service systems and industrial ecological chains, promote intelligent applications, and enhance the level of industrial development.
Keywords: multimedia technology; the email industry; content recognition; intelligent applications
1? ?電郵行業發展背景
隨著大數據、物聯網、移動互聯網等先進技術驅動,我國的新型人工智能產業將呈現出深度學習、人機協同、自主管理、群智開放、跨域融合等新發展特征,其高度交叉的技術屬性和產業特征將促使我國新型網信技術和傳統產業的深度融合發展,這對于推動我國生產力跨越式提升,搶占我國未來經濟先機具有極其重要的戰略意義[1]。目前,多媒體技術是信息領域發展最活躍的技術之一。通過使用圖片、音頻、視頻等多種方式進行工作,多媒體覆蓋之廣、發展之快超乎想象,其裂變式發展引發了全球信息格局的重大調整和傳播生態的急劇變化[2][3]。電子郵件雖達不到即時通信軟件或社交媒體的飛速增長,但電子郵件系統是目前應用最為普遍、最為關鍵的應用系統之一,在網絡中是以明文形式傳輸和存儲的,因而電子郵件所具備的公信力和開放性仍是即時社交軟件所不可取代的,且將繼續存在。當前,電子郵件具有以下幾個特點。
(1)用戶規模保持低速穩定增長。我國對電子郵件市場監管將越來越規范,在全終端服務的趨勢加強,電子行業也將越來越活躍,市場優勝劣汰越來越明顯。整體來看,電子郵件作為早期發展起來的通信方式,目前已擁有了數量龐大的用戶群體。我國電郵市場已趨于成熟,從2015年開始增長率維持在5%~7%,未來我國使用電郵用戶規模將保持低速穩定增長。
(2)通信方式具備跨平臺特點。電子郵件作為去中心化的通信工具,相較于即時通信軟件,可實現跨平臺使用。郵件內容可通過不同類型進行組織管理,實現分類文件、設置標簽、使用搜索等能力,并可與其他應用程序集成,具備同步日歷、任務列表等功能,工作方便快速、便捷處理。
(3)郵件辦公成為重要使用方式。郵件系統主要有以下三個常見類型,即海外商業郵件服務系統、國內商業郵件服務系統和開源郵件系統。在全球范圍內,郵件系統有相當普遍的使用,但相對于國內市場來說,郵件系統大多在政府部門、院校、大中型央企、金融證券等領域應用,郵件系統應該具備更強的安全性和穩定性。
2? ?電郵行業面臨的困難
目前,信息傳播來源廣泛、手段隱蔽多樣,信息技術快速發展對電子郵件行業帶來了很大的沖擊。我國目前已經實施的《中華人民共和國網絡安全法》《互聯網信息服務管理辦法》《網絡安全法實施條例》等國家網絡安全法制規范,雖然已經初步實現了對網絡新聞、音視頻資料、搜索引擎服務等帶有社會宣傳屬性和動員功能的公共信息服務行業全面監管工作,但對電郵領域違法違規行為的有效管理手段相對企業而言還相對薄弱,且目前被動型、舉報式的監管執法手段已經無法滿足新形勢下企業的行政執法監督工作需要,因此急需形成智能化、新型化、多樣化的工具與機制,以有效解決企業當前被動獲取違法違規行為線索的問題,而電郵領域則依然面臨著突出的安全監管工作問題[4]。
Cofense Intelligence《2023年電子郵件安全報告》調查數據顯示,電子郵件仍面臨巨大的安全挑戰威脅。網絡釣魚作為最大的網絡攻擊載體,借此惡意電子郵件增加了478%;商業電郵欺詐(BEC)已連續第8年列入最嚴重網絡犯罪形式之一;在網絡釣魚活動中,使用Web3平臺托管惡意內容,Web3技術增加了341%;利用Telegram機器人竊取信息的惡意活動明顯增加,同比增長超過800%;結合惡意軟件特性、成本和復雜性等特點,QakBot、Emotet依然是最值得關注的惡意軟件家族。當前,電郵行業面臨的困難主要有以下幾個方面。
(1)多源異構數據增多,網情分析難度加大。短視頻等新業態帶來顛覆性問題,數據結構已發生巨大變化,文字、圖片、音頻、視頻等非結構化數據呈指數級增長,網情監測在數據體量、生產速度和復雜程度等方面都發生了巨大變化[5]。
(2)深度偽造方法多樣,違規數據變種增多。目前,可用于深度偽造生成的開源軟件增多,出現更多的文本敏感詞、特殊符號混淆、圖片嵌入等違規內容形式,極大降低了偽造門檻,如何識別深度偽造面臨新的技術挑戰[6]。
(3)風控異常檢測缺失,反垃圾效果不明顯。單純依賴內容維度檢測,缺失賬號維度、行為維度異常檢測,存在著內容風控維度單一、反垃圾效果不佳等問題;目前內容風控比較滯后,無法預知行為異常,垃圾內容通過頻繁更換不同賬號發送。
(4)針對性攻擊更激烈,高級防御能力偏弱。互聯網上釣魚攻擊威脅的生命周期在不斷縮短,電子郵件攻擊越來越具有針對性,而勒索軟件攻擊則增長了數十倍,垃圾郵件的種類及其發送工具也越來越復雜、多樣。
(5)違規內容對抗性強,人機審核難度加大。隨著個性化算法推薦技術的廣泛應用,信息內容分發效率得到顯著提高,與此同時伴隨著虛假信息傳播、信息繭房等問題,僅依靠人工和機器審核,無法判斷消息來源真假,去偽存真的內容審核愈發重要[7]。
3? ?電郵行業技術趨勢
圍繞我國電郵行業目前面臨的重大技術難點,根據當前科學發展趨勢與國際市場趨勢研判,為全面落實黨的二十大會議精神,深入貫徹我國創新驅動發展戰略,全面釋放大數據分析潛能,將著重圍繞在大數據分析人工智能、高級機器學習、人機智能等新興技術領域進行攻關,以算法為關鍵核心、以數據和硬件為基礎,重點圍繞知識計算、認知推理、人機交互等關鍵領域共性技術重點布局攻關。
(1)全網監測網情態勢,掌握關鍵信息動態。在數據融合方面,通過利用跨模態認知計算、語義理解認知等智能化技術,基于文本、圖片、音視頻等數據,通過機器視覺相關算法及模型來增強語義層面的融合與挖掘分析,從而融合處理多模態的復雜信息和數據和建立知識圖譜。在態勢預警方面,基于全球多語言、跨模態、全媒體信息智能搜索技術以及基于文本語義分析組件平臺的有害信息監測發現、基于隱馬爾科夫模型等預警技術,實現敏感和有害信息的快速預警,提供態勢感知、信息預警、深度研判、決策參考等全鏈條大數據支撐。
(2)實時捕獲環境特征,提高內容識別效果。在敏感信息特征提取方面,通過機器學習方法來抽取敏感信息特征、構建敏感信息識別語義模型,進而提出敏感信息檢測方法,從而實現智能鑒黃、違禁檢測、涉政檢測等功能,并建立自適應移動互聯網特征的機器學習算法庫[8]。在模型參數的自動更新方面,通過采用在線學習算法可以及時捕獲最新的環境特征,從而對模型特征和參數進行適時更新調整,從而可減少模型的檢測性能下降問題。此外,為了更好地提高內容理解和識別效果,一方面可以通過聯合聚類技術,來收集偏旁部首的筆畫屬性特征,從而發掘詞語使用規律,進而構建高階語義的智能詞庫,從而解決數據變種快的現象;另外,也可以通過語義池挖掘方法找到關鍵目標主題的語義池,并通過訓練不同詞向量模型,以便于確定上下文語義關系圖和減少多義詞問題。
(3)建設內容風控體系,及時發現隱藏風險。運用深度學習技術,通過風險名單、IP畫像、人機分析、設備建模、行為模型、業務模型等算法模型庫,通過研究多業務場景的全過程智能數據分析,新建關聯多維度行為的動態業務模型來滿足用戶需求,并經過應用者授權來檢測圖像、視頻中的色情、涉政等違法違規現象,通過定期對網站進行監測并及時發現內容安全風險,探索網絡空間數據行為分析方法,從而發掘數據背后的行為規律,掌握信息行為背后的意圖,對行為進行精準預測,對網絡空間態勢進行評估,并以此為網絡空間安全的監管政策提供強大技術支持。
(4)強化高級威脅防御,減少垃圾郵件干擾。為避免DDOS、字典入侵攻擊、內部濫發和盜號等狀況的發生,以及保護郵件用戶系統不被納入黑名單系統、保證郵件用戶安全穩定和通信順暢,我們需要采用截獲病毒、勒索、釣魚郵件等方法精準地識別垃圾郵件,以降低帶寬耗費和對垃圾信號的影響。在用戶行為分析和深層次內容解析等先進技術手段的基礎上,可采用沙盒動態行為分析技術,高效發現未知威脅,并采用靜態檢測、動態檢測、病毒檢測、釣魚檢測等技術引擎提升企業各種威脅檢測的能力,并可按照需求靈活地選擇檢測策略,通過實時而精準的分析技術來進行不間斷地威脅檢測和反垃圾防護措施。
(5)提高內容審核巡查,降低人工審核成本。通過建立涵蓋“內容+人員+運營”的鏈條式管理機制、提供細分型的定制化服務,來提高對產出內容信息的審查能力以及對具備文本、圖像、語音、視頻、網頁等多媒體內容信息的風險智能辨識與評估能力,同時創新發展并完善AI算法,打通人機審核的聯動機制,提升機審模型有效性,使人與AI有機融合在一起,實現更加有效和精準的內容信息審查工作,以便于迅速識別淫穢色情、暴力恐嚇、政治敏感等信息,從而有效減少人工審核成本。
4? ?建議與展望
(1)電郵從內容安全角度為切入點,具有一定發展空間。隨著新的媒介形式不斷發展,郵件的內容安全問題也是越發突出,我們需要完成從關鍵詞分析到構建知識圖譜的演進,完成從文本分析到跨媒體分析、從單語種分析到跨語種分析、從內容分析到“時間+空間+地域+內容+群體+行為”的多維分析轉變。未來電子郵件的技術發展將主要朝安全性、物聯網、融合三個方向發展。
(2)電郵用戶群體聚焦在黨政機關事業單位和國有企業。當前無紙化電子辦公盛行,而政務郵件系統又是我國國內政務部門間傳遞信息的重要基礎設施,并已成為外來攻擊者的攻擊重點。另外,由于政務工作人員性質特殊且責任重大,信息傳輸的安全性問題顯然更為重要,應切實增強對黨政機關事業單位和國有企業間網絡電子郵件系統的安全監管與保護力度[9]。
(3)加快推進電郵大數據核心技術能和產業智能化升級。隨著網絡黑客和各種勢力對我國網絡攻擊和滲透力度逐漸加大,我國面臨著日益嚴峻的網絡空間安全問題。電郵大數據的關注點不應該只局限于表層應用的開發,更多應關注于核心技術開發。在保證信息安全的同時,我們應立足“技術+應用”發展道路,有效提高用戶體驗,推動人工智能與電郵行業融合創新,實現典型示范應用和“殺手锏”產品,基本形成技術標準、服務體系和產業生態鏈,推動規模化應用,提升產業智能化發展水平。
參考文獻
[1] 吳朝暉.人工智能的過去、現狀和未來[J].未來傳播,2019(3):4.
[2] 曹紅.計算機多媒體技術的應用現狀與發展趨勢[J].產業與科技論壇,2022(10):47-48.
[3] 于惠雯,趙藝潔.多媒體計算機技術開發研究[J].信息記錄材料,2021(2):118-119.
[4] 龔文全,孫明俊.內容安全治理問題現狀及發展建議[J].中國信息安全,2020(2):65-67.
[5] 孫麗杰,李春華.大數據環境下網絡輿情管理方法研究[J].思想政治教育研究,2017(1):124-129.
[6] 朱浩齊.構建全鏈路內容風控體系解決內容安全難題[J].中國信息安全,2020(2):73-74.
[7] 龔文全,孫明俊.內容安全治理問題現狀及發展建議[J].中國信息安全,2020(2):65-67.
[8] 劉聰,周子韜,張才俊,等.結合觸發事件及詞性分析的敏感信息識別方法[J].計算機工程與應用,2020(20):132-137.
[9] 朱次平,周燕.政府公務郵箱系統建設實踐——以貴陽市公務郵箱系統建設為例[J].信息系統工程,2020(5):18-19.