吳少華,卞信東,吳江煌
(廈門美亞億安信息科技有限公司 福建 廈門 361008)
國內(nèi)數(shù)字經(jīng)濟飛速發(fā)展,掀起了企業(yè)數(shù)字化轉(zhuǎn)型的浪潮。在此過程中數(shù)據(jù)失泄密的問題日漸凸顯,電子郵件首當其沖成了泄密事件高發(fā)的渠道,每封郵件的傳遞均有可能打開潘多拉魔盒。由于郵件失泄密造成的危害往往不可估量,越來越多的企業(yè)開始未雨綢繆,定期的郵件保密檢查無疑是不二之選。
同時,自網(wǎng)絡強國戰(zhàn)略和國家大數(shù)據(jù)戰(zhàn)略實施以來,企業(yè)的數(shù)據(jù)安全建設工作穩(wěn)步開展,《信息安全技術(shù)-網(wǎng)絡安全等級保護基本要求》(簡稱等保2.0)和《數(shù)據(jù)安全法》等法律法規(guī)均對企業(yè)的數(shù)據(jù)安全提出了合規(guī)化要求。此外,數(shù)據(jù)安全建設強調(diào)要秉持自主可靠可控的思想,這樣才不會被國外技術(shù)“卡脖子”。故而研究數(shù)據(jù)安全管控方案下的國產(chǎn)化郵件保密檢查平臺對于促進數(shù)字經(jīng)濟的健康發(fā)展具有重要意義。
保密工作重于泰山,對于郵件保密檢查技術(shù)的研究長期以來均是困擾著業(yè)界的難點,特別是在當前數(shù)字中國建設乘勢而上的新背景下,傳統(tǒng)的檢查手段已經(jīng)不能完全適應安全保密工作的新需求。
具體來看主要包含以下4大問題:首先,檢查過程中不能保證待檢郵件數(shù)據(jù)的傳輸和使用安全,無法滿足“文件不落地”等數(shù)據(jù)合規(guī)高級別要求,存在二次泄密的風險。其次,現(xiàn)有的檢查手段發(fā)現(xiàn)郵件失泄密隱患的能力還有欠缺,尤其是在圖像密級識別、多重嵌套復雜文件密級識別上無法做到全覆蓋。再者,不能對檢測到的違規(guī)行為進行深入的復盤取證,缺乏有效的郵件失泄密追蹤溯源手段。此外,現(xiàn)有的郵件保密檢查方案普遍對國產(chǎn)系統(tǒng)支持不友好,而國產(chǎn)化涉密計算機主要安裝的是國產(chǎn)自主操作系統(tǒng),如中標麒麟或者中科方德的操作系統(tǒng),相應保密檢查工具開發(fā)滯后的問題亟需解決。綜合來看,此項研究工作依舊任重道遠。
除了數(shù)據(jù)安全法規(guī)的約束,數(shù)據(jù)的價值也讓企業(yè)重新審視數(shù)據(jù)的使用問題,《經(jīng)濟學人》早在2017年就撰文稱數(shù)據(jù)是未來的石油。正因如此“數(shù)據(jù)不落地”逐漸成為企業(yè)選擇保密檢查產(chǎn)品時的重要考量指標,即數(shù)據(jù)的流轉(zhuǎn)需要接受嚴格的策略管控,以確保數(shù)據(jù)的傳輸、使用、存儲安全。而作為新一代網(wǎng)絡安全防護理念中的翹楚,零信任能夠很好地應對此類挑戰(zhàn)[1],并且該理念與等級保護思想及等保2.0技術(shù)要求高度契合。
簡單來說,零信任是一種安全模型,采用“持續(xù)驗證+動態(tài)授權(quán)”模式構(gòu)筑起企業(yè)的網(wǎng)絡安全基石。基于零信任理念,該設計方案借助微隔離技術(shù)創(chuàng)建一種以數(shù)據(jù)為中心的全新邊界,并通過身份權(quán)限管理技術(shù)來達到保護數(shù)據(jù)的目的。微隔離和身份權(quán)限管理均是零信任安全架構(gòu)的核心技術(shù),前者用于保障企業(yè)內(nèi)部服務器相互訪問時的東西向網(wǎng)絡安全,后者則對企業(yè)內(nèi)部所有數(shù)字實體進行唯一資源標識身份化處理。毫無疑問,有了零信任的加持,數(shù)據(jù)隔離和管理均將變得更加輕松高效。當然,需要指出的是本文涉及的零信任更準確的定義為針對郵件保密檢查業(yè)務的局部零信任。用微隔離實現(xiàn)的局部零信任網(wǎng)絡拓撲,如圖1所示。

圖1 用微隔離實現(xiàn)的局部零信任網(wǎng)絡拓撲
對于主流的個人郵箱和企業(yè)郵箱,檢查平臺可以通過郵箱賬號及授權(quán)信息將郵件數(shù)據(jù)導回到存儲服務器,自建郵件系統(tǒng)的數(shù)據(jù)由企業(yè)提供。可以看到,通過這套機制成功實現(xiàn)了郵件數(shù)據(jù)所有權(quán)和使用權(quán)的分離。
郵件保密檢查平臺的整體邏輯架構(gòu),如圖2所示。其中,數(shù)據(jù)分析層相當于核心大腦,郵件信息會在這里完成各類加工處理,平臺依據(jù)分析結(jié)果進行綜合的研判,業(yè)務功能層是通過UI方式最終呈現(xiàn)給用戶的功能集合,公共體系則作為系統(tǒng)運行的基礎組件,旨在確保各模塊穩(wěn)定運行。

圖2 郵件保密檢查平臺的整體邏輯架構(gòu)
在數(shù)據(jù)合規(guī)領(lǐng)域,凡是有固定載體、不會瞬間消失的持久化數(shù)據(jù)均是落地數(shù)據(jù),如存儲在硬盤上的數(shù)據(jù)。與之相對,使用完畢就會消失的數(shù)據(jù)就是不落地數(shù)據(jù),如存儲在內(nèi)存中或在網(wǎng)絡中傳輸?shù)臄?shù)據(jù)。傳統(tǒng)的郵件保密檢查方案會將郵件內(nèi)容全部提取到本地磁盤,檢查結(jié)束后再進行刪除。在這種方案中刪除的郵件很容易通過恢復技術(shù)進行數(shù)據(jù)還原,從而造成數(shù)據(jù)泄露的風險,很明顯這與保密檢查的宗旨不相符,尤其是數(shù)據(jù)安全備受關(guān)注的當下看起來無疑是格格不入的。本文設計了一種安全磁盤[2],主要的處理模塊如圖3所示,其核心原理是借助虛擬磁盤技術(shù)來實現(xiàn)郵件的無痕檢測,有點類似惡意程序經(jīng)常用到的無文件內(nèi)存無痕攻擊技術(shù)。

圖3 安全磁盤的主要處理模塊
保密檢查期間,技術(shù)人員會在負責檢測的計算機內(nèi)存中設置安全磁盤,然后經(jīng)過身份驗證和郵件數(shù)據(jù)服務器建立連接,郵件內(nèi)容經(jīng)由自定義網(wǎng)絡協(xié)議獲取,加密后被寫入創(chuàng)建的安全磁盤,郵件檢查平臺會自動開始對已寫入安全磁盤的數(shù)據(jù)進行保密檢查,待完成所有的保密檢查任務后卸載用到的安全磁盤。加密采用的是國密算法,郵件內(nèi)容由速度快的ZUC序列算法進行加密,相關(guān)密鑰隨機生成并通過SM2非對稱算法公鑰加密后保存。這個過程中,安全磁盤的數(shù)量并不是固定的,會依據(jù)當前計算機的內(nèi)存容量和待檢測郵件的數(shù)量級進行動態(tài)創(chuàng)建,并有專門的調(diào)度模塊進行分配管理,是為了達到平臺檢測速率和郵件的網(wǎng)絡傳輸速率相均衡。
隨著信息量的急速膨脹,電子郵件中的圖片越來越復雜,并且通過移動設備拍攝的圖片占比逐年遞增,這類圖片很容易受到外界環(huán)境的干擾。傳統(tǒng)OCR技術(shù)在識別時就遇到了不小的瓶頸,效果常常不盡如人意。
通過深度學習進行OCR識別,數(shù)據(jù)集的關(guān)鍵性不言而喻,由于保密檢查這一特殊的應用場景,目前主要還是借助人工合成的方式生成大量包含密級關(guān)鍵字的數(shù)據(jù)集,相應的關(guān)鍵字會根據(jù)具體的落地項目進行補充擴展,力求達到最佳的識別效果。而在算法處理層面,主要分為以下步驟:1)文本檢測,即定位文字的區(qū)域;2)文本識別,對定位好的文字區(qū)域進行識別;3)文本矯正,對識別到的文字進行NLP糾錯。
圖像文本檢測中,水平文字的檢測采用CTPN,傾斜文字的檢測則采用Seglink,二者的思路類似,均是先檢測出文本的一部分后再連接成文本區(qū)域。在文本識別階段,該模型基于卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)+LSTM+CTC來構(gòu)建。其中,CNN負責提取圖像的卷積特征,并經(jīng)由LSTM進一步提取圖像卷積特征中的序列特征。這里LSTM主要為了解決長序列訓練過程中的梯度消失和梯度爆炸問題,相比普通的RNN,LSTM能夠在更長的序列中有更好的表現(xiàn)。CTC用于解決輸入和輸出序列長度不一、無法對齊的問題,它扮演著模型中的損失函數(shù)[3]。CTC訓練對應的最小化目標函數(shù)如下,在訓練集S={(x,z)}中,x是經(jīng)過CNN計算得到的特征,z是OCR字符標簽,為神經(jīng)網(wǎng)絡,實現(xiàn)了一個映射函數(shù),其公式可表示為
最后,利用語義信息提升OCR識別的準確率[4],需要預先設定置信度來表征識別錯誤的可能性,置信度低的文字才進行糾錯處理,糾錯方案是基于密級關(guān)鍵詞表設計的,該方案對于保密檢查來說效果較好。
一般情況下,普通用戶在收發(fā)郵件時很少會去關(guān)注郵件消息頭,郵件客戶端展示出來的只是其中的冰山一角。諸如Received、Return-Path、DKIM、DMARC、Content-Type、Message-ID等消息字段包含有大量的信息,這些信息更值得深入挖掘。
在本文設計的方案中,為了優(yōu)化郵件保密檢查的速率,技術(shù)人員會對垃圾郵件進行過濾,為了確保取證結(jié)果的真實可信,還需要對郵件的真?zhèn)芜M行判別,此類問題均可以進一步轉(zhuǎn)換成基于郵件頭的郵件分類問題。由于分析的是海量級別的郵件數(shù)據(jù),考慮用機器學習來處理[5],這里用到的是樸素貝葉斯分類,相應的分類器表達式可表示為
式中:y為類變量;X=(x1,x2,x3,…,xn)是依賴特征向量,也就是郵件頭中的各消息字段項特征。需要用到類變量y的所有可能值計算概率,選擇其中概率最大者作為分類的標簽。
而對于郵件的失泄密溯源,消息頭的Received字段至關(guān)重要,它詳細記錄了郵件的傳輸歷史和郵件傳輸經(jīng)過的節(jié)點信息,即每臺接收到郵件的服務器IP和機器信息。能夠方便識別郵件來源、判斷郵件轉(zhuǎn)發(fā)路徑等,從而在檢測結(jié)果研判階段更好地進行取證復盤。
“推進保密科技創(chuàng)新,發(fā)展自主安全可控產(chǎn)業(yè)”一直均是保密工作的要求,核心技術(shù)受制于人,會從根本上動搖安全保密的防護基礎。在開發(fā)郵件保密檢查平臺的過程中,國產(chǎn)化系統(tǒng)上的軟硬件兼容和適配是核心的關(guān)鍵技術(shù)問題[6],花了大量的時間進行調(diào)試處理。由于技術(shù)指標的考慮,如速度、效率、硬件調(diào)用、并行計算、圖形計算、加密算法等,項目最終確定采用C/C++進行開發(fā),Windows下的一些C/C++算法庫在遷移時經(jīng)過了一些簡單重寫,至于Java開發(fā)的部分則通過jar包方式完成調(diào)用,界面部分選擇跨平臺友好的QT。規(guī)劃時要盡量考慮通用的方案,才不至于實施后倍感舉步維艱。處理器上需要適配龍芯,而像數(shù)據(jù)庫這些需要適配達夢數(shù)據(jù)庫等,很多時候均是摸著石頭過河,網(wǎng)上可參考的資料寥寥無幾。另外,鑒于國產(chǎn)系統(tǒng)環(huán)境的開發(fā)目前限制還比較多,設計人員在第三方類庫上盡可能選擇開源項目,有源碼在手會更容易排錯,如果動態(tài)庫不可用,那就只能選擇靜態(tài)編譯的方法,對于那些提示系統(tǒng)GCC版本太低而又無法升級的情況,也可以打造相應的國產(chǎn)中間件進行支持。
簡單來講,軟件國產(chǎn)化工作應該強調(diào)硬件和軟件的協(xié)同發(fā)展,這有利于在開發(fā)者和用戶之間形成持續(xù)的正向反饋,促進國產(chǎn)處理器軟件生態(tài)的發(fā)展。同時要注重培養(yǎng)國內(nèi)的開源社區(qū),腳踏實地慢慢形成國產(chǎn)化軟件開發(fā)的環(huán)境和氛圍。
按照前文論述的設計方案,進行了相關(guān)的編碼實現(xiàn),并在測試環(huán)境中完成了局部零信任網(wǎng)絡的部署。由于采用了微隔離技術(shù)及安全磁盤無痕檢測技術(shù),郵件的數(shù)據(jù)安全得到了極大保障。相關(guān)人員會對失泄密場景中的郵件進行各類數(shù)學統(tǒng)計,如以郵件收發(fā)頻率、直接關(guān)聯(lián)收發(fā)關(guān)系、郵件IP分布等,并以可視化圖表進行展示。在排除掉篡改郵件后,各類郵件數(shù)據(jù)的處理結(jié)果會匯入數(shù)據(jù)分類模型來做進一步判斷,這些挖掘的信息為失泄密郵件快速溯源和流轉(zhuǎn)脈絡梳理提供了強有力的支撐,具體的分析結(jié)果可以方便導出為DOC和RTF格式報告。另外,該郵件保密檢查平臺在性能和效率上也有著不俗表現(xiàn)。綜合來看,此方案在探索踐行保密分級保護制度及數(shù)據(jù)安全法規(guī)上走在業(yè)界的前列。
本文提出的基于局部零信任的郵件保密檢查方案能在保證高質(zhì)量失泄密檢測的同時兼顧好數(shù)據(jù)合規(guī)這一新的需求,為企業(yè)日常的保密工作提供了強大的技術(shù)手段支撐。在下一步的工作中,將致力于拓展可適配的國產(chǎn)操作系統(tǒng)版本,并且加大對郵件文本意圖分析技術(shù)的研究投入,將其作為多模密級關(guān)鍵字匹配的補充,以期挖掘更加隱秘的郵件失泄密情形。