張顥芳 ,康春穎 ,張 偉
(1.黑龍江大學 數據科學與技術學院,黑龍江 哈爾濱 150000;2.黑龍江大學 現代教育技術中心,黑龍江 哈爾濱 150000)
滿語文曾在歷史上起過重要作用。隨著歷史的發展變化,如今滿語已成為瀕臨消亡的語言, 對這種語言的記錄、保存和研究具有搶救人類瀕危文化資源的重要價值與意義。時至今日,滿語口語僅在黑龍江省富裕縣三家子村、黑河市大五家子一些滿族村屯中還有遺存,其中僅有年齡在70 歲以上的十幾位老人還可以熟練掌握滿語,50 歲以上滿語會話較好者僅有數十人。滿語消亡已進入最后階段,形勢緊迫,亟待持續有效的搶救保護與調查研究[1]。在此背景下,滿語保護工作者們為搶救滿語搭建了一個大數據平臺。大數據平臺雖然為信息的處理帶來許多便利,也會引發新的安全風險與挑戰[2]。本文制定一份安全防范流程,并提出了安全防范模型圖,為此類數據平臺提供一個綜合性的安全防范框架。
基于滿語數據平臺自身的特點以及當前有關數據平臺安全防范的研究成果,本文首先論述了平臺將會使用的安全防范技術手段,為模型的建立提供技術支撐,然后根據平臺前期建設及后期維護的工作,設計出安全防范模型。
1.1.1 防護手段
安全防范中最基礎的防護手段是建立防火墻[3]。平臺科學地使用軟硬件防火墻,同時將并聯使用兩個防火墻以增加攻擊難度,并對平臺權限授予及來訪者身份管理進行系統的分級分類。
由于本平臺是在大數據驅動下的滿語數據平臺,平臺的數據信息將呈現出體量龐大、種類繁多以及傳播速度快等特點[4],因此平臺數據的加密保護將成為防護重點。
1.1.2 檢測手段
平臺的檢測手段有很多,主要分為三種,即漏洞掃描、狀態監控和入侵檢測。漏洞掃描從內容上大體分為兩種,一種是掃描Web 應用漏洞,另一種是掃描Web 服務器漏洞。狀態監控意味著在平臺運行的過程中,管理員需實時監控平臺數據庫的運行狀態及訪問者狀態等并進行日志記錄,以保障平臺的安全穩定。
入侵檢測則是一種更為積極的主動安全檢測手段,其工作內容分為多種:檢測用戶的行為并進行分析,對平臺的異常活動進行攔截與記錄,處理內外部攻擊,利用安全防范模型對平臺進行風險評估等[5]。實施方法上則劃分為異常檢測法和混合檢測法。
1.1.3 恢復手段
數據備份是一種預防式的數據保護模式,可應對平臺使用過程中出現的數據丟失及損壞情況[6]。導致平臺數據丟失及損壞的原因多種多樣,不僅是因為有攻擊者入侵,也有可能是由于平臺本身存在漏洞、管理員操作不當等。同時,數據備份還可用于對主數據庫和重要文件的監控和跟蹤,在備份機中生成對應的更新日志,備份系統會根據更新日志,自動對備份磁盤進行數據更新[7]。通過以上操作,最終將實現數據信息的備份,為平臺的恢復提供基礎保障。
根據滿語數據平臺的存儲結構、系統功能及業務類別等方面的內容,對其采取層次化安全技術防護,構建滿語平臺安全防范模型。模型具體劃分為以下五個層級,如圖1 所示。

圖1 安全防范模型圖
物理層是搭建平臺總體框架的基礎,它可以為連接各個設備并為其之間的數據通信提供傳輸媒介。物理層的內容涵蓋軟硬件設備接口、平臺服務器、數據存儲系統基礎設施設備和網絡傳輸設備。在數據傳輸過程中,利用身份認證、權限管理、入侵檢測等方法,保障物理層所提供的傳輸安全。同時為進一步保障物理層安全,將采用軟硬件安全隔離以及底層數據加密技術,使物理層不僅提供數據傳輸,更能保障平臺底層安全。
數據信息的采集內容包含閱讀整理各類滿語文獻資料,并需要調查者走訪各滿族村落,了解滿語現狀并采訪當地人、收集滿語使用者的發音音頻等。
其次數據信息的匯聚需要管理員將采集到的數據信息進行分類整理,然后以數據流的形式存入后臺數據庫中。并對關鍵數據進行加密處理,賦予不同用戶訪問數據的權限。同時提前對數據進行備份并實時更新數據信息。
2.3.1 數據整理
在數據平臺建設前,需對前期采集的大量數據進行整理。文字類型的數據,可利用相關軟件進行數據整理,數據整理包括正確轉錄、行或列的重置、凈化數據、數據審核等。而對于語音和視頻類的數據,管理員則需要根據前臺功能模塊的設計將其分類打包,方便后期以數據流的形式接入數據庫。同時利用網閘、防火墻等設備對流入的數據進行安全隔離,并通過數據管控做到對流入數據的溯源和追蹤。
2.3.2 前端設計
平臺的前臺設計主要是為了實現用戶界面交互,界面要求功能清晰明了,布局規整[8]。同時需要對用戶及其相應的權限進行分級分類管理,設定分級分類名單,并通過數字簽名驗證身份。
另一方面,平臺前端作為交互的窗口,也會遇到各類數據平臺前端攻擊,如 XSS 攻擊、CSRF 攻擊等。平臺管理員需要針對此做到嚴格審查用戶上傳的信息、關注敏感詞匯、不將重要文件放在用戶都可以觸及的地方以及對平臺的重要操作進行跟蹤驗證等。
2.3.3 后臺設計
平臺數據庫的搭建工作是數據建設層的關鍵。數據庫安全的實現依托多方內容,從數據庫的功能上劃分,分為兩個層次:第一層次是內部環境,主要是指訪問控制,即不同用戶和管理員的訪問權限。在這一過程中,平臺需要依靠加密技術、數字簽名認證技術等實現訪問安全。第二層次是外部環境,在外部環境中平臺可能會面臨病毒入侵、惡意攻擊等問題。此時管理員需要對平臺進行預保護,比如數據庫備份、設立防火墻等,同時要應用入侵檢測技術,及時對平臺進行安全檢測。根據數據庫的實際授權情況,對數據庫進行相應的加密處理。具體如圖2 所示。

圖2 數據庫安全的實現
2.4.1 日志分析
日志是指平臺使用者在一定的操作后使系統、軟硬件設備產生的相應記錄[9]。日志分析主要分為三部分內容:日志數據源、日志分析和日志報告。日志數據的狀態則分為:預處理、分析計算、整合和關聯。通過收集整理來源于平臺各處的日志消息,進行日志分析,從而發現平臺中潛在的威脅和安全隱患,及時作出相應的準備和預防工作。經過以上步驟的工作后,最終將生成日志分析報告,具體內容如圖3 所示。
2.4.2平臺管理
數據平臺管理主要是指保障本項目所依托的Web 平臺整體的安全,包含用戶接口、前臺系統、后臺系統以及服務器主機等[10-11]。由于數據平臺易于攻擊,攻擊者可選擇的方式更是多種多樣,如網頁篡改、網站后門、數據篡改和網絡代理等。數據平臺管理安全主要包含用戶自防御、安全檢測、應用防護和防護統計及結果分析幾部分的工作。具體如圖4 所示。

圖3 日志分析工作模塊

圖4 數據平臺安全管理圖
2.4.3 滲透測試
對于清代碑學發展的反思、批評的文章如戴逸[4]認為,“碑學派所說固然也抓住了帖學派的某些弱點,但門戶之見太深。貶斥異己,一筆抹殺,未必公正。平心而論,北碑派未必都是好字,南帖派也未必都是劣書,北碑南帖各有特色。”黃惇[5]亦認為,金農、趙之謙的“稿書”融合碑帖,而楊守敬、沈曾植并不否定帖學,同時提出:“為什么刻帖濾漫、翻刻失真即當拋棄,而碑刻法漫、殘破模糊,卻當備加贊揚呢?”叢文俊[6]更是提出,“就連倡碑名家阮元,書法亦未能逾出主流帖學之外。”
滲透測試(Penetration Test)是通過模擬黑客的攻擊方法和漏洞發掘技術來評估計算機系統安全的一種評估方法,該方法是從攻擊者角度發現分析系統的缺陷及漏洞,進而嘗試利用某些漏洞對信息系統實現主動攻擊,從而評估系統存在的可能安全風險問題[12]。借鑒文獻[13]和[14],給出滲透測試的操作流程如圖5所示。
滲透流程分為前期測試準備、中期測試執行和后期風險評估。測試準備階段需要確定本次測試的基本情況,如本次測試的目的、方法、參與者和基本操作方案; 實驗過程中是否有一定的安全措施,能否應對突發情況等。
測試執行需要首先采集平臺基礎信息,如平臺的域名信息、whois 信息及 IP地址信息;平臺的設計框架及工作流程;平臺的敏感信息及目錄等[15]。然后正式進行滲透攻擊。現行的滲透方法有很多,如人工檢查、SQL 注入、XSS 跨腳本攻擊、CSRF 跨站請求攻擊等。再將實驗數據進行詳細記錄和比對,以便于后期解析平臺漏洞。

圖5 滲透測試流程圖
風險等級評估需要全組實驗人員對獲取的數據進行綜合和分析,進行漏洞解析,并給出大數據驅動下的滿語數據平臺的風險級別,風險級別一般劃分為“低”、“中”、“高”三個等級。測試者最終生成一份滲透報告,達到對平臺安全進行全面分析的目的。
終端層是指以有線方式或以移動方式連接的終端設備及相關傳輸網絡。用戶可在智能手機、臺式電腦、平板電腦以及相關移動互聯網設備上訪問本平臺。傳輸網絡則是指與安全服務分析層的連接,保障網絡的正常傳輸。
終端層的功能是實現人機交互,因而對終端層的管理需要根據來訪者的身份進行權限控制,授予用戶或管理員不同的讀寫能力。同時應用數字簽名認證相關技術驗證來訪者身份,保障平臺整體的穩定和安全。
安全防范模型投入滿語數據平臺應用后,依照模型中安全服務分析層的內容,對滿語平臺進行安全測試與評估。實驗流程分為前期訪談、中期檢查和后期測試,即對平臺管理者進行工作訪談,了解平臺搭建的具體情況;檢查平臺的相關安全設施和指標;應用現行技術進行安全測試等。實驗的名稱、內容、結果及改進意見如表1 所示。
上述實驗結束后,針對實驗過程中發現的問題及改進意見,生成實驗報告。同時根據實驗情況,給出本滿語平臺安全為“中”等級,平臺存在部分安全隱患,但總體安全情況良好,依據意見進行改進,有望達到安全“高”等級。應用安全防范模型,對平臺進行安全檢測,過程條理清晰、內容全面、結果科學有依,表明其可為數據平臺的安全檢測提供有效方案。

表1 滿語平臺安全測試
本文以滿語數據平臺為例,針對滿語保護的迫切性和相關數據資源的珍貴性,設計出安全防護模型以保障其平臺的安全。防護模型結合了當下多方面的防護理念及方法,其中詳細論述了安全服務分析層的內容。然而數據平臺的安全防護工作不是一蹴而就的,需要平臺管理人員和技術人員對平臺進行定期檢查、堅持記錄整理日志信息、不斷設計新的防御方案等。未來的工作主要是嘗試將本文提出的安全防護模型應用于各類數據平臺的保護工作中,在實踐中不斷調整模型方案,為大數據驅動下的數據平臺安全防護研究提供堅實依據。