




摘 要:在大數據及云計算技術、物聯網技術快速發展的背景下,圖書館局域網內書籍、文獻資料、文檔文案等信息逐漸增多,網絡安全態勢感知、安全預警與防護成為多方關注的重要問題。為解決網絡攻擊、網絡用戶訪問導致的圖書館信息系統安全問題,引入Hadoop分布式軟件架構、MapReduce編程模型、HDFS(Hadoop Distributed File System)分布式文件系統、Hive數據倉庫、MySQL數據庫等組件,建構面向圖書館網絡日志監測、告警分析的安全管理系統,收集局域網間數據傳輸通信的用戶訪問、網絡威脅攻擊等安全日志,使用K-means數據簇聚類算法展開數據挖掘分析,作為網絡安全預測與評估的依據,提出ABE(Attribute Based Encryption)算法進行圖書館通信數據的加解密操作,從而最大程度地保障圖書館系統傳輸層、應用層的網絡數據訪問及傳輸安全性。
關鍵詞:圖書館信息系統;網絡安全;數據加密
中圖分類號:G 25 " " 文獻標志碼:A
在“互聯網+”產業轉型的環境下,各地區圖書館紛紛依托大數據及云計算平臺、物聯網技術建構數字圖書館信息系統,然而大量外部用戶訪問圖書館平臺、檢索館藏數據資源將帶來嚴重的網絡安全與管理問題。面臨網絡用戶非法訪問、木馬或病毒入侵攻擊等安全威脅,基于MapReduce并行部署方案采集入侵的網絡日志數據信息,使用K-Means聚類算法挖掘分析監測的用戶訪問、入侵攻擊信息,根據不同的網絡入侵攻擊威脅等級,使用網絡節點通信的ABE算法、DEA算法、RSA算法進行圖書館書籍數據加密傳輸,提升網絡用戶訪問及攻擊的數據安全防護效果。
1 圖書館網絡安全監測與管理系統建構的主要技術
當前,圖書館局域網絡的非法訪問、入侵攻擊等安全威脅包括探測攻擊(Probe)、遠程權限獲取攻擊(Remote to Local,R2L)、遠程用戶攻擊(Remote to User,R2U)、用戶提權(User to Root,U2R)攻擊、拒絕服務(Denial of Service,DoS)攻擊,面對不同網絡攻擊類型的日志數據感知與分析,通常涉及以下4個方面的技術[1]。
1.1 Hadoop分布式集群架構技術
Hadoop分布式軟件架構為服務應用程序開發、文件存儲的結構,主要由MapReduce編程計算模型、HDFS分布式文件系統、Mahout數據挖掘庫、Hive數據倉庫、Pig數據流處理、Flume日志收集工具等組件構成,不同模塊分別負責數據預處理、并行數據計算、傳輸數據提取、分布式數據存儲的業務功能實現,具體框架結構如圖1所示[2]。
1.2 MapReduce并行計算技術
MapReduce編程模型是面向大規模數據集處理的并行計算技術,通常將Map任務、Reduce任務處理組件組合為MapReduce應用程序,負責完成圖書館訪問或入侵數據的篩選、合并操作。其中,Map任務執行階段主要面向網絡節點的訪問數據,將輸入數據集拆分為多個切片片段,例如將0、1、2、3、4等數據片段分配至Map任務節點,各任務在特定的塊存儲服務器中運行后,處理得到(K0,V0)、(K1,V1)、(K2,V2)、(K3,V3)、(K4,V4)的中間鍵/值對。然后,在Reduce任務階段將中間鍵/值對集合重新排序,生成新的二元組數據集(K',V'),使用reduce自定義函數運行數據處理指令對相同的數據文件名/文件內容進行合并,生成輸出鍵/值對(K*,V*)結果。
1.3 HDFS分布式存儲技術
HDFS分布式文件系統是面向海量網絡數據、大文件數據集的存儲方式,其采用ScaleOut橫向擴展架構,定義最小存儲單元為Block,最大存儲文件為TB~PB級別,通常該組件被分散部署于云服務器中,將網絡數據處理、存儲任務分配至多個網絡節點。當外部Client客戶端向HDFS文件系統發送數據讀寫請求后,由分布式文件系統的NameNode節點監測數據文件名、數據塊號是否存在,如果存在,那么基于數據塊分配策略讀寫數據文件,由DataNode節點調用、檢索后臺服務器的數據文件,否則返回I/O流異常信息;在數據讀寫的所有訪問請求完成后,利用NameNode節點將編號數據塊存放至文件查詢隊列,并將請求數據返回至Client客戶端。
1.4 網絡安全日志挖掘技術
基于Flume日志采集工具、Hive數據倉庫、Zookeeper分布式協作服務等組件,收集各網絡節點的Apache訪問日志、NCSA擴展日志等安全日志文件,根據自定義日志文件格式記錄安全事件的源IP、目的IP、攻擊描述信息、安全響應信息等[3]。例如以Apache訪問日志為例,192.168.1.20--[21/Apr/2020:14:27:49+0800] “GET /1/index.php / HTTP/1.1” 404 490 “http ://www.gxlib.org.cn(廣西壯族自治區圖書館)”(Mozilla/5.0;Windows NT 5.1;Maxthon),該安全日志中分別記錄著網絡訪問IP、訪問時間、Client客戶請求、通信協議、返回驗證碼、訪問網址、傳輸字節數等數據信息。一旦發生網絡入侵或攻擊的安全故障,Flume采集器便會將收集的日志數據傳輸到Hive數據倉庫,Hive提取重要的日志數據字節,將結構化數據文件映射為數據庫表,再利用K-Means聚類算法對安全日志進行關聯聚類分析。
2 圖書館信息系統網絡安全監測與管理方案
2.1 網絡安全監測與管理的服務組成架構
面向圖書館信息系統的網絡安全監測服務架構通常涵蓋軟硬件支撐層、數據采集層、挖掘分析層、存儲服務層等層級,具體組成架構如圖2所示。在Hadoop集群架構、HDFS分布式文件系統、Hbase數據庫、TCP/IP通信協議、網絡主機、Web應用服務器、Tomcat服務器等軟硬件支持下,收集有關網絡用戶訪問、入侵攻擊的安全日志數據、使用MapReduce分布式數據計算、K-Means關聯聚類算法對日志數據進行挖掘分析,將日志數據塊、日志數據集文件隊列、副本日志等信息存儲至后臺服務器[4]。
由圖2可知,圖書館網站訪問、數據信息請求的網絡安全管理是先由Flume采集器通過級聯方式,采集TCP/IP網絡通信協議傳輸的安全日志數據,獲取與網絡用戶訪問、入侵攻擊威脅相關的結構化/非結構化安全數據,以及與網絡主機、后臺服務器等硬件相關的漏洞數據;再以NameNode主節點、NameNode從節點、Source節點、Channel節點為基本單元,利用MapReduce并行計算模型、K-Means聚類算法對各網絡節點的入侵攻擊行為進行識別分析,提取多層級網絡入侵源日志的安全態勢指標,發現網絡安全風險與威脅問題;將日志數據塊、日志數據集文件隊列、副本日志等安全信息緩存至HDFS分布式文件系統,存儲至Tomcat后臺服務器,以便于網絡搜索引擎的安全日志查詢、調用及挖掘分析操作。
2.2 基于K-Means聚類算法的網絡安全指標提取
針對多種網絡用戶訪問、入侵攻擊的安全日志數據,利用K-Means聚類算法設定K個初始聚類中心,對不同網絡安全數據集進行分組聚類分析。假設某一網絡用戶訪問或攻擊的數據集合為X=(x1,x2,…,xn)T,按照數據簇聚類的就近劃分原則,將數據項劃分至最近類簇,利用歐幾里得度量公式計算k—項集簇內數據點到聚類中心點的距離,如公式(1)所示[5]。
(1)
如果某一網絡用戶訪問、入侵攻擊數據簇的聚類中心點為,那么基于x'i=xi+vi、v'i=vi+c1·rand(kibest-xi)+c2·rand(Gibest-vi)的數據粒子群位置優化公式,將同一類型的不同數據集聚類展開粒子適應度計算,得到網絡入侵數據粒子與聚類中心間的距離,記錄數據粒子的最大適應度值(wi為第i個簇的適應度值;m為wi數據加權平均值;kibest為初始聚類中心;Gibest為粒子群最優位置;c1、c2為學習因子;xi'為更新后的數據粒子位置;vi為t時刻數據粒子xi的速度;vi'為更新速度)。根據每次迭代后的最大適應度值重新選擇k個聚類的中心位置,對網絡訪問數據樣本、聚類中心間的距離進行多次迭代,利用極大似然估計法(Maximum likelihood estimation)計算數據簇點到K個中心點的誤差平方和,如公式(2)所示。
(2)
輸入包括多個樣本點的網絡入侵攻擊數據集,結合K-Means聚類算法的SSE函數計算數據點的和方差,得到Snort、Ossec等類別的入侵攻擊安全日志,安全日志為ASCII(American Standard Code for Information Interchange)、Tcpdump二進制字符的數據格式,記錄日志類別、通信協議類型、源/目的IP地址、攻擊編號、端口號、告警日期/時間、日志優先級等信息,安全管理人員可提取和記錄外部用戶訪問、網絡入侵攻擊事件的日志信息,將數據文件壓縮存儲至Tomcat后臺服務器。
3 基于數據加密的圖書館信息系統網絡安全防護研究
ABE屬性基的對稱加密算法可被用于外部用戶網絡訪問的安全控制,通過建構由上至下的樹形網絡結構對各網絡節點間的用戶訪問、數據傳輸與分發進行加密。假設網絡訪問用戶的請求數據集合為{P1,P2,...,Pn},且A為該數據集合的非空子集,那么用B∈Aamp;BC、C∈A表示樹形訪問結構的父子關系[6]。由圖書館后臺管理人員設置網絡用戶訪問私鑰SK、屬性集合的控制權限,將后臺存儲數據屬性設為G、多階屬性循環群設為GT、數據屬性生成元設為g,就可用G×G→GT表示數據屬性集的雙線性映射。
由K個授權中心機構設置數據屬性私鑰集合{tk1,tk2,...,tkn},生成屬性公鑰{gk1,gk2,...,gkn},而后將傳輸或分發數據m、數據屬性集合A{G1,G2,...,Gn}發送至多個授權中心。根據屬性門限閾值q0=yk得到授權中心的訪問控制節點集合的求導y'、用戶私鑰DA=gq0-y';隨后基于訪問用戶私鑰DA、數據屬性公鑰{Tk1,Tk2,...,Tkn}={gk1,gk2,...,gkn}加密后輸出密文EA={m(gk1,gk2,...,gki),i∈Ak}。當網絡節點訪問的數據解密時,由k個屬性授權中心選擇滿足att(y)∈Ak的d屬性,使用拉格朗日插值公式計算得到屬性循環群yku=e(g,g)q0s,并由訪問用戶聯合授權機構密鑰解密得到原始的數據明文m。
如果網絡節點y為網絡通信根節點,其子節點個數為n、節點域值為ky,那么就可以定義網絡節點訪問或通信的屬性門限域值為0lt;kylt;numy,只要用戶訪問的節點滿足屬性特征ky,就可以通過Tomcat服務器授權中心的訪問控制驗證。將樹形訪問結構的根節點記為parent(y)、子節點記為att(y),子節點的屬性特征門限閾值為ty∈(0,numy],當1﹤ty﹤numy時,表明樹形訪問結構的子節點對應多個屬性,當ty=numy時,表示子節點只對應一個數據屬性,但授權中心對用戶私鑰訪問可能完全受信,也可能一定程度上受信,“4/7”表示7個子樹的數據屬性需要滿足任意4個才可允許訪問,“2/2”表示子樹的數據屬性需要全部滿足才可訪問。
4 仿真試驗結果論證
4.1 試驗參數設置
選用NSL-KDD入侵檢測數據集作為試驗數據,其中整個試驗數據包括15個數據集、1265個數據樣本,基于MATLAB R2022a仿真試驗軟件對使用“K-Means聚類算法+ABE屬性基加密”的網絡安全管理模式進行數據粒子群迭代。根據以上數據粒子群位置優化公式將第i個簇的自適應度值wi設定為[0.5,1.0],變化率代數為10~20,將傳統Web網關防火墻的信息安全防護模式作為比對,“K-Means+ABE屬性基加密”的算法聚類分析測試運行50~100次,直到被測數據集簇的自適應度值wi無明顯變化時停止,具體得到的仿真試驗結果,見表1。
4.2 試驗結果論證分析
利用歐幾里得度量公式、數據粒子群位置優化公式對被測數據粒子進行多維位置測量后得出,當wimin=0.39、wimax=0.85時,“K-Means+ABE屬性基加密”算法的性能最優。測試圖書館局域網內使用“K-Means+ABE屬性基加密”算法、“Web網關防火墻+對稱加密”算法的安全數據日志挖掘情況,得到網絡安全數據的位置匹配方差、收斂概率、簇的自適應度值結果。
由表1可知,與傳統“Web網關防火墻+對稱加密”的網絡安全管理算法相比,基于“K-Means+ABE屬性基加密”算法的網絡安全日志挖掘、加密控制的性能均更好,簇的自適應度值也更合理,收斂概率為1,表明算法不存在局部迭代的過早收斂問題,因此“K-Means+ABE屬性基加密”算法可被應用于圖書館局域網的網絡信息安全管理,且入侵識別與安全管理的效果更好。
5 結語
大數據及云計算、“互聯網+”環境下圖書館網絡數據傳輸與分發容易受到不明用戶訪問、網絡入侵攻擊等因素的影響,且網絡訪問或攻擊造成的安全事件呈現出高發態勢。因此,從圖書館信息系統的網絡安全防護角度出發,基于Hadoop分布式軟件架構、Hadoop關聯組件等技術,建設面向圖書館網絡安全日志監測與分析的管理系統,利用K-means聚類算法加強網絡入侵數據挖掘與管理,使用ABE算法完成圖書館傳輸數據的加解密,可最大程度地保障數字圖書館網絡安全監測與防護的安全性和有效性。
參考文獻
[1]楊靜,趙俊杰.國外科學數據管理情況研究[J].全球科技經濟瞭望,2019(1):26-31.
[2]張冉.個人信息保護之目的限制原則的適用與反思[J].網絡空間安全,2023(2):22-27.
[3]周綱,孫宇.開創性的下一代圖書館服務平臺解決方案——FOLIO[J].中國圖書館學報,2020(1):34-36.
[4]梁愛梅.基于等級保護的公共圖書館網絡安全實施建議[J].網絡安全技術與應用,2020(3):109-110.
[5]王洪磊,孫靜.探討云平臺背景下的網絡安全等級保護測評策略[J].網絡安全技術與應用,2021(9):89-90.
[6]陳天文,高洪臻.公共圖書館網絡安全等級保護工作要求及具體措施[J].河南圖書館學刊,2021(5):9-11.