馬蘭 王京杰 陳煥



摘 要:針對廣域信息管理系統(SWIM)服務共享中的數據安全問題,分析了SWIM業務流程中的安全隱患,提出了一種基于潛在狄利克雷分配(LDA)主題模型和內容挖掘的惡意數據的過濾方法。首先對SWIM四種業務數據進行大數據分析,然后通過LDA模型對業務數據進行特征抽取完成內容挖掘,最后利用KMP匹配算法在主串中查找模式串,從而檢測出含有惡意關鍵字的SWIM業務數據。在Linux內核中對該檢測方法進行測試,實驗結果表明該方法能夠有效地對SWIM業務數據進行內容挖掘,與潛在語義分析 (LSA)和基于概率統計的潛在語義分析(pLSA)的方法相比也具有更好的檢測性能。
關鍵詞:內容挖掘;關鍵字匹配;特征匹配;廣域信息管理系統;業務數據
中圖分類號: TP309.2
文獻標志碼:A
Abstract: Considering the data security problems of service sharing in SWIM (System Wide Information Management), the risks in the SWIM business process were analyzed, and a malicious data filtering method based on Latent Dirichlet Allocation (LDA) topic model and content mining was proposed. Firstly, big data analysis was performed on four kinds of SWIM business data, then LDA model was used for feature extraction of business data to realize content mining. Finally, the pattern string was searched in the main string by using KMP (Knuth-Morris-Pratt) matching algorithm to detect SWIM business data containing malicious keywords. The proposed method was tested in the Linux kernel. The experimental results show that the proposed method can effectively mine the content of SWIM business data and has better detection performance than other methods.
Key words: content mining; keyword matching; feature matching; SWIM (System Wide Information Management); business data
0 引言
近年來,迅猛增長的飛行流量和航空運輸量與空管保障能力之間的矛盾不斷加劇[1],現有的民航業務系統間互聯的方式也已不能滿足系統之間信息共享的發展需求,國際民航組織(International Civil Aviation Organization, ICAO)在2002年正式發布了廣域信息管理系統(System Wide Information Management, SWIM)概念。SWIM使得處于分散地理位置的多個數據源能夠協同更新信息數據,實現航空公司、機場部門、空管局之間的信息實時共享[2]。SWIM通過引入虛擬信息池,管理不同的業務數據。SWIM業務數據的安全不僅是保證SWIM順利發展的前提,更是保證航空安全的關鍵。2015年6月21日,波蘭航空公司的地面操作系統遭到黑客攻擊,數據內容出現錯誤,系統癱瘓,多個航班無法正常飛行。國際民航領域對信息網絡安全情況的調查發現,黑客的攻擊導致民航業務數據內容錯誤,影響了民航運輸的正常運行。數據安全的目標是要確保數據的完整、機密性和可用性,目前數據傳輸過程中,主要采用數據加密的方法,但針對到達客戶端的數據內容進行安全性檢測的研究開展得還較少[3]。因此,對SWIM的業務數據進行內容挖掘,查找惡意信息,對SWIM業務數據共享十分重要。本文主要針對SWIM的業務采用特征抽取的方法進行內容挖掘,在此基礎上對選取的內容查找惡意關鍵字,從而排除SWIM數據共享中的安全威脅。
1 SWIM業務流程中安全隱患分析
訂閱/發布和請求/響應是SWIM 主要的通信方式,本文選取SWIM Web訂閱/發布服務進行研究。通過對SWIM Web訂閱/發布服務的服務內容和工作流程進行分析,總結了目前SWIM發展過程中存在的安全隱患。
1.1 SWIM Web 訂閱/發布服務的服務內容
SWIM Web訂閱/發布服務采用基于主題的訂閱/發布模式,一個SWIM客戶端可以同時訂閱多個主題,多個SWIM客戶端也可以訂閱同一個主題,服務提供者發布主題,然后SWIM根據訂閱信息將訂閱主題并發發送給多個客戶端。SWIM Web訂閱/發布服務主要提供以下服務內容:
1)主題訂閱和管理訂閱信息服務,服務對象為SWIM訂閱客戶端。參照狀態資源通知協議,SWIM Web訂閱/發布服務器對SWIM訂閱客戶端的SOAP(Simple Object Access Protocol)消息格式的訂閱請求進行處理,建立訂閱信息,并提供相應的操作接口[4]。訂閱管理服務提供對通知事件觸發、訂閱隊列查詢、通知消息構造、多線程通知消息并發發送功能的支持。
2)異步通知服務。通知消息是SWIM Web訂閱/發布機制中最重要的數據,通知服務將通知消息以異步并發的方式發送給多個SWIM訂閱客戶端[5]。SWIM訂閱客戶端利用服務監聽端口,獲得異步通知服務的實時動態。另外,異步通知服務引入事件傳遞的服務質量接口,并提供了較為豐富的服務質量參數和多樣化的設置方式,如支持可靠性、時間約束、優先級等需求。
3)主題封裝和主題調度的服務,服務對象為SWIM發布客戶端。SWIM發布客戶端將有狀態的資源信息作為事件源發布到SWIM,SWIM Web訂閱/發布服務器將這些事件源封裝為主題進行存儲,并可以根據SWIM訂閱客戶端的請求進行主題調度[6]。
以氣象情報為例說明SWIM Web訂閱/發布服務的服務內容,在民航氣象信息交換過程中,氣象信息參與到航線管理的整個過程中,對飛行安全至關重要[7]。氣象信息的交換和管理主要依靠民航氣象部門,交互的氣象數據主要包括:民航氣象電報報告數據、民航氣象明語報告數據、熱帶氣旋和火山報告數據、飛機報告數據等,SWIM Web訂閱/發布服務器要針對這些氣象數據類型生成訂閱主題,進行主題封裝和調度,提供訂閱主題和異步通知的服務。民航氣象部門中的民航氣象中心負責廣域信息管理系統的氣象情報交換,為空管運行單位和航空公司等業務單位提供全國性的航空氣象服務。
民航氣象服務系統將業務數據發布到SWIM,各大航空公司通過向SWIM訂閱相應氣象情報主題獲取所需信息。當民航氣象中心將信息發布到某一具體的主題,SWIM將這些信息發送給訂閱該主題的航空公司。在氣象情報信息中,主題分為兩部分:根主題和子主題,民航氣象中心被設定為根主題,下設子主題,子主題下面可以再下分子主題,從而實現氣象數據信息的存儲。
1.2 SWIM Web 訂閱/發布服務的工作流程
SWIM Web訂閱/發布服務采用狀態資源通知協議。在SWIM Web訂閱/發布服務器中,狀態資源的改變可以為通知機制提供事件源。SWIM Web訂閱/發布服務器采用狀態資源通知協議下事件驅動的代理通知機制,在Web Service技術基礎上提供對訂閱/發布服務的支持,利用狀態資源進行建模,訂閱消息和通知消息使用XML格式描述,使用SOAP消息交換格式,實現Web服務中數據共享的功能[8]。
SWIM Web訂閱/發布服務的實現必須由發布客戶端、訂閱客戶端和SWIM三方參與。以氣象情報訂閱/發布服務為例說明SWIM Web訂閱/發布服務的工作流程:發布客戶端為民航氣象部門,包括民航氣象中心、地區氣象中心和機場氣象臺,負責發布氣象情報信息;訂閱客戶端為空管運行單位和航空公司,可以通過訂閱操作獲得某一航線上的氣象信息[9];SWIM在民航氣象部門和航空公司之間,主要負責為航空公司存儲和管理訂閱消息,為民航氣象部門緩存氣象情報數據,以及主題更新后向航空公司發送通知。
1.3 SWIM 業務流程中安全隱患分析
SWIM氣象交換邏輯模型規范以數據為中心,支持SWIM數據交換過程中氣象信息的收集、傳輸和轉換。氣象信息交換模型主要包括三個部分:氣象交換概念模型(Weather eXchange Conceptual Model, WXCM)、氣象交換邏輯模型(Weather eXchange Logical Model, WXXM)和氣象交換XML模式(Weather eXchange XML Schema, WXXS)。氣象信息交換模型和模式(WXCM、WXXM、WXXS)包含空中交通行業對氣象業務所有的需求,為氣象信息交換業務的協調和互操作提供了條件。
主題發布服務完成了SWIM發布客戶端的氣象情報信息的主題封裝和主題調度,主題訂閱服務完成了SWIM訂閱客戶端對氣象情報的訂閱請求處理,當SWIM發布客戶端的氣象情報主題列表進行信息更新時,SWIM的異步通知服務負責構造通知消息,將更新的主題信息發送到相應的訂閱客戶端。
訂閱客戶端在訂閱成功后,會開啟訂閱請求中的服務監聽組件對通知消息進行監聽,監聽組件會持續監聽來自SWIM Web訂閱/發布服務器的通知消息,一旦收到通知消息后,會對通知消息進行解析獲取訂閱主題的更新信息。
狀態資源模塊接收到民航氣象部門的主題更新請求后,調用注冊的回調接口告知事件管理器,然后事件管理器構造對應的通知消息并交給SWIM進行轉發。SWIM轉發消息的方式是遍歷訂閱隊列,并逐一給各個航空公司訂閱客戶端發送異步通知消息。
如果在SWIM進行異步通知服務的過程中,內部工作人員對外發送含有惡意內容的數據包,若不能及時過濾,將直接威脅民航運輸安全,因此,需要及時對含有惡意內容的攻擊數據包進行濾除,保障SWIM的服務質量。
4 結語
本文利用LDA主題模型對SWIM Web訂閱/發布服務內容進行主題提取,然后通過KMP匹配算法對提取主題中的字符串進行過濾,進而得到安全的SWIM業務數據。實驗結果表明,本文方法可以完成對SWIM業務數據惡意內容的過濾,且效率更高。同時,與潛在語義分析 (LSA)和基于概率統計的潛在語義分析(pLSA)的方法相比,本文方法結合了SWIM的業務流程,從業務主題的角度出發,能準確、及時地檢測出現在SWIM系統中的惡意內容,對SWIM的安全通信有重要的實際意義。
參考文獻:
[1] KANG J, CHOI K, KIM Y, et al. A method of integrating information for SWIM [C]// Proceedings of the IEEE 13th International Symposium on Autonomous Decentralized System. Washington, DC: IEEE Computer Society, 2017: 195-198.
[2] LEITE A F, LI W G, FREGNANI J A, et al. Big data management and processing in the context of the system wide information management [C]// Proceedings of the IEEE 20th International Conference on Intelligent Transportation Systems. Piscataway, NJ: IEEE, 2017: 1-8.
[3] Q M, LU S. Overview of system wide information management and security anylysis [C]// Proceedings of the IEEE 13th International Symposium on Autonomous Decentralized System. Washington, DC: IEEE Computer Society, 2017: 191-194.
[4] MOALLEMI M, CASTRO-PENA C A, TOWHIDNEJAD M, et al. Information security in the aircraft access to system wide information management infrastructure [C]// Proceedings of the 2016 Integrated Communications Navigation and Surveillance Conference. Piscataway, NJ: IEEE, 2016: 13-17.
[5] LU X, KOGA T. SWIM concept-oriented information integration for air traffic surveillance [C]// Proceedings of the 6th Global Conference on Consumer Electronics. Piscataway, NJ: IEEE, 2017: 1-2.
[6] 尤濤,吳其蔓,王川文,等.面向內容發布訂閱系統的向量訂閱與共享機制[J].通信學報,2015,36(10):101-109. (YOU T, WU Q M, WANG C W, et al. Vector subscriptions and sharing mechanism for content-based publish/subscribe system [J]. Journal on Communications, 2015, 36(10): 101-109.)
[7] 付戈,張欣華,李超.面向多應用多租戶的消息數據訂閱關鍵技術研究[J].信息安全網絡,2017(11):44-49. (FU G, ZHANG X H, LI C. Study of message data subscription based on multi-application big data analysis [J]. Netinfo Security, 2017(11): 44-49.)
[8] 謝英英,石澗,雷凱.基于NDN的高效發布/訂閱系統設計與實現[J].重慶郵電大學學報(自然科學版),2018,30(1):103-110. (XIE Y Y, SHI J, LEI K. Design and implementation of efficient publish/subscribe system via named data networking [J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2018, 30(1): 103-110.)
[9] 吳志軍,劉中,胡濤濤.面向SWIM系統改進的服務調度算法[J].計算機科學,2017,44(11A):366-371. (WU Z J, LIU Z, HU T T. Improved service scheduling algorithm for swim system [J]. Computer Science, 2017, 44(11A): 366-371.)
[10] 王少楠,宗成慶.一種基于雙通道LDA模型的漢語詞義表示與歸納方法[J].計算機學報.2016,39(8):1652-1666. (WANG S N, ZONG C Q. A dual-LDA method on Chinese word sense repressentation and induction [J]. Chinese Journal of Computers, 2016, 39(8): 1652-1666.)
[11] 彭云,萬常選,江騰蛟,等.基于語義約束LDA的商品特征和情感詞提取[J].軟件學報,2017,28(3):676-693. (PENG Y, WAN C X, JIANG T J, et al. Extracting product aspects and user opinions based on semantic constrained LDA model [J]. Joumal of Software, 2017, 28(3): 676-693.)
[12] 郭藍天,李揚,慕德俊,等.一種基于LDA主題模型的話題發現方法[J].西北工業大學學報,2016,34(4):698-702. (GUO L T, LI Y, MU D J, et al. A LDA model based topic detection method [J]. Journal of Northwestern Polytechnical University, 2016, 34(4): 698-702.)
[13] 朱寧洪.字符串匹配算法Sunday的改進[J].西安科技大學學報,2016,36(1):111-115. (ZHU N H. Improvement of Sunday pattern matching algorithm [J]. Journal of Xian University of Science and Technology, 2016, 36(1): 111-115.)
[14] 李明月,張善卿,陸劍鋒,等.一種改進的Sunday匹配算法[J].杭州電子科技大學學報(自然科學版),2015,35(1):93-96. (LI M Y, ZHANG S Q, LU J F, et al. A modified sunday matching algorithm [J]. Journal of Hangzhou Dianzi University (Natural Sciences), 2015, 35(1): 93-96.)
[15] 趙國鋒,葉飛,姚永安,等.一種面向云中心網絡入侵檢測的多模式匹配算法[J].信息網絡安全,2018(1):52-57. (ZHAO G F, YE F, YAO Y A, et al. Design and implementation of a multi-pattern string matching algorithm in cloud center network intrusion detection system [J]. Netinfo Security, 2018 (1): 52-57.)