趙凡 趙昕暉
(甘肅省科學技術情報研究所,甘肅 蘭州 730000)
知識服務[1]是指從各種顯性和隱性知識資源中按照人們的需要有針對性地提煉知識,并用來解決用戶問題的高級階段的信息服務過程。
本文主要提出了通過在網頁發布中的內容抽取隱含的知識元,建立元數據倉儲[2],利用知識元鏈接進行更深入解釋和導航,通過關鍵詞監測對各類科技活動進行量化評估,服務于科技決策、科技政務、科研發展及科學社會化普及。
系統采用三層體系結構,由客戶層、服務層和數據層組成。客戶層主要是用戶訪問的WEB頁面。服務層主要由知識平臺、知識庫應用和詞條發布三大服務器組成。數據層主要是存放相關數據。三層之間主要利用SOAP和ODBC協議連通。其中,SOAP協議是客戶層與服務層的鏈接,ODBC協議主要以SQL SERVER數據庫中存放的數據與服務層中的三個服務器相關數據調用和整理。該平臺的體系具有一定的安全性、可連通性、可擴展性[3]。
1.1.1 知識元發布系統
知識元發布系統主要由網站內容加工、元數據倉儲庫加工、詞條快速加工和重建詞條索引四個模塊組成。網站內容加工主要是對網站信息進行詞條加工,可以新建、刪除、修改詞條。元數據倉儲庫加工主要通過詞條類別建立不同的元數據數據庫,并對現有的元數據倉儲庫進行刪除、修改操作。詞條快速加工主要是修改、刪除已有的詞條并對詞條進行分類操作,另外可以批量導入已經編輯好的詞條。重建詞條索引主要對詞條索引進行重建。最后實現詞條在網站中的正文顯示。
1.1.2 知識服務信息平臺
知識服務的信息平臺在設計上主要分為數據層、應用層和表示層。在數據層主要包括了信息和知識元數據倉儲庫等,利用關系不同的數據庫實現查詢和存儲;在應用層主要包括內容信息發布、知識庫發布和統一搜索等系統來實現信息和知識元的發布及相關文獻的匹配。知識元發布系統提供知識元鏈接的接口(Web Service接口)。在表示層主要為用戶提供信息門戶頁面的瀏覽服務,采用知識元鏈接至知識服務系統,為用戶服務。其中主要包括新建/編輯詞條、詞條監測、主題頻次監控和科技問答等功能。
用到的主要技術主要有:知識元抽取:從已有網頁正文部分提取出知識元。基本步驟為先清理文字中的符號,形成無格式、無符號的中文字符集,再通過中文分詞軟件,將內容分詞為詞條列表,通過TF-IDF算法提取知識元,并在知識元數據庫中進行索引。知識元加工:由于知識元倉儲的建設是一個龐大的系統工程,本文主要立足于科技政務網站集群所產生的知識元倉儲,以滿足科技政務和信息服務需要為準。知識元耦合:
利用一種動態優化鏈接,系統采用異步調用技術(AJAX)附件知識元鏈接的辦法。知識元監測:通過對平臺門戶網頁內容中知識元的提取和訪問,可統計、分析科技和科研活動的重點工作領域,提供重要的數量評價指數。
本系統的安全要通過基于snorby技術的網絡監測平臺和WAF模塊,實現對知識服務平臺的安全防范。
該平臺主要利用snorby技術實現網絡監測平臺的部署,通過分析海量的網關數據,利用高危、中危和低危來提示網絡的安全性,該系統可監測到攻擊源地址和被攻擊地址以及攻擊頻次,通過對攻擊源地址進行編譯,可查看該地址的地域以及被攻擊地址和URL,分析相關數據,最終判斷為該攻擊為那種類型的攻擊,從而對知識服務系統進行網絡監測。其中,包含Payload模塊、Dashboard模塊、可視化度量模塊組成。
通過基于snorby技術的網絡監測平臺監測結果,利用WAF模塊對攻擊源地址進行結果分析,利用威脅系數算法實現動態IP黑名單庫的建立,進而對惡意攻擊地址的攔截。其中,算法主要通過時間、地域、頻次、規則等進行加權求和,達到峰值將進行攔截。另外,建立免安全檢查模塊、IP白名單模塊實現對有些IP訪問頻次高的安全合法性驗證。
2.2.1 結果分析模塊
結果分析是對自動裝載的日志也可對不同周期的日志進行分析,提出相關威脅因子對易受侵文件、入侵地址、受侵WEB、攻擊邊界進行威脅評估并通過相關防護措施及時進行威脅處理,加強WEB的入侵防護能力。結果分析主要實現對攻擊邊界分析、威脅系數計算分析、IP阻斷分析的分析。
2.2.2 攻擊邊界分析
攻擊邊界分析主要實現IP與WEB間相互訪問的統計分析。首先通過算法進行數據統計。然后,利用不同的顏色作為IP與WEB相互訪問方向表達形式。最后,通過對比IP與WEB相互訪問視線數及密度,確定IP為攻擊方還是WEB為攻擊方,得出結果,進行處理。
2.2.3 威脅系數計算分析
威脅系數計算分析利用威脅評估算法,通過對威脅系數的計算以及對相關參數的統計進行分析評估。分析參數由阻斷IP地址、威脅系數數值、攻擊次數、受侵主機數、觸發規則數(規則預設)、區域威脅系數(1表示國外IP,0.5表示國內IP)組成。參數值越大說明阻斷的IP威脅系數高。通過分析得出結果,進行處理。
2.2.4 IP阻斷計算分析
IP阻斷計算分析利用威脅評估算法,通過對威脅系數的計算以及對相關參數的統計進行分析評估。分析參數由阻斷IP地址、威脅系數數值、阻斷時間、WAF主機地址、所屬城市、地理位置(利用經緯度數值表示,可查詢IP地址的位置)組成。通過分析得出結果,進行處理。