王俠,湯琳,于千策,曹洪欣
《中華人民共和國生物安全法》于2021 年4 月15 日正式施行,確立了生物安全在我國國家安全中的地位和意義,構建有中國特色的生物安全體系成為國家的重要戰略議題。為支持生物安全工作的科學決策,國內情報學界提出了生物安全情報的概念[1]。然而,在大數據時代,數據來源雜、體量大,傳統情報分析方法難以實現數據的有效處理[2]。信息技術的發展使得大數據分析成為可能,基于大數據和信息分析技術的開源情報展示出更高的價值潛力,逐步成為國家戰略決策、科研活動和外軍研究的重要情報來源[3],在生物安全情報研究領域同樣有廣泛的應用前景[4]。當前,國內對于如何有效利用大數據開展生物安全防護開源情報工作鮮有報道,迫切需要研究大數據時代生物安全防護開源情報工作模式。
1.1 生物安全防護獨特的國防屬性 生物安全與國防軍事存在千絲萬縷的關系。首先,戰爭通常會伴隨傳染病的流行[5]。二戰期間,傳染病造成的死亡人數甚至超過了直接戰傷。其次,生物恐怖襲擊的潛在威脅越來越大。現代分子生物學、生物醫學工程和遺傳學的快速發展使得生物武器生產、散布的技術門檻越來越低[6],生物恐怖襲擊事件呈現頻發、突發趨勢。最后,生物軍事化依然存在風險,《禁止生物武器公約》在部分國家并沒有嚴格實施。因此,生物安全防護工作對于加強國防安全、提升軍事戰備能力極為重要。
1.2 生物安全領域情報能力有待提升 目前,針對生物安全的情報研究,主要是圍繞禽流感等重大突發事件、重大烈性暴發性傳染病、高等級生物安
全實驗室等生物安全問題[7-10],編發各種生物安全快訊、專輯、內刊等,對突發事件和發展動向進行跟蹤報道。與國家安全的其他主要領域相比,生物安全領域的情報工作尚缺乏基本的理論框架和系統的實踐總結,針對生物安全防護開源情報工作體系的研究尚處于起步階段[11]。生物安全防護的形勢動態監測、應對措施建議和戰略決策支持等眾多方面的情報工作都亟待加強,與情報先導和情報支撐的要求差距頗大,難以滿足當前科學決策和科研的巨大需求。
1.3 生物安全防護開源情報工作的大數據優勢傳統的情報分析主要依靠人工分析,需要耗費大量的人力物力資源,并存在分析偏差大、應急反應慢以及情報價值低的缺點[12]。隨著互聯網、社交媒體、移動終端等技術的迅猛發展,大數據環境下依然沿用傳統方法進行情報分析無異于大海撈針[4],生物安全防護領域亦然。相較于傳統情報方式,基于大數據分析的生物安全防護開源情報工作擁有信息收集更全面、數據處理更及時、情報結論更客觀的優勢,能夠快速、有效地開展全球范圍內生物安全防護情報搜集、分析和加工,為國家和軍隊生物安全戰略發展提供時效性更強的高質量情報支持。
2.1 權衡情報來源,兼顧權威性與全面性 在互聯網應用之前,開源情報的主要來源是圖書、期刊、廣播電視電臺、新聞媒體、政府和民間機構公開的信息和數據等[13]。而互聯網開啟了開源情報工作的新篇章,開源情報的情報源發生了變化,包含傳統情報源的網絡化產品、以谷歌地球為代表的地理空間情報以及新生的社交網絡情報,如社交媒體網站、微信公眾號、視頻網站、維基百科網、微博、論壇、購物網站等[14]。面對多渠道、多樣化的情報來源,準確識別可靠的信息源并獲取更及時、有效和全面的信息是開展開源情報工作的前提條件。為實現對生物安全防護開源情報的循環處理,需要構建覆蓋生物安全領域的國外權威期刊論文、專著、專利、標準、指南、會議文獻、學位論文、網絡文獻及其他重要相關開源情報資源,并通過信息源標注和信息沖突校對的方式實現可靠信息源的準確識別。
2.2 標準化情報數據類型,兼容各種數據格式 開源情報來源不同,獲取的數據結構也就存在較大差異,信息資源描述的內容結構、句法結構、語義結構
等方面均不相同。為便于后續的統計分析,需要對所獲取的數據進行一系列的預處理后才能用于分析。對于情報數據處理的要求有:(1)冗余數據處理能力。系統應具有數據過濾、去重和自動分揀等功能。(2)情報數據標準化能力。通過數據提取和自動匹配的方式,實現數據標準化處理。(3)音視頻轉換能力。對于音視頻類型的數據,可以自動提取相關數據,形成可處理的標準化數據格式。目前對于數據處理方式主要有2 種,即數據導入前處理和導入后處理[15]。考慮到生物安全防護開源情報數據具有量大、價值密度低的特點,在導入數據庫前進行數據預處理有利于提升處理速度和效率。
2.3 循環處理流程,優化情報產出 高效有價值的情報產品需要對情報源選擇、數據獲取、數據清洗、數據分析到情報產出整個過程進行質量控制。為優化情報產出質量,本文提出情報循環處理流程,即對數據獲取與管理、數據清洗與管理、數據分析與管理、分析結果與管理等4 個環節進行循環處理與質量管控,見圖1。通過對情報分析結果的反饋,適時調整循環中的信息來源、信息檢索與信息分析策略,決定流程繼續進行或者終止。循環流程中,保持情報中間產出對生物安全防護相關專業人員的自由流動和共享,以實現對情報產出的實時評價,從而調整情報處理流程,不斷深化情報的挖掘與分析,創造更優質的開源情報成果。

圖1 生物安全防護開源情報循環處理流程
為實現對生物安全防護開源情報的循環處理,需要在情報源標注、數據標準化、數據清洗與分析處理以及情報累積等方面建立相關機制,構建貼合實際需求的生物安全防護開源情報一站式服務平臺,實現跨資源類型、跨學科、跨主題的開源情報資源統一標引、統一檢索、統一揭示。
3.1 情報源標注機制 快速響應、及時更新且數據可靠的情報源是獲取相關數據的最佳方式,如世衛組織傳染病暴發周報/日報、國家衛生主管部門新冠肺炎疫情每日數據等。然而,并不是所有情報源都是可靠且及時的。為保證所獲取數據的質量和可用性,可以建立情報源標引機制。一是可疑情報源標識。對出現虛假或錯誤數據的情報源以“可疑情報源”標注,“可疑情報源”標注頻率高于限值的則不作為必須統計的情報源。二是推薦情報源標識。對不同時間、同一疾病的多次檢索均獲取可用數據的情報源,以疾病名稱標注,作為該疾病推薦情報源。三是事件響應時長標識。對比最新數據發布時間與生物安全事件發生時間,計算情報源“事件響應時長”,事件響應時長較長的情報源不用于突發生物安全事件預警,避免冗余數據干擾。
3.2 多源異構數據標準化機制 來自于不同情報源的數據,資源類型多,數據結構不一致[16]。知識服務平臺需要對期刊文獻、會議論文、學位論文、專利文獻、標準文獻等不同來源、不同類型及不同格式的數據構成的多來源、多類型異構數據進行處理。針對多源異構數據種類繁雜、海量多源、格式異構、多維以及動態性等特點,利用云服務器和云存儲單元增強服務器處理性能,建立基于元數據的多源異構數據標準化機制。通過對不同數據源所遵循的元數據標準進行分析匯總,并結合國際主流標準,建立統一的文獻元數據標準,作為所有數據源轉換映射的標準。依據統一的元數據標準對匯聚后的文獻元數據進行實體抽取和關系抽取。
3.3 專題數據清洗機制 數據清洗是情報分析工作的重要步驟,是保證分析結果準確可靠的前提條件[17]。在專題數據清洗步驟,病原微生物名稱、時間、地點等信息可以作為關鍵不可缺元素,根據關鍵不可缺元素定義無意義數據,實現對無意義數據的去除或清洗;通過比對關鍵不可缺元素集合及其定義閾值,校正矛盾或不一致數據;通過比對字典庫,識別拼寫錯誤;通過比對關鍵不可缺元素集合,識別同一事件數據描述,實現同一事件數據的合并處理。
3.4 多維度分析機制 在大數據時代進行情報研究工作,單一維度的信息分析難以滿足情報需求,需要以多維度的視角,從數據和方法上實現創新[18]。開源情報一站式服務平臺設置計量分析模塊(專題數量統計分析)和內容分析模塊(專題共現網絡分析、文本挖掘可視化、態勢報告智能生成),具有多維度的聚類統計和分析功能,如資源類型、來源出處、學科分類、關鍵詞、關鍵指標等。不同的數據類型對應不同的分析維度,嵌入ECharts、Gephi等開源工具對分析結果進行可視化呈現。
3.5 情報循環處理機制 常規情報分析的原始數據和過程文件通常留存在項目組手中,難以實現數據共享。生物安全防護開源情報一站式服務平臺可以實現情報循環處理:一是向用戶和專業人員提供數據和情報過程中間產品的共享,開放獲取對中間產品的意見,作為情報產出過程再循環的決策依據;二是向用戶和專業人員提供表格式選項,收集用戶和專業人員對數據源、數據準確性、分析方法、情報產品形式等方面的滿意程度,有針對性地調整循環處理重點。
3.6 情報積累機制 情報工作歷來重視積累。服務平臺能夠實現對產出情報的保存與自動分類管理,通過對情報產品及相關的分析報告進行累積,逐漸形成疾病信息庫、衛生器材庫、傳染病監測庫和專題報告庫,并不斷豐富完善,對傳染病權威防治知識進行系統搜集,對系列器材裝備發展趨勢進行深度分析,對當前疫情發展進行動態、及時的追蹤,對國內外生物安全領域發展戰略進行科學解讀。
3.7 人才隊伍建設機制 情報人才是情報研究的重中之重,人才隊伍的科學化建設有利于情報工作的高效開展[19]。情報人員的信息素養是生物安全防護一站式服務平臺基礎要素(如情報搜集、加工、分析與預測以及情報產品生產等),是保證高質量的關鍵。為獲取更為全面的開源情報,迫切需要多語言類的情報搜集、加工與分析方面的人才。強化情報人才建設的同時,還需要與生物安全防護相關的專業人員密切協作,情報循環處理機制也要求組建生物安全專業團隊,以專家庫或主題咨詢專家團的形式保障情報循環處理的科學性。
大數據時代,生物安全數據呈指數級數增長,為生物安全防護的情報研究提供了豐富的數據資源,也為生物安全開源情報工作打開了新篇章。如何實現生物安全大數據快速搜集、處理、分析以及生成高質量情報產品,成為當前生物安全防護開源情報研究工作的核心。