張東江
(軍事科學院 科研指導部,北京100091)
“大數據”(Big Data)是繼“云計算”之后IT 行業最熱的詞匯之一。2012 年,美國奧巴馬政府發布了《大數據研究和發展倡議》,宣布“將大力發展數字化接入、組織和挖掘的工具和技術”[1]。被IT行業譽為“大數據商業應用第一人”的舍恩伯格指出,“世界的本質是數據,大數據將開啟一次重大的時代轉型。”這句話的意義同樣適用于軍事科研領域。在軍事科研領域,大數據應當助力實現從“撥云散霧查數據”到“騰云駕霧用數據”的轉變,從而帶動軍事科研范式的變革。
大數據可以而且應當與軍事科研范式轉變有必然聯系。那么,如何理解大數據時代?如何借力大數據技術,深入挖掘軍事科研范式變革需求,更好地為軍事科研方式轉變服務?這需要我們深入思考,認真研究,提出應對之策。
大數據的概念最早可追溯到20 世紀80 年代。1980 年,著名未來學家阿爾文·托夫勒在《第三次浪潮》一書中曾做出預言:“如果說IBM 的主機拉開了信息化革命的大幕,那么大數據則是第三次浪潮的華彩樂章。”但是,當時人們并沒有給予托夫勒的大數據思想太多關注,更沒有多少人能“遠眺”大數據在30 年后會從理念變為現實。
大數據究竟是什么?按照百度百科的定義,大數據,或稱巨量資料,指的是需要新處理模式才能發揮更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。“解構”是認知大數據內涵的最好方法。
2.1.1 認知大數據的三個層面
第一是理論層面。理論是認知的必經途徑,也是被廣泛認同和傳播的基本方式。從理論層面認知大數據,一是對大數據作整體描繪和定性分析;二是探討大數據的價值;三是洞悉大數據發展趨勢;四是審視人與數據之間的互動關系。
第二是技術層面。技術是大數據存在與應用的基礎,離開技術大數據就毫無意義。從技術層面,可以分別從云計算、分布式處理技術、存儲技術和感知技術等方面來描述大數據的采集、處理、存儲、形成結果等過程。
第三是實踐層面。大數據的最終價值要通過實踐來體現。所謂大數據實踐,一般包括互聯網的大數據、政府的大數據、企業的大數據和個人的大數據四個方面。
2.1.2 大數據的數據體量巨大
大數據有多大,至今沒有權威說法。據美國政府估計,全球每年由各類設備產生的數據達到約1.2ZB(1ZB=12 億TB)。對信息化戰爭而言,大數據體量巨大的特征體現得尤為明顯。例如,阿富汗戰爭期間,美軍部署在太空、空中和地面的全方位情報偵察監視系統,24 小時內所產生的數據就有53T。如此巨大的數據,常常會使指揮員和作戰部隊陷入數據的“海洋”中無所適從。例如,伊拉克戰爭爆發當日,美軍駐卡塔爾和科威特前進指揮所由于無法處理各個相關機構提供的海量數據,不得不關閉設備,造成指揮所與部分突擊方向一線部隊通信聯系中斷。由此可見,大數據是遠超出傳統數據尺度的海量數據。這里,我們不需要給大數據之“大”定出一個具體“尺寸”,因為隨著技術進步,這個“尺寸”還在不斷增大。對于不同的領域,大數據“大”的定義也是不同的。
2.1.3 大數據的形態多樣
大數據的“大”也體現在處理的數據類型多樣化,遠遠超出傳統數據格式和分析工具能處理的范疇。隨著互聯網、物聯網、多媒體等技術的快速發展和普及,各種非結構化數據每年都以60%的速度增長。有專家預計,非結構化數據將占數據總量的80%以上。
2.1.4 大數據產生和處理的速度極快
大數據處理模式遵循“1 秒定律”,可從各種類型的數據中快速獲得高價值的信息。這一點與傳統的數據挖掘有本質不同。大數據的數據流往往為高速實時數據流,而且需要快速、持續的實時處理,才能在第一時間抓住有價值信息。
大數據相關技術,就是從各種類型的數據中快速獲得有價值信息的技術。大數據關鍵技術一般包括:數據采集、數據預處理、海量數據存儲及管理、數據分析與挖掘、數據展示和應用(數據檢索、數據可視化、數據應用、數據安全)等。
2.2.1 數據采集技術
數據采集技術一般分為兩個層次:①數據智能感知層,主要包括數據傳感體系、網絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統,實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。②基礎支撐層,主要是提供數據服務平臺所需的虛擬服務器,結構化、半結構化及非結構化數據的數據庫及物聯網絡資源等基礎支撐環境。
2.2.2 數據預處理技術
這類技術主要用于對已接收數據進行辨析、抽取、清洗等操作。①抽取,因獲取的數據可能具有多種結構和類型,數據抽取過程可將這些復雜的數據轉化為單一的或者便于處理的結構,以達到快速分析處理的目的。②清洗,數據并不全是有價值的,有些數據并不是我們所關心的內容,還有些數據則是完全錯誤的干擾項,因此要對數據通過過濾去噪從而提取出有效數據。
2.2.3 大數據存儲與管理技術
這類技術主要用于把采集到的數據存儲起來,建立相應的數據庫,并進行管理和調用,主要解決數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。
2.2.4 數據分析挖掘技術
這類技術主要是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中人們事先不知道、但又是潛在有用的信息和知識。
大數據挖掘技術的開發,將在五個方面有所突破:①可視化分析。數據圖像化可以讓數據自己說話,讓用戶直接感受到結果。②數據挖掘算法。圖像化是將機器語言翻譯給人看,而數據挖掘就是機器的母語。分割、集群、孤立點分析等多種算法可以精煉數據,挖掘價值。③預測性分析。預測性分析可以讓分析師根據圖像化分析和數據挖掘的結果做出一些前瞻性判斷。④語義引擎。語義引擎需要設計到具有足夠人工智能以足以從數據中主動地提取信息。語言處理技術包括機器翻譯、情感分析、輿情分析、智能輸入、問答系統等。⑤數據質量和數據管理,通過標準化流程和機器對數據進行處理可以確保獲得一個預設質量的分析結果。
所謂范式(paradigm)的概念,是美國著名科學哲學家托馬斯·庫恩提出并在《科學革命的結構》(The Structure of Scientific Revolutions)(1962)中系統闡述的。它指的是一個共同體成員所共享的信仰、價值、技術等集合,指常規科學所賴以運作的理論基礎和實踐規范,是從事某一科學的研究者群體所共同遵從的世界觀和行為方式。所謂軍事科研范式是指開展軍事科學研究的基本方式。研究軍事科研范式轉變與大數據之間的關系,首先要了解現代軍事科學的學科分類。
現代軍事科學的學科分類,是隨著人們對戰爭和軍事活動認識深化而不斷發展的,同時還因各國軍事科學研究傳統、研究水平的不同而不同。就我國而言,在長期的革命戰爭和國防軍隊建設實踐中,我們形成了具有中國特色的、以毛澤東軍事思想為代表的現代軍事科學體系,但對軍事科學學科具體分法卻沒有統一定論。一般來說,有三種分法:一是軍事科研的分法;二是軍事教育的分法;三是軍事百科編撰的分法。三種分法總體上一致,但在具體學科的分類上各有不同。本文主要針對軍事科研的學科分類方法。
從近幾年來我國軍事學術界關于軍事科學學科分類的研究情況來看,無論是主張哪一種分類法,在軍事科學應包括軍事思想、軍事學術、軍事技術等三個組成部分(三分法)這一點上是一致的。而持有四分法以上主張的學者,則認為武裝力量建設理論、軍事歷史及軍事地理等三類應作為軍事科學體系中的獨立學科門類,不應列入軍事學術范疇。主要理由是,現行的三分法中的軍事學術的內涵過于寬泛無邊,而且隨著軍事科學分化與綜合趨勢的發展,新興學科的不斷涌現,軍事學術的研究對象和內容如不科學界定,將會變得更加無所不包。還有的學者主張將軍事社會學、軍事管理學、軍事心理學等學科也列入單獨的軍事學術門類。此外,還有的學者主張把研究戰爭史、軍事史、軍事思想史、軍事學術史、軍事技術史和軍事文獻編纂學等研究內容的軍事歷史,把研究國家、戰區的兵要地志、地理環境與氣象條件等學科知識的軍事地理,分別從軍事學術學科門類分離出來,使其成為獨立的學科門類。據此,軍事科學理論體系應由軍事思想、軍事學術、武裝力量建設理論、軍事技術、軍事歷史、軍事地理等六個學科組成。筆者認為,這種分法是比較完整、科學的,能夠如實地反映我國現代軍事科學發展的實際水平。
一般來說,軍事科研范式有四種:第一種就是我們通常所使用的辯證思維的研究方式。毛澤東同志在軍事名著《論持久戰》中所運用的就是這種方式。第二種是實驗科學范式,在戰爭開始之前通過反復的實兵對抗演習來論證和改進作戰方案。第三種是理論科學范式,采用數學公式描述交戰的過程,如經典的蘭徹斯特方程。第四種是計算科學范式,基于計算機開發出模擬系統來模擬不同作戰單元之間的交戰場景。上述四種研究范式有兩個共同的不足:一是它們都只能使軍事科研人員感知交戰的過程和結果,并未有效提高對海量數據的管理、存儲和分析能力;二是四種范式之間相互借鑒和交融不夠。
筆者認為,以大數據相關技術為核心的數據挖掘模式應被稱為第五種范式。大數據研究范式利用軟件處理各種傳感器或模擬實驗產生的大量數據,利用包括量子計算機在內的各種高性能計算機對海量信息進行挖掘,尋找隱藏在數據中的關聯,從而發現未知規律,捕獲有價值的情報信息,促使軍事情報偵察和決策能力產生質的飛躍,更符合“未來戰爭不是大吃小,而是快吃慢”的制勝規律。可以預見,大數據必將推動戰爭形態的演變,基于大數據的實時、無人化作戰,將徹底改變人類幾千年來以殲滅有生力量為主要目的的戰爭形態。軍事科研從來都是為戰爭和軍隊建設服務的。大數據對軍事科研范式轉變的影響將是雙重的:它既是新一輪軍事革命的戰略制高點,又對軍事科研范式轉變具有重要推動作用。
大數據能夠為軍事科研轉變提供至少以下兩類支持和服務。
3.3.1 按需提供的個性化服務
依據軍事科研人員個性化服務需求進行服務內容的定制、服務模式選擇和服務實時推送,可以提升大數據閱讀服務內容的個性化定制比例、增強讀者知識獲取效率和價值量的重要途徑。首先,圖書資料保障可多源采集結構化、半結構化和非結構化的軍事科研人員大數據資源,并對數據進行科學的處理、轉化和整合。同時,可對不同知識層次、不同性別、不同年齡、不同愛好的軍事科研人員群體進行360 度用戶視圖的讀者特征分析,實現服務內容的個性化定制。其次,大數據時代的軍事科研人員個性化服務,是由通信運營商、互聯網信息服務商、大數據技術提供商和圖書館等眾多IT 運營與服務商共同提供的、基于大數據支持的個性化閱讀增值服務。各運營商可通過大數據資源的共享實現服務的優勢互補,為軍事科研人員提供諸如高速移動閱讀服務、地理位置查詢、讀者群體的片區化管理、信息實時查詢鏈接等增值服務。
3.3.2 海量數據分析
19 世紀初葉,軍事戰略家克勞塞維茨以人的認知局限為由,提出了“戰爭迷霧”問題。未來依托大數據分析處理技術建構模型,通過數據挖掘模式,可以從海量數據中挖掘出有價值的信息,為其他四種軍事科研范式提供支撐,從而撥開“戰爭迷霧”,達成運籌于帷幄之中,決勝于千里之外的作戰目的。
優化軍事科研方式提高軍事科研效率,是運用大數據轉變科研范式的根本目的。而要達到這一目的,需要做好以下工作:
大數據不僅是一種技術,也是一種價值觀、方法論,它帶來了一場思維和理念的大變革。大數據時代強調分析與某事物相關的全體數據,而不是少量的數據樣本,接受事物的混雜性;不再探求難以捉摸的因果關系,轉而關注事物的相關關系。以前,因為數據不足,圖書資料保障很難為軍事科研人員提供個性化的服務。而大數據帶來了近似“上帝般”的全知,而且上帝身邊還多了一個精于計算的會計,這勢必減少圖書資料為軍事科研人員服務時的不確定性。大數據構建了圖書館服務科研的一切要素,也必將培育我們用全新的數據化思維創新軍事科研服務。這就要求圖書館提供軍事科研服務時必須注重“用數據說話”,強調基于數據的精確分析和恰到好處的服務。這樣的思維方式,將推動我們這個習慣于靠“差不多”運行的社會發生大變革。要充分意識到數據是科研的寶貴資源,高度重視對信息的收集、存儲和處理,為開展軍事科研奠定扎實的數據基礎。
信息資源保障體系是指一個國家或地區通過信息資源整體化建設,建立能在一定范圍內有效地滿足社會在科學、文化、經濟等方面信息需求的信息資源和服務系統。目前我國已經開始了全國性信息資源保障體系建設的探索,如中國高等教育文獻保障系統(CALIS)的成功建設,形成了全國中心、地區中心、省中心、成員館和數字圖書館基地的服務體系。對于軍事科研信息保障而言,構建基于專題和產業的信息資源保障體系具有重要的意義,尤其是在大數據環境下,將多源數據充分地進行集成,將各種類型的信息資源進行有效整合,可形成信息資源建設與軍事科研服務的良性互動。
在軍事科研資源的采集、存儲、處理、應用和決策中,應擺脫傳統IT 環境下以數據小樣本采樣、苛求計算結果精確度、探究事物本質關系的傳統做法。在保證所采集軍事科研資源精確度滿足大數據決策需求的前提下,實現對所有軍事科研資源的挖掘、整合和價值提取。我們僅需要將大數據內部蘊涵的價值應用到軍事科研服務與決策中,而不必過分強調軍事科研資源之間的因果關系。因此,大數據決策與應用平臺的構建,應在堅持安全、高效、智能和經濟原則的前提下,重點加強大數據平臺的網絡傳輸帶寬、存儲設備容量與性能、平臺管理與決策智能性和應用決策經濟性等方面的建設,保證大數據平臺決策所依據的信息具備較高的價值密度、可用性、信息對稱性和可控性。此外,還應加強圖書資料的大數據管理、大數據挖掘和深度分析專業人才隊伍的建設,提高大數據平臺在整合圖書資料的多源異構以及跨域關聯海量數據的能力,實現人才、大數據分析平臺和用戶服務系統的最優化結合,從而能為軍事科研提供更高標準的服務。
首先,軍事科研人員群體具有專業類型復雜、知識層次多樣、年齡與性別差異大、閱讀終端多樣化和閱讀周期不規律的特點,因此對軍事科研人員群體進行大數據信息采集時,在加強對具有相同特征用戶群的公共特征大數據信息采集的同時,還要兼顧具有相同特征用戶群中不同個體的差異性,保證所采集的數據具有多樣性和大價值屬性。其次,對大數據資源使用前管理的科學性和效率,是關系數據可用和可控的關鍵。按照數據類型劃分,大數據資源可分為服務系統配置與管理數據、用戶行為數據、社會關系數據、用戶位置和閱讀模式數據、用戶閱讀評論與反饋數據等。通常情況下,這些數據以割裂、離散和孤立的狀態呈現。應消除大數據庫內部和不同服務系統之間的“數據孤島”現象,實現大數據的自由流動和關聯分析,努力挖掘其中蘊含的潛在數據價值,從而使軍事科研人員能夠了解數據之間的關聯。再次,大數據的應用過程應堅持“信息—知識—智慧”的步驟原則,從大數據資源中發現數據規律和獲取知識,提升大數據知識獲取、預測、判斷和決策能力,最終通過智慧決策和自動化管理過程實現圖書資料保障的“智慧”服務,使得軍事科研人員在最短時間內找到需要的數據。最后,大數據閱讀活動是一個多模式和隨機的過程,應細化所采集軍事科研人員實時閱讀行為數據的類型、次數、頻率、時間、閱讀習慣和評估等級,通過服務推薦系統、電子郵件、短信等方式,實現基于大數據的讀者個性化精準服務。
一位西方軍事家曾經說過,“勝利向那些能預見戰爭特性變化的人微笑,而不是向那些等待變化發生后才去適應的人微笑。”軍事科研范式的變革與創新既有自發的動力,也有來自外界的推力。軍事科學成果推動了大數據時代的到來,而大數據又為軍事科研范式變革提供了新的手段與方法。目前,西方軍事強國均把大數據視為潛在的巨大戰斗力,都想搶占這一“數據紅利”,從而推動大數據相關軍事科研活動展開。我軍應該積極順應時代要求,把握歷史機遇,借力大數據優化軍事科研方式、提高軍事科研效率,加快推進國防和軍隊信息化建設。
[1] K TOM. Big date is a big deal[EB/OL]. [2014 -03 -21]http://www.whitehouse. gov/blog/2012/03/29big - date - big -deal.
[2] 邁爾·舍恩伯格,庫胡耶. 大數據[M]. 盛楊燕,周濤,譯. 浙江:浙江人民出版社,2013.
[3] 伊恩·艾瑞斯.大數據思維與決策[M].北京:人民郵電出版社,2014.
[4] 埃里克·西格爾.大數據預測[M].周昕,譯.北京:中信出版社,2014.
[5] 馬曉亭.基于可信大數據的圖書館個性化服務平臺構建[J].圖書館理論與實踐,2015(1):85 -87.
[6] 王曉燕,吳應清.數據挖掘技術分析及其應用評價[J]. 辦公自動化,2007(6):52 -54.
[7] 高世光.基于模糊聚類的數據挖掘技術研究[D]. 長沙:國防科學技術大學,2002.
[8] 陳源.數據挖掘在高校檔案管理中的應用研究[J].辦公室業務,2013(22):144 -145.
[9] 胡曉峰.大數據時代對建模仿真的挑戰與思考[J].軍事運籌與系統工程,2013,27(4):5 -12.