吳明丹 胡 江 張 鶴 中國(guó)兵器工業(yè)計(jì)算機(jī)應(yīng)用技術(shù)研究所
?
大數(shù)據(jù)分析技術(shù)及在軍事領(lǐng)域中的應(yīng)用
吳明丹 胡 江 張 鶴 中國(guó)兵器工業(yè)計(jì)算機(jī)應(yīng)用技術(shù)研究所
【文章摘要】
【關(guān)鍵詞】
大數(shù)據(jù);信息時(shí)代;Hadoop;軍事領(lǐng)域
現(xiàn)在人們能夠存儲(chǔ)遠(yuǎn)比過(guò)去多得多的數(shù)據(jù),我們已經(jīng)度過(guò)了存儲(chǔ)的臨界點(diǎn),我們不再需要決定要保留哪一半數(shù)據(jù)或者要保留多久的歷史數(shù)據(jù)。保存所有你的歷史數(shù)據(jù)和變量,以及當(dāng)你有了新的問(wèn)題開(kāi)始尋找答案時(shí)追溯歷史已經(jīng)經(jīng)濟(jì)可行。更多的數(shù)據(jù),更加廉價(jià)但更加快速的硬件的融合驅(qū)動(dòng)了變化的產(chǎn)生。今天,我們能夠以可負(fù)擔(dān)的價(jià)格獲得驚人的速度。
工業(yè)界對(duì)大數(shù)據(jù)有一個(gè)在不斷發(fā)展的定義,目前從以下3個(gè)維度來(lái)定義:大小、多樣性、速度。
數(shù)據(jù)量大小可以通過(guò)交易、事件的絕對(duì)數(shù)量或者產(chǎn)生數(shù)據(jù)的歷史長(zhǎng)度來(lái)衡量,但是屬性、維度和預(yù)測(cè)變量會(huì)進(jìn)一步加大數(shù)據(jù)量。
數(shù)據(jù)的多樣性代表了數(shù)據(jù)的混雜程度。傳統(tǒng)的數(shù)據(jù)尤其是操作型數(shù)據(jù),是“結(jié)構(gòu)化的”,所以能以數(shù)據(jù)類(lèi)型(如字符型、數(shù)字型和浮點(diǎn)型)為基礎(chǔ)導(dǎo)入數(shù)據(jù)庫(kù)。最近的幾十年來(lái),數(shù)據(jù)越來(lái)越多地變成“非結(jié)構(gòu)化的”,因?yàn)閿?shù)據(jù)源激增超過(guò)了操作型應(yīng)用。
數(shù)據(jù)的速度是指數(shù)據(jù)創(chuàng)建、積累、接收和處理的速度??焖侔l(fā)展的世界要求我們進(jìn)行實(shí)時(shí)信息處理或者是準(zhǔn)實(shí)時(shí)的響應(yīng)。
工業(yè)時(shí)代是一個(gè)社會(huì)巨大變化的時(shí)代。企業(yè)先后以蒸汽、電力作為原動(dòng)力,在生產(chǎn)率上釋放了驚人的增長(zhǎng)。
但是企業(yè)在進(jìn)化,它變得更加注意周邊環(huán)境并且更快速地進(jìn)行反應(yīng),與之相伴隨的是信息時(shí)代的到來(lái)。
從20世紀(jì)50年代開(kāi)始,企業(yè)通過(guò)使用計(jì)算機(jī)讓那些已有的系統(tǒng)自動(dòng)化起來(lái),這是企業(yè)和信息技術(shù)共生進(jìn)化的開(kāi)始,是信息時(shí)代的第一個(gè)階段——數(shù)字化時(shí)代。
大概30年前,迎來(lái)了信息時(shí)代的第二個(gè)階段——網(wǎng)絡(luò)時(shí)代。企業(yè)利用計(jì)算機(jī)和互聯(lián)網(wǎng)有了顯著的進(jìn)化,它從被動(dòng)、僵化轉(zhuǎn)變?yōu)閺?fù)雜和主動(dòng),從而能夠適應(yīng)更加復(fù)雜的世界。
但是更大的變革還在前方,我們將看到信息技術(shù)升級(jí)為對(duì)企業(yè)智能的支撐,大數(shù)據(jù)代表了存儲(chǔ)和分析方式兩者的全然轉(zhuǎn)變,而不僅僅只是和大小相關(guān)。這預(yù)示著大數(shù)據(jù)時(shí)代的到來(lái),將開(kāi)辟信息時(shí)代的新紀(jì)元。
在大數(shù)據(jù)分析的早期時(shí)代,人們并不知道數(shù)據(jù)的價(jià)值,所以大多數(shù)人還是強(qiáng)調(diào)以統(tǒng)計(jì)為主的分析方法。隨著人們不斷地發(fā)現(xiàn)數(shù)據(jù)的價(jià)值,分析方法也開(kāi)始向預(yù)測(cè)性、規(guī)范性的方向發(fā)展。
大數(shù)據(jù)技術(shù)正在從根本上改變數(shù)據(jù)生成、處理、分析和消耗的策略。一方面,大數(shù)據(jù)技術(shù)促使我們的數(shù)據(jù)源更加多元和高效;另一方面,隨著數(shù)據(jù)源的海量激增,大數(shù)據(jù)技術(shù)能使我們處理數(shù)據(jù)更加快速高效,與此同時(shí),輔以數(shù)據(jù)可視化技術(shù),使我們的決策更加有理有據(jù)。
3.1預(yù)測(cè)分析
“預(yù)測(cè)分析”的提出是為了區(qū)別傳統(tǒng)的統(tǒng)計(jì)概念。預(yù)測(cè)是一種更加高級(jí)的計(jì)算類(lèi)型,主要被用于計(jì)算未來(lái)事件發(fā)生的可能性。特定的行業(yè),諸如銀行、保險(xiǎn)以及數(shù)字廣告都早已全面采用了這項(xiàng)技術(shù),但大多數(shù)的企業(yè)仍然停留在較初級(jí)的階段。通過(guò)掌握分析技能,企業(yè)家將從被動(dòng)的反應(yīng)位置(商業(yè)智能)發(fā)展為領(lǐng)導(dǎo)位置(預(yù)測(cè)分析)。使用所有可用數(shù)據(jù)(傳統(tǒng)的內(nèi)部數(shù)據(jù)資源與新的、豐富的外部數(shù)據(jù)資源相結(jié)合)可以使得預(yù)測(cè)更精確、更有意義,可以大大地減少商業(yè)沖突。
3.2數(shù)據(jù)分析可視化
數(shù)據(jù)可視化是利用數(shù)據(jù)模式識(shí)別使數(shù)據(jù)變得實(shí)用化的一項(xiàng)技術(shù)。對(duì)于目前的信息量而言,描述和總結(jié)報(bào)告已經(jīng)足夠了,但是當(dāng)數(shù)據(jù)量繼續(xù)擴(kuò)大到海量時(shí),描述和總結(jié)報(bào)告就開(kāi)始失效了。圖表、圖形、儀表盤(pán)中數(shù)十億的數(shù)據(jù)已經(jīng)無(wú)法幫助我們達(dá)到辨識(shí)數(shù)據(jù)模式的目的,它們使數(shù)據(jù)顯得令人窒息。于是,出現(xiàn)了新的技術(shù)和工具,它們利用現(xiàn)有的新可視化和動(dòng)畫(huà)來(lái)描述數(shù)據(jù)。
①可視化提供了一個(gè)強(qiáng)有力的使數(shù)據(jù)有意義的方法,即通過(guò)映射數(shù)據(jù)屬性到可視的特征,如:位置、大小、形狀、顏色。
②交互性是動(dòng)畫(huà)的必要補(bǔ)充,使用戶(hù)可以控制幀動(dòng)畫(huà)的節(jié)奏、方向和片段的選擇,這對(duì)最完整的數(shù)據(jù)理解是至關(guān)重要的。
③交互式數(shù)據(jù)可視化和發(fā)現(xiàn)工具,如Tableau,正在洞察發(fā)現(xiàn)從特有的技能向商業(yè)中每一個(gè)人轉(zhuǎn)移,它使得分析師可以不需要夾在數(shù)據(jù)中間,從而做更多的分析工作。
3.3Hadoop并行計(jì)算
在許多對(duì)大數(shù)據(jù)處理有深遠(yuǎn)影響的大數(shù)據(jù)技術(shù)中,Apache Hadoop絕對(duì)是備受矚目的一個(gè)。Apache Hadoop是一個(gè)由Apache軟件公司管理的、用于存儲(chǔ)和處理多元海量數(shù)據(jù)的開(kāi)源平臺(tái),這個(gè)平臺(tái)能夠使數(shù)據(jù)驅(qū)動(dòng)型企業(yè)快速高效地從他們的數(shù)據(jù)中獲取價(jià)值。Hadoop為人們?cè)诤A慷嘣獢?shù)據(jù)上發(fā)現(xiàn)問(wèn)題提供了可行性和易用性,而這些問(wèn)題在以前是不可能被發(fā)現(xiàn)和解決的。
①數(shù)據(jù)的規(guī)模和種類(lèi)已經(jīng)大大超過(guò)了通過(guò)傳統(tǒng)平臺(tái)高效處理數(shù)據(jù)提取價(jià)值的負(fù)載能力。
②運(yùn)行于標(biāo)準(zhǔn)硬件之上的Hadoop所具有的可伸縮性和靈活性使人們?cè)诟冻霰纫酝膶?zhuān)有解決方案更低的成本后,獲得比以往更多的數(shù)據(jù)。
③Hadoop可以在很多領(lǐng)域勝任工作,包括搜索系統(tǒng)、登錄系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、語(yǔ)音/圖像分析。使得人們可以把簡(jiǎn)便的數(shù)據(jù)模型用于最現(xiàn)代的超規(guī)模體系中。
④與傳統(tǒng)技術(shù)不同的是,Hadoop能夠在它原有格式里存儲(chǔ)任意種類(lèi)數(shù)據(jù),并基于這些數(shù)據(jù)衍生一系列分析和變化。
⑤Hadoop運(yùn)行于商用服務(wù)器集群之上,每個(gè)服務(wù)器都具有可以被Hadoop系統(tǒng)統(tǒng)一調(diào)度的本地CPU和硬盤(pán)空間。
4.1提升情報(bào)獲取能力
現(xiàn)代戰(zhàn)爭(zhēng)是“信息主導(dǎo)”的戰(zhàn)爭(zhēng),信息獲取能力的強(qiáng)弱對(duì)于戰(zhàn)爭(zhēng)的進(jìn)程和勝負(fù)具有極為重要的作用,強(qiáng)化信息獲取能力是精確釋放及提升體系作戰(zhàn)能力的重要前提和抓手。應(yīng)用大數(shù)據(jù)技術(shù),能夠大幅提高指揮機(jī)關(guān)的情報(bào)獲取能力,主要體現(xiàn)在兩個(gè)方面:一是大大提高情報(bào)信息處理效率,現(xiàn)代戰(zhàn)爭(zhēng)中戰(zhàn)場(chǎng)情報(bào)信息數(shù)量極其巨大,并且大部分是非結(jié)構(gòu)化數(shù)據(jù),如采用常規(guī)方式處理這些海量信息,猶如“大海撈針”,不但高耗時(shí),而且效率也會(huì)極其低下。而利用大數(shù)據(jù)對(duì)情報(bào)信息進(jìn)行處理,則理論耗時(shí)可達(dá)到秒級(jí),處理速度呈指數(shù)級(jí)躍升,可大大提高單位時(shí)間內(nèi)的情報(bào)信息獲取處理能力。二是能夠發(fā)現(xiàn)更多有價(jià)值的情報(bào)。在信息受偵查手段、戰(zhàn)場(chǎng)環(huán)境等因素制約下,利用大數(shù)據(jù)技術(shù)能夠?qū)?lái)自于多渠道的信息快速進(jìn)行自動(dòng)分類(lèi)、整理、分析和反饋,能夠從大量相關(guān)或看似不相關(guān)的、秘密的或公開(kāi)的信息中挖掘分析出目標(biāo)對(duì)象的高價(jià)值的軍事情報(bào),從而有效解決情報(bào)、監(jiān)視和偵察系統(tǒng)不足的問(wèn)題。
4.2提升指揮決策能力
現(xiàn)代條件下信息在作戰(zhàn)中的功能,地位和作用大大提高,信息已成為影響戰(zhàn)爭(zhēng)全局的極其重要的巨大資源和力量。指揮員憑借自身的專(zhuān)業(yè)知識(shí)和作戰(zhàn)經(jīng)驗(yàn),難以從當(dāng)前海量的戰(zhàn)場(chǎng)信息中迅速、準(zhǔn)確地獲取有用的戰(zhàn)場(chǎng)知識(shí),最終直接影響指揮決策的效果,而在激增的數(shù)據(jù)背后隱藏著許多重要的信息,我們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。而利用大數(shù)據(jù)分析技術(shù),可為指揮員的決策分析提供智能的、自動(dòng)化的輔助手段,提高系統(tǒng)的智能化程度及決策科學(xué)性、實(shí)效性,從而極大地提高作戰(zhàn)的指揮效能和整體作戰(zhàn)能力。
大數(shù)據(jù)分析技術(shù)作為一項(xiàng)從大量數(shù)據(jù)中獲取有用知識(shí)的實(shí)用技術(shù),已被廣泛應(yīng)用于各行各業(yè)并取得了較大的經(jīng)濟(jì)和社會(huì)效益,而其在軍事領(lǐng)域的應(yīng)用也具有很大的潛力。目前,有關(guān)這方面的研究正處于蓬勃的發(fā)展之中,相信在不久的將來(lái),此方面的研究一定能取得更大的突破,它必將成為軍事領(lǐng)域信息綜合處理過(guò)程中的一項(xiàng)嶄新的、必不可少的技術(shù)。
【參考文獻(xiàn)】
[1]McKinsey Global Institute,” Big Data: The next Frontier for Innovation,Competition,and Productivity,” June 2011.
[2]Avinash Kaushik,Web Analytics 2.0:The Art of Online Accountability and Science of Customer Centricity(Indianapolis,India na:Sybex,2010).
本文通過(guò)闡述什么是大數(shù)據(jù)來(lái)引出大數(shù)據(jù)時(shí)代的到來(lái),接著從3方面論述了大數(shù)據(jù)分析技術(shù),最后從提升情報(bào)獲取能力、提升指揮決策能力兩方面闡明了大數(shù)據(jù)在軍事領(lǐng)域中的應(yīng)用前景。大數(shù)據(jù)分析技術(shù)作為一項(xiàng)從海量數(shù)據(jù)中獲取有用知識(shí)的實(shí)用技術(shù),必將在軍事領(lǐng)域發(fā)揮巨大作用。