摘 ?要: 隨著信息技術(shù)的發(fā)展,我們已進(jìn)入了大數(shù)據(jù)時(shí)代,大數(shù)據(jù)已在各行各業(yè)中有廣泛的應(yīng)用,大數(shù)據(jù)毋庸置疑的將對(duì)各行各業(yè)產(chǎn)生重大的影響。實(shí)驗(yàn)室作為科學(xué)研究的第一陣地,必然會(huì)受到大數(shù)據(jù)的影響。在大數(shù)據(jù)背景下,本文研究大數(shù)據(jù)與高校實(shí)驗(yàn)室的關(guān)系,針對(duì)目前高校實(shí)驗(yàn)室研究存在的不足之處,提出了大數(shù)據(jù)背景下實(shí)驗(yàn)室研究應(yīng)對(duì)的策略,以期為高校的實(shí)驗(yàn)室研究提供參考。
關(guān)鍵詞: 大數(shù)據(jù);實(shí)驗(yàn)室;策略
中圖分類號(hào): TU411 ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.04.042
本文著錄格式:王昊. 基于大數(shù)據(jù)背景下的高校實(shí)驗(yàn)室研究[J]. 軟件,2019,40(4):196198
【Abstract】: With development of information technology, we have entered era of big data, which has been applied in all walks of life widely, and have significant impact on various industries undoubtedly. As the first position of scientific research, laboratories are bound to influence of big data. Under big data background, the paper studies relationship between big data and university laboratories, and puts forward some strategies for laboratory research under big data background In view of shortcomings of current university laboratory research, to provide reference for university laboratory research.
【Key words】: Big data; Laboratory; Strategy
0 ?引言
當(dāng)今社會(huì),科技高速發(fā)展,信息高速流通,人與人之間的交流越來(lái)越密切,生活也越來(lái)越方便,人們每天都生活在海量數(shù)據(jù)之中[1],海量數(shù)據(jù)已經(jīng)使我們進(jìn)入了“大數(shù)據(jù)”時(shí)代[2],大數(shù)據(jù)就是這個(gè)高科技時(shí)代的產(chǎn)物。
最早提出“大數(shù)據(jù)”時(shí)代到來(lái)的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。”如今,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展正在迅猛增長(zhǎng),據(jù)統(tǒng)計(jì),全球數(shù)據(jù)量每年以超過(guò)50%的速度增長(zhǎng)[3],在金融、汽車、電信、餐飲、能源和娛樂(lè)等行業(yè)有著廣泛的應(yīng)用[4],特別是近年來(lái),電子信息技術(shù)的應(yīng)用研究與發(fā)展,在實(shí)驗(yàn)室中產(chǎn)生了結(jié)構(gòu)和種類繁多的海量數(shù)據(jù),這種海?量數(shù)據(jù)勢(shì)必對(duì)實(shí)驗(yàn)室的研究產(chǎn)生重大影響,本文 ?就“大數(shù)據(jù)”究竟是什么、高校實(shí)驗(yàn)室研究的不足及大數(shù)據(jù)背景下如何開展實(shí)驗(yàn)室研究等方面進(jìn)行 ?探析。
1 ?大數(shù)據(jù)定義、特點(diǎn)及與實(shí)驗(yàn)室的關(guān)系
1.1 ?大數(shù)據(jù)的定義
大數(shù)據(jù)(Big data)是一種信息資產(chǎn),也是一種數(shù)據(jù)集合,并且在一定時(shí)間范圍內(nèi)無(wú)法用常規(guī)軟件工具進(jìn)行捕捉、儲(chǔ)存、管理和處理,具有海量、高增長(zhǎng)率和多樣化的特點(diǎn)。廣義的大數(shù)據(jù)是指世間的所有均可用數(shù)據(jù)來(lái)表示,都可以通過(guò)編碼來(lái)進(jìn)行數(shù)據(jù)量化,包括大數(shù)據(jù)相關(guān)的技術(shù)處理。在維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶編寫的《大數(shù)據(jù)時(shí)代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。
1.2 ?大數(shù)據(jù)的特點(diǎn)
IBM提出大數(shù)據(jù)具有5“V”的特點(diǎn):即Volume、Variety、Value、Velocity、Veracity。
Volume指數(shù)據(jù)量大,包括采集、存儲(chǔ)和計(jì)算,計(jì)量起始單位至少是P、E或Z(10億個(gè)T);Variety指數(shù)據(jù)的種類和來(lái)源多樣化,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化,多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求;Value指數(shù)據(jù)價(jià)值密度相對(duì)較低,信息海量,但有價(jià)值的不多;Velocity指數(shù)據(jù)增長(zhǎng)速度快,處理的速度也很快,實(shí)時(shí)分析;Veracity指數(shù)據(jù)的準(zhǔn)確性和可信賴度,即數(shù)據(jù)的質(zhì)量。
1.3 ?大數(shù)據(jù)與實(shí)驗(yàn)室之間的內(nèi)在關(guān)系
現(xiàn)代科技的進(jìn)步與社會(huì)的迅速發(fā)展,主要得益于對(duì)數(shù)據(jù)的使用,實(shí)驗(yàn)室的性質(zhì)和特點(diǎn)就注定了與數(shù)據(jù)的不解之緣。在實(shí)驗(yàn)研究開展的過(guò)程中,勢(shì)必會(huì)產(chǎn)生大量的數(shù)據(jù),這種數(shù)據(jù)呈現(xiàn)出爆發(fā)式的增長(zhǎng),通過(guò)運(yùn)用大數(shù)據(jù)技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行有效的分析和挖掘,提取出有用的信息和形成有價(jià)值的結(jié)論,進(jìn)一步的促進(jìn)了實(shí)驗(yàn)室的研究,這種內(nèi)在的聯(lián)系,也使大數(shù)據(jù)成為了實(shí)驗(yàn)室研究的一種思維、工具或方式、方法。
2 ?目前實(shí)驗(yàn)室研究存在的主要問(wèn)題
2.1 ?重復(fù)性實(shí)驗(yàn)多,研究效率低下
在科研領(lǐng)域,驗(yàn)證別人已經(jīng)發(fā)現(xiàn)的科學(xué)結(jié)論是非常必要的,這是進(jìn)一步深入研究的基礎(chǔ),也就是一定要重復(fù)別人的實(shí)驗(yàn),但是這種重復(fù)性工作的價(jià)值是建立在研究者必須準(zhǔn)備在相應(yīng)的領(lǐng)域開展深層次、系統(tǒng)性的研究基礎(chǔ)之上,而國(guó)內(nèi)目前的科研工作大多數(shù)停留在重復(fù)性階段,究其原因歸結(jié)于實(shí)驗(yàn)室或個(gè)人的研究方向和研究?jī)?nèi)容缺乏連續(xù)性和系統(tǒng)性,頻繁的更換研究方向和研究課題,研究者僅僅在某領(lǐng)域淺嘗輒止,剛剛重復(fù)性的進(jìn)行別人的重要實(shí)驗(yàn),沒(méi)有系統(tǒng)深入地進(jìn)行研究就終止了該項(xiàng)工作,那么前期的實(shí)驗(yàn)就失去了價(jià)值,變成一種低水平的重復(fù)性工作,導(dǎo)致實(shí)驗(yàn)研究效率低下。
2.2 ?產(chǎn)生數(shù)據(jù)量大,有價(jià)值信息少
IDC報(bào)告顯示,預(yù)計(jì)到2020年全球數(shù)據(jù)總量將超過(guò)40 ZB,《大數(shù)據(jù)技術(shù)概論》(中國(guó)科學(xué)院大學(xué)工程學(xué)院)一書中提到,歐洲CERN對(duì)撞機(jī)每年產(chǎn)生的數(shù)據(jù)量超過(guò)15 PB,華大基因測(cè)序目前每年產(chǎn)生數(shù)據(jù)一年超過(guò)5 PB,美國(guó)EarthScope每年產(chǎn)生數(shù)據(jù)超過(guò)68 TB等,可見,實(shí)驗(yàn)室研究中產(chǎn)生的數(shù)據(jù)量之大,實(shí)驗(yàn)的描述、數(shù)據(jù)的記錄與分析、學(xué)術(shù)數(shù)據(jù)庫(kù)等[5]與研究相關(guān)的方方面面都成了產(chǎn)生數(shù)據(jù)的源頭,然而,在這些海量的數(shù)據(jù)中,有價(jià)值的信息寥寥無(wú)幾,一個(gè)生態(tài)學(xué)家想分析過(guò)去10年美國(guó)蒸散發(fā)量的變化,僅下載的圖像數(shù)據(jù)就達(dá)3 TB,然而在處理后,僅生成了小于100 M的分析結(jié)果[6],這就充分地說(shuō)明,實(shí)驗(yàn)研究產(chǎn)生的數(shù)據(jù)量巨大,但有價(jià)值的信息非常少。
2.3 ?數(shù)據(jù)分析技術(shù)不熟悉,數(shù)據(jù)處理復(fù)雜
在實(shí)驗(yàn)研究中,產(chǎn)生的海量數(shù)據(jù),繁雜冗長(zhǎng),錯(cuò)綜復(fù)雜,相互交錯(cuò),很難用傳統(tǒng)的、簡(jiǎn)單的方法去統(tǒng)計(jì)、分析和處理。面對(duì)混亂的數(shù)據(jù),研究人員不得不花費(fèi)大量的時(shí)間和精力來(lái)對(duì)數(shù)據(jù)進(jìn)行處理,而且以現(xiàn)在的技術(shù),也只能處理分析規(guī)模相對(duì)小的數(shù)據(jù)信息,實(shí)驗(yàn)研究人員對(duì)數(shù)據(jù)分析技術(shù)并不了解。
2.4 ?大數(shù)據(jù)背景下實(shí)驗(yàn)室研究面臨的新問(wèn)題
面對(duì)大數(shù)據(jù)的特點(diǎn),如何對(duì)海量的數(shù)據(jù)進(jìn)行采集、存儲(chǔ)和計(jì)算,如何對(duì)種類和來(lái)源多樣化的數(shù)據(jù)進(jìn)行分析、處理和共享,如何在海量的、價(jià)值密度相對(duì)較低的數(shù)據(jù)中篩選出有價(jià)值的信息,如何在海量的數(shù)據(jù)中挖掘其背后隱藏的規(guī)律及特點(diǎn),如何應(yīng)對(duì)大數(shù)據(jù)給技術(shù)研究創(chuàng)新工作所帶來(lái)的從思維體系到技術(shù)方法的大變革等等問(wèn)題,這都是實(shí)驗(yàn)研究者在大數(shù)據(jù)時(shí)代要面對(duì)的,也是擺在科研人員面前急需解決的難題[7]。
3 ?大數(shù)據(jù)對(duì)實(shí)驗(yàn)室研究的重要影響
3.1 ?大數(shù)據(jù)能夠反映出科學(xué)研究的最新動(dòng)態(tài)及其內(nèi)部的發(fā)展規(guī)律
高校實(shí)驗(yàn)室是開展實(shí)驗(yàn)教學(xué),培養(yǎng)學(xué)生實(shí)踐能力與綜合素質(zhì)的主要場(chǎng)所,更是科研的前沿陣地,實(shí)驗(yàn)室研究中對(duì)數(shù)據(jù)的運(yùn)用是最充分,研究的詳細(xì)數(shù)據(jù)能夠充分的描述出實(shí)驗(yàn)的變化過(guò)程,挖掘出實(shí)驗(yàn)內(nèi)部深層次的規(guī)律。
3.2 ?大數(shù)據(jù)能夠打破實(shí)驗(yàn)研究者的固有思維局限,實(shí)現(xiàn)實(shí)驗(yàn)室研究的協(xié)同創(chuàng)新與發(fā)展
在實(shí)驗(yàn)室研究中,研究者本身的認(rèn)知是簡(jiǎn)單的、靜態(tài)的、局部的,然而在大數(shù)據(jù)時(shí)代,實(shí)驗(yàn)研究者利用大數(shù)據(jù)的性質(zhì)特點(diǎn),對(duì)科研問(wèn)題的處理及思考可現(xiàn)實(shí)復(fù)雜化、動(dòng)態(tài)化、整體化,能夠?qū)⒍喾N思維方式運(yùn)用到研究中,也可利用大數(shù)據(jù)的多樣性、復(fù)雜性來(lái)綜合分析實(shí)驗(yàn)數(shù)據(jù),達(dá)到不同領(lǐng)域不同學(xué)科之間的實(shí)驗(yàn)室研究同步創(chuàng)新、發(fā)展。
3.3 ?大數(shù)據(jù)可實(shí)現(xiàn)實(shí)驗(yàn)的可預(yù)性,并減少不必要的實(shí)驗(yàn)
在大數(shù)據(jù)時(shí)代,實(shí)驗(yàn)研究者通過(guò)對(duì)大量數(shù)據(jù)的分析與處理,其中包括實(shí)驗(yàn)研究過(guò)程中出現(xiàn)的信息數(shù)據(jù),以及實(shí)驗(yàn)的外部有關(guān)信息數(shù)據(jù),能夠確定出下一步實(shí)驗(yàn)的方法、預(yù)期達(dá)到的實(shí)驗(yàn)結(jié)果,進(jìn)而避免了前期為確定實(shí)驗(yàn)影響因素而進(jìn)行的相關(guān)實(shí)驗(yàn),同時(shí)也避免了因人為因素而失誤造成的重復(fù)實(shí)驗(yàn)。
4 ?大數(shù)據(jù)時(shí)代下,實(shí)驗(yàn)室研究策略
4.1 ?創(chuàng)新研究方法,提高對(duì)數(shù)據(jù)的敏銳性
在大數(shù)據(jù)時(shí)代,實(shí)驗(yàn)研究者必須提高對(duì)大數(shù)據(jù)可用性、重要性的認(rèn)識(shí)和敏銳性,在研究中,積極主動(dòng)地通過(guò)國(guó)內(nèi)外一些重要平臺(tái),如數(shù)據(jù)信息平臺(tái)、商業(yè)數(shù)據(jù)庫(kù)、學(xué)術(shù)數(shù)據(jù)庫(kù)、共享文庫(kù)、專業(yè)網(wǎng)站等,也可借助網(wǎng)絡(luò)調(diào)查、計(jì)算機(jī)輔助調(diào)查(CAI)、電話輸入數(shù)據(jù)搜集系統(tǒng)、新的紙張表格調(diào)查技術(shù)等數(shù)據(jù)搜集技術(shù)方法進(jìn)行數(shù)據(jù)的搜集,了解、分析與實(shí)驗(yàn)研究相關(guān)、有價(jià)值的信息數(shù)據(jù),協(xié)助本實(shí)驗(yàn)的研究。同時(shí),在實(shí)驗(yàn)研究的過(guò)程中,針對(duì)實(shí)驗(yàn)所產(chǎn)生的數(shù)據(jù),研究者應(yīng)主動(dòng)地保留儲(chǔ)存,并運(yùn)用適當(dāng)?shù)慕y(tǒng)計(jì)分析法進(jìn)行分析,提高對(duì)數(shù)據(jù)的敏感性,及時(shí)捕獲研究中所產(chǎn)生的重大價(jià)值信息。
另外,為提高實(shí)驗(yàn)室研究的效率,確保實(shí)驗(yàn)研究的實(shí)效性,研究者必須創(chuàng)新實(shí)驗(yàn)研究的方式和方法,轉(zhuǎn)變觀念,加強(qiáng)國(guó)內(nèi)外的交流,在研究方法上與國(guó)際接軌,加大對(duì)大數(shù)據(jù)可用性評(píng)估和保證的關(guān)鍵技術(shù)的研究和開發(fā),通過(guò)大數(shù)據(jù)技術(shù)把實(shí)驗(yàn)室外部的數(shù)據(jù)信息資源引進(jìn)實(shí)驗(yàn)室研究中,注重對(duì)大數(shù)據(jù)的分析與挖掘,促使科研水平不斷提高。
4.2 ?加強(qiáng)大數(shù)據(jù)人才的培養(yǎng)力度
據(jù)麥肯錫公司分析,在2018年大數(shù)據(jù)相關(guān)技術(shù)崗位人才需求將大幅增加,其中大數(shù)據(jù)決策分析師就有150萬(wàn)左右的需求,未來(lái)10年內(nèi),進(jìn)美國(guó)就需求相關(guān)人才200~400萬(wàn)[8]。在國(guó)內(nèi),根據(jù)數(shù)聯(lián)尋英發(fā)布的《大數(shù)據(jù)人才報(bào)告》顯示,目前全國(guó)大數(shù)據(jù)人才僅46萬(wàn),未來(lái)3-5年內(nèi)大數(shù)據(jù)人才的缺口將高達(dá)150萬(wàn),因此,人才培養(yǎng)已成為我國(guó)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的當(dāng)務(wù)之急。首先針對(duì)實(shí)驗(yàn)室研究者,開設(shè)JAVA、python等編程語(yǔ)言基礎(chǔ),hadoop、spark開發(fā)等數(shù)據(jù)管理軟件等課程,增強(qiáng)研究者對(duì)數(shù)據(jù)的敏銳性,提高其對(duì)數(shù)據(jù)的分析、處理能力,熟悉使用數(shù)據(jù)分析技術(shù)。其次,采取跨校聯(lián)合培養(yǎng)等方式開展跨學(xué)科大數(shù)據(jù)綜合型人才培養(yǎng),促使高校開設(shè)大數(shù)據(jù)相關(guān)專業(yè)或設(shè)置大數(shù)據(jù)相關(guān)的課程,保證實(shí)驗(yàn)室研究中具備大數(shù)據(jù)技術(shù)的相關(guān)人才,以此推動(dòng)實(shí)驗(yàn)室研究的發(fā)展。
4.3 ?加大實(shí)驗(yàn)室大數(shù)據(jù)的硬件、軟件設(shè)施建設(shè)
大數(shù)據(jù)背景下,實(shí)驗(yàn)室的建設(shè)需要在學(xué)校實(shí)際科研需求及教學(xué)的需求下,通過(guò)大數(shù)據(jù)技術(shù)的支持,建立起具有可行性、擴(kuò)展性和實(shí)用性的實(shí)驗(yàn)室[9]。在此背景下,實(shí)驗(yàn)室的建設(shè)需要包括數(shù)據(jù)存儲(chǔ)系統(tǒng)、數(shù)據(jù)計(jì)算中心、數(shù)據(jù)終端以及可視化模塊[10],數(shù)據(jù)存儲(chǔ)和計(jì)算是實(shí)驗(yàn)室的核心部分,硬件設(shè)施大多選用HP、Dell及IBM等,常見的軟件設(shè)施含有多種存儲(chǔ)模型管理系統(tǒng)等,在建設(shè)的過(guò)程中,高校可積極借鑒國(guó)外先進(jìn)實(shí)驗(yàn)室的經(jīng)驗(yàn),努力強(qiáng)化實(shí)驗(yàn)室軟硬件建設(shè),改善實(shí)驗(yàn)室研究環(huán)境。
4.4 ?建立大數(shù)據(jù)實(shí)驗(yàn)室
大數(shù)據(jù)實(shí)驗(yàn)室的建設(shè)不僅是為了滿足學(xué)校教學(xué)和學(xué)科建設(shè)的需求,也更是對(duì)學(xué)校科研研究提供相應(yīng)的支撐,不僅能給實(shí)驗(yàn)研究者帶來(lái)大數(shù)據(jù)技術(shù)的魅力和廣闊前景,使其掌握主流的大數(shù)據(jù)存儲(chǔ)、管理、分析技術(shù),更能夠培養(yǎng)適應(yīng)數(shù)據(jù)時(shí)代的創(chuàng)新人才,滿足大數(shù)據(jù)技術(shù)人才的需求。
5 ?結(jié)論
大數(shù)據(jù)對(duì)實(shí)驗(yàn)室研究產(chǎn)生了重大影響,大數(shù)據(jù)能反映出實(shí)驗(yàn)室研究動(dòng)態(tài)及各類數(shù)據(jù)信息內(nèi)部深層次的規(guī)律,改變?nèi)说膫鹘y(tǒng)觀念,也能更新研究者的思維局限,實(shí)現(xiàn)研究的同步創(chuàng)新及社會(huì)化,更能催生新的科技成果和加快科技產(chǎn)品的更新?lián)Q代周期,大數(shù)據(jù)必能成為未來(lái)實(shí)驗(yàn)室研究的主流方式。為此,我們應(yīng)該加大建設(shè)大數(shù)據(jù)實(shí)驗(yàn)室、大數(shù)據(jù)人才培養(yǎng)的力度,增強(qiáng)實(shí)驗(yàn)研究人員的大數(shù)據(jù)意識(shí),搶占科技制高點(diǎn),為我國(guó)科技的新一輪發(fā)展打下堅(jiān)實(shí)的基礎(chǔ)。
參考文獻(xiàn)
[1] 李鋒. 大數(shù)據(jù)在高校實(shí)驗(yàn)室管理中的作用[J]. 科學(xué)大眾(科學(xué)教育), 2017(08): 178.
[2] 吳潤(rùn)強(qiáng), 孫科學(xué). 大數(shù)據(jù)及其在實(shí)驗(yàn)室管理中的應(yīng)用[J]. 科技經(jīng)濟(jì)導(dǎo)刊, 2016(34): 243.
[3] 廖軍, 張毅, 王成良, 等. 高校大數(shù)據(jù)實(shí)驗(yàn)室建設(shè)體系研究與分析[J]. 實(shí)驗(yàn)技術(shù)與管理, 2018, 35(11): 241-244.
[4] 賀寧, 湯明偉, 賀萌. 大數(shù)據(jù)課程在高職學(xué)院中的建設(shè)和發(fā)展[J]. 軟件, 2015, 36(10): 50-52.
[5] 梁祥炎, 莫曉靜. 大數(shù)據(jù)下的實(shí)驗(yàn)室研究[J]. 技術(shù)與市場(chǎng), 2014, 21(07): 7-8+10.
[6] 賀威, 劉偉榕. 大數(shù)據(jù)時(shí)代的科研革新[J]. 未來(lái)與發(fā)展, 2014, 36(02): 2-5.
[7] 朱東華, 張嶷, 汪雪鋒, 等. 大數(shù)據(jù)環(huán)境下技術(shù)創(chuàng)新管理方法研究[J]. 科學(xué)學(xué)與科學(xué)技術(shù)管理, 2013, 34(4): 172-180.
[8] HENKE N, BUGHIN J, CHUI M, et al. The Age of Ana-lytics; Competing in a Data-Driven World [EB/OL]. (2016-12).
[9] 黃葉超, 鄭庚. 基于大數(shù)據(jù)技術(shù)實(shí)驗(yàn)室建設(shè)探索與研究[J]. 電子測(cè)試, 2017(24): 56+53.
[10] 徐煉, 王小強(qiáng), 金美順, 等. “偽基站”數(shù)據(jù)現(xiàn)場(chǎng)取證方法[J]. 中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 23(03): 92-96.