999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)時(shí)代下計(jì)算機(jī)信息處理技術(shù)研究

2021-11-18 00:42:12徐維堅(jiān)
科技信息·學(xué)術(shù)版 2021年26期
關(guān)鍵詞:安全大數(shù)據(jù)

徐維堅(jiān)

摘要:自2008年首次提出“大數(shù)據(jù)”概念以來(lái),基于大數(shù)據(jù)的計(jì)算機(jī)信息處理技術(shù)日新月異,極大的豐富和改善了人們的生活方式。人們生活方式的改變又進(jìn)一步的促進(jìn)了大數(shù)據(jù)信息處理技術(shù)的發(fā)展,同時(shí)也對(duì)大數(shù)據(jù)信息安全提出了挑戰(zhàn)。本文從大數(shù)據(jù)的生命周期角度出發(fā),立足大數(shù)據(jù)的5V特征,系統(tǒng)研究了大數(shù)據(jù)各個(gè)生命周期環(huán)節(jié)中所使用的計(jì)算機(jī)信息處理技術(shù)和信息安全技術(shù),提出應(yīng)當(dāng)采用哪些技術(shù)來(lái)進(jìn)行大數(shù)據(jù)的分析和處理,并保證這些環(huán)節(jié)的大數(shù)據(jù)信息安全。最后,對(duì)大數(shù)據(jù)時(shí)代下所面臨的挑戰(zhàn),給出應(yīng)對(duì)措施,以提高企業(yè)機(jī)構(gòu)應(yīng)對(duì)風(fēng)險(xiǎn)和挑戰(zhàn)的能力,推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展和變革。

關(guān)鍵詞:大數(shù)據(jù);信息處理;生命周期;安全

Abstract:Since the concept of "big data" was first proposed in 2008,computer information processing technology based on big data has been changed rapidly,greatly enriching and improving people's way of life. The change of people's way of life has further promoted the development of big data information processing technology,but also challenged the security of big data information. Based on the 5V characteristics of big data from the perspective of the life cycle of big data,this paper systematically research the computer information processing technology and information security technology used in all stages of the life cycle of big data,and puts forward which technologies should be used for the analysis and processing of big data,and ensure the security of big data information in these stages. Finally,to improve the ability of enterprises to respond to risks and challenges,and promote the growth and transformation of the big data industry,I give some measures to address the challenges in the era of big data.

Keywords:Big data;information processing; life cycle; security

前言

2008年9月美國(guó)《自然》雜志專刊——The Next Google,第一次正式提出“大數(shù)據(jù)”(Big Data)概念。在該專欄中,研究人員和商業(yè)人士為我們描述了未來(lái)十年影響人類的前瞻性技術(shù),其中很多已經(jīng)實(shí)現(xiàn)或是近似實(shí)現(xiàn),如電子閱讀器(ELECTRONIC PAPER)、VR設(shè)備(VIDEO VISORS)、語(yǔ)義分析與智能推薦(THE SEMANTIC WEB,BETTER BROWSERS)等。

但具體“大數(shù)據(jù)”所指是什么,尚沒(méi)有明確定義。直到2011年5月,麥肯錫研究院發(fā)布報(bào)告——Big data:The next frontier for innovation,competition,and productivity,才第一次給出了大數(shù)據(jù)較為清晰地定義:大數(shù)據(jù)是指其容量超出了常規(guī)數(shù)據(jù)庫(kù)大小的數(shù)據(jù)池,數(shù)據(jù)池中的數(shù)據(jù)可以被獲取、關(guān)聯(lián)、聚合、儲(chǔ)存和分析,已經(jīng)成為全球經(jīng)濟(jì)各個(gè)環(huán)節(jié)中的一部分。從該份報(bào)告中,我們可以看到,大數(shù)據(jù)在經(jīng)濟(jì)領(lǐng)域發(fā)揮著越來(lái)越重要的作用。

1 大數(shù)據(jù)時(shí)代中計(jì)算機(jī)信息處理技術(shù)

經(jīng)過(guò)這些年的發(fā)展,大數(shù)據(jù)的特征,也由早期的3V特征——規(guī)模大(Volume)、速度快或時(shí)效快(Velocity)和種類多(Variety),發(fā)展到現(xiàn)在的5V特征,增加了價(jià)值(Value)和可靠性(Veracity)兩個(gè)特性。這些特性反映了大數(shù)據(jù)技術(shù)的目的是:處理超大規(guī)模數(shù)據(jù),保證很高的時(shí)效性,從多樣的數(shù)據(jù)集中提取出有價(jià)值的數(shù)據(jù),并且確保原始數(shù)據(jù)的可靠性,從而產(chǎn)生有效益的創(chuàng)新數(shù)據(jù),來(lái)輔助觀察、決策和過(guò)程控制。

1.1 大數(shù)據(jù)采集技術(shù)

首先第一步,對(duì)“大數(shù)據(jù)”進(jìn)行數(shù)據(jù)采集。在采集過(guò)程中,首先面臨的難題是采集的數(shù)據(jù)體量非常巨大,即“大數(shù)據(jù)”的首個(gè)特征“規(guī)模大”。其次是數(shù)據(jù)類型豐富,結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)種類繁多,即第三個(gè)特征“種類多”。最后是數(shù)據(jù)以“分布式數(shù)據(jù)庫(kù)”形式存儲(chǔ)在不同形式的數(shù)據(jù)庫(kù)中,其時(shí)效性難以保持。傳統(tǒng)數(shù)據(jù)庫(kù)采集方式面對(duì)體量如此龐大、種類如此繁多的“大數(shù)據(jù)”難以勝任,越來(lái)越無(wú)法滿足大數(shù)據(jù)的采集要求。因此有必要使用新的采集方式來(lái)完成大數(shù)據(jù)的采集工作,當(dāng)前發(fā)展比較成熟的大數(shù)據(jù)采集技術(shù)有:

第一種,系統(tǒng)日志采集技術(shù)。如基于Hadoop的HDFS和Map Reduce構(gòu)建的Chukwa框架,它采用分布式架構(gòu),能滿足每秒數(shù)百M(fèi)B的日志采集和數(shù)據(jù)傳輸需求。很多企業(yè)的業(yè)務(wù)平臺(tái)使用該框架來(lái)處理每天產(chǎn)生的大量業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)結(jié)構(gòu)化程度高,易于后續(xù)的數(shù)據(jù)處理與分析。

第二種,網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)。該技術(shù)是通過(guò)網(wǎng)絡(luò)爬蟲(chóng),或是通過(guò)一些公開(kāi)的API接口來(lái)獲取網(wǎng)絡(luò)數(shù)據(jù)。但是網(wǎng)絡(luò)上獲取的數(shù)據(jù),大多以非機(jī)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)居多。對(duì)于這些數(shù)據(jù),需要進(jìn)一步進(jìn)行處理。目前常用的網(wǎng)頁(yè)爬蟲(chóng)技術(shù)有Apache Nutch、Scrapy、Crawler4j等框架,這些框架各有優(yōu)劣,需要工程師根據(jù)業(yè)務(wù)形式去取舍,或是進(jìn)行二次開(kāi)發(fā)。但是爬蟲(chóng)技術(shù)可能會(huì)遭到一些平臺(tái)的反爬限制,從而導(dǎo)致采集終止或是采集數(shù)據(jù)不理想,這個(gè)時(shí)候需要不定期變更代理服務(wù)器,避免被封。

第三種,數(shù)據(jù)庫(kù)采集技術(shù)。這種方法,多用于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),對(duì)已經(jīng)穩(wěn)定的系統(tǒng)或平臺(tái)友好,能夠保證企業(yè)每時(shí)每刻都能將產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù)寫入到業(yè)務(wù)平臺(tái)數(shù)據(jù)庫(kù)中。使用這種方式的企業(yè),還需要建立相應(yīng)的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)總線或是數(shù)據(jù)中臺(tái),以便進(jìn)行后續(xù)的大數(shù)據(jù)綜合分析和處理。

1.2 大數(shù)據(jù)預(yù)處理技術(shù)

對(duì)于采集的數(shù)據(jù),不能直接存入到數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中,需要進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)離散化等步驟,將數(shù)據(jù)處理成可以用于數(shù)據(jù)挖掘的信息。由于獲取的數(shù)據(jù)量十分巨大,且數(shù)據(jù)結(jié)構(gòu)不完整、不一致、含臟數(shù)據(jù),所以在大數(shù)據(jù)預(yù)處理上將花費(fèi)大量的時(shí)間,大約需要占到整個(gè)數(shù)據(jù)挖掘過(guò)程中60%以上的時(shí)間[5]。

在數(shù)據(jù)清洗過(guò)程中,需要利用自動(dòng)填充空白值、緊鄰值補(bǔ)齊、貝葉斯公式等方法來(lái)填充缺省值。利用分箱技術(shù)(Binning)對(duì)數(shù)據(jù)進(jìn)行分類,識(shí)別出噪聲數(shù)據(jù)和離群數(shù)據(jù),然后對(duì)噪聲數(shù)據(jù)剔除,對(duì)離群數(shù)據(jù)進(jìn)行糾偏;或者利用回歸技術(shù)(Regression)對(duì)數(shù)據(jù)進(jìn)行擬合,平滑數(shù)據(jù),消除噪聲數(shù)據(jù)和離群數(shù)據(jù)的影響。最后對(duì)不一致的數(shù)據(jù)進(jìn)行糾錯(cuò)處理,輸出滿足“準(zhǔn)確性、完整性、一致性”要求的數(shù)據(jù)。

清洗完畢后,再對(duì)數(shù)據(jù)進(jìn)行集成和規(guī)約,該過(guò)程需要合并不同數(shù)據(jù)源,去除重復(fù)數(shù)據(jù)。接著對(duì)數(shù)據(jù)進(jìn)行歸一化、標(biāo)準(zhǔn)化和去中心化,消除不同數(shù)據(jù)源之間的差異,統(tǒng)一數(shù)據(jù)的屬性、度量單位、數(shù)據(jù)值范圍等。然后對(duì)數(shù)據(jù)進(jìn)行規(guī)約,需要用到的策略有:1)維規(guī)約,即減少隨機(jī)數(shù)據(jù),將數(shù)據(jù)投射到更小的空間,降低維度,具體方法有小波變換(WT)和主成分分析(PCA)技術(shù);2)數(shù)量規(guī)約,用較小的數(shù)據(jù)替代原始數(shù)據(jù),如抽樣和“數(shù)據(jù)立方體聚集”技術(shù)。

最后對(duì)規(guī)約好的數(shù)據(jù)進(jìn)行轉(zhuǎn)化和離散化,一般是將參與模型計(jì)算的分類數(shù)據(jù)和有序數(shù)據(jù)轉(zhuǎn)換成數(shù)值型數(shù)據(jù),將連續(xù)性數(shù)據(jù)離散化,方便模型計(jì)算。常用的方法有K-means聚類離散化算法和數(shù)據(jù)分箱算法。

1.3 大數(shù)據(jù)存儲(chǔ)技術(shù)

雖然預(yù)處理完畢的大數(shù)據(jù)相對(duì)于單個(gè)數(shù)據(jù)源來(lái)說(shuō),有一定程度的裁剪,但不同來(lái)源、不同形式的數(shù)據(jù)依然是海量數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)庫(kù)存儲(chǔ)技術(shù)無(wú)法滿足如此海量數(shù)據(jù)存儲(chǔ)的要求。以分布式文件存儲(chǔ)為核心的HDFS存儲(chǔ)方式很好的解決了海量數(shù)據(jù)存儲(chǔ)的問(wèn)題,已經(jīng)在被應(yīng)用到很多企業(yè)的大數(shù)據(jù)平臺(tái)上。隨著網(wǎng)絡(luò)存儲(chǔ)的不斷發(fā)展,以“云存儲(chǔ)”為代表的網(wǎng)絡(luò)分布式存儲(chǔ)方式正在被越來(lái)越多的中小企業(yè)所青睞。這些企業(yè)尚無(wú)能力建立起自己的大數(shù)據(jù)存儲(chǔ)平臺(tái),借助“阿里云”、“百度云”等云存儲(chǔ)技術(shù)可以快速實(shí)現(xiàn)自己的大數(shù)據(jù)存儲(chǔ)。“云存儲(chǔ)”充分發(fā)揮了網(wǎng)絡(luò)虛擬化技術(shù)的優(yōu)勢(shì),合理劃分、安裝及調(diào)度虛擬云服務(wù)器資源,提高了數(shù)據(jù)存儲(chǔ)和索引的速度,保證了大數(shù)據(jù)挖掘和分析的時(shí)效性。

1.4 大數(shù)據(jù)挖掘與分析

數(shù)據(jù)挖掘與數(shù)據(jù)分析是大數(shù)據(jù)處理流程中重要的一環(huán),也是體現(xiàn)大數(shù)據(jù)產(chǎn)價(jià)值的關(guān)鍵一環(huán)。數(shù)據(jù)挖掘,是從大數(shù)據(jù)中挖掘出隱藏其中的、不為人所知的、有潛在價(jià)值的、新穎的信息的過(guò)程,如經(jīng)典的“啤酒與尿布”的案例。該過(guò)程對(duì)技術(shù)水平、算法精通程度有很高要求,常用的挖掘算法有神經(jīng)網(wǎng)絡(luò)方法、遺傳算法、ID3決策樹(shù)、支持向量機(jī)和K近鄰分類算法(KNN)等。而數(shù)據(jù)分析,則側(cè)重于利用統(tǒng)計(jì)學(xué)知識(shí),從中提取有用信息,并形成結(jié)論,以輔助決策,更多是詳細(xì)研究和概括總結(jié)的過(guò)程,常用的分析方法有漏斗分析法、關(guān)聯(lián)規(guī)則、回歸分析、指標(biāo)分析等方法。

1.5 大數(shù)據(jù)可視化與應(yīng)用

最后,將從大數(shù)據(jù)中挖掘出來(lái)的信息和分析提取而來(lái)的信息,通過(guò)可視化相關(guān)技術(shù),呈現(xiàn)給用戶(尤其是決策者),以幫助其在紛繁復(fù)雜的大數(shù)據(jù)面前,能有效的抓住核心價(jià)值信息,提高其管理水平,幫助其挖掘更多的商業(yè)價(jià)值,做出更正確的決策。目前國(guó)內(nèi)外很多企業(yè),都在建設(shè)自己的大數(shù)據(jù)可視化平臺(tái),其中較為成熟的可視化平臺(tái)形式有BI系統(tǒng)和數(shù)字孿生技術(shù)。其中BI系統(tǒng)是通過(guò)建立數(shù)據(jù)模型,建立關(guān)鍵指標(biāo),以圖表、2D/3D地圖、指標(biāo)數(shù)據(jù)等形式,來(lái)展現(xiàn)業(yè)務(wù)的監(jiān)測(cè)情況和研判結(jié)果,并提供智能預(yù)測(cè),如由蘭州大學(xué)自主研發(fā)的“新冠肺炎疫情全球預(yù)測(cè)系統(tǒng)”。

2 大數(shù)據(jù)時(shí)代下信息安全技術(shù)研究

上一章節(jié)系統(tǒng)闡述了大數(shù)據(jù)信息處理各個(gè)階段的關(guān)鍵技術(shù)和方案,按照上述流程可以較好的完成大數(shù)據(jù)的采集、處理和分析等工作,但是不能保證各個(gè)環(huán)節(jié)的數(shù)據(jù)安全、網(wǎng)絡(luò)安全和信息安全。現(xiàn)今頻頻發(fā)生的數(shù)據(jù)泄漏和黑客攻擊時(shí)間,嚴(yán)重降低了人們對(duì)大數(shù)據(jù)技術(shù)的信任,使得人們對(duì)大數(shù)據(jù)技術(shù)的安全產(chǎn)生了懷疑,影響了大數(shù)據(jù)的發(fā)展進(jìn)程。本章節(jié)將系統(tǒng)分析大數(shù)據(jù)生命周期中關(guān)鍵的安全技術(shù)。

2.1 大數(shù)據(jù)采集安全技術(shù)

大數(shù)據(jù)采集作為大數(shù)據(jù)生命周期中第一步,其安全技術(shù)至關(guān)重要,決定了數(shù)據(jù)的質(zhì)量和可信程度。上一章節(jié)中,我們提到三種采集技術(shù):系統(tǒng)日志采集方法、網(wǎng)絡(luò)數(shù)據(jù)采集方法、數(shù)據(jù)庫(kù)采集方法。

第一種和第三種采集方法,主要來(lái)源于企業(yè)自有平臺(tái)或可信的外部系統(tǒng),傳統(tǒng)的安全技術(shù),如防火墻技術(shù)和虛擬專用網(wǎng)絡(luò)技術(shù),可以有效的保證大數(shù)據(jù)采集的安全。其中常用的SSL VPN技術(shù)可以進(jìn)行數(shù)據(jù)加密、完整性檢測(cè)和身份認(rèn)證,配置簡(jiǎn)單,無(wú)需安裝特定軟件,可有效保護(hù)局域網(wǎng)內(nèi)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),保證數(shù)據(jù)在安全通道中流通,保證大數(shù)據(jù)采集的安全。

但是第二種方式,網(wǎng)絡(luò)數(shù)據(jù)采集方法,由于采集的數(shù)據(jù)量大、來(lái)源多、種類復(fù)雜,且無(wú)法保證數(shù)據(jù)的真實(shí)性和完整性,也無(wú)法有效識(shí)別并剔除掉其中虛假或惡意的信息。一旦大數(shù)據(jù)采集器被黑客攻擊,注入臟數(shù)據(jù),當(dāng)其注入的臟數(shù)據(jù)達(dá)到一定規(guī)模后,將會(huì)將數(shù)據(jù)分析引入歧途,從而對(duì)大數(shù)據(jù)使用者造成誤判,導(dǎo)致其出現(xiàn)損失。這種攻擊手段比較隱晦,短時(shí)間難以發(fā)現(xiàn)。第二種采集方式所面臨的問(wèn)題,目前尚無(wú)比較有效的技術(shù)來(lái)有效防范。不過(guò),我們?nèi)匀豢梢酝ㄟ^(guò)一些舉措來(lái)加以控制。本人認(rèn)為,可以采用“評(píng)分等級(jí)”來(lái)控制,具體步驟為:1)首先對(duì)所涉及到的數(shù)據(jù)源,進(jìn)行量化評(píng)級(jí)。級(jí)別越高,表示該數(shù)據(jù)源質(zhì)量高、可信度高、安全系數(shù)高,對(duì)應(yīng)將其采集權(quán)重設(shè)置的更高。2)對(duì)相同評(píng)級(jí)的數(shù)據(jù)源,進(jìn)行相互補(bǔ)充,相互印證。出現(xiàn)矛盾數(shù)據(jù)時(shí),哪個(gè)更貼近更高級(jí)別的數(shù)據(jù)范圍,就保留哪個(gè)數(shù)據(jù)。3)對(duì)于無(wú)法印證其來(lái)源的數(shù)據(jù),視為孤立點(diǎn),予以剔除。當(dāng)然上述實(shí)施方案,不能完全依賴于機(jī)器自動(dòng)識(shí)別,必要時(shí)可以人工介入,及時(shí)調(diào)整數(shù)據(jù)源的等級(jí)權(quán)重,避免受到極值干擾。

2.2 大數(shù)據(jù)預(yù)處理安全技術(shù)

在大數(shù)據(jù)預(yù)處理階段,重點(diǎn)是需要保證數(shù)據(jù)的質(zhì)量。數(shù)據(jù)質(zhì)量的好壞直接影響后續(xù)的數(shù)據(jù)分析與挖掘。如何保證數(shù)據(jù)的質(zhì)量,關(guān)鍵是在數(shù)據(jù)清洗、集成、規(guī)約、轉(zhuǎn)化和離散化過(guò)程中,保證“不一致校驗(yàn)”有效。目前較為有效的方式有:1)分布式違反條件函數(shù)依賴(CDF)檢測(cè)方法;2)判斷導(dǎo)致數(shù)據(jù)質(zhì)量問(wèn)題的原因是數(shù)據(jù)一致性還是約束一致性。

另外,在大數(shù)據(jù)預(yù)處理階段,有一些數(shù)據(jù)需要加密處理,如個(gè)人敏感數(shù)據(jù)、企業(yè)機(jī)構(gòu)機(jī)密數(shù)據(jù)、公共安全數(shù)據(jù)(如小區(qū)攝像頭位置與生產(chǎn)廠商等敏感數(shù)據(jù))等,需要進(jìn)行脫敏處理。數(shù)據(jù)脫敏,簡(jiǎn)而言之就是對(duì)敏感數(shù)據(jù)屬性進(jìn)行轉(zhuǎn)化,使得該部分原始數(shù)據(jù)失真,但其他數(shù)據(jù)和其他屬性不受干擾,也不影響候選數(shù)據(jù)的分析與處理,從而達(dá)到保護(hù)的目的。該過(guò)程,可以用對(duì)稱或非對(duì)稱加密技術(shù)實(shí)現(xiàn),也可以用隨機(jī)數(shù)或特殊字符來(lái)進(jìn)行數(shù)據(jù)脫敏,前者可以讓授信方通過(guò)解密查看,而后者則會(huì)丟失原始數(shù)據(jù),有一定的局限性。

2.3 大數(shù)據(jù)存儲(chǔ)安全技術(shù)

在大數(shù)據(jù)存儲(chǔ)階段,需要保證分布式數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和云存儲(chǔ)等大數(shù)據(jù)存儲(chǔ)的安全。這一階段除了在物理層面上保證數(shù)據(jù)存儲(chǔ)設(shè)備的安全外,還需要保證數(shù)據(jù)存儲(chǔ)、變更、訪問(wèn)等過(guò)程中的安全。

對(duì)于數(shù)據(jù)存儲(chǔ),需要建立完備的數(shù)據(jù)備份和數(shù)據(jù)恢復(fù)機(jī)制,來(lái)保證機(jī)器發(fā)生故障時(shí),能夠快速恢復(fù)數(shù)據(jù)。常用的方式有異地備份,建立數(shù)據(jù)鏡像,對(duì)數(shù)據(jù)進(jìn)行定期快照。

對(duì)于數(shù)據(jù)變更和訪問(wèn)過(guò)程,需要設(shè)立安全可靠的訪問(wèn)機(jī)制。可以通過(guò)Kerberos認(rèn)證、PKI公鑰認(rèn)證、動(dòng)態(tài)口令等技術(shù)來(lái)確保訪問(wèn)者是可信用戶。其中動(dòng)態(tài)口令認(rèn)證機(jī)制,能有效解決了靜態(tài)口令不安全的的問(wèn)題,其基本原理是:在客戶端登錄時(shí),通過(guò)秘密通行短語(yǔ)(SPP,Secure Pass Phrase)來(lái)加入不確定因素,保證用戶每次認(rèn)證的數(shù)據(jù)都不相同,有效提高身份認(rèn)證安全性。

同時(shí)設(shè)計(jì)合理的權(quán)限管理機(jī)制,對(duì)大數(shù)據(jù)訪問(wèn)的粒度進(jìn)行控制。常用的技術(shù)方案有:1)基于屬性加密的訪問(wèn)控制,該方式是利用密文機(jī)制來(lái)控制訪問(wèn)客體,如用于訪問(wèn)靜態(tài)數(shù)據(jù)的KP-ABE算法(基于密鑰策略的屬性加密),以及用于云計(jì)算的CP-ABE算法(基于密文策略的屬性加密);2)基于角色的訪問(wèn)控制,該方式通過(guò)將用戶劃分成不同角色,每個(gè)角色給予不同的訪問(wèn)權(quán)限;該方式是通過(guò)建立數(shù)據(jù)信任模型來(lái)控制數(shù)據(jù)在安全范圍內(nèi)進(jìn)行訪問(wèn),保證了即使出現(xiàn)“內(nèi)鬼”,數(shù)據(jù)也不至于被大量泄漏。

3 大數(shù)據(jù)時(shí)代信息處理技術(shù)面臨的挑戰(zhàn)和應(yīng)對(duì)措施

大數(shù)據(jù)發(fā)展至今,已經(jīng)有十余個(gè)年頭,期間不斷出現(xiàn)新的問(wèn)題、新的挑戰(zhàn)、新的突破。其中主要的問(wèn)題和挑戰(zhàn),有以下幾個(gè)方面。

3.1 大數(shù)據(jù)信息質(zhì)量堪憂

由于目前大數(shù)據(jù)研究還處于發(fā)展階段,各行各業(yè)的大數(shù)據(jù)應(yīng)用參差不齊,所使用的技術(shù)也是良莠不齊,導(dǎo)致大數(shù)據(jù)在采集和處理過(guò)程中,很難保證大數(shù)據(jù)的信息質(zhì)量。前文提到在大數(shù)據(jù)的采集和預(yù)處理階段,需要采用分箱技術(shù)或是線性回歸等技術(shù)對(duì)數(shù)據(jù)進(jìn)行清洗。這在一定程度上可以提高大數(shù)據(jù)的質(zhì)量,但仍然不能保證所有的數(shù)據(jù)都能達(dá)到準(zhǔn)確性、一致性和有效性的三個(gè)要求。因此,學(xué)術(shù)界和產(chǎn)業(yè)界需要在這些方面不斷優(yōu)化算法,調(diào)整模型,改善方法,以進(jìn)一步提高所處理的大數(shù)據(jù)信息質(zhì)量。

3.2 信息安全問(wèn)題日益突出

當(dāng)前大數(shù)據(jù)信息處理技術(shù)還不夠成熟,技術(shù)實(shí)現(xiàn)上還不夠完善,一些大數(shù)據(jù)技術(shù)框架還存在漏洞。如2017年,Hadoop提權(quán)漏洞CVE-2017-7669,導(dǎo)致黑客可以拿到Root權(quán)限(最高權(quán)限)。除此之外,還有一些大數(shù)據(jù)安全事故是由于疏于安全管理,導(dǎo)致安全制度形同虛設(shè)。如數(shù)據(jù)分析公司Polecat今年近30TB業(yè)務(wù)數(shù)據(jù)遭到破壞,其根源是該公司一臺(tái)存儲(chǔ)了大量員工用戶名和密碼的ES服務(wù)器竟然沒(méi)有任何身份驗(yàn)證或其他加密措施的保護(hù)。再有一些公司或者企事內(nèi)部員工為了自己的私利,利用自身技術(shù)手段或特殊權(quán)限,非法獲取用戶敏感信息,或倒賣用戶個(gè)人信息獲利,如2017年京東內(nèi)部員工涉嫌竊取50億條用戶數(shù)據(jù)案件。

為了解決上述問(wèn)題,需要研究人員不斷加大大數(shù)據(jù)安全技術(shù)的研究和應(yīng)用,不斷完善現(xiàn)有數(shù)據(jù)安全技術(shù)。同時(shí),企業(yè)和機(jī)構(gòu)需要建立起嚴(yán)格有效的大數(shù)據(jù)安全體系。建立大數(shù)據(jù)安全體系,一是要政府和職能機(jī)關(guān)發(fā)揮監(jiān)督監(jiān)管作用,加大大數(shù)據(jù)方面法律、法規(guī)和標(biāo)準(zhǔn)的制定,約束大數(shù)據(jù)各個(gè)環(huán)節(jié)中的行為,對(duì)不符合法律法規(guī)的大數(shù)據(jù)信息處理行為進(jìn)行有效懲戒,同時(shí)制定相應(yīng)的大數(shù)據(jù)安全標(biāo)準(zhǔn),促進(jìn)大數(shù)據(jù)的發(fā)展;二是企業(yè)和機(jī)構(gòu)加大大數(shù)據(jù)的安全審計(jì)力度和審計(jì)技術(shù)的研發(fā),利用基于日志、基于網(wǎng)絡(luò)監(jiān)聽(tīng)、基于網(wǎng)關(guān)等審計(jì)技術(shù),來(lái)監(jiān)控大數(shù)據(jù)處理活動(dòng),及時(shí)發(fā)現(xiàn)隱患,避免出現(xiàn)事故。

3.3 人才發(fā)展不均衡

當(dāng)今世界,技術(shù)發(fā)展日新月異,競(jìng)爭(zhēng)日益激烈。說(shuō)到底是人才的競(jìng)爭(zhēng),科技的競(jìng)爭(zhēng)。當(dāng)前國(guó)內(nèi)大數(shù)據(jù)從業(yè)人才嚴(yán)重匱乏,與國(guó)外相比,國(guó)內(nèi)從業(yè)人員專業(yè)化程度較低,技術(shù)技能還存在較大差距。大數(shù)據(jù)的關(guān)鍵不是信息采集和信息本身,而是大數(shù)據(jù)的分析和處理的過(guò)程,這個(gè)過(guò)程依賴于從業(yè)人員的專業(yè)素養(yǎng)。若沒(méi)有一支專業(yè)化的人才隊(duì)伍,就如沒(méi)有良好設(shè)備的掘金者一樣,只能望“礦”興嘆,那大數(shù)據(jù)信息處理技術(shù)和安全技術(shù)也就無(wú)從談起。而建設(shè)這樣一支人才隊(duì)伍,需要社會(huì)各界共同努力。學(xué)校和科研機(jī)構(gòu)應(yīng)當(dāng)建立或完善大數(shù)據(jù)相關(guān)專業(yè)的培養(yǎng)方案,政府可以給大數(shù)據(jù)企業(yè)、機(jī)構(gòu)和人才提供一定程度的政策傾斜,社會(huì)各界提倡良好的人才觀,避免過(guò)分追逐熱門專業(yè),而忽視了基礎(chǔ)學(xué)科、關(guān)鍵技術(shù)和重要領(lǐng)域的建設(shè)與發(fā)展,保證人才均衡可持續(xù)發(fā)展。

4 大數(shù)據(jù)時(shí)代下計(jì)算機(jī)信息處理技術(shù)展望

未來(lái),大數(shù)據(jù)發(fā)展方向如何,學(xué)術(shù)界和產(chǎn)業(yè)界看法不一。雖然眾說(shuō)紛紜,但下面幾個(gè)發(fā)展方向,在未來(lái)定會(huì)得到更大的發(fā)展:1)大數(shù)據(jù)基礎(chǔ)研究得到突破,在大數(shù)據(jù)信息處理技術(shù)層面不斷涌現(xiàn)新的算法、規(guī)則和技術(shù)方案,例如云計(jì)算方向的發(fā)展;2)大數(shù)據(jù)系統(tǒng)工程不斷改善,涌現(xiàn)出一批優(yōu)秀的大數(shù)據(jù)技術(shù)工具和框架,為大數(shù)據(jù)的分析和處理奠定堅(jiān)實(shí)基礎(chǔ);3)大數(shù)據(jù)安全技術(shù)得到有效發(fā)展,更多安全可靠的安全技術(shù)被應(yīng)用到大數(shù)據(jù)信息處理技術(shù)中。除此之外,大數(shù)據(jù)與經(jīng)濟(jì)、大數(shù)據(jù)與社會(huì)、大數(shù)據(jù)與道德法律等交叉學(xué)科的研究也會(huì)得到長(zhǎng)足發(fā)展,進(jìn)而推動(dòng)大數(shù)據(jù)的技術(shù)創(chuàng)新、思想創(chuàng)新、制度創(chuàng)新。

5 結(jié)語(yǔ)

總之,當(dāng)今大數(shù)據(jù)時(shí)代的迅猛發(fā)展,使得人們的生產(chǎn)生活方式越來(lái)越智能、越來(lái)越豐富、越來(lái)越便捷。同時(shí),人們?nèi)招略庐惖纳a(chǎn)生活方式所創(chuàng)建的豐富的、多樣的、海量的數(shù)據(jù),反過(guò)來(lái)進(jìn)一步促進(jìn)了大數(shù)據(jù)的信息處理技術(shù)的發(fā)展。兩者相輔相成,相互促進(jìn),共同發(fā)展。在這相互促進(jìn)的發(fā)展過(guò)程中,學(xué)術(shù)界和產(chǎn)業(yè)界應(yīng)當(dāng)抓住機(jī)遇,克服困難,加大大數(shù)據(jù)的信息處理技術(shù)和安全技術(shù)的研發(fā)力度,加大大數(shù)據(jù)產(chǎn)業(yè)的建立力度,努力建設(shè)一批思想先進(jìn)、技術(shù)專業(yè)、符合國(guó)家戰(zhàn)略發(fā)展的高素質(zhì)人才隊(duì)伍,不斷推動(dòng)大數(shù)據(jù)的健康、安全、穩(wěn)定發(fā)展。

參考文獻(xiàn):

[1]Big data:The next Google. Nature 455,8–9 (2008).

[2]Manyika,J.. “Big data:The next frontier for innovation,competition,and productivity.” (2011).

[3]Y. Demchenko,C. de Laat and P. Membrey,"Defining architecture components of the Big Data Ecosystem," 2014 International Conference on Collaboration Technologies and Systems (CTS),2014,pp. 104-112,doi:10.1109/CTS.2014.6867550.

[4]大數(shù)據(jù)觀察. 大數(shù)據(jù)采集技術(shù)綜述[EB/OL]. 2018[2021-10-10]. https://cloud.tencent.com/developer/news/305675.

[5]觀向數(shù)據(jù). 大數(shù)據(jù)關(guān)鍵技術(shù)——數(shù)據(jù)預(yù)處理[EB/OL]. 2018[2021-10-10]. https://cloud.tencent.com/developer/news/312404.

[6]陳興蜀,楊露,羅永剛. 大數(shù)據(jù)安全保護(hù)技術(shù)[J]. 工程科學(xué)與技術(shù),2017,49(5):1-12.

[7]Luminous. 大數(shù)據(jù)安全核心技術(shù)[EB/OL]. 2020[2022-10-10]. https://www.cnblogs.com/nongchaoer/p/12201559.html.

[8]Chen Yanli,Song Lingling,Yang Geng.Attribute-based access control for multi-authority systems with constant size ciphertext in cloud computing[J].China Communications,2016,13(2):146–162.

[9]Zhou Lan,Varadharajan V,Hitchens M.Enforcing role-based access control for secure data storage in the cloud[J].The Computer Journal,2011,54(10):1675–1687.

[10]孫紅梅,賈瑞生. 大數(shù)據(jù)背景下企業(yè)網(wǎng)絡(luò)信息安全技術(shù)體系研究[J]. 通信技術(shù),2017,50(2):334-339. DOI:10.3969/j.issn.1002-0802.2017.02.023.

猜你喜歡
安全大數(shù)據(jù)
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
主站蜘蛛池模板: 国产精女同一区二区三区久| 欧美激情,国产精品| 国产欧美亚洲精品第3页在线| 中文字幕 欧美日韩| 亚洲综合色婷婷| 免费全部高H视频无码无遮掩| 国产亚洲高清在线精品99| 巨熟乳波霸若妻中文观看免费| 成人国产一区二区三区| 国产h视频在线观看视频| 精品国产中文一级毛片在线看| 亚洲精品自在线拍| 久久免费视频播放| 69av免费视频| 久久永久免费人妻精品| 日韩成人在线网站| 国产 日韩 欧美 第二页| 三级毛片在线播放| 亚洲国产欧美自拍| 国产乱子精品一区二区在线观看| 亚洲最猛黑人xxxx黑人猛交| 中文字幕 日韩 欧美| 天天摸天天操免费播放小视频| 18禁不卡免费网站| 亚洲精品无码在线播放网站| 午夜激情婷婷| 成年片色大黄全免费网站久久| 欧美成人精品在线| 久久黄色视频影| 国产主播在线一区| 欧美日韩国产高清一区二区三区| 国产成人禁片在线观看| 亚洲第一区精品日韩在线播放| 亚洲另类国产欧美一区二区| 热久久国产| 亚洲αv毛片| 成人午夜福利视频| 91色爱欧美精品www| 亚洲美女AV免费一区| 欧美精品1区2区| 日韩精品成人在线| 大陆精大陆国产国语精品1024| 国产精品美女网站| 国产女人爽到高潮的免费视频| 欧美日韩一区二区三| 91原创视频在线| 国产打屁股免费区网站| 国产最新无码专区在线| 亚洲精品黄| 亚洲Va中文字幕久久一区| 久久夜夜视频| 亚洲精品天堂在线观看| 狠狠久久综合伊人不卡| 国产区成人精品视频| 亚洲国产91人成在线| 青青青伊人色综合久久| 久久大香香蕉国产免费网站| 97免费在线观看视频| 久草美女视频| 亚洲伊人久久精品影院| 国产人成午夜免费看| 亚洲第一成人在线| 国产精品伦视频观看免费| 免费无码网站| 99视频精品全国免费品| 亚洲中文精品人人永久免费| 欧美一级在线| 欧美亚洲激情| 色网站在线视频| 玖玖免费视频在线观看| 国产肉感大码AV无码| 在线日韩日本国产亚洲| 一区二区三区在线不卡免费| 国产综合精品日本亚洲777| 日韩欧美国产三级| 国模粉嫩小泬视频在线观看| 国产免费福利网站| 黄色在线不卡| 亚洲欧美日韩中文字幕一区二区三区 | 精品少妇三级亚洲| 国产日韩久久久久无码精品 | 五月婷婷综合网|