李澤浩
摘 要:近兩百年來,知識爆炸,科學技術飛速發展,工業化已極大的改變了人們的生活方式。在這中間,數據信息作為伴隨產物也井噴式涌現從而迎來大數據時代。大數據信息量大種類繁雜,價值巨大但是密度較低。分析處理過程也較為復雜,大數據目前已在商業領域、科學領域和網絡領域等有所應用,前景巨大。但它在應用過程中也伴隨著一些隱患,如個人隱私泄露問題,企業國家機密保護等。如何有效的,健康的運用大數據成為我們目前的研究方向。
關鍵詞:大數據技術;數據分析;數據挖掘;信息安全
中圖分類號:TP311 文獻標識碼:A 文章編號:1671-2064(2017)22-0014-02
1 大數據的簡介
1.1 大數據概念及其發展背景
大數據,顧名思義就是大的數據,這個大指的就是數據大而全。它擁有五個顯著特點即5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。[1]理想的大數據可以說包含人類活動的所有信息,相對于現有數據使用來說,大數據是我們無法在一定時間獲悉,捕捉,處理和管理的,它需要新的一套方法,需要更強更全面的洞察力、決策力和處理能力來滿足大數據的利用需求。
數據是我們從古至今都使用的傳遞信息的媒介,在工業革命之前,人類知識總量較少,社會全部的數據信息也很少,人們對數據的使用停留在部分小數據,局部數據階段。這種情況下,人們生產交流都會產生許多沒有實際效益的無用功。計算機帶來的網絡化使得數據信息急劇增長。現代社會不僅充斥著大量信息,而且其發展速度也在飛速增長,隨著經濟發展的網絡化,數據越來越占據主導地位。從監控到科學教育,從網絡到工業,各行各業都在數據中生存。未來將是大數據的時代。[4]
1.2 大數據技術的特點
大數據技術包含對數據的獲取和捕捉,分析和處理,應用和反饋等。它是一套系統的過程,在這個過程中,數據的獲取和捕捉相當繁瑣和困難,因為大數據本身信息量巨大而且種類極其繁多,要獲取和整合這些數據需要大量的人力物力財力,必須依靠先進的計算機知識,數學統計知識,并且要對數據整體有足夠把握情況。大數據技術還需要極為強悍的服務器和分析處理設備及方法,因為我們需要對繁雜的數據進行提取,提取到的有用信息才能產生價值。另外安全問題作為大數據技術的衍生問題也需給予足夠重視,它決定了我們是否可以長期的,有效的利用大數據進行發展。
1.3 大數據的處理分析方法
我們研究大數據技術是為了避免因為信息缺失而做的無用功,使社會運行盡可能高效化。因此從大數據中提取有用信息才是我們的關鍵目的。
從技術上看,大數據與云計算是相輔相成的,它們必須協同合作。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘。但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。[3]大數據需要的關鍵技術參照表1。
對分布式文件系統而言,我們需求的文件系統不是在本地儲存中,而是儲存在另一個終端,這類似于服務器的工作原理。分布式文件系統的設計基于客戶機/服務器模式。一般來說,可以有多個服務器存在于一個網絡平臺上,這樣用戶就可以實現訪問的全面和自由化。分布式文件系統巧妙解決了巨量數據的管理和儲存:將原來只能儲存在我們本機的數據,擴散到一個大的網絡平臺上,再分散到多個儲存點,而我們可以通過通信網絡輕松的訪問這些數據,從而實現了數據的共同儲存,共同使用,打破了傳統中使用和儲存綁定在一起的模式。我們在使用過程中只需要按照自己的需求進行存儲、訪問和管理。如此在現有的硬件模式下,極大地拓寬了數據的流量。
對實時處理而言,它要求數據的新鮮度,而流處理的方式可以很好的滿足這個要求,應用流處理方式,把數據分流之后使其分批到達。而在數據分批到達的過程中,因為其本身帶有大量數據,所以內存中只需要保存少量數據。流處理工作精度通常在秒或毫秒級別。
就數據分析技術而言,我們應盡量使數據簡單易懂,即表示為人可以理解的語言,這就是自然語言。在人工智能發展中,越來越需求我們以自然語言與數據進行交流,而不是用人造語言如C語言之類無法直接理解的語言去溝通。
機器學習就是讓機器擁有學習的能力,也就是說讓計算機可以自己增長知識量,而計算機本身擁有極強的運算和整合分析能力,據此計算機將可以規劃出最優的行動決策,這點是我們人腦難以達到的,機器學習推動人工智能的發展,未來的機器可以代替人類進行某些方面的工作,進一步解放人類。
2 大數據的相關應用
大數據技術的最終目的是應用,我們研究它是為了創造價值,表2列舉了大數據技術現有的應用情況,下面將分三個方面介紹。
2.1 商業領域應用
在現代社會之中,任何新興的技術一般都會首先運用于商業領域或是軍事領域,就大數據技術而言,它現在已經在商業領域中初試鋒芒,并且取得了很好效果,比如美國梅西百貨的實時定價機制。根據需求和庫存的情況,該公司基于SAS的系統對多達7300萬種貨品進行實時調價,以適應市場需求。又比如電子商務中購物網站對人門消費數據的把握,如上表所示,電子商務涉及人口數量巨大,用戶反應時間很快,而且可靠性相當高。這點就決定了大數據在管理人們消費時具有相當的功效,這也是大數據在商業領域應用的典型方式。信息在商業領域內至關重要,可以說,誰掌握了有效的信息,誰就可以引領商業發展。未來人們的商業活動將更為一體化,隨著經濟全球化,大數據必將會在商業領域大放光彩。
2.2 科學教育領域應用
科學研究需要實驗,實驗產生數據,可以說數據決定科學發展,現代科學發展建立在一個大的網絡內,這些設備,實驗過程,驗算過程,記錄過程等每年將會產生巨大數量的數據,而整合,分析,處理,運用這些數據正是大數據技術的工作職責。對科學發展而言,大數據的主要貢獻有:實現高程度的信息共享,實現科學有效的預測,在實驗過程中進行處理及分析等。大數據技術在教育方面也大有作為,一方面在整體上它可以用來處理教育方面龐大的數據量,維持健康高效的教育系統;另一方面,為了實現個體化的細致教育,我們可以借助大數據分析每個孩子的情況,給予相對應的引導,如此可以實現信息的高效利用,形成更為人性化的體貼教育,對社會整體發展做出巨大貢獻。endprint
2.3 網絡信息領域應用
大數據在網絡信息方面的應用是顯而易見的,尤其是體現在移動網絡,社交網絡上,人的交流所產生的信息大量流動在網絡上,例如我們的微信,QQ,Facebook等,它們每天都會產生巨大的數據流量。大數據在網絡信息方面的應用還體現在搜索引擎上,無論是百度還是谷歌都會根據個人情況作出相應推薦,這點會讓個人生活更加便捷。而大數據技術對信息的整體把握能力遠非我們現在的數據平臺所能比擬,它基本上會達到人類所能利用數據的最高水平。
3 大數據發展過程中存在的問題簡介
3.1 隱私泄露問題
隨著人們生活的不斷網絡化,信息越來越被整合在一個個集中的平臺上,而如今大數據時代的來臨,勢必會將信息由各個平臺再一次整合起來,形成一個大的共享環境。搭建這樣一個平臺可以高效的利用信息,同時也可能“高效”的丟失信息,如今信息詐騙層出不窮,大多是個人隱私泄露引起的事故,如大學生信息被不法分子竊取,以學校名義進行詐騙。大數據相對于現有數據體系來說更廣博,但也蘊藏巨大威脅,因此在發展大數據技術的同時,我們應重視隱私的保護,為避免個人隱私被竊取,我們可以用多種方式并行保護的方法進行數據保護。
3.2 大數據基礎設施安全與惡意攻擊
大數據信息需要設備設施作為載體,基礎設施是大數據安全使用的保障,其安全相當重要,除了自身問題,它有時會受到惡意攻擊,我們有必要做好相關防護。保護大數據基礎設施,首先我們應該從硬件上進行安全設計,其次要在軟件上進行加密,協議,擾動等保護措施。為安全健康的利用大數據做好防護工作。
4 大數據發展前景及展望
大數據技術目前正在一個積累期,數據的獲取捕捉和對數據的分析處理都在一個探索時期,我們可以看到大數據技術目前應用仍然較為稀少,或者規模遠遠達不到大數據的標準。未來的大數據發展將會從搜索引擎到數據挖掘,到通過自然語言,機器學習等實現它自身蘊藏的巨大價值。在這個過程中數據的分析和處理將可能會是最大的技術難題,機器學習和自然語言的發展將會依賴于人工智能的發展,而且大數據本身將會和人工智能相輔相成。另一方面,大數據技術在發展過程中帶來的一系列問題,如隱私安全等也需要給予相當的重視。大數據的發展方向將會是:高效、健康、安全、和諧。
參考文獻
[1]李學龍,龔海剛.大數據系統綜述[J].中國科學:信息科學,2015,45(1):1-44.
[2]王元卓,靳小龍,程學旗.網絡大數據:現狀與展望[J].計算機學報,2013,36(6):1125-1138.
[3]高明,金澈清,王曉玲,等.數據管理技術研究綜述[J].計算機學報,2010,(3):373-389.
[4][英]維克托·邁爾·舍恩伯格.大數據時代[M].浙江人民出版社,2012.
[5]劉雅輝,張鐵贏,靳小龍,程學旗.大數據時代的個人隱私保護[J].北京計算機研究與發展,2015,52(1):229-247.
[6]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013, 50(1):146-169.endprint