◆黃陵
(中國人民解放軍某部 陜西 710000)
通過系統數據采集與處理的數據稱之為大數據,大數據同時也是網絡中最常見的數據。在高速化運轉的大數據時代中,傳統的數據采集以及處理的方式效率較低,因此就要對處理與采集技術進行升級優化,創造出適應大數據高速發展的處理技術[1]。對大數據進行科學高效的采集與處理,是未來網絡環境下科技發展的方向。好的處理方法能提高人們社會發展,加強對國家安全以及人們的生活水平的提升,同時促進國家經濟的發展。目前針對大數據的采集與處理的要求較高,數據采集處理方式還存在著相應的問題,導致大數據的信息不能及時進行采集并處理分析。本文將在網絡環境中對大數據的發展進行分析,整理出大數據的特點,并根據大數據的特點對大數據的資源進行采集與處理,基于相關文獻,提出對大數據信息處理的創新問題,督促相關技術人員采取有效的措施對大數據的信息進行采集處理,加快大數據技術的發展。
大數據目前具有三大優勢:信息量大;處理速度快;數據類型多。我國互聯網的發展較晚,大數據的應用以及發展還處于一個初級階段,但是大數據的作用以及應用價值被我國高度重視,在未來的發展過程中,我國也會更加重視大數據的發展,可以加快我國的社會發展以及經濟發展,目前大數據的發展在我國占據重要地位[2]。
在2020 年,互聯網數據中心(IDC)調查發現全球的數據存儲值已經達到44ZB(十萬億億字節),預計在2030 年將會達到2500ZB。近幾年我國對大數據的采集以及處理方面的技術也有了明顯的進步,大數據的技術體系還并不完善,使得我國的大數據技術還處在萌芽階段。我國的大數據技術體系在未來的發展趨勢還是屬于漸進式發展,目前的處理能力的提升遠遠不能達到數據的增長體系,因此大數據信息不能被完全利用的現狀還會存在較長時期。
大數據未來的發展趨勢將分為以下幾種:數據的資源化,主要是個行業根據對大數據的分析制定相關的計劃,從而提升行業經濟效益,搶占市場先機;大數據與云計算的融合,云技術是大數據研究的基礎設備,同時大數據的發展也離不開云計算,同時物聯網與移動互聯網也會成為大數據的發展趨勢,為大數據的發展發揮出其影響力;大數據發展中數據科學與數據聯盟的成立,由于我國對大數據技術發展的重視,各大高校已經開展數據科學的課程,其被越來越多的人認知,同時加強大數據專業人才的培養,建立大數據共享平臺,各領域間信息共享,成為未來產業發展的重要因素。
在高速發展的社會中,信息流通較快,同時科學技術也在不斷發展,互聯網使得人們的生活交流越來越方便,更好的拉近了人們之間的距離。大數據是時代發展的必要產物,大數據目前包括結構化數據、半結構化數據以及非結構化數據。
結構化數據主要就是指數據庫,是由二維表結構來進行表達的數據,通過一定的關系型數據進行存儲與管理,結構化數據主要就是有著一定模式的數據,這些模式就稱之為結構化,是有著一定的數據格式以及長度的規范,需要嚴格進行遵守的規范。
半結構化數據是指有一定的模式,不是普通文本的類型,半結構化數據相對于結構化數據有一定的靈活性,半結構化數據主要適用于多個數據庫中不同模式的數據進行采集處理。半結構化數據被應用的原因就是因為其靈活性,能夠將幾種不同結構的數據庫進行整理,并且可以隨時在其中一個數據庫中進行更改,這種半結構化數據在處理中較為麻煩,但是為用戶查詢提供了便捷。
非結構化數據與結構數據是完全對立的兩種模式,非結構化數據是不用通過二維表進行表達的數據,主要是包含各類的文檔報表以及圖片視頻等信息,更多的是運用于文章的檢索以及對多媒體信息進行處理,根據IDC 的調查發現在各領域中數據每年都在不斷增長[3]。同時非結構化數據也占據著互聯網數據的絕大比例,我國在推進“互聯網+”的發展方式,使得非結構化的數據也越來越多,因此對非結構化的數據的處理技術是目前重視的項目之一。
對大數據的認知應從理論、技術以及實踐層次進行分析,非結構化數據是我國主要的數據模式,在云計算技術的配合下,使得這些非結構化的數據也已經開始被利用,各領域間也在不斷的創新,加快了大數據發展的價值。
大數據包含著世界各地隨時產生的數據,因為包含全球性,使得現在大數據具有四個特點:大量性、多樣性、高速性以及價值性。在信息時代快速發展的情況下,數據的增長速度也逐漸加快,移動互聯網的出現以及各種社交網絡中的數據都是大數據的主要來源,這就導致數據越來越多,數據就具備了大量性特點。大數據形式的多樣性,是因為各領域中都會產生大量數據,廣泛的數據來源使得大數據出現多樣性?;ヂ摼W的快速發展,使得傳輸系統越來越快,使得大數據的產生也越來越快,現在人們生活離不開互聯網的運用,因此造就了大數據的高速性。同時大數據的核心特征就是其價值性,大數據已經運用到各行各業,在各行各業也有了一定的成就,推進了社會的發展。
大數據中的類型是極為復雜的,互聯網在人們生活中廣泛運用,使得數據的產生途徑越來越多,大數據的多樣化以及高速性的特點也導致數據在采集過程中的復雜程度。數據在采集過程中的整體框架主要分為六個板塊:鏈接抽取、網站頁面、鏈接過濾、內容抽取、爬蟲URL(資源定位系統)隊列以及數據。其中鏈接抽取的功能是將網頁所存在的鏈接的網址進行抽??;網站頁面的功能是需要對網頁中的內容進行獲取;鏈接過濾的功能是針對網頁鏈接進行判斷此網頁是否被獲??;內容抽取的功能是從其中的網站頁面中對內容進行部分的選擇,根據網頁中的屬性,有針對性進行提取其中內容;爬蟲URL 隊列功能主要是通過爬蟲提供出所要進行獲取信息的網站進行數據網站進行資源定位;數據中的功能是將抓取過的網站數據中的資源定位系統與爬蟲抓取過的內容。
在大數據盛行的時代下,數據的采集工作技術已經在各領域中所應用,數據采集可以稱之為數據獲取,主要是將外部的數據與內部的數據系統進行連接,將所有數據導入到內部系統,攝像頭與麥克風都可稱之為是數據的采集工具[4]。數據的采集工作中鏈接過濾技術是最為關鍵的,其主要就是判斷此網頁是否已被獲取,防止二次獲取,同時數據采集中使用的布隆過濾器還是存在著很大的優勢。
目前我國的數據采集技術的關鍵是布隆過濾器,鏈接過濾技術主要是將抓取過的鏈接進行篩選。布隆過濾器的運行原理是一個二進制向量與隨機的映射函數所組成,主要是用其來檢索一個元素是否存在與一個集合中。雖然布隆過濾器在運用過程中有一定的誤算率以及刪除困難等問題,但是與其他數據結構相比,布隆過濾器在空間以及時間中還是存在著一定的優勢。首先布隆過濾器在使用過程中,在存儲空間以及插入或查詢的時間都是常數,使得其簡潔程度達到最大值。同時布隆過濾器在運行時,在相互關系中有利于硬件能夠并行運行,是因為散列的函數中沒有相應的連接關系。布隆過濾器不對元素進行儲存,使得布隆過濾器有著較強的保密性,保密性是其最大的優勢。
大數據的產生越發迅速,使其數據越顯得雜亂無章,若要將大數據當做資源利用,那就需要對其進行處理,針對海量的數據信息,其中數據的處理與分析工作就顯得尤為重要,是提取信息價值的重要因素。各行業中的數據類型是不同的,其中針對靜態數據的處理方式主要是通過批處理的方式,針對動態的實施數據去選用交互式處理的方法。批處理主要是將靜態的數據進行分類后,對數據進行分析,將數據傳輸到能有效利用的任務區進行處理,靜態處理方式是通過先存儲后計算的方式對數據進行分類,形成有效的處理方式[5]。交互式處理方式在實時動態數據中有著良好靈活性,同時其操作更便捷,因此這種處理方式可以直接進行運用。交互式的處理方法有著更大的優勢,是目前大數據處理中的主要處理方式,能更好對數據處理進行分析得出相應的結論。
隨著互聯網的發展,大數據的運用也越來越廣泛,其中移動互聯網以及電子設備在人們生活中的普及,也加快了數據的產生,數據的多樣化的發展使得對數據的處理需更加重視。電子設備的普及,使得圖像以及影音等數據信息越來越多,數據的種類越來越復雜,在大數據融合的特點中,使得數據信息的規模在不斷擴大,這對數據的采集以及處理問題都帶來了巨大的挑戰。在大數據的海量性、高速性以及多樣性的發展過程中,使得大數據處理技術也應不斷發展,追求更多行之有效的處理方法。因此應加快對大數據處理的效率,對數據處理進行研究,創新出更好的數據處理的方式,對信息進行合理的分類,使得其在對數據信息的價值凸顯出來。
網絡環境的不斷發展,對大數據的要求也越來越重視,本文也對大數據的發展進行了簡要闡述,并對網絡環境中的大數據的采集與處理進行了分析,數據信息現在對各領域中都存在著重要作用,因此要加快對數據的采集技術以及數據的處理技術進行創新,提高大數據對社會中的適用性,促進國家的社會發展以及經濟發展。