(對外經濟貿易大學統計學院 北京 100000)
大數據(Big data)的基本概念指的是在獲取、存儲、分析方面、其范圍大大超出了傳統的數據庫軟件所能涉及的范圍的數據集合[1]。大數據的技術戰略意義在于對收集大量的數據并對部分有意義的數據進行專業化處理,在對有意義的數據進行專業的處理后,能夠達到產業的盈利目標。不同行業的大數據有著不同的特點和價值,但所有大數據的共同點是數據規模大,數據流動速度快、數據類型多樣化以及數據所含的價值密度較低的四大特征。任何需要用到大數據技術的產業,都必須提高對于數據的加工能力,從而為數據進行價值的“增幅”。
大數據已經成為了生產力改革變化的原動力,它將引領科技創新并促進產業結構的變革,由大數據影響所形成的“云時代”已漸漸趨于完善。但作為一個時代的核心,大數據在應用中面臨的各種安全問題和全新挑戰也將接踵而至。
1.大數據挖掘技術關鍵
大數據的存在基礎是建立在數據挖掘以及智能感知之上。智能感知主要工作任務是對于數據的識別、傳輸以及感知[3]。而數據挖掘則是通過對網絡上現有的多源數據進行獲取和捕捉。在數據的采集中,存在著大量的數據信息,其中信息價值各異,要收集并篩選出有價值的信息,是大數據挖掘的技術關鍵所在。
2.大數據的預處理技術
大數據的預處理主要指的是在進行數據挖掘的前期,通過相關技術來對數據進行預處理,主要方式包括數據的清理、數據的集成以及數據的規約[4]。在飛速發展的現代,數據被大量的創造和復制,總體的數據樣本在不斷增加擴大。海量的數據樣本能夠改善抽樣所造成的樣本信息不完善的缺陷。但過量的樣本也導致了數據單體價值的減少,冗雜過量的數據樣本導致空間知識貧乏[4]。因此需要在數據挖掘前對數據樣本進行預處理,篩選無用數據,以求使數據中所蘊藏的價值能夠得到充分利用。
3.數據實時處理技術
如今大數據處理主要應用于互聯網業務中,隨著業務流程的逐漸復雜化,數據集中化。數據的挖掘與處理重點集中在了“數據流”上。數據的實時處理需求被強調。能夠實時鏈接外部數據源,對數據進行有效的處理。同時,還能夠將大量分散的信息碎片進行規整處理,從中找尋有價值的信息來提供給企業使用。比較具有代表性的就是“云計算技術”。當常規的技術無法處理PB級大規模數據的時候,云計算技術能夠很好的溝通終端和云平臺,再通過一個大規模的分布式系統來對數據進行有效的分析[4]。
4.云計算技術
云計算技術的興起有效地解決了由于海量的不同類型碎片化數據的產生。由于常規的數據處理技術已經無法滿足大規模的數據計算,而云計算技術則能夠通過一個大規模的分布式系統加以計算和高效分析,從冗雜的數據中心提煉出與目標匹配度最高的數據。
網絡的發展日新月異,互聯網金融的發展也隨之變化。其交易成本低、交易過程快捷簡單、數據價值大、創新性高等特點讓互聯網金融逐漸成為人們生活的一部分[5]。但也正是由于這些特點,使得互聯網金融能夠將數據轉化為資源,將資源轉化為價值。隨著科技的不斷發展和變化,越來越多的互聯網金融產品出現。例如擁有客戶基數較大的支付寶、余額寶、微信零錢通等,均屬于新時代下的互聯網金融產品。而支付寶中芝麻信用分的評定,就是大數據在其中的應用。通過對用戶的每一次交易進行數據挖掘和信用評價,實時反饋每一個用戶的信用等級,并依據該等級向用戶提供等價的服務。這種建立信用評級的風險控制模型需要對大量的用戶數據進行支付信息的分析,把錢借給信用良好的用戶,能夠有效降低財富流通的風險,其中帶來的價值正是大數據所提供的。
MCKINSEY[6]在研究中指出,數據是基礎資源,可以與物質資產、人力資本相提并論,為世界經濟創造重要價值,提高企業和公共部門的生產率和競爭力,為消費者創造大量的經濟剩余。電子商務中需要大量分析潛在客戶的需求和商品的演變發展趨勢。在一定程度上,互聯網商務的競爭可以看做是數據信息的競爭,也就是大數據的競爭。不同于過去的消費者基數時代和商品銷量時代,現代的電子商務靠的是數據信息創造價值[1]。
現如今,淘寶,京東等電子商務巨頭在網絡交易平臺上已經擁有了海量的賣家和買家。大量的交易案例和商品服務產生的大量數據中蘊含著潛在的商業價值。此時就需要通過大數據挖掘和篩選的方式,來整理出對企業發展有幫助的信息。通過大量分析客戶的消費特征和消費需求,以此為基礎有目的性的向正確的客戶群投放廣告。用多方位采集的到用戶數據信息來界定潛在消費者,從而實現精準的營銷效果[1]。
隨著互聯網的發展和壯大,人們的社交中心也逐漸發生轉移。相比起過去需要電話溝通或者約見面談的社交過程。現代人的網絡社交顯得方便和快捷。較具有代表性的網絡社交例子就是微博、微信、Uki等社交軟件。其中以Uki為例,這款交友軟件就通過大數據的方式,將擁有共同興趣的用戶進行劃分歸類,并以此提供交友機會。該軟件中的“群聊模式”,就是通過大數據篩選,使用戶能夠進入自己感興趣的群,選擇語音連麥或者文字交流。用戶還可以通過UGC發布圖文動態,向陌生人展示自己的生活狀態,再通過大數據的挖掘和分析,推送有相同興趣愛好的交友對象。
在2012年4G時代到來后,一種以短片視頻為傳播方式的互聯網新媒體營運而生。隨著移動終端的普及,短平快的大流量傳播內容逐漸獲得各大平臺的青睞。此類短視頻所帶來的網紅經濟效應以及推廣能力離不開大數據在其中的應用。
例如現在網絡上較為火爆的短視頻推廣軟件“抖音”,就是通過向終端客戶推送發布不限量的短視頻,通過記錄用戶對推送視頻的點贊數量,觀看時長等。確定終端用戶的喜好,并根據喜好來對用戶進行視頻和廣告推送。同時,抖音這款APP還通過以粉絲的數量來限制用戶發布短視頻的時長。無粉絲的普通用戶只能夠發布1~5秒的短視頻,而擁有了1000粉絲以上的用戶就能發布15秒的短視頻,2000粉絲以上的用戶就能夠發布30秒的短視頻。同時,通過大數據的挖掘和篩選,有選擇性的向用戶推送視頻和廣告。能夠有效提高廣告的宣傳力度,從而實現用戶購買宣傳產品,達到廣告價值。
電力系統中每一部分的電壓變電所及輸配電線路所組成的整體,合稱為電網。截止2010年底全國220千伏及以上輸電線路總長度達到43萬公里,變電容量19.6億千伏安,分別是“十五”末的1.7倍和2.4倍,電網規模躍居世界第一。2011年前三季度,全國電網工程完成投資2201億元,電網建設新增220千伏及以上變電容量12817萬千伏安、線路長度22507千米。原本的電網運營模式已經無法滿足現狀,龐大的電網帶來了大量的數據和信息,因此對電網系統的信息處理能力提出更高的要求,而大數據則為智能電網的建設帶來了飛速的發展,目前呼聲最高的數據處理方式是通過建立Hadoop構架上的數據平臺和商務服務這些措施來有效地提升電網系統的數據處理能力,利用大數據來對海量的數據信息進行收集和處理,從而使用戶能夠更加方便的處理和分析數據,減少數據損耗造成的附加成本[1]。
如今大數據處理在互聯網中的應用遠遠不止本文所羅列的這四種。隨著時代的變遷,大數據技術已經獲得了極大程度的進展,但數據的迭代和復制,使大數據的復雜程度越來越高。并且由于數據樣本不斷的上漲,數據單體所具有的價值也逐漸降低。如何使大數據在互聯網的應用中得到充分的利用,使數據本身產生更多的價值,依舊是目前面臨的問題之一。同時,大數據在互聯網中應用也應注意相關的安全問題,應加強這一方面的法律建設和管理,防止不法分子利用大數據破話社會和諧穩定。完善大數據的應用,能夠為我們帶來巨大的利益和價值,最終形成新的網絡體系。