袁冰
很多網(wǎng)民都知道這樣一句話:“在互聯(lián)網(wǎng)上,沒(méi)有人知道你是一條狗”。這句話是美國(guó)著名雜志《紐約客》(New Yorker)上一幅漫畫(huà)的標(biāo)題,作者是彼得·斯坦納,他于1993年創(chuàng)作了一幅漫畫(huà)——一條狗坐在電腦前通過(guò)敲擊鍵盤(pán)與另外一條坐在電腦前的狗交談,漫畫(huà)的標(biāo)題就是上面這句話,這句話的意思是說(shuō),因?yàn)榫W(wǎng)絡(luò)的虛擬性和隱匿性,別人無(wú)法知道你是誰(shuí)。隨著互聯(lián)網(wǎng)的迅速普及,這句話也以驚人的速度傳播到了網(wǎng)絡(luò)世界的每一個(gè)角落。然而,時(shí)過(guò)境遷,基于網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,出于商業(yè)或管制等各種目的而想方設(shè)法了解“你到底是誰(shuí)”的個(gè)人和組織與日俱增。可以毫不危言聳聽(tīng)地講,眼下,在互聯(lián)網(wǎng)上,每個(gè)人都知道你是一條狗。大數(shù)據(jù)的廣泛應(yīng)用,使得網(wǎng)絡(luò)世界真正成為了現(xiàn)實(shí)世界在互聯(lián)網(wǎng)上的一種延續(xù)。
一、大數(shù)據(jù)的概念范疇
什么是大數(shù)據(jù),維基百科是這樣定義的:大數(shù)據(jù),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大數(shù)據(jù),指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息。在總數(shù)據(jù)量相同的情況下,與個(gè)別分析獨(dú)立的小型數(shù)據(jù)集(data set)相比,將各個(gè)小型數(shù)據(jù)集合并后進(jìn)行分析可得出許多額外的信息和數(shù)據(jù)關(guān)系性,可用來(lái)察覺(jué)商業(yè)趨勢(shì)、判定研究質(zhì)量、避免疾病擴(kuò)散、打擊犯罪或測(cè)定實(shí)時(shí)交通路況等;這樣的用途正是大型數(shù)據(jù)集盛行的原因。
美國(guó)NIST對(duì)大數(shù)據(jù)的描述是:數(shù)量大、獲取速度快或形態(tài)多樣的數(shù)據(jù),難以用傳統(tǒng)關(guān)系型數(shù)據(jù)分析方法進(jìn)行有效分析,或者需要大規(guī)模的水平擴(kuò)展才能高效處理。
GARTNER 公司對(duì)大數(shù)據(jù)的描述是:體量大、快速和多樣化的信息資產(chǎn),需用高效率和創(chuàng)新型的信息技術(shù)加以處理,以提高發(fā)現(xiàn)洞察、做出決策和優(yōu)化流程的能力。
業(yè)界通常用4個(gè)V(即Volume、Variety、Value、Velocity)來(lái)概括大數(shù)據(jù)的特征:一是數(shù)據(jù)體量巨大且增長(zhǎng)迅速(Volume),二是數(shù)據(jù)類型繁多(Variety),三是價(jià)值密度低(Value),四是處理速度快(Velocity)。
二、大數(shù)據(jù)的應(yīng)用案例
如今大數(shù)據(jù)的應(yīng)用正從互聯(lián)網(wǎng)行業(yè)逐步向其他行業(yè)擴(kuò)散。技術(shù)的不成熟使全球大數(shù)據(jù)應(yīng)用普遍處于起步階段,中國(guó)也不例外;同時(shí),技術(shù)格局和信息化發(fā)展程度也使大數(shù)據(jù)應(yīng)用呈現(xiàn)"階梯式"發(fā)展格局。
(一)大數(shù)據(jù)在互聯(lián)網(wǎng)部分應(yīng)用較成熟,且應(yīng)用不斷豐富。在互聯(lián)網(wǎng)部分的應(yīng)用我國(guó)與領(lǐng)先國(guó)家同步。應(yīng)用類型如:
1.搜索引擎:如GOOGLE、百度等,是最早的互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用;
2.定向廣告:互聯(lián)網(wǎng)最主要的商業(yè)模式;
3.個(gè)性推薦:是亞馬遜等電子商務(wù)網(wǎng)站60%以上交易來(lái)源;
4.互聯(lián)網(wǎng)金融;
5.其它應(yīng)用:如趨勢(shì)預(yù)測(cè)、網(wǎng)站預(yù)警和防護(hù)、語(yǔ)音搜索、圖像搜索等。
(二)廣義的信息產(chǎn)業(yè)開(kāi)始積極探索,總體而言我國(guó)落后于領(lǐng)先國(guó)家。主要應(yīng)用于:
1.政府:輿情分析、民意調(diào)査、交通管理;
2.電信:話單分析、智能管道;
3.金融:欺詐防范、征信評(píng)估;
4.零售:趨勢(shì)預(yù)測(cè)、營(yíng)銷策劃;
5.醫(yī)藥:疾病監(jiān)測(cè)、基因分析、藥品分析等。
(三)還有其他行業(yè)的零星案例,如:制造業(yè)、房地產(chǎn)、農(nóng)業(yè),我國(guó)在這些領(lǐng)域的應(yīng)用目前嚴(yán)重落后。
(四)大數(shù)據(jù)應(yīng)用場(chǎng)景簡(jiǎn)介
場(chǎng)景1:電子商務(wù)
搜索、電商、廣告、SNS等數(shù)據(jù)驅(qū)動(dòng)的互聯(lián)網(wǎng)服務(wù)取得巨大成功,激發(fā)了大數(shù)據(jù)應(yīng)用的想象力!
場(chǎng)景2:互聯(lián)網(wǎng)廣告
實(shí)時(shí)競(jìng)價(jià)交易
場(chǎng)景3:電信網(wǎng)網(wǎng)絡(luò)
根據(jù)人口流動(dòng)和分布趨勢(shì),結(jié)合基站接入負(fù)載,識(shí)別價(jià)值小區(qū)、識(shí)別業(yè)務(wù)熱點(diǎn)區(qū)域、分析網(wǎng)絡(luò)覆蓋質(zhì)量,優(yōu)化基站的規(guī)劃和建設(shè)(如圖);根據(jù)實(shí)時(shí)位置信令數(shù)據(jù)處理,快速定位用戶投訴的時(shí)間與位置,提高無(wú)線網(wǎng)絡(luò)投訴的預(yù)攔截成功率,并能對(duì)關(guān)鍵用戶進(jìn)行主動(dòng)關(guān)懷和保障署,提高客戶對(duì)電信服務(wù)整體的感知度。
場(chǎng)景4:政府城市功能規(guī)劃
根據(jù)運(yùn)營(yíng)商位置信令數(shù)據(jù),分析城市人口的分布與流動(dòng),助力智慧城市規(guī)劃,如:分析人口流動(dòng)與城市空間的關(guān)系及人口分布與公共設(shè)施使用狀態(tài)關(guān)系,輔助商業(yè)、居住、教育、醫(yī)療、公園、餐飲、娛樂(lè)等城市基礎(chǔ)及公共公益設(shè)施的引導(dǎo)和規(guī)劃,輔助城市交通規(guī)劃及公共交通引導(dǎo)等。例如:西班牙電信通過(guò)手機(jī)用戶全天活動(dòng)的位置"熱點(diǎn)地圖”以輔助政府制定停車場(chǎng)計(jì)劃、管理公共事努;新加坡通過(guò)手機(jī)信號(hào)探知城市的人流和熱點(diǎn)地區(qū),動(dòng)態(tài)安排城市服努人員。
場(chǎng)景5:科研大數(shù)據(jù)
基于海量數(shù)據(jù)的科研活動(dòng)、過(guò)程、方法和基礎(chǔ)設(shè)施,生動(dòng)揭示了在海量數(shù)據(jù)和無(wú)處不在網(wǎng)絡(luò)上發(fā)展起來(lái)的與實(shí)驗(yàn)科學(xué)、理論推演、計(jì)算機(jī)仿真這三種科研范式相輔相成的科學(xué)研究第四范式“大數(shù)據(jù)開(kāi)創(chuàng)科研”,科研本身是以獲取數(shù)據(jù)和分析數(shù)據(jù)為核心的工作,大數(shù)據(jù)的應(yīng)用使得科研結(jié)果可重現(xiàn)要求從結(jié)果回溯到數(shù)據(jù)與分析,采用不同的分析方法可能會(huì)得到新的科學(xué)發(fā)現(xiàn)。
場(chǎng)景6:文化娛樂(lè)大數(shù)據(jù)
如:美國(guó)最大付費(fèi)視頻網(wǎng)站通過(guò)大數(shù)據(jù)決策自制劇生產(chǎn),大獲成功,內(nèi)容發(fā)行商成功改行做了內(nèi)容制造方。
三、大數(shù)據(jù)技術(shù)發(fā)展趨勢(shì)
大數(shù)據(jù)技術(shù)進(jìn)展及趨勢(shì)可從可視化、分析、計(jì)算、存儲(chǔ)、預(yù)處理等五個(gè)環(huán)節(jié)進(jìn)行分析。
在可視化環(huán)節(jié)面臨的主要挑戰(zhàn)是海量數(shù)據(jù)和直觀理解,未來(lái),可視化中的人機(jī)交互將是發(fā)展的方向;
在分析環(huán)節(jié)面臨的主要挑戰(zhàn)是非結(jié)構(gòu)化數(shù)據(jù)分析、數(shù)據(jù)量和分析深度、分析自動(dòng)化,大規(guī)模深度學(xué)習(xí)、數(shù)據(jù)挖掘的實(shí)時(shí)化將會(huì)是未來(lái)發(fā)展的趨勢(shì);
在計(jì)算環(huán)節(jié)面臨的主要挑戰(zhàn)是數(shù)據(jù)密集計(jì)算的效率、不同計(jì)算場(chǎng)景的特點(diǎn),未來(lái)將向基于YARN的融合平臺(tái)、混合計(jì)算模式MR+XX、分布式內(nèi)存計(jì)算發(fā)展;
在存儲(chǔ)環(huán)節(jié)面臨的主要挑戰(zhàn)是高效數(shù)據(jù)査詢?cè)L問(wèn)、低成本超大容量問(wèn)題,未來(lái),高效率索引和査詢技術(shù)、實(shí)時(shí)/流式數(shù)據(jù)存儲(chǔ)將能有效解決存儲(chǔ)環(huán)節(jié)存在的問(wèn)題;
在預(yù)處理環(huán)節(jié)面臨的主要挑戰(zhàn)是多源、多模態(tài)數(shù)據(jù)融合、數(shù)據(jù)質(zhì)量與可用性,數(shù)據(jù)實(shí)體識(shí)別技術(shù)、數(shù)據(jù)清洗和自動(dòng)修復(fù)、質(zhì)量和可用性評(píng)價(jià),將必然會(huì)在預(yù)處理環(huán)節(jié)發(fā)揮重要的作用。
目前,國(guó)際互聯(lián)網(wǎng)行業(yè)形成了 “互聯(lián)網(wǎng)公司原創(chuàng)—開(kāi)源擴(kuò)散—IT制造商產(chǎn)品化”的明顯格局,即大數(shù)據(jù)技術(shù)創(chuàng)新的三個(gè)梯隊(duì),我國(guó)領(lǐng)先的互聯(lián)網(wǎng)和設(shè)備商處于第二第三梯隊(duì),但與國(guó)際同行比較還相對(duì)滯后。如:百度、阿里、騰訊,依托搜索、廣告、電商、推薦、金融等應(yīng)用,屬于第二梯隊(duì)。
四、大數(shù)據(jù)產(chǎn)業(yè)生態(tài)體系和規(guī)模
大數(shù)據(jù)產(chǎn)業(yè)生態(tài)體系包括:大數(shù)據(jù)處理服務(wù)提供商、大數(shù)據(jù)解決方案提供商、數(shù)據(jù)交易市場(chǎng)。
大型互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)業(yè)務(wù)采用前店后廠模式,其在大數(shù)據(jù)產(chǎn)業(yè)生態(tài)體系的形成過(guò)程中輸出了關(guān)鍵的大數(shù)據(jù)技術(shù)、服務(wù)和應(yīng)用理念。
根據(jù)Wikibon 2013 數(shù)據(jù)分析,大數(shù)據(jù)服務(wù)類收入包括大數(shù)據(jù)在線應(yīng)用、專業(yè)咨詢服務(wù)、技術(shù)支持服務(wù)等。服務(wù)類收入在大數(shù)據(jù)市場(chǎng)中占比約44%;大數(shù)據(jù)相關(guān)的軟件、硬件產(chǎn)品仍是大數(shù)據(jù)市場(chǎng)主要收入構(gòu)成,其中軟件收入占比為19%,硬件收入占比37%。數(shù)據(jù)交易市場(chǎng)尚處于萌芽期,市場(chǎng)規(guī)模仍然很小。
五、各國(guó)政府高度重視大數(shù)據(jù)發(fā)展
各國(guó)政府高度重視大數(shù)據(jù)發(fā)展,政府頻繁出手。
在美國(guó):
2009年5月,聯(lián)邦政府開(kāi)放數(shù)據(jù)平臺(tái)data.gov上線;2012年3月,聯(lián)邦6部門(mén)聯(lián)合啟動(dòng)大數(shù)據(jù)研究計(jì)劃;加速共用應(yīng)用;2013年5月,要求新增數(shù)據(jù)必須機(jī)器可讀,代碼開(kāi)源。
在英國(guó):
2013年1月,政府向大數(shù)據(jù)技術(shù)研發(fā)投資1.89億英鎊;2013年5月,政府和李嘉誠(chéng)基金會(huì)聯(lián)合設(shè)立首個(gè)醫(yī)藥大數(shù)據(jù)研究所;2013年6月,政府信息經(jīng)濟(jì)戰(zhàn)略發(fā)布;提出數(shù)據(jù)創(chuàng)新計(jì)劃;2013年10月,計(jì)劃發(fā)布data capability strategy。
在日本
2013年6月,發(fā)布了“創(chuàng)建最尖端IT國(guó)家宣言”,闡述2013-2020年以開(kāi)放公共數(shù)據(jù)和大數(shù)據(jù)為核心的新IT國(guó)家戰(zhàn)略,提出開(kāi)放公共數(shù)據(jù)、促進(jìn)活用等6項(xiàng)行動(dòng);2013-2016年實(shí)施。
在澳大利亞:
2013年8月,澳公共服務(wù)大數(shù)據(jù)政策出臺(tái),提出2014年前的6項(xiàng)行動(dòng)計(jì)劃,由專門(mén)部門(mén)負(fù)責(zé)實(shí)施。2013年6月18日,八國(guó)集團(tuán)發(fā)布數(shù)據(jù)開(kāi)放憲章,將在數(shù)據(jù)開(kāi)放方面一致采取以下5大原則:一是開(kāi)放數(shù)據(jù)是默認(rèn)選項(xiàng),二是確保質(zhì)量和數(shù)量,三是允許所有人使用,四是開(kāi)放數(shù)據(jù)以改善政府效率,五是開(kāi)放數(shù)據(jù)以促進(jìn)創(chuàng)新。并提出了優(yōu)先開(kāi)放的14類政府和公共數(shù)據(jù):公司注冊(cè)、犯罪和司法、地球觀測(cè)、教育、能源、環(huán)保、金融、地理、醫(yī)療、科學(xué)研究、統(tǒng)計(jì)、交通等。
政府擁有的數(shù)據(jù)不僅量大,而且準(zhǔn)確度高、價(jià)值巨大。開(kāi)放數(shù)據(jù)是政府對(duì)大數(shù)據(jù)的最大支持,必將推動(dòng)大數(shù)據(jù)的深度應(yīng)用于發(fā)展。
參 考 文 獻(xiàn)
[1]左金鐘,馬伊民,習(xí)清伶,等.滾降系數(shù)不匹配對(duì)基帶傳輸系統(tǒng)的性能影響[J].國(guó)外電子測(cè)量技術(shù),2011,08(11):21-28.
[2]馮鋼,吳詩(shī)其,李樂(lè)民,等.一種準(zhǔn)最佳數(shù)字傳輸系統(tǒng)的性能分析與實(shí)現(xiàn)[J].電子科技大學(xué)學(xué)報(bào),2010,05(16):470-476.
[3]張學(xué)成,趙爾沅,樂(lè)光新,等.基于離散小波變換的OFDM基帶傳輸系統(tǒng)性能分析[J].現(xiàn)代電信科技,2012,06(15):47-50.