
隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)背后潛藏著巨大的商業(yè)機(jī)會(huì)不僅是大公司的專利,專注于數(shù)據(jù)挖掘和數(shù)據(jù)服務(wù)的創(chuàng)業(yè)公司更是不可小覷的新興力量。
大數(shù)據(jù)是近兩年來爆發(fā)的最熱門IT概念之一。進(jìn)入2012年,這個(gè)領(lǐng)域的風(fēng)潮逐漸從專業(yè)IT人士和數(shù)據(jù)分析師,擴(kuò)散到所有關(guān)注科技、互聯(lián)網(wǎng)以及營(yíng)銷領(lǐng)域的人群中,甚至還包括政界人士。這種背景下,在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,決策行為將日益基于數(shù)據(jù)和分析而作出,而并非基于經(jīng)驗(yàn)和直覺;而在公共衛(wèi)生、經(jīng)濟(jì)預(yù)測(cè)等領(lǐng)域中,“大數(shù)據(jù)”的預(yù)見能力也已經(jīng)嶄露頭角。
數(shù)據(jù)背后潛藏著巨大的商業(yè)機(jī)會(huì)。以前只有Google、微軟這樣的公司能做大數(shù)據(jù)的深挖,現(xiàn)在已經(jīng)有越來越多的創(chuàng)業(yè)公司進(jìn)入,不同公司在不同層面的數(shù)據(jù)分析和服務(wù)領(lǐng)域正創(chuàng)造出新的商業(yè)模式。這些專注于數(shù)據(jù)挖掘和數(shù)據(jù)服務(wù)的公司將成為電子商務(wù)乃至互聯(lián)網(wǎng)第三方服務(wù)業(yè)中的新興力量。
對(duì)于IT廠商來說,這是一個(gè)自身從傳統(tǒng)IT產(chǎn)品跨越到商業(yè)智能的絕佳機(jī)會(huì);而對(duì)有志于這個(gè)領(lǐng)域的新型創(chuàng)業(yè)者來說,更是一個(gè)不可錯(cuò)過的新興機(jī)會(huì)。以2012年的趨勢(shì)看,有六個(gè)模式值得關(guān)注:基于Hadoop的分析工具和產(chǎn)品、數(shù)據(jù)收集再加工服務(wù)、數(shù)據(jù)可視化產(chǎn)品、社交媒體數(shù)據(jù)分析工具與方案、基于數(shù)據(jù)挖掘的商業(yè)智能與情報(bào)咨詢服務(wù)。
基于Hadoop的分析工具和產(chǎn)品
越來越多企業(yè)開始使用Hadoop平臺(tái)處理大量數(shù)據(jù)。基于Hadoop做面向開發(fā)者的分析工具集,或者直接面向企業(yè)IT部門的分析管理工具,越來越成為一種流行趨勢(shì)。
很多傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)開始整合Hadoop服務(wù),以便更好地為企業(yè)服務(wù),如惠普、戴爾、甲骨文、IBM等知名公司都分別有針對(duì)自家需求的Hadoop服務(wù)。此外,云端上的Hadoop服務(wù)讓大數(shù)據(jù)分析和處理更加方便快捷。同時(shí)這也證明,目前開源的Hadoop相關(guān)的技術(shù)分析也存在明顯缺乏相應(yīng)的技術(shù)、環(huán)境、數(shù)據(jù)安全以及可行性,而這正是新商機(jī)。
Cloudera、Hortonworks和MapR是目前最被看好的“Hadoop三駕馬車”,它們屬于那種“純大數(shù)據(jù)”公司——核心業(yè)務(wù)圍繞Hadoop發(fā)行版和Hadoop應(yīng)用展開。由于大數(shù)據(jù)核心技術(shù)Hadoop屬于免費(fèi)的開源技術(shù),用戶無需付費(fèi)就可下載使用,所以Hadoop創(chuàng)業(yè)公司的盈利模式與Oracle這樣的傳統(tǒng)數(shù)據(jù)庫巨頭大不相同,它們主要靠提供Hadoop增值產(chǎn)品(軟件授權(quán)費(fèi))和增值服務(wù)掙錢。
目前,規(guī)模最大的Hadoop企業(yè)當(dāng)屬Clouderao簡(jiǎn)單來說,Cloudera提供企業(yè)直接使用的企業(yè)版Hadoop,它開發(fā)了自己的工具包,讓通過Hadoop搜索數(shù)據(jù)變得更加容易。同時(shí),Cloudera還在努力建設(shè)更廣泛的合作生態(tài)系統(tǒng),從而讓更多不同應(yīng)用能使用Hadoop服務(wù)。
出身Facebook的創(chuàng)始人Jeff Hammerbacher在創(chuàng)辦Cloudera前就使用Hadoop來分析社交用戶行為,后來他將相應(yīng)的技術(shù)轉(zhuǎn)移到了Clouderag之中,目前Cloudera獲得了7600萬美元的融資。
Cloudera目前比較受關(guān)注的領(lǐng)域是醫(yī)療健康行業(yè)。簡(jiǎn)單來說,Cloudera采用大數(shù)據(jù)來改善大眾的健康,而整個(gè)衛(wèi)生保健行業(yè)也會(huì)因?yàn)槭艿酱髷?shù)據(jù)的驅(qū)動(dòng)而催生更好的創(chuàng)新和服務(wù)。Hammerbacher指出,公司一個(gè)重要的客戶就是Explorys Medical。他們通過采集病人數(shù)據(jù),從而揭示疾病治療、護(hù)理和藥物測(cè)試等方面的見解。“我們要處理各種各樣的醫(yī)療數(shù)據(jù),比如說醫(yī)生處方、圖像、醫(yī)生筆記等。消費(fèi)者可以通過分享這些數(shù)據(jù)而推動(dòng)醫(yī)療行業(yè)的變革。”
社交媒體數(shù)據(jù)
社交媒體所產(chǎn)生的海量非結(jié)構(gòu)化數(shù)據(jù)一直以來都被作為大數(shù)據(jù)時(shí)代來臨的標(biāo)志。人們已經(jīng)承認(rèn),隨著像Twittter、Fcacebook等社交網(wǎng)絡(luò)媒體的爆發(fā),越來越多的商業(yè)活動(dòng)和信息會(huì)受到他們的影響。目前,基于社交媒體的創(chuàng)業(yè)公司數(shù)不勝數(shù),但從大數(shù)據(jù)角度進(jìn)行商務(wù)挖掘和營(yíng)銷戰(zhàn)略的,是最有前景的一類。畢竟,奧巴馬利用大數(shù)據(jù)在美國大選中獲勝的經(jīng)典案例也是出自社交媒體分析領(lǐng)域。
另一方面Twitter開放其數(shù)據(jù)管道Firehose對(duì)于社交大數(shù)據(jù)分析來說無疑是一個(gè)晴天大利好。利用Twitter實(shí)時(shí)數(shù)據(jù)你幾乎能進(jìn)行各種數(shù)據(jù)分析,從奧斯卡電影人氣到美國總統(tǒng)支持率,再到產(chǎn)品用戶滿意度分析,可謂一座不設(shè)防的數(shù)據(jù)大金礦。
但是掘金Twitter“快數(shù)據(jù)”也對(duì)分析系統(tǒng)提出了很高要求,Datasift是少數(shù)能吃下Twitter數(shù)據(jù)的頂級(jí)社會(huì)化分析工具之一。
Datasift是一個(gè)社交數(shù)據(jù)分析平臺(tái),向企業(yè)市場(chǎng)人員提供twitter、Facebook、Youtube、博客、甚至Wikipedia等社交媒體的數(shù)據(jù)可視化分析技術(shù)和服務(wù),監(jiān)測(cè)社交營(yíng)銷成效,并幫助品牌公司掌握突發(fā)新聞的輿論點(diǎn),并制定有針對(duì)性的營(yíng)銷方案。它甚至創(chuàng)建了一個(gè)自己的互聯(lián)網(wǎng)規(guī)模的關(guān)鍵詞過濾系統(tǒng),能夠快速評(píng)估熱門關(guān)鍵詞。
另一個(gè)優(yōu)勢(shì)是Data Sif從Twitter購買了多年的數(shù)據(jù)同步授權(quán),能夠訪問所有Twitter管道數(shù)據(jù),并將子集賣給第三方,主要是企業(yè)客戶。目前只有Gnip獲得了同樣的授權(quán)。舉個(gè)簡(jiǎn)單的例子,Data Sift可以根據(jù)Twitcer的數(shù)據(jù)對(duì)兩屆奧運(yùn)會(huì)進(jìn)行橫向?qū)Ρ龋瑥闹辛私獠⒎治龉妼?duì)當(dāng)時(shí)新聞和事件的反應(yīng)。Data Sift的前景逐漸明朗,現(xiàn)在客戶數(shù)已經(jīng)超過了10000個(gè)。Data Sift目前已經(jīng)擁有超過200個(gè)客戶,其中不乏財(cái)富500強(qiáng)企業(yè),Data Sift的收入主要來自向客戶收取的每月200美元的服務(wù)費(fèi)用。
數(shù)據(jù)收集在加工服務(wù)
數(shù)據(jù)的商業(yè)價(jià)值越來越被挖掘,但Hadoop并不能代表一切。一家著名的大數(shù)據(jù)公司Par Accel則顛覆了Hadoop的神話。ParAccel的CEO Chuck Berger指出,太多創(chuàng)業(yè)公司陷入了“大數(shù)據(jù)=非結(jié)構(gòu)化數(shù)據(jù)的大數(shù)據(jù)=Hadoop”的邏輯。除了非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)以外,結(jié)構(gòu)化數(shù)據(jù)也在快速增長(zhǎng)。
ParAccel在數(shù)據(jù)領(lǐng)域也是久負(fù)名氣的。它們最成功的案例之一是向美國執(zhí)法機(jī)構(gòu)提供數(shù)據(jù)分析能力——ParAccel通過了一些渠道獲得不少犯罪數(shù)據(jù),并對(duì)18000個(gè)有犯罪前科的人進(jìn)行跟蹤,從而向執(zhí)法機(jī)構(gòu)提供了參考性較高的犯罪預(yù)測(cè)。所以ParAccel也被成為“犯罪的預(yù)言者”。
今年登陸納斯達(dá)克的“大數(shù)據(jù)概念股”SpIunk也是這方面的佼佼者。由于Splunk是以MapReduce架構(gòu)為基礎(chǔ)的軟件,在普通的硬件上安裝Splunk和Splunk轉(zhuǎn)發(fā)器,就能構(gòu)成大量字節(jié),形成龐大的系統(tǒng)數(shù)據(jù),這個(gè)量級(jí)可以達(dá)到每天數(shù)TB并逐漸向PB數(shù)量級(jí)擴(kuò)大。而他們的軟件可以為機(jī)器生成的海量數(shù)據(jù)建立索引,將其整理成可以搜索的鏈接。公司們則像使用Google那樣來搜索這些鏈接,用來實(shí)時(shí)分析消費(fèi)者行為。
具體來看,Splunk屬于商業(yè)智能軟件提供商,其軟件可用于監(jiān)控、分析實(shí)時(shí)的機(jī)器數(shù)據(jù)以及TB級(jí)的歷史數(shù)據(jù),且數(shù)據(jù)來源不限,可以是本地也可以來自云。比方說,Splunk可以實(shí)時(shí)對(duì)任何app、服務(wù)器或網(wǎng)絡(luò)設(shè)備的的數(shù)據(jù)進(jìn)行索引并提供搜索,這些數(shù)據(jù)可以是日志、配置文件、消息和告警等。據(jù)了解,Splunk的客戶包括瑞士信貸、美國銀行、Comcast、Salesforce、Zynga,LinkedIn、T-Mobile以及美國勞工部和能源部等。其客戶數(shù)量超過3700,財(cái)富100強(qiáng)的大部分成員皆為其客戶。比如社交游戲公司Zynga通過該公司的軟件監(jiān)測(cè)游戲功能,用來確定玩家卡在什么地方,離開游戲,然后就可以即時(shí)調(diào)整游戲,挽留玩家。
數(shù)據(jù)可視化等簡(jiǎn)化數(shù)據(jù)使用的服務(wù)
另一個(gè)不可忽視的現(xiàn)象是,大數(shù)據(jù)雖然對(duì)于計(jì)算機(jī)工程師來說并不是很陌生,但是它一直將營(yíng)銷人員等非專業(yè)人士拒絕于門外。不過這種狀況會(huì)逐漸得到改善,因?yàn)楹芏啻髷?shù)據(jù)領(lǐng)域的創(chuàng)業(yè)公司在不斷崛起,他們很多都是致力于讓更多的人以更簡(jiǎn)單的方式“消化”這些數(shù)據(jù)。
Origami Logic就是一家讓營(yíng)銷人員便于利用大數(shù)據(jù)的創(chuàng)業(yè)公司。通過數(shù)據(jù)可視化以及自助分析的方式,這個(gè)平臺(tái)能夠幫盼營(yíng)銷人員作出更有效果的策略。
這家公司打算在明年的早期發(fā)布相應(yīng)的產(chǎn)品,現(xiàn)在還是處于內(nèi)測(cè)階段。根據(jù)聯(lián)合創(chuàng)始人兼CEOOpher Kahane表示,Origami Logic的目的就是讓銷售和市場(chǎng)人員把CRM、社交媒體、郵件營(yíng)銷和調(diào)查報(bào)告等不同平臺(tái)的數(shù)據(jù)匯合在一起,并做出相應(yīng)的整理和分析,利用有效的數(shù)據(jù)幫助他們做進(jìn)一步的營(yíng)銷活動(dòng)或者衡量整個(gè)營(yíng)銷效果,讓大數(shù)據(jù)不再是專業(yè)人士的私家工具。
QlikTech也是致力于這—領(lǐng)域的明星公司之一。值得注意的是這家公司是在90年代后期建立的,并從互聯(lián)網(wǎng)危機(jī)中存活下來。QlikTech在2010年的時(shí)候順利上市,目前用戶數(shù)量為2600萬,公司估值超過20億美元,旗下的Qlikview是一個(gè)商業(yè)智能領(lǐng)域的自主服務(wù)工具,能夠應(yīng)用于科學(xué)研究和藝術(shù)等領(lǐng)域。
最近Google發(fā)布了Google BigQuery,方便開發(fā)者獲取大量數(shù)據(jù)。QlikTech則和Google合作,以便于開發(fā)者更好的利用大數(shù)據(jù)。為了幫助開發(fā)者對(duì)這些數(shù)據(jù)進(jìn)行分析,QlikTech提供了對(duì)原始數(shù)據(jù)進(jìn)行可視化處理等功能的工具。
數(shù)據(jù)分析與商業(yè)咨詢服務(wù)
全新的、更具競(jìng)爭(zhēng)力的商業(yè)智能服務(wù),這也是大數(shù)據(jù)最為吸引人的地方之一。傳統(tǒng)數(shù)據(jù)倉庫的性能已無法應(yīng)付龐大的信息,但是大數(shù)據(jù)(Big Data)技術(shù)使我們能夠訪問和使用這些寶貴的、大規(guī)模數(shù)據(jù)集以應(yīng)對(duì)越來越復(fù)雜的數(shù)據(jù)分析和更好的商業(yè)決策制定——大數(shù)據(jù)將改變商業(yè)智能(BI)的布局,并能為企業(yè)提供一種有價(jià)值的數(shù)據(jù)源,這在當(dāng)下已經(jīng)成為了一種趨勢(shì)。
顛覆傳統(tǒng)的BI模式,Good Daca的愿景很龐大,它們提供的是基于云的數(shù)據(jù)分析服務(wù)。
GoodData提供的軟件即服務(wù)(SaaS)數(shù)據(jù)分析解決方案適應(yīng)性十分強(qiáng)大,使用也更方便。但其競(jìng)爭(zhēng)對(duì)手都是一些業(yè)界巨頭,包括IBM、SAP和oracle等。不過,GoodData的優(yōu)勢(shì)正是商業(yè)模式。跟那些巨頭提供的套件式解決方案不同的是,GoodData向廣大的Saas提供商提供技術(shù)集成服務(wù)(可以稱之為SaaS提供商的SaaS提供商),讓他們?cè)谧约旱钠脚_(tái)中集成其數(shù)據(jù)分析技術(shù),從而使得這些Saas提供商可以向最終客戶提供諸如儀表盤、報(bào)表等功能。
最近幾年,由于社會(huì)化媒體的興起,數(shù)字營(yíng)銷逐步成為營(yíng)銷業(yè)者關(guān)注的焦點(diǎn),但是營(yíng)銷人員對(duì)這個(gè)領(lǐng)域仍缺乏有效的介入手段。因此GoodDat胡苗準(zhǔn)了這一點(diǎn),利用集成服務(wù)為營(yíng)銷人員提供對(duì)微博、社交網(wǎng)絡(luò)及在線營(yíng)銷活動(dòng)的深度分析功能,并將此作為商業(yè)智能的入口,并成功的成為了一家商務(wù)情報(bào)和資訊公司。