宋文芳 龐貝


覆蓋6億網民,匯聚全網萬億網頁,每天響應60億次搜索請求、150億次定位請求,記錄了整個中國互聯網的歷史、現在與未來……
—如果將數據資源比作礦藏,那么百度所擁有的無疑是一座巨大的富礦。
這座富礦究竟價值幾何?百度又將如何挖掘它的潛能?
2015年9月8日,在2015百度世界大會上,百度旗幟鮮明地給出了答案,那就是用大數據來“連接3600行”。
在8月19日國務院通過《關于促進大數據發展的行動綱要》之后,這場大會更像一場誓師,百度董事長兼首席執行官李彥宏和他的同伴們終于由此開啟挖掘大數據寶藏的大幕了。
大數據的寶藏,百度將要怎樣挖掘?
百度高級副總裁王勁在會上發布了百度“大數據+”開放平臺:“百度通過大數據連接3600行,打通線上和線下,把線上和線下的數據融合起來,產生核聚變,迸發出新的能量,讓大數據成為3600行的商業新能源。”
這新能源的富礦存量有多大?
資源:海量存儲 數據富礦
如果將單一信息比作一滴水,那么百度所擁有的無疑就是汪洋大海:百度的服務覆蓋6億網民,匯聚全網萬億網頁,每天響應60億次搜索請求、150億次定位請求,記錄了整個中國互聯網的過去、現在與未來……
除了搜索數據、定位數據之外,百度還擁有豐富的社區數據,如百度貼吧的數據等。
過去,百度索引的是網頁,而現在百度要索引真實世界。它正在將線上和線下的數據打通、融合,將百度數據和傳統行業的數據深度結合。目前,百度和保險、零售等行業已經在大數據合作方面進行嘗試,隨著百度大數據與行業深度合作的擴展與加強,可以預想,百度擁有的數據礦產將進一步豐富與完善。
然而,如此海量的數據,僅是存儲和處理就絕非易事。百度會不會被淹沒在這數據的海洋里?
硬件:底層支撐 儲備過硬
存儲、計算如此海量的數據,離不開硬件基礎—數據中心。此前,作為全球最大的中文搜索服務提供商,百度的數據中心規模已達數十萬臺服務器。而近日百度更是啟用了華南超級核心及華南IDC(互聯網數據中心)集群,使百度的數據中心規模和網絡服務能力進一步提升。
百度已在全國多個地區建成超級核心及IDC集群。超級核心指的是骨干網絡節點,所有IDC都需通過該節點進行互聯。此次華南超級核心及IDC集群的啟用,對于占全國近1/3用戶的華南十省地區,可以實現網絡提速30%以上。
除了擁有規模龐大的數據中心和計算網絡外,百度公司還一直投入大量的資源研究數據中心的節能技術及清潔能源發電技術,引領數據中心綠色節能技術的革新潮流。
2013年1月,中國第一代整機柜服務器天蝎(北極)1.0版本率先在百度南京機房上線,開創了定制服務器新時代,在中國發揮了很好的引領作用。如今,百度已大規模上線天蝎(北極)2.0,自主整機柜服務器已投入使用數十萬臺。
整機柜服務器采用共享架構設計,可以讓百度取得非常好的收益:整機柜服務采用集中供電,比傳統分散電源的能效提升20%,而電源模塊成本只有原來的50%;采用集中散熱,比傳統分散散熱模式的能效提升60%,風扇成本節省20%;方便集中管理,以機架為基本管理單元,提高管理效率,整機能耗降低15%。
此外,百度還是全球第一家大規模商用ARM服務器的企業,僅此一項,使能效降低30%。百度在語音、圖像識別等領域創新性地應用了GPU服務器,能耗降低超過10倍。百度還成為全球首家把FPGA規模部署到數據中心的互聯網公司,應用FPGA后,能耗降低38倍……
技術:出神入化 誰與爭鋒
王勁說:“我們在技術上巨大的投入,希望有一天不僅助力百度發展,還能夠幫助中國整體經濟轉型。希望百度技術的開放與應用,能夠給中國的發展帶來豐厚的回報。”
百度在技術上投入了什么,又換來了什么?它真有傳說中那么出神入化?
在云計算技術方面,百度擁有全球最大的Hadoop集群。Hadoop是能夠對大量數據進行分布式處理的軟件框架,以一種可靠、高效、可伸縮的方式進行數據處理。目前百度擁有業界最大Hadoop單集群—1.3萬臺,日處理作業量達百萬量級。
在大數據和人工智能技術方面,百度搭建了超大規模深度神經網絡,可支持千億樣本和千億特征訓練。
基于大數據及超大規模神經網絡,百度在機器感知方面取得了非常大的進步:其統一視覺和語言深度學習模型已經能像小孩子學習一樣自然,能夠進行簡單的看圖說話、問答,理解動態視頻;在世界最權威的人臉識別評測 (LFW,Labeled Faces in the Wild,無約束人臉識別) 中,人類的錯誤率為0.8%,百度人臉識別的錯誤率僅為0.23%;對于搜索這樣的短文本(中文)語音輸入,人類的單字錯誤率為8%,而機器可以達到6%。
基于機器感知及自然語言理解方面的技術突破,百度打造了先進的讀圖問答技術。這一技術會聆聽、識別并理解人類的語言,同時識別、認知圖片內容,自行判斷并且組織語言給出答案,體現了目前全球最領先的人工智能水平。
如今,百度已經將這些先進的技術和能力通過百度開放云、API Store (apistore.baidu.com)對外開放共享,助力行業轉型升級。
這些令人眼花繚亂的技術,究竟能夠做些什么?
市場:探明前路 前景廣闊
可能在開始,百度也未必清楚地知道大數據的價值到底能夠挖掘到多深入,于是它將探尋的靈敏觸角伸了出去,得到了市場的熱情回應。來看看大數據平臺與市場結合后的斐然成果:
大數據+零售:迎接個性化精準營銷時代的到來
隨著信息社會的不斷發展,整個大數據的生態開始往線下轉移,這是大數據+非常具有潛力、值得挖掘的一塊寶藏。特別是在國家大力提倡“大眾創業、萬眾創新”的情勢之下,它將為中小微新興創業者提供有益參考,帶來事半功倍的效益。
大數據可以刻畫群體畫像,幫助創業者進行營銷,提供精準、定向的個性化推送;通過分析客流數據、消費水平、需求缺口、競爭對手、交通狀況等,給出商業選址建議……
隨著大數據生態的鋪展,一些敏銳的商場開始抓住這一契機,從只關注最簡單的整體的客流,到開始注意自己數據的建設。
而通過與百度大數據的合作,北京朝陽大悅城無論對自身還是對消費者的認知都有了質的提升:在充分保障用戶隱私和安全的前提下,把百度海量的線上數據和大悅城線下多年積累的數據結合在一起,通過挖掘、分析這些數據,百度和大悅城制訂了一些更有針對性、更精準的推廣計劃。這種個性化的推廣計劃在很大程度上提升了大悅城的銷售量。據統計,通過這一方式,大悅城會員銷售額提高了12%,未購買品牌推薦轉化率提升了5倍;非活躍會員到場消費率提高53%。
從關注整體客流到關注客流的留存、停留的時間、瀏覽路徑……再到開始關注細分人群、消費者的生命周期及偏好,最后通過O2O的生態和大數據生態,針對行為習慣不同的消費群體實施定制化的營銷,大數據正在改變著零售行業。可以說百度的海量數據,有效地支持了商業運營和商業決策,同時,對于消費群體的分類、判斷和認知,有助于實現個性化的精準營銷和個性化服務,大大提升盈利水平。
大數據+保險:低賠付人群定位準確性超過85%
百度大數據與保險行業的融合,可以挖掘出客戶購險意圖,做到精準營銷;同時可以預測客戶的賠付率,進行個性化定價。通過與大數據的結合,使保險公司在保險價值發現、客戶挖掘等方面的能力得到極大提升。
保險業降低一個百分點的賠付率,都意味著比競爭對手有了更大的競爭優勢。
百度在這一領域小試牛刀,展現出大數據在這一領域的巨大潛能。
利用保險公司多年積累下來的線下數據,百度和保險公司圈定了一大批低賠付人群樣本。百度將這些人群的線上線下數據融合,應用人工智能技術,把這些人的特征挖掘出來。然后,在6億網民中,通過海量計算,將具有相同特征的人找出來。這樣就找到了更多的低賠付人群,準確性超過85%。同時,通過大數據合作,實現精準營銷,廣告點擊率提升361%、購買轉化率提升200%。
大數據+金融:開啟點“數”成金的互聯網金融時代
把線上的海量數據和線下的金融數據結合到一起的時候,這些數據產生了點“數”成金的效果。
這些數據的融合,對基金選股、風險控制、信用評估產生了極大幫助。它們有效地提升了投資者決策判斷的參照系。傳統金融做決策的時候,一般用幾十個、幾百個維度進行決策,當應用互聯網大數據后,可以用幾萬個維度進行決策,并可以對數據進行實時監控和反應,大大提升金融決策的有效性。
百度大數據和國金證券的合作在這方面提供了有益借鑒。他們把線上和線下的數據結合在一起,通過對這些海量數據進行復雜的計算,挑選出了20多個有效的因子,并用這些因子建立數學模型,助力選股和買賣決策。
基于上述大數據的合作,使投資者的絕對收益提升了5%到8%;信息比IR提升了0.6到0.9;最大回撤降低了3%到5%。
有了大數據的強大支持,我們在炒股上、在基金的選擇上,能夠有更大的收益,能夠更好地控制風險,降低波動。
據王勁透露,下一階段,百度大數據將和國金證券進行一個新的嘗試,共同建立一個新的量化基金。希望通過這種創新和嘗試,幫助互聯網金融找到切實可行的發展道路。
大數據+旅游:智能化的旅游服務
在查找旅游信息時,搜索引擎是主要渠道。游客從搜索引擎獲取信息占所有信息獲取渠道的78.5%。
大數據與旅游相結合,基于海量搜索數據,以及LBS定位數據、SNS數據等,能夠實現景區客流量預測,為游客出行、景區管理與服務提供參考;還可以讓景區更深入地洞悉旅客,便于景區做更智能的服務和營銷。此外,還可以提供酒店訂單預測、熱門線路預測等服務。
百度大數據與武夷山景區的合作堪稱這一類型的典范:通過大數據分析可以了解到,到達該景區的旅客對鼓浪嶼、黃山、烏鎮、西湖等景區的關注度也很高。因此景區可以聯合沿線景區,推出精品旅游路線,進行營銷合作,充分發揮景區聯動效應。
正像王勁所說:“過去,我們做決策憑的是個人的經驗和能力;今天有了大數據,我們能夠有的放矢地做出一個決定,讓大數據引領我們去做新的決策。”
“索引真實世界,讓大數據改變我們的生活。百度不僅僅用大數據來幫助百度自己發展,我們還希望把百度大數據開放給大家,希望用大數據+平臺連接3600行,助力3600行獲得新的競爭優勢。”
業態:培育生態 改變生活
百度建立大數據平臺的目的,一方面是為了釋放大數據的海量價值,更為重要的是建設大數據生態。
在謀劃大數據之初,或許他們已經前瞻性地將百度大數據打造成與各大產業相融合的模塊雛形:百度大數據+平臺有七大模塊,分別是產業洞察、客流分析、營銷決策、輿情監控、推薦引擎、店鋪分析、數據加油站,并已提供針對保險、旅游、零售等六大行業的解決方案。
可以說,未來通過大數據平臺打造的百度生態圈,將可以用到百度大腦、百度大數據、百度云等豐富多樣的產品和服務。而大數據不僅僅能夠幫助商業,還能改變我們每個人的生活。
前段時間,百度研究院和百度公益共同攜手打造了一款產品“百度小明”。百度小明依托“百度大腦”的圖像識別、語音識別以及深度學習等相關核心技術,成為盲人的日常生活助理,幫助盲人“洞見”真實世界。
而對于更多的正常人,百度依托大數據、人工智能,開發了豐富多樣的產品,幫助人們更深入于智能生活當中,讓我們對于所處的信息社會不再有如“盲人摸象”。例如百度打造的小度機器人,能夠像真人一樣面對面和用戶對話,回答用戶的問題。它可以利用人臉檢測和跟蹤技術,根據用戶的位置移動而轉動視線。不僅如此,小度機器人還具備了認識用戶的能力,可以判斷出面前用戶的身份是注冊用戶中的哪一個人,根據用戶的不同年齡、身份、性別做出個性化的回答和服務。
王勁說:“前段時間,國務院印發促進大數據發展行動綱要,進一步推動大數據應用到行業中。我們希望百度能夠參與其中,幫助中國更好地實現大數據戰略。”
我們正處在第三次工業革命的尾聲與第四次工業革命的前奏共同奏響的巨大時代聲浪之中,不管是從國家還是社會發展層面,世界各國都在積極探尋更深層次發展的契機。大數據無疑提供了無數發展可能性中的一種,我們期待著它在與國家戰略融合的同時,“產生核聚變,迸發出新的能量”,更深遠地影響到未來生活。