大可
世界排名第一的中國圍棋選手柯潔,與阿爾法狗大戰三個回合,三戰全輸。在人類棋手面前自信滿滿的柯潔,落下了眼淚。
面對網上千奇百怪的圖畫“試題”,不到半分鐘,小詩機就創作出一首詩,什么“雨引鳥聲過路上,日移花影到窗邊。賴有公園夏風地,欣喜玩沙遍河山。”什么“啼鳥古藤古清壁,樹蔭花草磚墻旁。約公快活重來此,延納北風盡一觴。” 哇哇哇,這不跟我們背的唐詩一個套路嗎?
這些機器人也太逆天了吧?
呵呵,只不過是大數據幫了它們的忙!
小鏈接:
阿爾法狗(Alpha Go)的“狗”是對英文“Go”的音譯,而“Go”在英文中不僅僅有走、離開等意思,還表示“圍棋”呢!
到處可見
大數據的作用到處可見。
十字路口的紅綠燈,多久轉換一次能讓道路更順暢?這要統計有多少車、多少行人經過路口等數據。設置合理的紅綠燈,對降低交通事故也有很大作用,這要統計人們的開車習慣、忍耐等待過馬路的最長時間等。
公共場所的警力安排,則要統計不同時段的人流,如工作日、雙休日、各類國定假等。沒看到“熱門”假期連武警都在維持秩序嗎?
小詩機是“消化”了幾百位詩人的作品、跟詩詞有關的語文和景物知識、圖片識別方法等大量數據,才會“看圖寫詩”。
小鏈接:警察“先知”
美國某小城的地圖,會根據“賊情”不斷畫出賊們出沒的動向,在與小偷的較中,警察屢戰屢勝。這也是托了大數據的福。從大量信息中提煉出的數據,讓犯罪行為無所遁形:竊賊通常出沒的社區、最有可能犯罪的時間段、犯罪的類型……
4步大數據
從信息到數據不是一蹴而就,有人說有10個步驟,有人說要8種方法。我們浮光掠影地看一看。
首先是從信息中采集數據。
自從有了互聯網,人人都可發信息:公眾號、博客、微信、社交網絡聊天……這就是大數據的生長土壤。大數據講究的是數據的全體性、完整性,而不是以前常用的報刊摘錄、抽樣調查,這樣的數據才更有用。比如網上商城會持續收集人們的網購記錄、聊天記錄等。這需要有極速容納信息的設施。有些網上商城在“購物節”網絡癱瘓,影響了數據采集。
海量的信息有的有價值,有的是垃圾,讓信息變成有用的數據,是第2步要做的事:將信息迅速分門別類歸入便于查詢的數據庫,同時“清洗”掉無用信息。想象一下中藥柜:各種藥材被收入各自的抽屜,雜質則被拋棄。藥柜設計要滿足這樣的需要:可隨時根據藥方從抽屜中取材配藥。當然,數據庫構成要復雜多啦。
接下來是分析、統計數據。比如,某類人的購買熱點,什么樣的優惠會增強網購,某種商品購買量的變化……優秀的分析、統計工具,會做到數據實時更新、秒級響應。
最后一步是對數據的挖掘應用。比如對于“網紅”商品,要挖掘與“網紅”原因、購買人群的年齡、季節等之間的關系。這要經過大量的數據計算,才能得出結論。而根據結論及時調整,是網上商城成功的秘訣之一。
大數據與學習
全班同學聽同一位老師講課,考同樣的卷子。分數高被認為聰明、努力,分數低的簡直與“差生”畫上等號。你再不服氣,說自己多努力也沒用。
別泄氣,大數據出招了。
有家公司建立的學習平臺,無論你是花幾分鐘還是幾個小時在上面,它都會跟蹤收集信息,并通過答題情況來分析用戶的學習方式,統計大多數人會對哪些問題困惑,哪類人群容易犯某些錯誤等。比如,他們發現說西班牙語的人要學好英語,有些詞應該晚點學,于是調整了課程。
這樣看來,分數低很可能并不是你不努力,而是學習方式不對。當有了可靠的大數據依據后,教育方法將會有所改變。
輝煌的明天
早期的阿爾法狗“吃”了人類幾百萬個棋譜,用獲得的大量數據進行訓練,掌握了各種最有勝率的棋招。
后來的阿爾法狗拋棄了人類棋譜,只學習圍棋規則,然后自己跟自己下,憑借人類望塵莫及的運算速度,迅速積累了大量棋譜數據。隨后,阿爾法狗就像一個真正的人類棋手那樣,運用多種“深度學習”模式,一邊拋棄那些明顯的“蠢招兒”,一邊推演、判斷局勢,擁有了最好的、甚至人類從未想到過的棋路,直逼得柯潔潸然淚下。
發現沒有,大數據進入了新旅程:數據庫不依賴信息搜集,而是來源于“機器學習”。超越了人類的信息提供,大數據是否將走向更快、更多和更強?