只要能抓住那些依賴數據而不是腸胃生活的人,有些事情是可以進行預測的。
在這個大數據的時代,數據模型預測愈發顯示出其重要性。眾多數據專家將數學模型預測應用到各個角落——預測總統大選結果、奧斯卡獲獎名單等等。他們希望通過對這些焦點話題的預測讓更多的人認識數據分析,能夠真正拓展數據分析觀念。
曾經準確預報美國大選50個州結果
去年,紐約微軟研究院計算機專家大衛·羅斯切爾德使用了一種多樣式、數據導向的模型成功地預測了美國總統大選。在51個地方選舉結果中(包括美國50個州和華盛頓特區)羅斯切爾德準確地預告了50個結果。
事實證明,羅斯切爾德和其他預測專家正在有效地利用大規模數據分析,以超過98%的預測精準度獲取媒體的視線。如同《科技縱覽》雜志的斯蒂文·切利所說:“只要能抓住那些依賴數據而不是腸胃生活的人,有些事情是可以進行預測的。”
像羅斯切爾德這樣的人,熱衷數據分析,他們希望能夠通過努力,不斷延展各種信息整合的可能性。正如他本人曾經說過,數學模型預測的范圍十分寬廣,只要有因果關系,有規律的行業都可以進行預測。
最近,羅斯切爾德正投身于新的項目之中,他希望通過用數據分析讓人們重新思考“預測”和“預報”的概念,并希望這種預測和預報能有效地促進今后微軟對產品和服務的開發。羅斯切爾德這次成為全球媒體熱點的預測就是對第85屆電影藝術與科學院獎——奧斯卡獎評選結果的推斷。
我們可以在他發表在PredictWise上的博客中看到其預測過程和結果。羅斯切爾德整合了微軟Office團隊的力量以強化這次奧斯卡選票預測的準確性。通過Excel的工具,他的模型可以實時分析全部24類奧斯卡獎項的結果。而對羅斯切爾德來講,這其實是他日常工作的一部分。
“我對奧斯卡獲獎結果的分析跟對其他事情,包括對政治的分析,采用的是同樣的方法。” 羅斯切爾德說:“我尋找最有效的數據,之后建數據顯著模型,模型不能忽略各個年度的任何分析結果。在獲得‘樣本外檢驗(實際操作)的結果前,這些模型都會通過歷史數據進行測試校訂以確保它們是經得起推敲的。這一過程,一向都是艱辛而痛苦的。數學模型分析需要預測將來,而不能僅僅證實過去。”
選取有效數據需要加入某些哲學判斷
在同一領域,我們可以采用不同的模型。預測總統競選時,除了羅斯切爾德,還有著名的數據預測達人內特·希爾沃,以及埃默里大學助理教授德魯·林策等等。他們使用了不同的模型,均達到了95%以上的準確率。而獲得更可信的預測結果則需不斷推演改善模型。
除了模型的質量至關重要之外,北京集奧聚合公司首席技術官劉國清認為在數學模型預測中,獲取數據的質量和數量對預測結果同樣有決定性的影響。羅斯切爾德本人也這樣說道:“誠然,科學是相近的,但判斷哪些數據是最有效的是有所區別的。”
你或許覺得預測奧斯卡獎獲得者比預測美國總統選舉結果的數學模型分析要簡單很多。總統選舉變化莫測,1.27億張的選票,錯綜復雜,勝利可能命懸一線;而奧斯卡評選團只有6000多的選票。事實上,奧斯卡獎評選的數據的差異性非常明顯。總統選舉時僅一個州就會有3萬人的民調數據,找出其中共性建立分析模型則容易些,而在其他行業或其他預測中這是很難實現的。
羅斯切爾德通常關注四種數據:民意調查、預測市場、基礎數據以及用戶產生數據。他說:“在做政治預測分析的時候,我使用基礎數據,比如過去的選舉結果、候選人以及經濟指數,以勾畫出一個大致的范圍結構。之后,我會轉向預測市場和民調的數據以吸收獲取關于選舉更多的信息。2012的總統大選我沒怎么使用用戶產生數據,但在微軟Xbox LIVE這一產品的分析中,用戶數據是至關重要的。用戶數據的實時性能夠幫我們更好地分析這種大的產品項目。”
在選取有效數據時,有時需要加入某些哲學判斷,希沃爾曾經說過:“面對一堆數據時,我們經常處理得很糟糕。擁有更多的信息并不意味著我們能更好地預測。”事實上,現在的數據不僅僅是數字。
羅斯切爾德在做奧斯卡分析的時候沒有民意調查和基礎數據,票房結果和電影評分在數據分析中用處不大。因此他更多關注的是調查市場,這些數據非常堅實,而同時他也引入了用戶產生數據,這讓他更好地在電影、獎項類別中找到相關性。比如判斷電影《林肯》能獲得在多少個獎項中獲勝等等。
打造出獨立于某一領域的分析方法
聽羅斯切爾德講述他如何實現奧斯卡獲獎結果預測這類項目令人獲益匪淺。他說:“當我開始新的項目時,我要考慮幾個關鍵的事情以做出有效的推測。”
“第一,我會判斷是什么最相關的預測。以奧斯卡為例,我關注的是所有24個獎項的獲獎可能性,同時關注重點影片獲得不同獎項的潛力。”
“第二,所有的預測都要隨時更新。這點對數據研究預測分析非常重要,要分析從初始判斷到最終結果中發生的各種事件、各種影響因素。而奧斯卡頒獎之前的幾次電影評選就是這種具有影響力的事件。”
“最后,為確保預測的準確性,要利用同一領域內的歷史數據不斷調整推進模型。值得強調的是,我們的目的是要打造出獨立于某一領域的分析方法,以確保其延展性。這次奧斯卡的分析對微軟、學術界或其他行業都非常有價值,它會引導出更多有效的預測方法,從而自由地應用到各個領域。”