歐鋒

在1688年,牛頓發表《自然哲學的數學原理》,世界自此進入 “大科學”時代。
人們認識到,天空沒有宙斯的神殿,海洋也不是波塞冬的地盤。
宏偉而經典的牛頓力學體系,甚至讓100年后的法國數學家拉普拉斯斷言:“牛頓是迄今為止最幸運的人,全宇宙只有一條定律,被牛頓發現了。”
但后來,相對論、量子力學、海森堡不確定性原理等現代物理學理論,撕裂了“絕對時空觀”“因果決定論”。
而面對持續肆虐的疫情,上海市新冠肺炎醫療救治專家組組長、復旦大學附屬華山醫院感染科主任張文宏在2月28日接受媒體專訪時說:“現在中國的答卷正在交上來,確實2~4個月有可能控制住疫情。但是我們預測到了開始,沒有預測到結果。”
這是因為連日來,全球多國新冠肺炎疫情升級。
世衛組織在日內瓦宣布,將新冠肺炎全球風險級別提至最高級別——“非常高”,全球疫情防控進入“決定性時刻”。世衛組織提倡每一個國家必須同時為所有可能發生的情況做好準備,任何國家都不應抱有本國不會出現病例的僥幸心理。
科學的發展歷程告訴我們,這個世界,是一個復雜系統。對于復雜系統,需要保持謙卑的態度,承認過去的經驗不一定正確,更多依靠觀察而非理論,去描述進而預測這個世界。
只有不斷試錯,不斷完善自己的模型,才能無限逼近我們尋找的信號。
關于預測,納特·西爾弗在他的《信號與噪聲》一書中認為,我們大多數人,包括專家們,在生活中,往往表現得更像一個喝多了酒的司機。
他在書中寫道:這個喝多了的司機正在權衡是否應該開車回家,他認為自己一生中開過大約2萬次車,從來沒有出過嚴重車禍。因此,基于龐大的樣本規模以及幾乎完美的駕駛記錄,他上路了。實際上他做出了錯誤的決定。他的樣本規模實際上為零,因為他另外的2萬次駕駛記錄不能算數,而且那時他更清醒。
所以,西爾弗認為問題的關鍵是,我們真的不善于預測,因為我們傾向于挑選那些與觀點相符的數據,而忽略其他數據。
在《信號與噪聲》中,納特·西爾弗提到,美國2007—2009年金融危機不僅讓華爾街多家頂級投行陷入向美國政府伸手要援助的窘境,更讓評級機構陷入尷尬。
以標準普爾為代表的評級機構在美國房地產泡沫、有毒債券泡沫破滅之前,乃至破滅過程中,仍在發表著帶有極強誤導性的預測結論。
這些評級公司忽略了泡沫現象,嚴重低估了顯示高風險的信息。
因為評級公司孤立判定許多項目內的風險,并在預估總體風險時將各項風險的概率相乘,這樣就得出可以被忽略不計的極小數據;但問題是,以次級債為例,涉及的各個環節在風險上是相互連接的,即一個風險的爆發會觸發其他的、系統性的風險,計算總體風險應該以最高風險值的項目為錨定。并且,風險概率的存在,并不意味著風險事件將嚴格按照特定周期的時長出現,如果某金融機構出現壞賬的概率為5%,這并不能被理解為,在頭一次壞賬出現后的第20年才會曝出第2次壞賬問題。
所以,歸結起來就是,預測常常流于錯誤的第一個原因,就是我們對風險、概率等基本問題的不正確理解。
另外,國際政治學者常常通過大眾媒體和自媒體,發表對其他國家政治選舉的預測結論。一些學者的預測結論頻頻出錯,并不是因為對影響政治選舉結果的各項因素、風險、概率的理解出了問題,而是受意識形態影響,在收集各方面信息得出預判之前,自己的大腦就形成了認為自己的判斷是“應當正確”的先入為主的判斷,拒絕接受與之相反的信息。
納特·西爾弗將這種學者稱為“刺猬型專家”,分析指出,他們雖然善于從噪聲中辨識和捕捉信號,卻遺漏和忽略了其他信號,預測正確率也因此降到了“路人”隨機選擇的勝率之下。
這樣,先入為主、固執己見,就成為導致預測出錯的第二個原因。
納特·西爾弗建議人們,要注意吸取“刺猬型專家”的教訓,學會“狐貍型”的預測方法,用概率的方法思考問題、重視外部信息包括那些顯示己方預判存在錯誤的信息,承認自己在做出判斷時面臨的局限性。
《信號與噪聲》還通過判斷一個年輕運動員的成長潛力,是球探的主觀經驗更值得信賴,還是基于計算機平臺的數據分析系統更靠譜的案例,歸納出只重視那些實際上代表性存疑的數據,或者只依賴感性經驗而得出預測,是預測出錯的第三個原因。
但頗具有諷刺意味的是,按照納特·西爾弗的分析,導致預測出錯的第四個原因,應該是預測者屈從于商業利益、社會觀念壓力而對預測結果所做的“技術性處理”。
比如說,如果一項天氣預報結論顯示下雨,實際上并沒有下雨,民眾最多嘲諷預報機構“又錯了”,但反過來,如果預報天晴卻下了大雨,預報機構就會面臨更大壓力甚至訴訟。
這直接推高了天氣預報中的災害天氣比重。
金融機構往往也基于同樣的考慮,“報喜不報憂”,免得因悲觀預報信息而流失客戶。
所以,預測的準確性有賴于預測者對不確定性的認識,預測者越能認識到自己的局限,對不確定性的影響越抱以敬畏,做出的預測相對就能更準確;反之,那些僅僅根據一套精妙的數據模型,或者在“大數據”系統的幫助下掌握更多信息而顯得自信滿滿,對不確定性不屑一顧的人,就會非常明顯地產生偏離乃至錯誤。
預測的準確性有賴于預測者對不確定性的認識,預測者越能認識到自己的局限,對不確定性的影響越抱以敬畏,做出的預測相對就能更準確。
在《信號與噪聲》一書中,西爾弗用七章的篇幅,從失敗的預測里提煉出了三條準則:
首先,必須要有足夠的信息,這是一切預測的大前提。如何在預測之前收集足夠多的信息,也就成了預測成功與否的標準。
其次,預測需要一個適當的方法或模型,用來處理第一階段里收集到的大量信息。
再次,以客觀理性的態度來對待這些信息以及經過處理后所呈現的數據,譬如在深藍與卡斯帕羅夫對決中,深藍就完美地詮釋了什么是客觀與理性,相比而言,卡斯帕羅夫就稍遜一籌,當然,大家都知道,深藍只是一臺機器。
本書的前七章,涉及政治、經濟(金融)、棒球、天氣、地震、流行病等多個領域,知識領域跨度非常之大,但本書的精華部分其實在后半部分。
在第八章里,西爾弗拋出了自己預測理論的基礎——貝葉斯定理。
貝葉斯定理是英國數學家托馬斯·貝葉斯于1763年提出的一個理論。不過,貝葉斯的生平記載很少,但有一部很重要的著作流傳了下來,叫《機會的學說概論》。他的思想被法國概率論學家拉普拉斯發揚光大,形成了統計學中的貝葉斯方法。
這個定理可能是概率論中最為有名的定理之一。
在貝葉斯的觀點中,任何未知的事物都可以被建模為一個概率分布,而預測的任務就是給定最初的猜測,不斷地使用新的證據、新的發現更新最初的猜測。
在貝葉斯的語境中,最初的猜測即主觀的先驗概率,而經過新的證據更新之后,形成了后驗概率。貝葉斯定理將主觀的先驗不停地使用新的證據更新,從而逐漸逼近真相。簡言之,就是觀念隨著事實發生改變。
貝葉斯定理通過簡單的計算就可以推導出重大的預測。
例如,它的一個有趣應用就是德州撲克。在德州撲克中,當玩家看到自己的底牌時,都會形成一個對其他每位玩家可能的牌組合的先驗概率,以后每一次發牌以及下注,玩家都可以通過這些公開信息,不斷地更新自己對于其他玩家的牌的后驗概率,同時根據這一預測進行下注的操作。
實際上,科學知識的積累,也可以看成貝葉斯定理中更新后驗概率的過程。
科學研究一直強調客觀性。
但物理學家和哲學家邁克爾·波蘭尼在《個人知識》一書中質疑:從科研工具的制造到科研過程的深入,每一個階段都有人的主觀性介入;馬歇爾在《經濟學原理》中也有類似的觀點,認為經濟學的假設都有內涵人的主觀判斷。
《信號與噪聲》中就是上述思路的更為通俗的表達,而且也是貫穿全書的主線。
西爾弗認為預測的困難來自測量,而測量可以分為易觀察的、不易觀察的。前者受人的主觀性影響較小,而后者的測量則更多地要依靠人的想象力和創造力。
預測成功的關鍵在于有沒有承認人的無知,而不是對自己所采用的模型和方法的科學性、客觀性過于自信。
對工具本身過于自信,就不容易識別出噪聲,從而失去正確的預測信號;而只有承認自己的無知,下結論時遵循貝葉斯式的概率思維,才能時刻警惕噪聲的存在,發現真正的信號。
貝葉斯定理如今在投資學中運用得非常廣泛,而互聯網的很多技術也依賴于貝葉斯定理。
盡管貝葉斯定理在預測方面已有非常高的成功率,但西爾弗還是反復強調預測的困難性。
因為在大數據時代,在人們擁有的數據呈指數級增長的同時,人們需要檢驗的因果關系,也呈指數級增長,這就導致每個因果關系成立的可能性都不高,或者說,每個因果關系成立的先驗概率都不高。
在這種情況下,根據貝葉斯定理,人們極有可能在眾多的因果關系中,錯誤地將沒有因果關系誤認為存在因果關系,因而在大數據時代,人們面臨的挑戰也就更加嚴峻了。
《信號與噪聲》的作者納特·西爾弗于1978年在一個美國知識分子家庭出生。
他熱愛棒球。早在童年時,他就是底特律老虎隊的球迷,并且從少年時代起,就熱衷于收集和分析各種球員的數據。
2000年,納特·西爾弗成為名聲響當當的畢馬威會計師事務所的一名經濟咨詢顧問。
不過,他似乎并不喜歡這份工作。兩年后,他開始利用業余時間分析棒球,并為棒球雜志撰寫評論。這是他預測分析事業的開端。
棒球和很多球類運動不同,它有著比其他球類更豐富、更精確的數據統計。
西爾弗利用每年出版的公開數據,配合自己設計研發的一套可預測棒球的數據模型,來判斷一個投手的能力,并為棒球刊物撰寫文章,預測球員的表現。
2004年,他從畢馬威辭職,靠著風靡一時的德州撲克網絡賭博來養活自己。
2007年,還在為棒球雜志寫作的西爾弗開始撰寫一個政治分析專欄,這個專欄后來演變成了538網站。
2008年大選,西爾弗的關注者從棒球迷擴展到全體公眾,一下子火了。
因為在這一年,西爾弗利用自己研發的那套棒球數據預測模型,幾乎成功預測了美國大選結果——在全美50個州選舉中,他成功預測了49個州的結果。
從噪聲中區分信號既需要科學知識,也需要自知之明,比如平靜地承認我們無法預測的事物,勇敢地說出我們能夠預測的事物,還有就是明智地區別二者的不同。
這使他聲名大噪,名滿美利加。
2012年,西爾弗再登神壇,成功預測了美國50個州的大選結果。
一時之間,出版社重金簽約書稿,紐約時報邀請開設政治專欄,并把538直接移到了自己的網站上,TED 大會也邀請他演講。
西爾弗走上了超級名人之路。
他不再是那個玩棒球數據的極客,而是一個能預測總統大選的人。
登上神壇的這一年,納特·西爾弗的第一本書《信號與噪聲》出版。它的英文副標題是“Why Most Predictions Fail but Some Don't”——為什么有些預測是錯的而有些不會。