萬維鋼
很久以前,美國一家媒體提出了一個有趣的問題,主持人指著三扇關著的房門對觀眾說:“每一扇房門后面都有一件東西,其中一扇門后面是汽車,另外兩扇門后面各有一只山羊。你可以隨意打開一扇,后面的東西就歸你了(當然你最想得到的是汽車)。”當你選定一扇門,如1號門(但未打開),這時主持人讓人打開了有山羊的另一扇門,假定是3號門,然后再給你一次機會,允許你改變原來的選擇。這時,你為了得到汽車是堅持1號門還是改選2號門?
當問題及答案公諸于眾后引發了出乎意料的轟動,大家給出了不盡相同的答案(當然正確的答案是唯一的)。此時,無論是1號門還是2號門,后面都有可能是汽車,看上去好像每一個都是一半的幾率,但從主持人的角度看,他不會讓你輕易就得到汽車,于是打開3號門來迷惑你,讓你放棄1號門。由此看出,1號門后是汽車的幾率會大一點。
如果能從主持人的話語中判斷出他沒有這種想法,則我們可以這樣思考。將1號門看成一部分,里面有汽車的概率為0.33,將2號門和3號門看成另一部分,里面有汽車的概率為0.67。當發現3號門里沒有汽車時,則1號門和2號門有汽車的概率分別為0.33和0.67。因此,選擇2號門比較理智。
稍加留意你就會發現,如果利用概率統計提供的科學思維方法就可能大大提高獲勝的幾率。然而對日常生活來說,即使我們掌握了概率計算方法,也并不等于能真正理解概率。
隨機:偶然錯誤不值得深究
概率論最基礎的思想是,有些事情無緣無故就發生了。這個思想對我們的世界觀具有顛覆性的意義。古人沒有這個思想,認為發生的一切事情都是有原因的,甚至都是有目的的,但實際上真實世界充滿了不可控的偶然。
如果一個人考上了好大學,人們會說這是他努力學習的結果;如果一個人事業成功,人們會說這是他努力工作的結果。可是如果一個人中了彩票大獎,這又是為什么呢?答案就是沒有任何原因,這完全是一個隨機事件。
如果一個人總買彩票,他中獎的概率可能會比別人大。但是當他跟數千萬人一起面對這特定的一次開獎的時候,他不具有任何優勢。中獎,既不是他自己有什么努力,也不是“上天”對他有所“垂青”。這是“隨機”發生的,你沒有任何辦法左右結果。
大多數事情并不是完全的隨機事件,卻都有一定的隨機因素。偶然和必然如果結合在一起,就沒那么容易理解了。
體育比賽是最典型的例子。球隊贏了球,人人有功;球隊輸了球,人人有責,里里外外都要進行反思。但比賽其實是充滿偶然的事件,你所能做的只是盡可能地爭取勝利。哪怕你準備得再好,總有一些因素是不確定的,也就是我們通常說的運氣。
理解隨機性,我們就知道有些事情發生就發生了,沒有什么可供解讀的意義。比如現代民航客機已經做得非常安全了,但再完美的交通工具也不可能百分百安全。那你會因為這極小的事故概率而不坐飛機嗎?我們只要確定事故概率比其他旅行方式更低就可以了。
一般管理者有個常見的思維模式,一旦出了事就必須全體反思,制定相關政策以避免類似事故再次發生。但極小概率的事故其實是不值得過度反應的,哪怕是因為員工犯了錯而引起的也沒必要如此。37signals公司的兩位創始人強調,不要一看到有人犯錯就大張旗鼓地制定政策來糾正錯誤。那樣只會把錯誤變成永久的傷疤,而且讓公司越來越官僚主義。正確的辦法是告訴犯錯的員工這是一個錯誤,然后就完了。
誤差:測量結果并不是真實答案
既然絕大多數事情都同時包含偶然因素和必然因素,我們自然就想排除偶然去發現背后的必然。偶然的失敗和成就不值得大驚小怪,我根據必然因素去做判斷,這總可以吧?
可以,但是你必須理解誤差。歷史上最早的科學家曾經不承認實驗可以有誤差,認為所有測量都必須是精確的,把任何誤差都歸結于錯誤。后來人們才慢慢意識到偶然因素永遠存在,實驗條件再精確也無法完全避免隨機干擾的影響。所以做科學實驗往往要測量多次,用取平均值之類的統計手段來得出結果。
國際足聯的世界排名就是根據各國球隊多次比賽的成績,然后采用加權平均的辦法統計出來的。所以這個排名就比一兩次比賽的勝負,甚至世界杯賽事的名次更能說明球隊的實力。但即便如此,我們也不能說國際足聯排名就是各個球隊的“真實實力”。因為各隊畢竟只進行了有限的多次比賽,再好的統計手段,也不可能把所有的偶然因素全部排除。
科學實驗亦是如此。科學家哪怕是測量一個定義明確的物理參數,也不可能給出最后的“真實答案”——他們總是會在測量結果上加一個誤差范圍。真實的答案當然只有一個,它可以是這個誤差范圍內的任何一個數字,甚至可以是誤差范圍外的一個數字。
所以“真實值”非常不易得,而且科學實驗是非常理想化的事件。世界上大多數事情根本沒機會進行多次測量。如果只能測一次,那我們該怎么解讀這一次測量的結果呢?根據以往的經驗,我們可以估計一個大致的誤差范圍。
有了誤差的概念,我就要學會忽略誤差范圍內的任何波動。2014年1月,國家統計局公布了2013年全國居民收入基尼系數為0.473,新聞報道說,該數據雖較2012年0.474的水平略有回落,但仍顯示居民收入差距較大。這個“回落”有多大?0.001。從統計角度來說,這其實沒什么意義。可能你的測量誤差就大大超過0.001。
考試成績也是如此,假設一個同學一門學科考了兩次才過,第一次57分,第二次63分。他說這是略有進步,事實上這不叫進步,叫在測量誤差范圍之內 。
賭徒謬誤:多次出現的號碼不會再出現
假設你一個人在賭場賭錢,比如玩老虎機。你一上來運氣就不太好,一連輸了很多把。這時候你是否會有一種強烈的感覺,你很快就該贏了呢?
其實這是一種錯覺。賭博開獎是完全獨立的隨機事件,這意味著下一把的結果跟以前所有的結果沒有任何聯系,已經發生了的事情不會影響未來。舉一個簡單的例子,假設瓶子里裝著六個球,我們把它們分別編為1~6號,每次抽取一個作為中獎號碼。每次抽獎的時候,這六個球被你抽到的機會是相等的,都是1/6。現在假設前面幾期抽中6號的次數比2號多,那么這一次抽獎的時候,你是否就認為2號被抽到的機會更大呢?不會。這些球根本不記得誰曾經被抽到過,2號球也不會主動跑過來讓你抽。它們被抽到的概率仍然都是1/6。
概率論中有一個“大數定律”說,如果進行足夠多次的抽獎,那么各種不同結果出現的頻率就會等于它們的概率——對上面這個例子來說就是,如果你抽取足夠多次,你得到2號的結果數應該和得到6號的結果數大致相等。
但人們常常錯誤理解隨機性和大數定律,以為隨機就是均勻。如果過去一段時間內發生的事情不那么均勻,人們就錯誤地以為未來的事情會盡量往“抹平”的方向走。但大數定律的工作機制不是跟過去平衡,而是說如果未來你再進行多次抽獎,你會得到非常多的“2”和“6”,以至于它們此前的一點點差異變得微不足道。
曾經有自以為懂概率的人指出,“如果2號已經連續出現了3期,而6號也已經連續出現了5期,則下一次中2號的概率明顯大于6號”。這其實是完全錯誤的,這就是著名的“賭徒謬誤”,全世界的賭場里每天都有人在不停地犯這個錯誤。
在沒有規律的地方發現規律
理解了隨機性和獨立隨機事件,我們自然就可以得到一個結論,那就是獨立隨機事件的發生是沒有規律和不可預測的。
“彩票分析學”是深受彩民喜愛的一門顯學。這門學問完全合法地出現在各種報刊媒體上,認為彩票的中獎號碼跟股票一樣,存在“走勢”。它使用“雙色歷史號碼”、“余數走勢”、“五行碼”等五花八門的數字曲線,以及“奇偶分析”、“跨度分析”、“大中小分析”等方法,幫助彩民預測下一期中獎號碼。
這些分析跟賭徒謬誤不同。賭徒謬誤是認為前面多次出現的號碼不會繼續出現,而彩票分析學是認為中獎號碼存在“走勢”,也就是多次出現的組合可能會繼續出現,或者按照這個趨勢可以預測出下一個號碼。
但是我們知道中獎號碼是純粹的隨機現象,根本沒有規律。然而明明沒規律,這些彩票分析師到底是怎么看出規律的呢?
我上小學的時候,有一次數學課上講到“素數”這個概念。老師列舉素數時,班上一個同學突然非常興奮地舉手說:“我發現一個規律。”他說,“你看素數3、5、7、13、17、19……它們的結尾都是這幾個數字。”他發現的這個“規律”其實是“除了2以外的素數都是奇數”。這的確是一個“性質”,但并不是真正的“規律”,因為你無法用它去預測下一個素數,比如9和15都是奇數,又符合這個“規律”,卻都不是素數。
人腦很擅長理解規律,但是很不擅長理解隨機性。發現規律任何時候都可以幫助我們更好地生存下去,而理解隨機性卻是只在現代社會才有意義的一個技能。
如果數據足夠多,我們可以找到任何想要的規律,比如說圣經密碼。有人拿圣經做字符串游戲,在特定的位置中尋找能對應世界大事的字母組合,并聲稱這是圣經對后世的預言。問題是,這些“預言”可以完美地解釋已經發生的事情,等到預測尚未發生的事情時就沒有那么好的成績了。
彩票無規律,圣經密碼是無稽之談,那么地震發生的年份有規律嗎?
地震不是彩票,并不是完全的隨機事件。有些地區地震會比較頻繁,我們大概可以知道平均每隔多少年就會發生一次。但是這樣的“規律”是非常模糊的,就算是地震高發區也有可能連續好幾年都不地震,不常地震的地區也可能一年發生好幾次地震。
可是有一門學問卻認為地震和各種自然災害會嚴格按照某種數學規律發生,甚至還用研究數學——確切地說是用做數字游戲的辦法去預測地震。這個方法叫做“可公度性理論”。其實這個理論跟地震沒有任何關系,只是簡單地把一些年份數字進行加減組合。
事實上,就算我們相信冥冥之中有一種神秘機制在左右地震,這個機制可以純粹由數學決定而跟地質學無關,“可公度性理論”也是站不住腳的。這個理論根本就沒有一個自洽的操作規則,對一次具體的預測到底應該采用什么數字組合,非常隨意。
小數定律:小樣本中的結果
我們知道,在數據足夠多的情況下人們可以找到任何想要的規律,只要你不在乎這些規律的嚴格性和自洽性。那么在數據足夠少的情況下又會如何呢?
人們抱著游戲或者認真的態度總結了關于世界杯足球賽的各種“定律”。比如“巴西隊的禮物”——只要巴西奪冠,下一屆的冠軍就將是主辦大賽的東道主,除非巴西隊自己將禮物收回,這一定律在2006年被破解。另一個著名定律“1982軸心定律”——世界杯奪冠球隊以1982年世界杯為中心呈對稱分布,這個定律也在2006年被破解。“王治郅定律”——只要王治郅參加季后賽,八一隊就必然獲得總冠軍,這也已被破解。還有一些沒有被破解的定律,比如“凡是獲得了聯合會杯或者美洲杯,就別想在下一屆世界杯奪冠”,以及“0∶2落后無人翻盤定律”。
如果你仔細研究這些定律,你就會發現不容易破解的定律其實都有一定的道理,王治郅和八一隊都很強,0∶2落后的確很難翻盤,而獲得世界杯冠軍是件非常不容易的事情,更別說同時獲得聯合會杯、美洲杯和世界杯。但不容易發生不等于不會發生,它們終究將被破解。那些看似沒有道理的神奇定律,則大多已經被破解了,之所以“神奇”,是因為純屬巧合。世界杯總共才進行了二十多屆。只要數據足夠少,我們總能發現一些沒有被破解的“規律”。
如果數據少,隨機現象可以看上去“很不隨機”,甚至非常整齊,感覺就好像真的有規律一樣。
1940年倫敦大轟炸,當時倫敦在德軍V2導彈的攻擊下損失慘重,報紙公布出標記了所有受到轟炸地點的倫敦地圖之后,人們發現轟炸點的分布很不均勻。有些地區反復受到轟炸,而有些地區卻毫發無損。
難道德軍在轟炸倫敦時故意放過了某些地區嗎?
對英國軍方來說,這是一件非常恐怖的事情,因為這意味著V2導彈的精度比預想的要高得多,以至于德軍可以精確選擇轟炸目標。然而事后證明V2是一個精確度相當差的實驗性武器,德軍只能大概把它打向倫敦,而根本無法精確控制落點。也就是說倫敦各地區受到的轟炸完全是隨機的。一直到1946年,有人從數學角度分析了轟炸數據,把整個可能受到轟炸的地區分為576個小塊,發現其中229塊沒有受到任何轟炸,而有8個小塊受到了4 次以上的轟炸。這些數據雖然不均勻,但完全符合隨機分布。實際上科學家可以用計算機模擬的辦法得到更多“看上去很不隨機”的隨機結果。
然而問題的關鍵是,隨機分布不等于均勻分布。人們往往認為如果是隨機的,那就應該是均勻的,殊不知這一點僅在樣本總數非常大的時候才有效。如果統計數字很少,其中就很容易出現特別不均勻的情況。這個現象被諾貝爾經濟學獎得主丹尼爾·卡尼曼戲稱為“小數定律”。
大數定律是我們從統計數字中推測真相的理論基礎,是說如果統計樣本足夠大,那么事物出現的頻率就能無限接近它的理論概率,也就是它的“本性”。所以如果抽樣調查發現一個地區某種疾病的發病率較高,我們就可以大致認為這個地區的這種疾病發病率真的很高。
而小數定律說如果樣本不夠大,那么它就會表現為各種極端情況,而這些情況可能與本性一點關系都沒有。