孟曉犁
所謂大數(shù)據(jù),并非越大越美,越大越有價值。
只要科學(xué)抽樣,哪怕只有百分之零點零零幾的均勻抽樣,效果也可以比95%不均勻的數(shù)據(jù)好。
所謂大數(shù)據(jù),也不能光看絕對量,并非數(shù)據(jù)越多結(jié)果越可靠。
大數(shù)據(jù)這兩年一直是熱詞。發(fā)展中的大數(shù)據(jù)確實帶來了很多有用信息,但是所謂大數(shù)據(jù),并非越大越美,越大越有價值。
比如,在美國做一個1 000人的抽樣調(diào)查。這個調(diào)查若是同樣在中國做,要達到同樣精度,需要抽取多少人?美國的人口是3.2億人,中國的人口是美國的4倍多一點。每次我在大學(xué)講座問到這個問題,只有10%以下的人說出正確答案:仍需抽樣1 000人,而絕大多數(shù)人認為抽樣數(shù)必須大于4 000。
為什么呢?最簡單的比喻是:喝湯時,要確定湯的咸淡,大多數(shù)人只需要嘗幾口,并不需要把湯全部喝完。這個判斷的準確性取決這碗湯的均勻度。喝湯前把整碗湯攪拌一下,然后品嘗幾口,這就是我們所說的隨機取樣。無論是一小碗湯還是一大桶湯,只要攪拌均勻,嘗幾小口就夠了。同樣,去醫(yī)院驗血時,每個人不論是胖是瘦,小孩還是大人,醫(yī)生都只會抽一點就可以做出判斷。這意味著抽樣調(diào)查需要有一定的樣本,但是一旦超過臨界點以后,和母體大小的關(guān)系是完全可以忽略的。也就是說,大數(shù)據(jù)再大,只要科學(xué)抽樣,哪怕只有百分之零點零零幾的均勻抽樣,效果也可以比95%不均勻的數(shù)據(jù)好。
所謂大數(shù)據(jù),也不能光看絕對量,并非數(shù)據(jù)越多結(jié)果越可靠。以現(xiàn)在最熱的個性化治療為例。如果一個藥對95%的人有效,但對我沒有用,那顯然這個95%的數(shù)字對我毫無意義。
一個真實的例子是,在20世紀80年代,英國有一本雜志登了兩種治療腎結(jié)石的方法。文章摘要宣稱方法A治療腎結(jié)石,成功率是78%;用方案B的話,成功率是83%。在沒有其他信息的情況下,任何人都會認為B方案治療效果更好。但是仔細閱讀那篇文章,你會發(fā)現(xiàn)當研究人員把病人分成大結(jié)石和小結(jié)石兩組時,方案A比方案B在每組里的成功率都要高。
(選自《讀者》)