999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據如何產生虛假的信心

2016-08-05 02:34:29費文緒編譯
世界科學 2016年7期
關鍵詞:研究

費文緒/編譯

?

大數據如何產生虛假的信心

費文緒/編譯

● 如果我聲稱美國人最近變得更加以自我為中心,你可能會把我視為一個愛發牢騷愛懷舊的倔老頭,但是如果我說通過分析1 500億個文本詞匯,我能支持這個斷言,你又會怎么看我呢?請看卡耐基梅隆大學計算機科學博士研究生杰西·杜尼艾茨(Jesse Dunietz)的分析。

幾十年前,這種規模的證據只是一個白日夢。而現在,1 500億個數據點實際上已經過時了。一股對“大數據”分析的熱潮席卷了生物學、語言學、金融學以及它們之間的每個領域。

盡管對于如何定義“大數據”尚未達成完全的共識,不過一般的觀點認為,數據集龐大,以致能揭示傳統數據查詢見不到的模式,這就是大數據。數據通常由數百萬現實世界中的用戶行為產生,比如Twitter文章或信用卡購買記錄,需要利用成千上萬臺計算機收集、儲存和分析這些大數據。不過,對很多公司和研究者而言,對大數據的投入是值得的,因為其模式能破譯關于任何事物的信息——從遺傳病到明天的股票價格。

但是有一個問題:人們想當然地以為擁有如此海量的數據作為支撐、依賴于大數據的研究不會出錯。但是,數據量的巨大可能會為研究結果灌注一種虛假的確定性。很多基于大數據的研究很可能是虛假的——而其中的原因應該讓我們對任何盲目相信大數據的研究有所質疑。

在語言和文化研究方面,大數據于2011年大大露臉,當時谷歌推出全球書籍詞頻統計工具Ngrams。在《科學》雜志上大張旗鼓地發布后,Google Ngrams允許用戶在谷歌圖書數據庫中檢索短語 (谷歌掃描的圖書數量大約占到現代印刷術發明以來人類已出版圖書總量的4%),然后看看這些短語出現的頻率是如何隨著時間變化的。這篇論文的作者們預示了“文化組學”(culturomics)的問世——這是一種基于大量數據的文化研究,從那以后,Google Ngrams很大程度上成為了娛樂的無盡源泉,同時也成為語言學家、心理學家和社會學家的金礦。他們遍覽數百萬冊書籍,最終得出一個研究結論,比如說,美國人確實變得越來越個人主義,“我們年復一年越來越快地忘記我們的過去,道德理想正從我們的文化自覺中消失。”

問題開始于Ngrams語料庫建立的方式。去年10月發表的一項研究中,佛蒙特大學的三位研究者指出,總體而言,谷歌書籍數據庫(Google Books)包括了每本書的一個副本。這對它創建的初衷而言非常有意義,那就是把這些書的內容暴露于谷歌強大的搜索技術。但是,從社會學研究的角度而言,這使得語料庫被危險地歪曲了。

更逃避不了的事實是,Ngrams并不是正在出版書籍的一致而均衡的切片。同樣是佛蒙特大學的上述研究表明,在書籍結構的變化中,尤為突出的是從20世紀60年代開始科學文章的顯著增長。所有這些因素都讓我們很難相信,谷歌Ngrams準確反映出詞匯的文化流行度隨著時間的變化。

即便你不考慮數據來源,在解釋上仍然存在很多棘手的問題。的確,像“character”(性格)和“dignity”(尊嚴)這樣的詞匯出現的頻率隨著時間在降低,但是這就意味著人們對道德的關注減少了嗎?不會這么快減少的,伊利諾伊大學厄巴納-香檳分校的英語教授泰德·安德伍德(Ted Underwood)提醒研究者下結論要慎重。20世紀末的道德概念很可能與我們現在的道德概念有很大的不同,他指出,“尊嚴”這個詞可能出于并非道德方面的原因而流行。所以,我們通過把現有的聯系映射到過去所得出的任何結論都是可疑的。

當然,所有這些問題對于統計學家和語言學家而言,都算不上新鮮事。他們天天跟數據和解釋打交道,就像每天吃的面包和黃油,不過,谷歌Ngrams的不同之處在于,純粹的數據會產生一種誘惑,讓我們變得盲目,可能會讓我們誤入歧途。

這種數據的誘惑并不是Ngrams研究所獨有的,類似的錯誤也會損害所有類型的大數據研究項目。比如,我們看看谷歌流感趨勢(GFT)的案例。2008年發布的GFT研究在數以百萬計的谷歌搜索查詢中,統計了諸如“發燒”和“咳嗽”這樣的詞匯出現的頻度,用它們來映射到現在有多少人得了流感。如果采信GFT研究的估計,可能在疾病控制中心 (CDC)從醫生的報告中計算出真實數據之前兩周,公共衛生官員們就會采取行動。

最初,GFT研究結果聲稱具有97%的準確度,但是一項對美國東北大學文獻的研究表明,GFT研究的準確度不過是僥幸。首先,GFT研究完全忽視了2009年春季和夏季爆發的“豬流感”。(原來GFT研究大部分預測的是冬季流感。)其次,該研究體系開始高估了流感案例。實際上,它夸大了2013年流感高峰期的數據,比真實數據夸大了驚人的140%。最后,谷歌只好整體解散GFT研究項目。

那么,到底是哪里出錯了呢?對于Ngrams,人們并沒有認真考慮其數據來源和解釋。數據來源——谷歌搜索,并不是一個靜態的野獸。當谷歌開始自動完成查詢,用戶就開始接受建議的關鍵詞,而扭曲了GFT研究看到的搜索。在解釋方面,GFT研究的工程師們最初讓GFT采用了表面價值的數據,幾乎任何搜索詞都被視為一個潛在的流感指示詞。采用數以百萬計的搜索詞,實際上保證了GFT過度解釋了具有季節性的詞匯,比如“雪”,將其視為流感證據。

我們正在失去希望:上圖是“希望”(hope)這個詞的Ngrams詞頻統計圖,這是xkcd網絡漫畫的創作者蘭德爾·門羅(Randall Munroe)發現的很多有趣的情節之一。如果Ngrams真的反映了我們的文化,那么我們將走向一個黑暗的地方

但是當人們不把大數據視為萬能藥時,大數據就可能起到變革作用。有幾個研究團隊,比如哥倫比亞大學杰弗里·沙曼(Jeffrey Shaman)研究團隊,通過利用疾病控制中心的研究結果彌補GFT研究的偏差,得到了比兩者都更為準確的流感預測。據CDC說,“沙曼的研究團隊對該季節中已經發生的實際的流感疫情測試了他們的模型。”通過把剛剛發生的流感疫情考慮在內,沙曼及其研究團隊精密調校了他們的數學模型,以更好地預測未來的流感疫情。研究團隊們所需做的就是嚴格評估他們對數據的假設。

為了避免我看起來像是谷歌的冤家對頭,我會趕緊補充說,谷歌遠不是唯一的罪魁禍首。我的妻子是一個經濟學家,過去曾為一家公司工作,那家公司搜刮整個互聯網上的招聘信息,然后匯總成統計數據報告給國家勞動機構。這家公司的經理們鼓吹說他們分析了美國80%的工作,但是再一次,數據的數量讓他們變得盲目而誤入歧途。例如,當地的沃爾瑪超市可能會發布一個與銷售相關的職位招聘信息,而實際上它可能想要招聘10個人,或是在招到人以后,讓招聘信息依然掛在網上數周不拿下來。

所以,與其屈服于“大數據的狂妄自大”,剩下的我們還不如保持質疑態度,即便有人拿出數十億的詞頻分析作為結論支撐。

[資料來源:Nautilus][責任編輯:彥 隱]

猜你喜歡
研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
關于遼朝“一國兩制”研究的回顧與思考
EMA伺服控制系統研究
基于聲、光、磁、觸摸多功能控制的研究
電子制作(2018年11期)2018-08-04 03:26:04
新版C-NCAP側面碰撞假人損傷研究
關于反傾銷會計研究的思考
焊接膜層脫落的攻關研究
電子制作(2017年23期)2017-02-02 07:17:19
主站蜘蛛池模板: 国产精品久久久久无码网站| 成人精品亚洲| 无码日韩人妻精品久久蜜桃| 操国产美女| 性69交片免费看| 亚洲一区二区精品无码久久久| 免费视频在线2021入口| 国产av一码二码三码无码| 日韩免费成人| 亚洲精品无码日韩国产不卡| 91 九色视频丝袜| 国产va视频| 永久免费无码日韩视频| 免费在线国产一区二区三区精品 | 亚洲精品卡2卡3卡4卡5卡区| 免费无码AV片在线观看国产| 欧美一区二区三区香蕉视| 中文字幕永久视频| 九九精品在线观看| 伊人网址在线| 欧美日韩中文国产| 亚洲一区第一页| 三区在线视频| 一级成人a做片免费| 国产成人夜色91| 国产精品成| 国产精品成人免费综合| 国产成人精品男人的天堂| 超碰色了色| 婷婷伊人久久| 欧美精品一二三区| 中文字幕2区| 亚洲欧美极品| 精品丝袜美腿国产一区| 日韩无码视频播放| 亚洲天堂视频网站| 在线看片免费人成视久网下载| 亚洲AⅤ永久无码精品毛片| 国产成人精品综合| 欧美黑人欧美精品刺激| 丝袜无码一区二区三区| 久久国产亚洲欧美日韩精品| 成人午夜在线播放| 欧洲精品视频在线观看| 亚洲第一综合天堂另类专| 国产免费久久精品99re不卡| 亚洲狠狠婷婷综合久久久久| 91欧洲国产日韩在线人成| 国产网友愉拍精品| 亚洲小视频网站| 黄色网址免费在线| 999精品视频在线| 重口调教一区二区视频| 亚洲va在线∨a天堂va欧美va| 日本国产精品| 99热最新在线| 亚洲综合婷婷激情| 亚洲成人在线免费| 综1合AV在线播放| 一区二区三区国产精品视频| 日韩欧美网址| 亚洲国产系列| 日韩欧美色综合| 波多野结衣二区| 国产成人精品在线1区| 亚洲女同一区二区| 亚洲精品在线影院| 亚洲福利一区二区三区| 永久天堂网Av| 成人国产精品视频频| 婷婷午夜影院| 国产真实乱子伦视频播放| 国产91麻豆免费观看| h视频在线播放| 亚洲成a∧人片在线观看无码| 女人爽到高潮免费视频大全| 国产黄色免费看| 国产人人射| 国产成人精品一区二区不卡| 91精品专区国产盗摄| 青青草欧美| 四虎国产在线观看|