999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據還是大錯誤?

2014-04-29 00:00:00李佳楠
商界·時尚 2014年6期

毫無疑問,大數據已經成為全球很多企業和科學家們解決問題的重要手段。其好處顯而易見,但是隨著大數據在更多領域廣泛使用,一些問題也開始浮出水面,這讓我們看到了大數據華麗的外表背后所隱藏的缺陷,例如近期,美國學界和媒體所報道的「谷歌流感趨勢」的討論,讓之前對大數據追捧不已的人們開始站到了「大數據失敗論」的隊伍中。其實,使用大數據到底是對還是錯,沒有絕對的定論,還要依靠實際情況來定奪。

大數據遭遇滑鐵盧

5年前,谷歌的一個研究小組把大數據瞬間推到了風口浪尖。這是因為他們宣布了一個令人矚目的流感預測產品—「谷歌流感趨勢」。這個產品可以預測出世界上不同國家和地區的流感傳播情況。在2009年,甲型HIN1流感爆發的前幾周,「谷歌流感趨勢」成功預測了流感在美國境內的傳播,其分析結果,甚至具體到特定的地區和州,并且比美國疾病控制中心的預測結果要快將近1周左右,這樣及時又快捷的追蹤預測,令公共衛生官員備感震驚。

「谷歌流感趨勢」不僅能如此之快地得出結論,而且收集手段十分簡單,谷歌的工程師們并不需要大費周章地先列出一些與感冒傳染相關的關鍵字,比如流感癥狀或是身邊哪一個藥店更近等。他們所要做的就是排列出自己網上前5000萬個最熱門的搜索詞,然后交給大數據來做計算,并得出結果。

「谷歌流感趨勢」的快捷、準確以及成本低廉,很快成為了商業、技術和科學領域中最新趨勢的風向標。記者和媒體也開始大肆宣揚「谷歌流感趨勢」社會意義非凡。

但是這樣的好景并不長,最近,美國《自然》雜志報道了一個令人震驚的消息,題目是「谷歌流感趨勢」不起作用了。這是因為在最近一次流感中,「谷歌流感趨勢」預測結果是流感將大面積爆發及傳播,但是美國疾病控制中心慢慢匯總各地數據后發現,「谷歌流感趨勢」的預測結果把實際情況夸大了近一倍。這個結果讓很多本來對大數據信任不已的人對「谷歌流感趨勢」產生了極大的懷疑。甚至有很多人因為「谷歌流感趨勢」這次錯誤的結果,站到了「大數據失敗論」的隊伍里,大數據突然間成了被攻擊的對象。

被揭穿的大數據魔法

對于「谷歌流感趨勢」出錯,谷歌的工程師們給出的解釋是,當網絡和媒體上充斥著關于流感的各種駭人聽聞的故事時,很多并非身患流感的健康人也會跑到互聯網上搜索與流感有關的話題,例如如何預防流感或是治療流感的藥方等,于是所有曾經在谷歌上搜索過流感這個關鍵詞的人,都被谷歌的系統「記錄在案」,所以當進入流感高發季的時候,「谷歌流感趨勢」把所有搜索過流感信息的人都囊括在計算內,但其實其中有很大一部分搜索流感這個關鍵詞的是想要了解或是預防流感的健康人。因此「谷歌流感趨勢」這樣大海撈魚般的大數據算法最終影響到了自己的計算結果。

對此統計學家總結出了大數據收集過程中存在的種種問題。其實主要就是要解決兩個難題:樣本誤差和樣本偏差。

樣本誤差是指一組隨機選擇的數據其結果可能無法真實反映全部人群的看法。而誤差的幅度,則會隨著樣本數量的增加而減少。其實就「谷歌流感趨勢」的搜索來看,他們的樣本量已經夠大了,但為什么還會出現與真實結果如此大的差距呢?這就不得不談及樣本誤差的另一個「好朋友」——樣本偏差。樣本偏差的意思是一些隨機選擇出來的數據根本就偏離了樣本所要調查的事件。這就正好可以解釋為什么「谷歌流感趨勢」會出現如此大的錯誤,就是因為在做大數據計算時,數據中所包含的大部分人根本就不是所要計算在內的樣本,于是「谷歌流感趨勢」的計算結果中了樣本偏差的圈套。

但是現實中想要集合所有的數據,就注定它們是錯綜復雜的,尤其是像「谷歌流感趨勢」依據的是像谷歌這樣的搜索引擎,就更加難找出來這里是否存在樣本偏差了。

與此相同的一個由于大數據出錯的例子來自大名鼎鼎的推特(Twitter)。在2013年,推特做過一項研究項目,是想了解哪個地區的哪些人使用推特最多;推特選擇了使用大數據計算法,結果表明來自美國居住在大城市或者城鎮的年輕的黑人用戶用推特最多。但是這項研究結果,很快被GlobalWebIndex推翻。GlobalWebIndex經過調查追蹤發現,活躍在推特上的中國用戶最多,達到了3550萬,第二名是印度,為3300萬,而先前被稱為第一的美國只屈居于第三名——只有2290萬。之所以GlobalWebIndex對其調查結果的數據非常有信心,是因為他們已經對使用推特的用戶進行了長達3年的追蹤調查,調查對象超過了8000名。GlobalWebIndex表示,在中國新浪微博有2.6億活躍用戶,而其中的3500萬人也在使用推特,所以這樣的調查結果是經過時間驗證的真實結果。

推特的這次錯誤,由統計學家來解釋就是因為他們在運用大數據的時候自以為收集到了所有人的信息,其實在采集過程中他們漏掉了一些地區的一些人。例如很多時候,因為某些原因大數據在計算時通常會忽略一些國家用戶使用推特的信息,所以當推特以為大數據計算時收集到了所有有關的數據,其實往往這些所謂的「所有數據」只是對數據的一種假設,而不是真實的。再加上那些被收集到的數據本身存在的偏差性,就導致了錯誤的發生。

因此現在所謂的所有數據其實并不是現實生活中的所有數據。

同樣還有一個例子,和推特犯了同樣錯誤。這是專門為波士頓地區設計的一款名為「顛簸的街道」的手機應用軟件,這個應用軟件利用手機里的加速度感應器來檢查波士頓地區街道上的坑洼。下載了這個應用軟件后,在城市里開車時,一遇到車輛出現顛簸現象這個軟件就會自動上傳車輛的顛簸信息到市政廳有關道路維修的網站,看到這個信息后市政工人就不用滿大街地巡查道路的坑洼狀況,只需要拿上工具出發修理就好了。這個應用軟件在使用的初始得到了波士頓市政府的贊揚,市政府宣稱,大數據為這座城市提供了實時信息,并且幫助市政部門提高了工作效率,讓他們得以騰出時間為城市的未來做出更長遠的工作計劃,波士頓市政府稱「顛簸的街道」是市政工作的好幫手。

但是好景不長。「顛簸的街道」的缺陷很快暴露無遺,其中一項是市政部門發現「顛簸的街道」上傳的街道信息很有限,大多數都來自于一些新修建和較富裕的街區。其中的原因是「顛簸的街道」的設計者在設計軟件時考慮到其所適用的人群,所以僅僅把那些新建的和較富裕的街區的街道設計在內,因為在那里才有更多的人使用智能手機,才能更廣泛地使用這個軟件。這就意味著「顛簸的街道」在設計之初所包含的信息就并不完整,所以手機所能記錄和上傳的數據就不可能完整。這樣致命的缺陷也導致了大數據在采集初始就已經產生了系統偏差,不可能給予人們所有波士頓地區街道路面的坑洼信息,并不能算是為市政府真正做到排憂解難。也因為這一點,引發了人們對大數據的思考,尤其是在采集信息之初是不是應該仔細考量一下是否所有的數據集合真的做到了包羅萬象還是只是一個頗有誘惑力的假象而已。

如果你是力挺大數據那一派的人,你一定會說,這些事件根本不足以證明大數據是失敗的。尤其是當你聽過美國折扣連鎖店Target運用大數據獲得成功的傳奇案例時。

來自Target的Duhigg曾講過這樣一個故事,一天有一名男子怒氣沖沖地來到明尼蘇達附近的一家Target連鎖店,向店長投訴該連鎖店時常向自己十幾歲的女兒郵寄嬰兒服裝和孕婦服裝的優惠券。店長為此道歉后沒幾天,這家Target又接到了這名男子的電話,在電話里這名男子告知店長自己的女兒確實懷孕了。

聽到這里,你一定會認為Target實在是神奇,居然能比其親生父親提前預知到女兒懷孕。而Duhigg會告訴你事實是因為Target利用了大數據采集到了這個女兒經常購買無味濕紙巾和補鎂藥品的記錄,因此預測到她可能懷孕了。這時你肯定堅定地認為大數據算法的確很靠譜。但是事實并不是你想的那樣。其實除了這名女孩還有很多并未懷孕的女性也收到了嬰兒和孕婦用品的購物券。這只不過是因為人們聽到了Duhigg所講述的一個典型故事,就認為大數據如同魔法一樣神奇。

其實更真實的情況是Target公司在郵寄嬰兒和孕婦用品優惠券時還隨機摻雜一些其他的優惠券,例如啤酒和食品類的優惠券,其原因就是Target先前就知道并不是所有被大數據選中的女性都是孕婦,而且就算是預測正確,他們這樣的方法也可以避免讓孕婦以為他們公司正在侵入其家的計算機中探測她們的隱私。所以在相信Target這個神奇魔法之前,你應該問問Duhigg,他們自己相信大數據的預測命中率有多高?

無論他的回答如何,統計學家會告訴你,雖然大數據分析會得到部分的準確率,但是最主要的目的是為其帶來高額的商業價值,Target公司運用大數據分析無論結果如何都是有利可圖的,可是畢竟賺到了錢不意味著大數據無所不能,永遠正確。

大數據真的這么重要嗎?

當我們已經進入了大數據時代,現在的我們要思考一個問題就是,大數據真的對于我們來說如此重要嗎?先不用深入思考,一個身邊的例子就可以說明問題,它就來自于我們所用的手機。我們每天和自己的手機的平均距離大概是30厘米,手機不是在桌面就是在兜里,要么就是在床頭。所以從表面上來看,現在我們的生活根本離不開數據。而且據2012年所統計的結果,把全球人類每天在互聯網上發送的信息都累計起來,刻成10G一張的光盤從月球排到地球,可以走73個來回。

并且除此之外很多人都認為大數據能幫助我們在大浪中淘到黃金。因為大數據在很多普通人的眼里就如同神奇的先知一般能夠預測未來,并且改變未來,就像Target公司的傳奇案例一樣;于是乎很多企業更加廣泛地使用大數據來分析預測,甚至開始把大數據捕獲到的數據直接轉化為金錢。除了企業還有很多政府辦公機構也在使用大數據,例如警察局,他們通過大數據來監測欺詐行為或是哪位假釋犯可能謀殺 。這一切讓我們不斷加大對了大數據重要性的認可。

事實上我們真的需要大數據嗎?

在最近的一次全球性的研討會上,一位統計分析學家在談到大數據時說:本來統計分析學是通過少量的取樣去了解事物整體的學問。就例如,電視節目的收視率調查就是一個典型的事例,它就是通過極少的樣本,來掌握全國的收視率。其實對于統計來說,只要目標和取樣正確,并不需要大量的數據。也就是說,只要你擁有了一定量的準確抽樣數據,無論數據數量多寡,分析出來的結果可能并不會有很大的差別。

其實提出大數據所存在的問題的科學家并不在少數,很多科學家都發現,本以為通過大數據分析,能滿心歡喜地發現以往沒有認識到的新東西,但有時的結果卻只是得到已知的事實而已。而且有不少企業已經發現,其實他們在為大數據分析繼續投入數十億元的投資時,所得到的結論和企業資深職員的經驗之談十分相似。

另外最近有部分使用大數據的電商也遭到了用戶的投訴。其中一些用戶對于很多電商通過分析自己最近一段時間的搜索記錄而向其推薦產品的行為很惱火。因為很多所推薦的產品無論是從價格還是性能上來說都和自己預想的產品差別很大,倘若隨機打開幾款就會發現,這根本是隨意從眾多產品中隨機選出幾款而已,不僅沒有抓住用戶的心而且還徒增了消費者的購物時間。

別刻意使用大數據

一個企業用不用大數據做分析預測,首先要明確自己要達到何種目的,不一定非要大數據成為主角,其實是否使用大數據要選對時機。

有一個顯著的例子來自于一家超市。這家超市的銷售員在過去往往都是通過不斷和顧客接觸,然后從其對話和交流中思考現在的銷售方針,再不斷進行完善。例如他們發現大多數顧客都喜歡新鮮感,所以他們通過購進新的商品或是改變陳列的方法,提升了銷售額。

然而后來這個超市的總公司突然改變了銷售策略,開始通過總公司統一分析銷售情況,然后直接讓銷售人員執行決策,結果沒過多久銷售人員就失去了干勁,甚至出現退職的員工。隨后,總公司撤銷了統一安排銷售決策的規定,結果很快銷售員的勁頭兒得到恢復。由此就證明了,大數據雖然起到了統一規劃的作用,但是卻束縛了員工的思考力和活力,最終導致員工失去了工作的斗志。

還有一個例子是發生在特快列車上。列車上負責銷售的員工,通過長期的觀察發現在可吸煙座位區咖啡更暢銷,于是他整理出不同列車的銷售業績,結果發現確實如此,于是決定在吸煙車廂里集中推銷咖啡,結果咖啡的銷售量明顯增加。

后來這列特快列車也實行了銷售統一規劃,結果銷售額明顯下降,遠不如從前。這兩個例子之所以驚人地相似,是因為這些企業的領導過高地預測了大數據所能帶來結果,忽略了個人因素。所以一個企業除了需要大數據用于統籌規劃,同時更需要保持銷售人員擁有個人獨立分析數據的能力。

除此之外,還有一個名為FUZZ的初創公司,他們還發現過度使用大數據可能扼殺了人們的創造力。

FUZZ公司被人們命名為「沒有機器因素的人力電臺」。因為他們的音樂榜單完全是靠FUZZ的一批固定用戶親自挑選出來的,FUZZ公司就是靠著這些「私家音樂」吸引到了很多聽眾的關注。FUZZ公司的創始人亞蘇達在去年9月接受彭博社采訪時說,人工挑選可以傳遞出機器挑選所不能傳遞的信息。他希望自己的電臺永遠都保持這一傳統,讓用戶們永遠都體驗著絕對人性化的音樂需求。

其實,音樂榜單經由大數據分析進而推薦給聽眾,大家也能接受,只不過是有一些小眾歌曲被大數據忽略了而已。但是現在卻有很多音樂創作是依靠大數據來預測,就有些不可思議了 。

現在有很多唱片公司為了讓新簽約的藝人迅速走紅,搜集并建立了一個有關以前的熱門歌曲和失敗歌曲的龐大數據庫,并取其精華,棄其糟粕來編排新歌的詞曲。雖然新藝人利用數據成功地演繹出了流行的歌曲,但是這最終導致的結果是我們之后所能聽到的新歌都很雷同。原創的好歌將會一去不復返。

正確解讀大數據

通過以上這些例子來看,大數據可以用,但是要用到點子上。大數據的意義,不僅僅是對某個事物進行預測分析,而是通過它重設我們對一個事物的期望值,讓我們看到好事情是有可能實現的。我們可以借其創新,可以令城市不僅更為智能,還更適宜居住和旅游。巴士運行按時按點,能源使用節約高效,垃圾轉移得到改良,土地利用更為平衡等等。我們要把大數據當作一條思路,重新思考,城市如何促進全面的健康、幸福以及全民福利?針對體現生活質量的數據會有哪些新措施出臺?如何利用這些數據以啟發新的政策和項目出爐?所以大數據所帶來的是大機遇還是大錯失,要看你如何使用才行。

主站蜘蛛池模板: 五月婷婷导航| 亚洲AV一二三区无码AV蜜桃| 99精品视频九九精品| 国产成人一区在线播放| 中文字幕一区二区人妻电影| 久久精品欧美一区二区| 国产麻豆精品久久一二三| 91在线视频福利| 美女免费精品高清毛片在线视| 午夜一区二区三区| 久久频这里精品99香蕉久网址| 国产精品一区在线观看你懂的| 精品夜恋影院亚洲欧洲| 国产无遮挡猛进猛出免费软件| 亚洲国产天堂久久综合226114| 国产精品美女网站| 无码专区国产精品一区| 亚洲人网站| 日本亚洲最大的色成网站www| 久久青草免费91线频观看不卡| 在线视频亚洲色图| 久青草网站| 全部无卡免费的毛片在线看| 天堂在线www网亚洲| 国产二级毛片| 蝴蝶伊人久久中文娱乐网| 天堂中文在线资源| 日韩毛片免费视频| 尤物在线观看乱码| 激情在线网| 久久国产亚洲欧美日韩精品| 日韩人妻无码制服丝袜视频| 白浆免费视频国产精品视频| 久久精品日日躁夜夜躁欧美| 91精品人妻一区二区| 欧洲亚洲欧美国产日本高清| 色天堂无毒不卡| 中文字幕av一区二区三区欲色| 国产精品亚洲综合久久小说| 视频二区国产精品职场同事| 青青草国产免费国产| 99热亚洲精品6码| 日韩小视频在线播放| 欧美激情福利| 亚洲美女操| 亚洲中文久久精品无玛| 国语少妇高潮| а∨天堂一区中文字幕| 91小视频在线| 亚洲不卡影院| 欧美日韩在线成人| 国产欧美精品一区二区| 日韩在线视频网| 精品国产一区91在线| 亚洲婷婷在线视频| 精品丝袜美腿国产一区| 欧美精品在线免费| 丁香五月婷婷激情基地| 免费观看成人久久网免费观看| 国产人成在线视频| 久久窝窝国产精品午夜看片| 狠狠亚洲五月天| 欧美视频在线观看第一页| 五月天香蕉视频国产亚| 欧美日韩激情在线| 国产精彩视频在线观看| 日韩国产一区二区三区无码| 国产精品一线天| 美女被操黄色视频网站| 精品一区二区久久久久网站| 538精品在线观看| 性喷潮久久久久久久久| 久久精品无码一区二区日韩免费| 国产91精选在线观看| 99久久精品免费看国产电影| 国产一区自拍视频| www中文字幕在线观看| 婷婷六月综合| 亚洲一道AV无码午夜福利| 国产区福利小视频在线观看尤物| 精品福利网| 国产综合日韩另类一区二区|