沈志昌 郎 煒 張森娜
?
大數據的科普意義
沈志昌1,2郎 煒2張森娜2
1.臺灣新光三越公司 2.中華科技史學會
倘佯在大數據沖擊的思想大海中,人們進入一個沒有正確答案且擁有更多復雜問題的時代里。面對多元文化的環境,必須厘清所獲得的大量信息和數據,加以判斷、分析、歸納,以期顯現出個人所需要的生活方向,進而做出正確、合理的決斷,才能游走在經濟迅速變化的繩索之上。由于智能型科技的發展,使得眾人提供信息、共享信息、吸取信息更為便捷。這種由0與1編碼、塑造出來的世界,滿足了人們記憶、聯系、存取的情感和情緒。然而,用深奧算法所撰寫的大數據,也相對帶來了令人意想不到的困惑。為了免于沉溺在美麗的神話里,有必要了解大數據的科普意義。
大數據 相關性 科學普及
在文藝復興時期,學者們身處知識制約的時代,多用一般的工具來解讀未來,如探索宇宙及人體結構等。與生活在現代的我們相比,他們并沒有本質上的差異。隨著智能型裝置、云端技術的快速發展,使得以服務器為主導的大數據(big data)不斷涌現。由于互聯網的連結和應用達到空前的境界,因而可將過去與現在的信息連結在一起,并以此預測未來發展的趨勢,甚至以其尋覓未雨綢繆的因應之道。
世界知名導演盧貝松拍了一部電影《Lucy》,充分展現人類借由藥物與計算機結合,從而進入大數據的世界。女主角Lucy,因其體內吸收了過量的藥物CPH4,而大幅地開啟了她腦內的潛能,由10%逐漸地提升到100%。當Lucy的腦內潛能不斷上升時,同時還會擁有超越一般人的記憶力和學習能力。因此,她能夠操控周邊的電子儀器、設備和物質,也可以讀取他人內心深處的思維、進行時空旅行等。Lucy回到過去,見到了人猿露西,看遍了世界的演化,讓自己覺得擁有神一般的能力。
后來,Lucy慢慢感受到自己身軀的極限,遂請教授設法與超級計算機連結。最終,她變成了黑色實體的USB,內存由0與1所形成的大數據知識,它們可以延續著她的生命。如今,智能型手機已相當普遍,每天會涌入海量的數據,舉凡食、衣、住、行等信息皆可從手機中獲得。身處大數據的今日,有必要了解“到底什么是大數據”。
艾略特曾對20世紀60年代的西方社會做了一番描述,當時的西方社會好像躺在手術臺上的病人,注入了強心針之后,她似乎重新變得生氣勃勃。從前科幻小說中的題材,如今逐步地實現了。在宇航方面,人們登上了月球、探測遙遠的天際,既驚喜又迷惑。生命科學中脫氧核醣核酸的發現,開啟了人工合成人的可能性。核能和太陽能等新能源的開發與運用,均與計算機科技有密不可分的關系。這些科學發展的成就,讓人們再次體會文藝復興運動的喜悅。人是無所不能的,應該重新思考對人類、地球,乃至宇宙的認識。
500年前,人們利用帆船航行大海,尋找東方的香料和黃金。而今,則是運用互聯網來尋找黃金和財富。2008年,美國遭遇金融危機,它是由金融機構運用云端技術所造成的結果。這場國際金融危機,系以金融創新帶動著全球經濟引擎的信用。基于高額回報的預期,使得詭異虛擬的經濟世界從夢想變成夢魘,導致全世界的實體經濟籠罩在此陰影之中。為此,美國總統奧巴馬提出“物聯網振興經濟”的戰略,并強化感測技術和智能型基礎設施的建置。
2012年,奧巴馬政府認為,大數據是“未來的新石油”。從大數據中提煉出有用的資料,那就是新石油。只要對海量的數據進行分析,就能創造出相當的經濟價值。處在廣大國土的美國民眾,如需購物就要開車采購,因而美國政府重視能源的開發。如無石油開車,則無法行駛各處,這樣的生活會苦不堪言。對美國百姓而言,用石油來描述大數據中的黃金島,最為貼切。當百姓的生活過不下去時,就會信心動搖,產生危機。通常,政府當局為了解決問題,都會宣告一個夢幻的國度,讓人們燃起希望的信心。
2008年的經濟危機起源于一個“貪”字,時間一久人們總是會淡忘它。因為生活總是要繼續過下去,所以自勉“危機就是轉機”。真是成也IT、敗也IT,借著夢想來暫時性減緩失去的危機。現今,從政府到各產業,都已離不開大數據。金融機構運用云端大數據,結果卻又步上了昔日的金融危機。捷克裔法國作家米蘭·昆德拉在翻閱希特勒書中的照片時,不禁想起了自己的童年。他成長的過程,適逢殘酷的戰爭,好幾位親人死于集中營。在他的生命中,這一段失落的時光,已不復回歸。NOKIA的廣告詞說得好,科技始終來自于人性。一旦科技抹滅了人性,人們就需要好好思考是否能在大數據的科技下駕馭自己的命運!
大數據泛指云計算和物聯網的合體,它是計算機相關產業應用的延伸,其特點不在于數據的多寡,而在于人們如何使用計算機軟硬件,以及如何建制綿密的互聯網結構,從海量的數據中尋得有用的知識,而非找到正確的答案。
與生活息息相關的各領域產業中,都企圖以機械學習與統計分析等方法,將龐大的資料轉化成可獲利的工具。例如,能源和石油探勘、生命科學基因體、商業行為分析、多尺度的物理設計和制造業、氣候模型與預測、天文、以及數字內容產業等等。在美國,大部分頂尖資本家和科技精英們對網絡蓬勃發展的討論沸沸揚揚,他們都希望借由控制人人不得不通過的網絡大發利市,以及企圖永遠經營世界搜尋引擎、云端運算、廣告刊登服務和社群網絡等,利用本身不是金礦主人的網絡群眾,幫忙找到礦坑里的金子。通過美元貨幣,把全球財務導入有利于美國避險基金計劃的方向。2008年,美國發生房貸崩解,引發了金融海嘯,其災禍大多起于云端運算。
云端運算是一種計算機運算的概念,它呈現了對人類“經驗”的“模擬”效果,使我們省去了寶貴的時間和精力。然而,使用計算機的人往往有一種強烈的傾向,要去強調“模擬”與“經驗”相似。有時候,還會反過來運用計算機建構出來的模型去規劃真實經驗世界的模型。計算機運用象征符號間的關系,來處理多套符號,它們是“信息0、1”的流動。那些符號及規則的運算,可將真實世界連結起來,顯示一些具有代表性的意義。許多方程式需要在“大量”的未知點上找到適當的數值,方能解出方程式演算的結果,進而獲對真實世界的代表性做出解釋。
隨著社群媒體、手機、監視器、生產線和各種傳感器等的普及,不同管道的數據不斷誕生大量數據。例如,當進行臉書(Facebook)按贊、網頁搜尋、提款機作業、信用卡消費、醫療健檢等行為時,暫且不管是否行使同意或不同意的動作,都會有意或無意地提供了該項行為的數據,將其上傳到網絡上的各個數據庫內。從這些海量的數據中,專家們可設法找出它們之間的關聯性,推測或解出原先看不到的圖像。利用這些整理出來的結果,商人可借此推估顧客下一步想買的東西,醫生也可以預測病人的身體狀況和癥狀發展。大數據生活中的任何信息,都擁有某種程度的關聯性,以擬定的問題架構,可進一步地尋找詮釋的方法。
欲了解消費者為何購買某項產品,并不容易。大數據強調相互關系比因果關系重要,因而不需要耗費精神在事件的因果關系上,只要能掌握事件發生過程的相關性,或許可以略知一二。以醫學為例,尋找某種病癥過程中的相關性,然后再進一步尋找病癥與基因間的關系。為此,列舉兩個有關醫學的例子,以便了解相關性的重要。
4.1 健康預防方面
2014年10月30日,報紙的標題是“牛奶一日3杯,死亡率高1倍”,它是根據英國醫學雜志刊登瑞典烏普薩拉大學教授麥可森的研究報告。麥可森提到,在1987—1990年間,針對61400位婦女,記錄她們的飲食習慣,進行了長達20年的追蹤與觀察。由于報告是知名教授所做的研究,所以他的結果應有相當的可信度。他說,若婦女一天飲用3杯(約共680cc)以上的牛奶,則死亡率比每天喝不到一杯的人高出1倍,而且還會增加骨折的現象。雖然他也對男性做了類似的研究,但觀察的時間沒有那么長。
根據麥可森的說法,牛奶似乎變成了毒品了。有些專家認為可能是病人已經骨質疏松,再將死因歸咎于每天大量攝取牛奶。這樣的因果關系完全顛倒了,因為骨質疏松的人易骨折,容易導致死亡。然而,鼓勵受測者多喝牛奶,因而導致骨折,這與死亡率增加的“關聯性”卻很明顯。因此,多喝牛奶,是否容易骨折,是否會導致死亡率增加,這才是應該關注的課題,而非該研究的結論。
4.2 身體檢測方面
20世紀60年代末期,美國醫生對背痛病人尚無治療對策。通常,要求病人回家臥床休息。這個療法雖然簡單,但卻極為有效。即使不處理,還是會有90%的病人在7周內好轉。到了20世紀80年代末,磁振照影問世后,情況改變了。磁振照影讓醫生首度能夠透視人體,將脊椎和周邊軟組織的影像看得一清二楚,使得醫生相信可以做出精確的診斷,找出造成疼痛的病因。然而,當看清每一個細節后,反而讓醫生們很難了解應該要注意什么,一時很難分辨出何者較為重要,何者較不相干。
由于磁振造影技術能夠讓檢視每一個細小組織的缺陷,結果反而成為包袱,因為缺陷正是一種老化過程。信息太多的危險,會干擾醫生合理的分析。相關性與因果性攪和在一起,反而會使人們困擾、迷失。因為照片展現的很有說服力,所以就會延伸出合理的結論。醫生想幫疼痛找出一個解釋,以便厘清生理結構上的病因,再施行手術來修補。倘若醫生過于重視磁振造影的信息,則一時將很難擺脫數據應該多多益善的迷戀。
上述兩個例子,主要在強調相關性的重要,它不可提供進一步研究的方向。健康是大家關切的,雖然學者或醫生擁有令人崇敬的威嚴,但是他們若沒有深入地探討相關性,則很有可能會做出不負責任或錯誤的決策。
處于講究速度及崇尚IT推陳出新的消費年代,消費者隨時可享有免費的粉絲團或感同身受的體驗環境。若講求尊重消費者主權,則每個人均有選擇的自由。然而,人們過于習慣接受快速信息的刺激,大腦根本來不及消化,也會一時理不出頭緒,最終只好隨波逐流。
認識大數據,已不只是興趣,而是一項不可缺少的技能。生活不只是生存,什么知識都要會一點,它是召喚記憶的煉金術。大數據的神秘性,希臘神話中,赫密斯帶著他的雙蛇雙翼之杖,掌管著商業、旅游及競技等活動。他讓神、人進入夢鄉、也能使沉睡者立刻蘇醒,游走于天地之間。
目前,人們已經很難逃離大數據所培養的生態圈。在這樣的生態圈里,人們會在有意無意間碰到切身利益與顧及道德不能兩全的情形。有時候,為了切身的利益,人們可能會犧牲道德的規范,甚至陷害別人,終至道德“江河日下”。日常生活中,粗茶淡飯便可生存。然而,一旦道德規范匱乏,難免成為“率獸食人”。現今的大數據生活,正在考驗人們的智慧,如何有效地掌握道德規范。
[1] 顏瓊玉, 莊雅茜. 一次看懂大數據的威力[J]. 商業周刊,2014(1410).
[2] 沈志昌, 劉宗平. 大數據始祖——哥白尼[J]. 中華科技史學會學刊, 2014 (19):70-74.
[3] 徐葆耕. 西方文學——心靈的歷史[M]. 新竹:臺灣清華大學出版社, 1990.
[4] 杰容·藍尼爾. 周宜芳, 譯. 別讓科技統治你[M]. 臺北:天下遠見出版公司,2011.
[5] 米蘭·昆德拉著. 韓少功、韓剛合, 譯. 生命中不能承受之輕[M]. 臺北:時報文化出版公司,1990.
[6] 王偉仲. 開創科學計算的研究與職場生涯[J]. 數學傳播季刊,2014, 38(2): 12-22.
[7] 黃文璋. 統計里的關系[J]. 數學傳播季刊, 2007, 31(1): 49-67.
[8] 雷勒. 楊玉齡, 譯. 大腦決策手冊——該用腦袋的哪個部分做決策?[M]. 臺北:天下遠見出版公司,2010.
[9] 陳雅雯. 蛇的原型意象研究[J]. 成大宗教與文化學報,2013(20): 111-146.