自私的數據組

2019-01-28 03:49:06編譯韓真

世界科學 2019年1期

關鍵詞：人類

編譯韓真

人類基因組大概有兩張CD的數據，人類整體每秒能夠產生20 000張CD的數據

你一定聽說過這樣的說法，“基因是進化中永恒的貴族，當肉體的宿主來來去去時，它們會照顧自己”。這個說法來自于理查德·道金斯的《自私的基因》，該書2017年被評為史上最具影響力的科學書籍。

而人類實際生產的可操作信息已經超過了所有我們遺傳物質的編碼信息，人類攜帶大多數可操作信息進入未來。我們將這些在我們生物之外的數據稱之為“數據組”（dataome），數據組很可能構成了復雜生命的腳手架，提供了 “智能”不可靠特征的普遍公認的描述，甚至于還能教我們一些關于我們自身的知識。

同時，數據組所帶來的能量負擔也很大。這個負擔使得我們去詢問自己：我們僅僅是為了自身利益去制造和保護這些數據，還是像自私的基因，是因為數據使我們這樣做，這樣做才能確保數據一直傳播到未來？

讓我們來看一個例子：威廉·莎士比亞。這個吟游詩人已經成為人類數據組中的永生部分.

莎士比亞于1616年4月23日辭世，其遺體于兩日后被安葬于埃文河畔斯特拉福德的圣三一教堂。他的著名的墓志銘對于任何“搬動我骨頭”的人都帶著詛咒。而據我們所知，在過去的400年間，沒人冒險去承受莎士比亞的未亡之怒。

莎士比亞墓志銘

上天明鑒，來客謹記：安息于此，塵封我墓；

不掘寸石，緬者受福；亂動尸骨，動者招咒。

然而莎士比亞的生命卻早已超越了墳墓。在他去世之時，他寫作了37部戲劇，還有很多別的作品。這37部劇作有835 997個單詞。當他的肉體離開塵世幾個世紀之后，他的劇本和作品則一共印刷了大約20億到40億冊。這些印刷品消耗了數千億的紙張，包含了超過千萬億的印刷單詞。

時光荏苒，這些數以億計的書籍被搬來運去、丟棄又拾起、拿在手里或放在書架上。每次位移都消耗了一點體力，盡管只要幾焦耳，但是這個數字是累加的。幾個世紀以來，人們拿起和放下莎士比亞書的簡單動作消耗了超過4萬億焦耳的能量，這相當于幾十萬千克煤炭燃燒產生的能量。

而當一個人因為閱讀這些835 997個單詞而神經元閃耀之時，當有人向著聚精會神的觀眾朗誦這些作品時，當有人耗費千萬美元將莎翁戲劇拍成電影時，當有人打開電視觀看這些戲劇演出時，當有人驅車前往莎翁戲劇節時，當有人買了一尊俗氣“不朽的吟游詩人莎士比亞”的半身像并且把它掛到壁爐柜上時，都是在消耗額外的能量。再加之作品紙張、書的制造和運輸消耗的能量，這個數字只會越來越大。

也許不可能完全衡量莎士比亞無意中傾倒在人類身上的能量負擔，但是，這能量負擔是巨大的。當然，我們不會因此而怪罪莎士比亞，因為他確實寫出了傳世名篇。可以這么來理解：莎士比亞的數據已經成為數據組的永恒部分，向未來傳播，使我們支持它。

公平地說，莎士比亞只是廣闊數據海洋的一粟而已。這些數據對我們的影響既縹緲又非常實在，這既是我們智人（Homo sapiens）的榮光也是負擔。

從我們最初動聽故事的口頭交流開始，從我們在洞穴墻壁上嘗試手寫開始，我們就在不斷產出持續的數據。盡管這兩種數據都沒有清晰地編碼進我們的DNA，但是它們卻能輕易超越創造它們的個體。事實上，類似這樣的數據比一代又一代的人類更有生命力。

而隨著時間的推移，我們生產數據的速度加快了。據統計，我們人類每天會產生2.5萬億字節的數據，即地球每轉一圈（公轉一年），我們就會產生超過10億*10億字節的數據，并且產出速度還在提高。這里面很多都是轉瞬即逝的臨時記錄，比如說來自谷歌搜索、空中交通管制的數據等。越來越多的數據保留在環境中，寵物視頻、GIF動畫、政治謾罵、帶節奏的帖子、醫療記錄、科研數據、商務文件、電子郵件、推特、相冊等等，所有這些以半永久電子記錄的方式儲存在硅基芯片或硬盤上的磁點。

這些數據的生產和存儲需要大量能量來維持，從人們在土地中尋找稀土元素到建立支撐所有這一切的電力體系。像蘋果這樣的大公司，因為有巨大的服務器群，需要尋求優惠電力生產的方式，以滿足那些開空調、電子驅動工廠的需要。因此，在內華達州建造巨大的太陽能發電廠，在俄勒岡州建水電站。

即使是莎士比亞作品的載體（傳統的紙張）也依然是一個饑餓的耗能怪獸。2006年，美國造紙業消耗了大約2 400萬億BTU（約400萬萬億萬億萬億焦耳），生產出了9 950萬噸紙漿和紙制品，這相當于每克最終原料（沒有印字的紙）需要28 000焦耳。換句話說，1頁紙相當于燃燒5克的優質煤。

我們為什么要這么做？為什么要花費越來越多的努力來維持我們和機器所產生的數據？答案是，這種行為的意義可能遠超我們最初的設想。

從表面上來說，非常明顯的是：我們能夠跨越世代攜帶如此多的數據是人類能夠成功遍布星球的關鍵因素。我們能夠通過這種方式不斷構建我們的知識和經驗，這是其他物種做不到的。我們的數據組給了我們巨大的進化優勢，而它顯然不是免費的。我們可能陷入了一個更大的達爾文式的現實（Darwinian reality，譯注：互相利用之意）：事實上，我們只是作為我們的數據組的輔助細胞器。

這是看待自我的不穩定框架，但它在自然界的其他部分也有類似之處。我們身上的微生物組（由數以10萬億的單細胞生物組成）的永恒不是通過人類個體，而是通過人類之間代代相傳的生物信息。我們也可以反過來，把這個現象理解成是微生物組攜帶我們人類穿越了時間，微生物選擇寄生于我們是因為我們是好的“環境”。這是一種共生關系，微生物組要努力工作，維持人類這個“微生物支持系統”。因此，對微生物來說，人類既是進化優勢也是能量負擔。同理，數據組既是人類的進化優勢同時也是負擔。

問題是：我們和數據組之間的共生關系依然是健康的嗎？現在數據組的能量負擔已經是人類物種的歷史最高水平了，這并不意味著我們正在經歷相應的巨大利益。我們最好檢查一下：數據組給物種所提供的進化優勢和所帶來的負擔之間是否平衡，是否達到了最佳狀態。

非常低效數據的泛濫可能是我們數據組功能障礙的跡象。換句話說，低價值數據的無差別指數增長很可能暗示了數據也會患癌。所以，我們要像對待全人類的健康問題那樣來嚴肅對待這個事。而對此如果治療得當，就能夠減輕全球能量負擔，減少對星球環境的影響。

提高我們數據的效用、清除浪費能源的垃圾可能并不流行，但也許可以加以激勵。比如：通過家庭太陽能板聯網并網發電獲得數據積分的計劃，或者在互聯網產品中推廣讓數據消失這種特性。在這種方案下，人類和數據組的共生關系就可以成為自然界唯一由一方有意識管理的共生關系。而這在長時間演化的穩定性如何還比較難說。

但樂觀的是，如果數據組真是我們進化路徑中不可或缺的一部分，那么或許通過挖掘數據組，我們就能學會更多關于我們自身或我們健康的知識，也能學到關于廣義的生命本質和智能本質的認知。如何詢問數據組是一個非常開放的問題，其中可能有我們根本沒有認識到的新興結構，我們需要制定措施和指標來正確研究它。現有的工具，如網絡理論或計算基因組學可能會有所幫助。。

這些分析的潛在收益是巨大的。如果數據組是真實的，那么它就是解決我們謎團、知覺物種的功能和進化的缺失拼圖，我們最好看一下數據組。正如莎士比亞所說：“我們的生活之網就是由善和惡的紗線混合交織而成的”。

資料來源 Nautilus