王梓輝
在太陽系之外找到另一個“地球”,一直是人類探索太空的最大夢想。為此,當人們在意識到地球的“行星”屬性之后,就開始將目光瞄準在圍繞其他恒星運行的“系外行星”身上。
如今,在望遠鏡光學(telescope optics)、太空飛行、計算機等技術的幫助下,人類已經開始偵測和探究其他恒星周圍的行星。目前天文學家們搜尋系外行星的主要工具是美國航空航天局(NASA)于2009年發射升空的開普勒太空望遠鏡。這臺太空望遠鏡被設計發射的目的,就是去發現更多的環繞其他恒星運行的行星。
自從2009年升空以來,開普勒太空望遠鏡可謂戰功赫赫,在其四年的正常工作時間里,開普勒太空望遠鏡觀察了近20萬顆恒星,每30分鐘拍一次照片,并創造了近140億個數據點,這140億個數據點相當于大約2000兆個可能的行星軌道。

2015年1月9日,美國宇航局“開普勒”系外行星探測器啟動了K2任務,該任務時長為兩年,以確定系外行星上能否支持生命的存在
如此大量的數據是天文學家們尋找系外行星的最佳寶庫,在人類迄今已經發現的3700多顆系外行星中,有超過2700顆是由這臺空間望遠鏡發現的。NASA開普勒項目(Kepler Mission)科學家馬里奧·佩雷斯(Mario Perez)就曾表示:“開普勒提供的數據獨一無二,因為它是唯一囊括了這些類地行星信息的數據庫。理解這些類地行星在星系中的出現頻率,有助于NASA在未來任務中直接為另一個‘地球拍照?!?/p>
然而,數據有了,擺在天文學家面前的難題變成了如何處理這么龐大的數據,以及如何更有效地分析這些數據。
一位來自互聯網巨頭Google的AI工程師克里斯托弗·肖爾(Christopher Shallue)出人意料地就這些問題給出了一個解決方案,而他的辦法似乎能讓天文學家們處理收集到的天文數據時不怎么費力,這也讓他從一個單純的互聯網工程師變成了橫跨人工智能與太空探索兩界的科研明星。
“之前我在Google內部負責的工作是‘圖像描述(image captioning),也就是將拍攝的一個照片給機器之后,機器能自動出現一個句子來描述這張照片?!毙枌Ρ究榻B他此前的研究領域時如此說道。顯然,對于圖像的智能化分析正是他的專長。
一個偶然的機緣,他發現從開普勒太空望遠鏡拍攝的數據中尋找行星的工作與他所做的圖像分析工作頗有相似之處。因為當一顆運行中的行星擋住了恒星的光線時,恒星的亮度會減小,天文學家正是以此原理為基礎,將這種圖像亮度訊號的變化用來辨識恒星周圍運行的行星。
恰好Google內部有一個“20%計劃”(Google員工可以利用20%的時間來做你喜歡或感興趣的事情),于是肖爾和得克薩斯大學奧斯汀分校的天文學家安得烈·范德堡(Andrew Vanderburg)一起合作,利用自己擅長的人工智能技術來嘗試分析開普勒太空望遠鏡所積累的數據。
“我們利用超過1萬5000個經過標記的開普勒太空望遠鏡信號的數據集,訓練了一個基于TensorFlow建立的機器學習模型來區分行星和其他天體?!毙栒f道。簡單來說,就是他們利用天文學家標記過信號的數據,來“教導”機器也能學會辨別這些不同的信號,比如其中大約3500個是經過驗證的行星或強行星的信號,另外的則不是。通過這種差異性的學習,可以訓練神經網絡區分什么才是行星的信號,最終使得機器能分辨出行星運動的通性和規律,以此來和恒星、雙星系統及其他天體的規律相區分。
“最終,當我們利用這個系統來測試未曾分析過的信號時,它識別行星信號和非行星信號的準確率高達96%,這意味著這個系統是可以發揮作用的?!?/p>
為縮小搜尋范圍,他們將研究范圍定為了670個已知的可容納兩顆或更多系外行星的恒星。在這樣的過程中,他們發現了兩顆新行星:開普勒80g和開普勒90i。值得注意的是,因為開普勒90i是第八個被發現圍繞恒星開普勒90運行的行星,這使開普勒90成為除了太陽系之外,人類已知的第一個擁有八大行星的星系。
同時,肖爾還利用新的工具與技術觀測到開普勒90i要比地球大30%,表面溫度大約800華氏度,所以它并不適合人類居住。利用這樣的新方法,人類尋找下一個“地球”的步伐能加快不少。
去年12月,NASA舉辦了一場電話會議,同Google一起發布了這個天文探索領域的重大發現,也讓人類在探索太空的過程中多了一個強有力的智能化工具?!熬拖裎覀兤诖哪菢?,在我們所擁有的開普勒數據中潛藏著令人興奮的發現,等待著我們用合適的工具或技術來挖掘它們,”NASA天體物理學部負責人保羅·赫茲(Paul Hertz)說道,“這一發現表明,我們的數據將成為未來幾年創新研究人員們的寶庫。”
在9月于上海舉行的世界人工智能大會上,本刊也與首次來到中國的克里斯托弗·肖爾就人工智能技術與太空探索的相關工作進行了對話。
三聯生活周刊:作為一個AI方向的工程師,你怎么會產生了利用AI技術去探索太空的想法?
克里斯托弗·肖爾:實際上我本人不是天文學家,但我平時對天文科學這類的理科比較感興趣,我會在空閑的時候去讀一些和太空科學相關的書。之前,我恰好讀到一本書,名字叫《人類宇宙》(Human Universe),這本書講的就是從宇宙起源到我們人類如何探索太空的故事。就是在這本書中,我讀到了開普勒望遠鏡是在2009年的時候發射到太空的,然后它會發送回來很多的數據,而這些數據都需要人來進行分析,但是數據量實在太大。這點就給我一定的啟迪,因為在Google,我們擅長的就是去分析數據,這是我們的一個專長。由此我就想到了一個合作的可能:它有海量的數據,這些數據又需要去分析,這就啟迪我利用AI去進行合作。
三聯生活周刊:這個項目中具體要完成的任務是你們和NASA一起商量出來的,還是你們自己發現并決定的?
克里斯托弗·肖爾:其實我們都知道,NASA發起了對開普勒望遠鏡的探索使用,他們面向大眾公布了很多數據,這些數據在網上都可以找到,而我們Google這邊其實是和得克薩斯大學奧斯汀分校一起去合作分析這些數據。但是當我們得到這些新發現之后,是和NASA一起來宣布這個結果的。
三聯生活周刊:看起來,這個項目所使用的機器學習技術主要集中在圖像領域,它是否和那些在醫學領域的智能化診斷研究有相似之處?因為它們都是使用機器學習技術對圖像進行分析。
克里斯托弗·肖爾:我們知道,在醫學領域,像目前對糖尿病的研究就取得了很大進展,成果激動人心,而且對整個人類都有貢獻,我們也發現目前有很多人都在這方面進行探索。這兩種方向的研究確實有很多相似之處,因為它們都要分析很多的圖片,所以它們都是利用機器學習的方法,采用深度神經網絡技術,讓機器能夠對圖像進行分析。這些是它們的類似之處。
三聯生活周刊:除了行星的搜索之外,在其他的科學領域,比如物理學方面的大型粒子對撞機所做的也是粒子的搜尋工作。這種大量的數據分析工作可能和現在的搜尋行星類型差不多,你對這些不同的科學領域有涉足的計劃嗎?
克里斯托弗·肖爾:我本人并沒有涉及大型粒子探測器的研究之中,因為我們知道,其實科學它的覆蓋面是非常之廣的,我們現在也是希望能夠用機器學習技術來更好地了解科學,利用這些技術來分析數據。事實上,天文學里面所收集到的這些數據就已經是海量的了,已經足夠我們去分析很長的時間。而且據我所知,行業里其實已經有人開始利用機器學習技術來開展對大型粒子對撞機的探索了。
三聯生活周刊:隨著人工智能技術越來越多地幫天文學家們處理數據,天文學家對人工智能技術的依賴也會越來越強,那他們有沒有可能在這個過程中喪失一些自我發現新事物的創新能力?你是否聽過學界有類似的擔憂?
克里斯托弗·肖爾:事實上,你提的問題我也比較了解。我們訓練的模型其實是通過我們對于這些已知的事物進行不斷的培訓,讓這個模型能夠了解這些已知的事物,然后再用這樣的一個模型去發現類似的這些事物。所以說在這樣的過程中,這些AI技術的應用是關系到人的參與。機器學習并不是萬能的,相比起來,人類更善于觀察和發現全新的事物。只有讓人工智能和人進行協作,才能夠幫助人類更好地發現更多新的內容。
三聯生活周刊:把這種人工智能技術引入天文探索的工作中,這對于這個領域來說是否算是一個新時代的開始?
克里斯托弗·肖爾:這樣一個所謂的“新時代”其實還是關系到海量數據的分析。像之前我們所討論的開普勒太空望遠鏡的發射也是為了收集數據,它在八年時間中收集了海量的數據。另外我們也知道,NASA最近又發射了一個新的衛星,叫“TESS”(Transiting Exoplanet Survey Satellite),它所涉及的數據可能比開普勒太空望遠鏡的數據更多。這就要求在未來的時代里,我們必須有更先進的技術來對這些數據進行分析,而不能夠單純地依靠人去對數據進行分類,去手動地對數據進行檢查。