Joshua Rothman

2011年,照片鑒證專家法里德(Hany Farid)收到一封失去兒子的父親發來的郵件。3年前,發件人的兒子因為車子發動不了站在路邊,幾個陌生人請他搭順風車,他上車幾分鐘后被槍殺,原因未明。一個監控攝像頭拍下了他走向那些人的車的畫面,但畫質很差看不清哪些人的臉,沒有這些關鍵細節無法確認嫌疑人。嫌疑車輛的車牌號也分辨不了。父親能看到指向殺害兒子兇手的證據,只是清晰度不夠。
在上世紀90年代后期,法里德率先對數碼照片進行鑒證分析,并且擔任很多刑事案件和民事案件的專家證人,去解釋某個有爭議的數碼圖像或視頻到底是真還是假。他現在是達特茅斯計算機科學的教授,在他位于達特茅斯的實驗室里,他一遍又一遍地播放著那位父親發來的視頻,看看能做些什么。在電視劇里,偵探們通常會“增強”圖片,銳化嫌疑人的臉部像素得到清晰的樣貌。但在實際生活里這種操作是不可能的。因為視頻在攝像頭成像保存過程中已經被壓縮了,最終保留下來的信息量很小,而圖像的壓縮是不可逆的。這個案子懸而未決。
幾個月后,法里德想到了一個解決方案。如果能用同一款監控攝像頭拍攝大量的車牌,是否可以算出模糊的像素和特定的車牌號碼之間的關系?這種關聯會很細微,因為圖像的模糊還跟光線條件、車牌設計以及其他很多因素都有關系。盡管如此,如果圖像庫足夠大的話,還是可能找出其中關聯的。
這種方法原本看起來不切實際,但是隨著計算機圖像和AI融合的“圖像合成”受到關注,進展加快了。在新興的“合成媒體”世界里,數字圖像變為了通過專家系統就能自動大規模生成。
法里德先是讓他的研究生在達特茅斯校園拍攝了幾百個車牌,根據這些照片建立了一個生成模型,能夠合成更多圖片。在幾周的時間里,他們制造了數千萬張仿真的車牌照片,每一張都不一樣。接下來,把這些合成照片全部輸入模擬的監控攝像頭,讓圖片變得模糊,目的是建立一個把像素和車牌號聯系起來的解讀系統。
而后他們開始訓練神經網絡來解讀那些模糊的圖像。現代神經網絡是多層次的,每一個層級都有數百萬個變量,在這樣一個網絡里監控數據流就好比在瀑布里追蹤一滴水一樣困難。研究人員不確定這個神經網絡如何運行,必需通過反復測試來訓練。法里德的團隊多次完善這個神經網絡,最后他們把上面提到的案件視頻中一幀靜止圖像輸入了這個網絡,在圖片上的車牌就像是10個噪音的像素,但是仍然有信號。而神經網絡能肯定辨認出車牌最后3位。
去年夏天法里德把車牌最后3位發給了負責該案的偵查人員。此前警方把調查范圍縮小到了一部藍色雪佛蘭,而根據神經網絡辨認出的車牌后3位鎖定了其中一輛車。跟被鎖定的那輛車的車主竟然也是另一宗案件的涉案人員,因此快10年都尚未偵破的案子又重啟調查了。與此同時,法里德及其團隊把研究成果發表在了計算機視覺期刊上。在論文里,他們指出這個系統是對幾百個低像素監控攝像頭的免費升級。但影像合成也是一把雙刃劍,它可以把假圖像做得像真的一樣。
在充斥著各種假新聞的媒體環境里,這種新技術帶來了各種不良影響。早前一位匿名用戶在Redditor上發布了一個軟件工具,該軟件利用神經網絡能將一個人的臉替換成另一個人的,同時能保持表情一致,軟件開放給所有人用來合成視頻。與這個軟件同時發布的,還有幾個色情視頻,主角看似是各種好萊塢女明星,但實際是偽造的。在華盛頓大學的一個研究團隊發表的論文《合成奧巴馬》指出,神經網絡可以制造出看似真的視頻,視頻里前總統奧巴馬在說著一些話,但那些話實際上是由另一個人說出來的。
伯克利校區北部坐落著世界上最好的圖像合成實驗室之一,該實驗室的負責人是阿列克謝·埃弗羅斯。我在前往伯克利之前給他的一個研究生吉諾薩(Shiry Ginosar)發郵件詢問如何制作一個我自己的合成圖像。她在郵件里給了我詳細指引:為了讓我們能夠生成你的后腦勺圖像,你的輪廓,還有你的手臂上下擺動等等,我們需要你錄一段有這些素材的影響。于是我在手機鏡頭前走來走去,轉圈,做各種動作,大概錄了10分鐘。之后吉諾薩告訴我,大概需要兩周時間讓神經網絡學會合成我的影像。
在讀博士帕塔克(Deepak Pathak)說,1999年《黑客帝國》上映的時候,這種想法的雛形就出現了。現在計算機運行速度快了很多,圖形處理能夠為游戲設計提供很多助力。而且這些軟件都是開源的。現在即便是高中生都能從圖書館里找到并運行這些程序代碼。家用計算機的升級和另一趨勢重合:大量的圖片視頻被上傳到網絡。
埃弗羅斯說,在2000年的時候計算機圖片數據匱乏,盡管3D建模能夠做出逼真的場景,但那些設計出來的城市、室內和山景看起來有點缺乏生氣。真實的場景需要大量的數據,關于垃圾、灰塵和蕪雜。而收集這些數據的最佳方式就是隨機地記錄日常生活。
比如你有一張晴天拍攝的風景照,你可能想知道這個景觀在雨天看來是什么樣的。而關于這個問題,答案不只一個。一個真正的有創造力的網絡能夠合成多種看似真實的圖像,能綜合很多的可能性,類似法里德生成車牌系統做的那樣,但比那個復雜得多。
斯坦福大學和普林斯頓大學的計算機科學家共同運營了一個叫ImageNet的網站,系統里存有1400萬張普通地點和物品的照片,大部分是來自社交和購物網站上發布的隨機快照。最初這些照片需要雇人來整理分類,到了2012年,多倫多大學的研究人員建立了一個神經網絡能夠自動完成分類工作。近年來,YouTube變成了一個非官方的ImageNet視頻系統。埃弗羅斯的實驗室則擺脫了這些網站的平臺偏見——偏愛貓和流行歌星——建立了一個中立的神經網絡,囊括了很多人們日常生活的視頻,諸如拆快遞、翻冰箱、用毛巾擦干、刷牙之類的。這個巨大的包含無趣視頻的數據庫,把合成現實帶到了一個新高度。
埃弗羅斯在電腦上展示了一張從里昂大橋上拍攝的照片,照片上有一大塊缺失。他在電腦上點擊了一下,那張照片缺失的部分就被合成風景填滿了,包括建筑和綠植。他解釋說,2007年他設計了一個系統,能通過網站搜索類似的照片進行采樣。很多照片是在度假時拍攝上傳的,合成風景可能來自另外一個城市,但是河岸風景總有些類似的建筑,合成起來毫無違和感。
合成現實延伸到了社交媒體上,臉書新聞推送強調“跟你相似的人在看什么”,而除了尋找相似點之外,社交媒體更是在創造相似點。假如你瀏覽了很多某一類圖片,神經網絡就可以合成那種你會感興趣的圖片。
伯克利實驗室的門上寫著“小心深網”。剛獲得博士學位的理查德·張梳理了合成圖像最新的發展。他說,比如你有一張晴天拍攝的風景照,你可能想知道這個景觀在雨天看來是什么樣的。而關于這個問題,答案不只一個。一個真正的有創造力的網絡能夠合成多種看似真實的圖像,能綜合很多的可能性,類似法里德生成車牌系統做的那樣,但比那個復雜得多。
2016年,美國國防部高級研究計劃局啟動了媒體鑒證計劃MediFor,重點關注合成媒體對國家安全的威脅。該項目的經理馬特·圖雷克舉例說明了可能的圖像操縱:圖像里加入別的地方剪切黏貼過來的物體,從場景中刪除對象,換臉,音頻和視頻不一致,偽造在某個時間或地點拍攝的圖片。他指出,在未來幾年我們可能會看到很多實際未發生過的事情的圖像。從不同角度拍攝的圖片或影像會以某種方式合成,讓他們看起來像是來自不同的拍攝設備。某些國家可能會利用這種合成技術來達到某種軍事或政治目的。即便一個資源匱乏的小集團也能做到這一點,甚至個人都可以。
MediFor聚集了來自各大高校、科技公司和政府機構的數十位科研人員,開發基于50多項圖像操縱的自動化系統,目的不止能甄別出偽造圖像。圖雷克說他們希望在找出合成圖像之后還能追蹤到到具體是誰干的,以及他的動機是什么。
理想狀態下這類系統能植入各大社交平臺,對合成的內容進行標記。但是問題在于速度。每天都有57.6萬小時的視頻被上傳到YouTube,MediFor系統的運算時間有限。此外也還存在一些懸而未決的問題,比如如何把無害的操縱和惡意的操縱區分開來?廣告內容會不會被標記?合成內容到底有多少?

法里德在自己家的客廳播放了一個名為“金雕抓小孩”的視頻,視頻里一只猛禽在蒙特利爾公園撲向一個幼兒。法里德解釋說,專業的軟件可以識別金雕的陰影和幼兒的陰影有細微的錯位。法里德調出一只灰熊的圖片,指出在高放大倍率下,它的口鼻邊緣呈現藍色和紅色。當光射到鏡頭的表面會發生彎曲,彎曲程度和波長相關,因此你可以看到光的散射現象。這些色差在圖像的中心最小,在邊緣最大。如果一張照片不符合這個規律,就表示是由不同的圖像合成的。
有些措施可以讓數碼圖像比模擬圖像更具防偽性,數碼相機成像過程中保存了大量數據,而且并不均勻, 不可避免產生褶皺,從而導致圖像呈現一些像素點更亮或更暗的模式,而這個模式每一臺相機都不一樣。現代數碼相機通常會通過猜測傳感器無法捕捉到的光來實現更高的分辨率,這就導致在成像過程中圖像有三分之二不是忠實記錄而是合成,以某種合乎邏輯的方式創造一個獨一無二的模式。如果你對圖像進行了后期編輯,這個模式就會受到干擾。
Jacob Huh是實驗室的一名研究生,他訓練了一個神經網絡來發現色差和其他操縱痕跡,該神經網絡會生成熱圖,標出圖像中可疑的區域。從理論上講,如果能識別出偽造的部分,就能設計出逃避甄別的對策。比如說把鑒證神經網絡整合進造假神經網絡里,訓練造假的神經網絡躲過鑒證。因此,法里德在國際鑒證科學上發布的論文《后真相時代的數碼鑒證》中,呼吁研究人員將最新的科技保密一段時間,他認為當下應該在科學公開和助長敵對勢力之間找到一個平衡。
在法里德看來,大量獨特的操縱指標使鑒證專家略勝一籌,正如造假者必須費力解決百元美鈔上的每一個防偽特征,媒體操縱者也需要克服無數的技術問題,甚至有些是統計學意義上而非肉眼可見的,訓練神經網絡來做這件事也有很大難度。
但法里德同時也指出,造謠比辟謠在傳播上有優勢,正如前文提到的金雕抓小孩視頻,雖然已經被證實是偽造的,但它在網絡上的點擊率達到了1300萬次。圖雷克推測說,當涉及圖片和影像時,人們的信任度會降低,不再相信“眼見為實”了。
馬里蘭大學法學教授西特倫(Danielle Citron)和得克薩斯州大學法學教授切尼斯(Robert Chesney)聯合發表了一篇論文,探討了某些類型合成媒體是否涉嫌違法以及是否需要修法禁止。他們在論文里還進行了一些猜想,比如出現最糟糕的情況是用合成媒體達到構陷或者勒索的目的,那么人們可能需要不斷地錄制自己,一邊在被構陷的時候證明自己的清白。而提供此類記錄服務的供應商將擁有巨大的權利,它的數據庫對執法機構也很重要。如果讓人們在被監視和被合成造謠之間選擇,很多人可能寧愿選擇被監視。
周五的早上,我在埃弗羅斯的實驗室看到了自己的合成影像。吉諾薩打開電腦上一段視頻,在屏幕左上方的頁面播放的是火星哥布魯諾·馬爾斯(Bruno Mars)的一段視屏,在他下方的頁面是模仿他動作的人形輪廓,吉諾薩解釋說那是動作探測。屏幕右方則是我的圖像,動作則跟火星哥的舞蹈動作一致。吉諾薩按了一下空格鍵,電腦開始播放火星哥的MV,畫面里他在舞蹈,而我的合成圖像也跟著他在跳舞,甚至連地面的影子也在一致轟動。研究人員說他們并沒有教機器怎么合成圖像,這是機器自己學會的。
雖然仔細觀察之后,我還是找出了合成影像的一些紕漏,比如襯衫出現多余的扣子,腕表一會兒出現一會兒消失。但這個合成影像還是讓我很震驚,畫面里我們的發型是如此相似,我們手指打節拍是如此一致。埃弗羅斯說音樂對此也有幫助,讓紕漏沒有那么顯眼。
在Photoshop出現之前,大家都相信圖片是真實的,但實際上圖片從最開始就不是客觀的,你所拍攝的對象、角度都是經過選擇的。也許這種對圖像真實性的質疑早該出現了。
(來源:《紐約客》)