賈保柱 鐘正一 衛寒澤 劉榮榮 王群
摘要:通過自主學習和進化演變,通用型智能體能夠在幾乎沒有領域相關知識的狀態下適應不同的場景。其中的挑戰之一就是如何設計一種通用方法從場景中捕捉該場景的狀態特征。本文提出了一種進化策略,通過采用遺傳編程直接從原始圖像中演化出狀態特征,進而使用投票機制決定智能體的行為。
關鍵詞:通用型人工智能,遺傳編程,圖像內容
Through autonomous learning and evolution, the general purpose intelligent agent is able to adapt to different environments with little domain knowledge. One of the greatest challenges is to develop a general approach for extracting state features out of different scenes. We introduced a new method which uses genetic programming to evolve state features from raw images. A voting method is involved to determine the behavioral strategy of the agent.
Keywords: General artificial intelligence, Genetic programming, Image Content
1. 背景
近些年來,人工智能得到了爆發式的發展。尤其是在醫學圖像領域,人工智能在某些細分方向上已經達到或者超越了人類的表現。例如,Diego Ardila 等人[1] 在2019年提出了一種用于識別肺部腫瘤CT掃描的深度學習模型。該模型在肺癌篩查實驗中的準確率達到了94.4%,已經優于與團隊合作的六名資深放射科醫生的判斷準確度。與此同時,有大量研究成果也表明,最先進的人工智能模型在眼科的臨床診斷和分析能力上均高于中等水平的眼科專家 [2, 3]。然而,不容忽視的是,這些模型都是針對某些特定應用領域而專門設計的。也就是說,在一個應用場景內訓練得到的模型是無法在另一場景中使用的。為解決這一難題,研究人員提出了多種思路,其中通用型人工智能這一方向逐漸成為諸多學者競相追逐的熱點。
2. 相關研究
自2005年起,AAAI每年都會組織通用型人工智能游戲比賽。蒙特卡洛樹搜索(Mento-Carol Tree Search)很早就在通用游戲對弈(General Game Playing)中證明它具有強大的搜索能力。
Naddaf 等在Atari 2600 主機游戲中引入了兩個無模型的 AI 智能體。一個智能體使用強化學習,另一個使用蒙特卡羅搜索樹。2015 年,DeepMind在視頻游戲Atari 2600 中使用了Deep Q-Network。這種新型網絡結合了深度學習和強化學習,在多項游戲測試中都達到了人類玩家的智能程度。2016年,DeepMind創造的AlphaGo擊敗了頂級圍棋選手李世石。本文主要從自主學習角度出發,利用遺傳策略訓練了一個可以自主學習游戲特征表示的方法。
3. 內容
3.1應用場景介紹
基于GVG-AI 的游戲引擎能夠實現多項類似 Atari 2600 的游戲。我們使用由該引擎驅動的三款不同的游戲來測試我們的視頻游戲智能體,分別是太空入侵者、青蛙和導彈司令部。太空侵略者是一款經典的街機游戲。外星人駕駛太空船從屏幕上方向下入侵。玩家控制屏幕底部的一把槍。槍口垂直向上射擊抵御入侵的太空船;游戲蛙是一款經典游戲。屏幕中有一只青蛙在過馬路。玩家將青蛙從屏幕底部移動到位于屏幕頂部的目標位置即可獲勝。玩家的任務是保證青蛙在過馬路時必須時刻注意不被往來的汽車撞到;在導彈司令部游戲中,玩家需要使用智能炸彈來摧毀來襲的彈道導彈。玩家決定下一個智能炸彈將在什么位置爆炸。智能炸彈會摧毀一定半徑內的所有來襲的導彈。
4. 應用場景的狀態特征提取
4.1場景的狀態特征的進化
我們用樹結構表征一個遺傳編程對象,并用ECJ 包實現了遺傳編程算法。游戲引擎通過 TCP/IP 協議與 ECJ 通信,將每一步的屏幕截圖發送到 ECJ,經程序計算后,將下一步需要進行的動作返回給游戲引擎。
表 1 展示的是本文中用到的終端集合。所有終端返回的都是 Image 類型的對象。每個終端的返回值對應了游戲畫面截圖的一個通道:紅色通道、綠色通道、藍色通道、黃色通道和灰色通道。其中紅、綠、藍通道可以從屏幕截圖中直接獲得,黃色和灰色通道由紅、綠、藍三個通道計算得到。
4.2 行動投票機制
本文中,遺傳編程搜索樹的輸出是一個與輸入圖像大小相同的圖像。我們在輸出結果中搜索最大值 (Vmax) 和最小值 (Vmin) 的位置。最大值對應的點被標為游戲的目標位置。最小值對應的點被標為對游戲玩家角色的潛在威脅的位置。智能體的行為由兩個方面決定:第一,它應該始終朝著目標前進;同時,它還應該密切關注潛在威脅。一旦潛在威脅進入玩家角色周圍的某個區域,智能體就會發出使玩家角色遠離威脅的指令。
5. 結果
圖1展示的是用于提取青蛙游戲中的狀態特征的搜索樹結構。輸入圖像是屏幕截圖經等比例縮小后得到的。搜索樹的返回值也是一個圖像,如圖2所示。我們在返回的圖像中搜索最大值和最小值,然后將這兩個值對應的點疊加在原始屏幕截圖上。最大值用綠色矩形標記,最小值用紅色矩形標記。在圖中,我們可以看到具有最大值的點是青蛙期望的家的位置。具有最小值的點是對青蛙最危險的汽車所在的位置。 圖 3展示的是三款游戲中最佳個體的適應度。針對每款游戲,我們進行10 次測試。每個游戲的最佳個體的平均適應度以粗線顯示。
6. 結論
在本文中,我們使用遺傳編程技術訓練了一個智能體,可以直接從原始圖像中學習場景的狀態特征。遺傳編程智能體的輸入是當前游戲狀態截圖的各顏色通道,通過計算輸出一個二維特征矩陣。在該特征矩陣中,最大響應點和最小響應點分別對應了期望的目標位置和可能存在威脅的位置。算法采用投票機制最終確定智能體下一步的規劃。我們在三個不同的場景中對本文所提出的算法進行了測試。結果表明,與使用人工提取特征的算法相比,該算法能夠更快地找到最優的策略。
參考文獻
1. Ardila D, Kiraly AP, Bharadwaj S, Choi B, Reicher JJ, Peng L, Tse D, Etemadi M, Ye W, Corrado G, Naidich DP, Shetty S. End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography. Nat Med. 2019 Jun;25(6):954-961.
2. Ting DSW, Pasquale LR, Peng L, Campbell JP, Lee AY, Raman R, Tan GSW, Schmetterer L, Keane PA, Wong TY. Artificial intelligence and deep learning in ophthalmology. Br J Ophthalmol. 2019 Feb;103(2):167-175.
3. Keane PA, Topol EJ. With an eye to AI and autonomous diagnosis. NPJ Digit Med. 2018 Aug 28;1:40.
作者簡介:姓名:賈保柱,性別:男,出生年月:1987.05.13,籍貫:山東,學歷:博士,職稱:副研究員,單位:中國科學院蘇州生物醫學工程技術研究所,研究方向:人工智能。姓名:鐘正一,性別:男,出生年月:1997年11月,籍貫:四川成都,學歷:本科,單位:中國科學院蘇州生物醫學工程技術研究所,研究方向:電子電氣工程。
姓名:衛寒澤,男,出生年月:1996.11,籍貫:山西臨汾,學歷:學士,單位:中國科學院蘇州生物醫學工程技術研究所,研究方向:電子電氣工程。
姓名:劉榮榮,性別:男,出生年月:1999年2月,籍貫:江西贛州,學歷:本科,單位:中國科學院蘇州生物醫學工程技術研究所,研究方向:電子電氣工程。
基金:國家重點研發計劃(2019YFC0118004)資助的課題