古天龍 高 慧 李 龍 包旭光 李云輝
1(暨南大學網絡空間安全學院 廣州 510632)
2(廣西可信軟件重點實驗室(桂林電子科技大學) 廣西桂林 541004)
(gutianlong@jnu.edu.cn)
人工智能(artificial intelligence, AI)已經廣泛應用到醫療[1]、交通[2]、智能家居[3]等諸多領域,給人類生活提供了諸多便利,但也引發了突出的倫理問題.例如:微軟推出的聊天機器人Tay設計之初是為了與人類進行友好互動,但卻被網友教會了粗俗甚至帶有歧視性質的話語;優步(Uber)研發的無人駕駛汽車在行駛過程中撞死了無辜路人.不難想象,類似問題如果在智能體設計之初得以解決,能夠顯著減少給人類造成的困擾和傷害.換言之,為促進人工智能高效發展,并更好地為人類服務、提升人類生活質量,必須設計實現行為符合倫理的智能體,即倫理智能體[4].正如Picard[5]所說,“機器的自由度越大,越需要道德標準”.
價值對齊(價值一致)是典型的倫理智能體訓練技術之一,即利用規范或規則限制智能體的行為,使其與人類價值觀相一致[6-7].由于人類價值觀的多樣及復雜性,較多學者認為借助自下而上的方法實現價值對齊,從而讓智能體學得人類價值觀是較為可行的倫理智能體訓練方法[8].其中基于專家示例[9-10]、模仿學習[11]、偏好學習[12-13]或者逆強化學習[14]等技術應用較為廣泛,這類技術利用人類示范指導智能體行動,可以在一定程度上展現人類的價值觀及道德規范.但是,基于人類示范指導進行倫理智能體訓練的方法普遍存在3個缺點[15-16]:1)收集真實的人類行為示例代價昂貴、周期長,甚至是不可行的;……