
人工智能的穩定問題引起了持續而廣泛的研究
人工智能作為新一輪科技革命和產業變革的重要驅動力量,正在對經濟發展、社會進步、國際政治經濟格局等諸方面產生重大而深遠的影響。2020年人工智能產業保持平穩增長,根據IDC(互聯網數據中心)測算,全球人工智能產業規模為1565億美元,同比增長12%;根據中國信息通信研究院測算,我國人工智能產業規模達到約434億美元,同比增長15%。人工智能在帶來巨大機遇的同時,也蘊含著風險和挑戰。習近平總書記高度重視人工智能治理工作,強調要“確保人工智能安全、可靠、可控”,倡議推動落實二十國集團人工智能原則,引領全球人工智能健康發展。
隨著社會各界對人工智能信任問題的不斷關注,安全可信的人工智能技術已成為研究領域的熱點。研究的焦點主要是提升人工智能系統穩定性、可解釋性、隱私保護、公平性等,這些技術構成了安全可信人工智能的基礎支撐能力。
人工智能系統面臨著特有的干擾,這些干擾來自于針對數據和系統的多種攻擊方式,包括中毒攻擊、對抗攻擊、后門攻擊等。這些攻擊技術既可互相獨立也可以同時存在。例如,中毒攻擊通過按照特殊的規則進行惡意評論等方式,向訓練數據集投入干擾數據,繼而影響推薦系統的準確度;對抗攻擊通過在道路交通標志牌上貼上特殊設計的圖案,可以誤導自動駕駛系統使其錯誤識別路牌上的信息,進而造成交通事故;后門攻擊具有隱蔽性,可能會被用于對AI供應鏈發動攻擊。相比于傳統軟件系統,此類干擾對人工智能系統的穩定性提出了更高要求。
人工智能的穩定問題引起了持續而廣泛的研究。針對人工智能模型的對抗攻擊與中毒攻擊早在2012及2013年就已出現。其中,對抗攻擊的目的在于通過構造針對性樣本來誘使人工智能系統決策出錯;而中毒攻擊的目的在于通過向人工智能模型的訓練數據集注入中毒樣本來劣化訓練得到的模型的性能。在此之后,對抗攻擊相繼發展出了FGSM(快速梯度下降法)、Carlini-Wagner(卡里尼-瓦格納攻擊法)及PGD(投影梯度下降法)等攻擊方法;中毒攻擊的發展同樣十分迅速,在其基礎上出現了后門攻擊。后門攻擊通過后門樣本向人工智能系統植入后門,從而達到定向操縱人工智能系統的目的。該攻擊與中毒攻擊存在一定相似性,且常通過中毒攻擊的方式來向系統植入后門。為抵御這些攻擊,一些工作提出各類異常數據檢測方法來檢出并清除對抗樣本、中毒樣本、后門樣本等惡意數據,從而減輕惡意攻擊帶來的干擾;通過在對抗樣本上進行對抗訓練來抵抗對抗攻擊;利用模型剪枝、后門檢測等技術抵抗后門攻擊。
人工智能的穩定性仍然面臨著較大的挑戰。一方面,各種干擾手段層出不窮、持續演進,而新的攻擊方法容易讓舊的防御方法失效;另一方面,干擾的形式正在逐步從數字世界向物理世界蔓延,例如通過打印對抗樣本等手段能夠直接對自動駕駛和人臉識別系統造成物理層面的干擾。未來在人工智能穩定性技術方面的研究將持續增多。
目前,以深度學習算法為核心的人工智能系統的運作就像是一個黑箱,人們只能看到數據的導入和輸出,而不清楚內部的工作原理和判斷依據。一方面,人們對訓練得到的人工智能模型為何能具有極高的性能尚不清楚;另一方面,人工智能系統在做出決策時具體依賴哪些因素,人們也不清楚。
針對人工智能算法可解釋性的研究仍處在初期階段,部分算法的理論框架有待完善。例如,優化算法的有效性在決策樹、支持向量機等一些簡單的人工智能模型上已被很好地證明。然而,對于隨機梯度下降算法為何能高效優化深度神經網絡,學術界已經開展了大量的研究,但目前對于該問題的討論仍未有定論。又如,針對人工智能模型如何利用數據特征做出預測,學術界已通過實驗取得了一定的成果,但還缺乏理論支撐。為了使人工智能模型具有更好的可解釋性,研究學者提出,可以通過建立適當的可視化機制嘗試評估和解釋模型的中間狀態;通過影響函數來分析訓練數據對于最終收斂的人工智能模型的影響;通過Grad-CAM(梯度加權類激活映射)方法分析人工智能模型利用哪些數據特征做出預測;通過LIME(模型無關的局部可解析性算法)方法使用簡單的可解釋模型對復雜的黑盒模型進行局部近似來研究黑盒模型的可解釋性;還有部分研究則提出可以通過建立完善的模型訓練管理機制,提升人工智能系統實現過程的可復現性。
在人工智能的產業落地過程中,應最大限度地使人工智能系統的行為對人類更透明、更容易理解、更可信。一味地相信人工智能系統所做出的決策,而不對其決策過程進行解釋,會極大限制其在國防、法律、醫療、教育等關鍵領域的普及,甚至引發嚴重的社會問題。增強人工智能系統的可解釋性迫在眉睫。
人工智能系統需要依賴大量數據,然而數據的流轉過程以及人工智能模型本身都有可能泄露敏感隱私數據。例如,在數據流轉的任意階段,惡意攻擊者可以對匿名數據集發起攻擊,從而竊取數據;在數據發布階段,惡意攻擊者可以使用身份重識別對匿名數據集發起攻擊,從而竊取隱私信息;惡意攻擊者也可以直接針對人工智能模型發起攻擊,從而竊取隱私信息。例如,模型反轉攻擊可以根據受攻擊模型的輸出推斷并重建其訓練數據,從而竊取隱私信息;成員推斷攻擊可以推斷給定數據樣本是否來自受攻擊模型的訓練數據集,從而造成隱私泄露。
學界針對上述隱私泄露問題提出了多種針對性的保護方法,最常見的為基于差分隱私和基于聯邦學習的隱私保護方法。差分隱私最早由美國學者辛西婭·德沃克于2006年提出,是人工智能系統隱私保護能力的一個主要量化指標。其核心思想是一個具有優秀隱私保護能力的人工智能算法應當對輸入數據中的微小擾動不敏感。基于該思想,可以通過對數據進行下采樣、順序置換、添加噪聲等方式,來防御攻擊者進行隱私竊取。目前,一些頭部科技公司已將差分隱私法應用于部分真實的業務中。聯邦學習在2015年提出,其能在不收集用戶數據的條件下進行人工智能模型的訓練,以期保護隱私信息。需要指出的是,一些初步研究表明,聯邦學習方法仍存在一定的隱私泄露風險。因此,還需要針對聯邦學習進一步優化,提升其用戶隱私保護的能力。一個可行的方向是將聯邦學習和差分隱私相結合,以構建隱私保護能力更強的人工智能系統。
在當前時代下,越來越多的隱私信息承載于數據之中,人們對隱私數據保護的關注更勝以往,部分國家也開始從立法層面制定隱私數據的使用規范。針對隱私保護進行研究能使得人工智能系統符合法律的基本規范和要求,完善可信人工智能的建設。
隨著人工智能系統的廣泛應用,其表現出了不公平決策行為以及對部分群體的歧視。學術界認為,導致這些決策偏見的主要原因如下:受數據采集條件限制,不同群體在數據中所占權重不均衡;在不平衡數據集上訓練得到的人工智能模型,可能會為了在整體數據上的平均性能,而犧牲在少量數據上的性能,造成模型決策不公平。
為了保障人工智能系統的決策公平性,相關研究者主要通過構建完整異構數據集,將數據固有歧視和偏見最小化;對數據集進行周期性檢查,保證數據高質量性。此外,還有通過公平決策量化指標的算法來減輕或消除決策偏差及潛在的歧視。現有的公平性指標可以分為個體公平性與群體公平性兩大類。其中,個體公平性衡量智能決策對于不同個體的偏見程度,而群體公平性則衡量智能決策對于不同群體的偏見程度。另一方面,基于公平性指標的算法大致能分為預處理方法、處理中方法及后處理方法共三大類。預處理方法通過刪除敏感信息或重采樣等方式對數據進行清洗,從而降低數據中存在的偏差。處理中方法通過在人工智能模型訓練過程中加入與公平性量化有關的正則項,提高訓練得到的模型的公平性。后處理方法通過對模型輸出進行調整,進一步提高訓練得到的模型的公平性。例如,有工作基于多重精確度(Multiaccuracy)的概念提出多精度提升法(Multiaccuracy Boost),以減輕黑盒人工智能系統的決策偏差。
人工智能在敏感領域的應用越來越多,包括招聘、刑事司法、醫療等,其公平性也受到了廣泛的擔憂。公平性技術能夠從技術角度對數據進行均衡,從而進一步引導模型給出公平的結果,這對于提高人工智能系統決策公平性具有重要意義。
當前越來越多的研究關注到人工智能在穩定性、可解釋性、隱私保護、公平性等問題上的挑戰。隨著研究的不斷深入,勢必將會涌現出更穩定、更透明、更公平的人工智能理論及技術,這些技術是未來實現可信人工智能的基石與重要保障。
編輯:張程? 3567672799@qq.com