魏國富 石英村
1(上海觀安信息技術股份有限公司 上海 201800) 2(上海賽博網絡安全產業創新研究院 上海 200030)
(weigf@idss-cn.com)
當前,隨著以“數字新基建、數據新要素、在線新經濟”為特征的新一輪數字經濟浪潮全面來臨,全球人工智能發展逐步從“探索期”向“成長期”過渡,在技術和產業上均進入重要的轉型階段.在此背景下,數據的重要價值進一步凸顯,同時,數據安全風險也進一步加劇,對用戶隱私、公民權益、商業秘密、知識產權的保護、社會的公平公正以及國家安全等各個方面帶來挑戰.人工智能數據安全是一個覆蓋多主體、多維度的全球性安全挑戰和治理議題,本文從宏觀戰略、法律法規、標準規范等維度,梳理當前人工智能數據安全治理現狀,并對可有效降低人工智能數據安全風險的技術發展進行概述,以期為我國人工智能數據安全治理提供參考.
目前,世界主要國家均高度重視人工智能中的數據安全和隱私保護問題,多國均在人工智能發展戰略中明確提出要重視數據安全.集中表現為:
1) 美國.2016年10月,美國白宮科技政策辦公室(OSTP)連續發布《為人工智能的未來做好準備》《國家人工智能研究與發展戰略計劃》《人工智能、自動化與經濟》 3份重磅報告,提出實施“人工智能開放數據”項目,要確保聯邦數據、模型和計算資源的高質量、完全可追溯和可訪問性,支持人工智能的技術開發、模型訓練和安全測試,同時應確保AI系統的網絡安全,包括隱私和數據保護.2019年6月,美國發布新版《國家人工智能研究與發展戰略計劃》(The National Artificial Intelligence Research and Development Strategic Plan)[1],要求所有聯邦機構的負責人要負責審查各自部門控制的聯邦數據和模型,并要求其確保數據安全、隱私和機密性.
2) 歐盟.2018年3月,歐洲政治戰略中心(EPSC)發布《人工智能時代:邁向以人類為中心的機器的歐洲戰略》(The Age of Artificial Intelligence: Towards a European Strategy for Human-Centric Machine)[2],報告提出:當下歐洲人工智能發展主要面臨著數據短缺、競爭激烈、固有偏差、隱私保護等問題,因此,歐洲必須要擴大人工智能發展所需的數據源和數據規模,增強對數據的有效訪問和獲取,同時,監管方案的設計應有利于整個歐洲數據的收集、使用和共享,確保人工智能數據應用達到《一般數據保護條例》(GDPR)所規定的最高個人數據保護標準.2018年4月,歐盟委員會(EC)發布《歐盟人工智能》(Artificial Intelligence for Europe)政策文件,表示歐盟委員會將盡快推動公共部門信息開放指令的修訂,來支持人工智能發展獲得必須的數據資源,并要求公共部門應當遵守歐盟關于個人數據保護的法律政策,加快出臺私營部門數據分享指南來確保數據安全.2020年4月,歐盟委員會(EC)發布人工智能白皮書——《面向卓越和信任的歐洲人工智能發展之道》(White Paper on Artificial Intelligence—A European Approach to Excellence and Trust)[3],報告提出基于人工智能對社會產生重大影響以及建立信任的需要,歐洲人工智能必須以歐洲的價值觀和包含人類尊嚴和隱私保護等在內的基本權利為基礎,同時在“信任的生態系統”的人工智能監管框架中,強調要從技術倫理、網絡和數據安全、消費者權益和公民基本權利的角度出發,對高風險的人工智能應用進行識別和加強監管.
3) 中國.2017年7月,國務院發布《新一代人工智能發展規劃》,在人工智能數據安全治理方面提出了多項要求,包括“強化數據安全與隱私保護,為人工智能研發和廣泛應用提供海量數據支撐”“開展與人工智能應用相關的民事與刑事責任確認、隱私和產權保護等法律問題研究,建立追溯和問責制度”“加大對數據濫用、侵犯個人隱私、違背道德倫理等行為的懲戒力度”“打造人工智能基礎數據與安全檢測平臺,建設面向人工智能的公共數據資源庫、標準測試數據集、云服務平臺”.
4) 英國.2018年4月,英國商務、能源與產業戰略部(BEIS)和數字化、文化、媒體與體育部(DCMS)聯合發布《產業戰略:人工智能行業行動》[4],提出:①增強英國的數據基礎設施.政府致力于以可重用和易于訪問的方式開放更多的數據.②建立公平、公正和安全的數據共享框架.與業界合作,開創數據共享機制,例如數據信任;探討如何通過共享框架和對數據可移植性的考慮來改善數據共享.
5) 日本.2018年4月,日本發布《下一代人工智能和機器人核心技術開發計劃》,該計劃是自2015年5月第1版發布以來,日本政府面對人工智能技術發展及應用需求的快速變化所進行的第5次修訂.最新版本的計劃明確提出要加強數據驅動與知識驅動融合型人工智能的基礎理論研究,加快下一代人工智能框架與核心模型的研究,包括可實現數據安全與隱私保護的數據獲取模型和技術等.同時,要強化與美國的合作,在數據安全、隱私保護等方向聯合培養下一代研究人員.
6) 印度.2018年6月,印度國家轉型委員會(NITI Aayog)發布了《人工智能國家戰略》(National Strategy for Artificial Intelligence)[5](簡稱《戰略》),《戰略》以“為所有人開發人工智能”(AI for all)為主題,認為“隨著人工智能的發展和應用,必將帶來諸多隱私、安全、道德、公平、透明和問責制的問題”,因此政府必須要在這些方面采取行動.《戰略》認為數據偏見將會導致算法決策喪失原有的中立性,因此必須要“識別人工智能的內置偏見并評估其影響,以及反向尋找減少偏見的方法,以確保人工智能所使用數據的中立性”.同時,《戰略》認為數據安全和隱私問題來源于人工智能系統的濫用、歧視性和過度的數據采集以及數據的不恰當使用,因此要構建數據保護框架和部門監管框架,建立一個新的數據倫理與創新中心,旨在實現和確保包括人工智能在內的數據道德、安全和創新使用,包括“采用國際高標準的隱私保護規范;與業界合作,探索建立數據信任的可能性,以促進輕松、安全的數據共享”等.
1.2.1 美國:通過場景化立法規制人工智能數據安全
目前,雖然美國有多部聯邦層級的數據安全草案在國會審議,但其短期內較難進入實質性立法程序,因此美國當前依舊缺乏一部統一的、具備最高效力的國家數據安全保護法律.在數據安全法律體系上,美國主要通過公民隱私保護、計算機通信安全、知識產權、金融商貿、醫療教育等不同法律部門法的相關條款和修正案對數據安全進行規制,同時依托州層面的地方立法和行業自律公約進行補充.在人工智能數據安全方面,美國主要通過具體的場景化立法和州立法,對人臉識別、自動駕駛、隱私保護、精準推送、工業互聯網等一系列人工智能行業應用進行數據安全監管.
在人臉識別應用場景方面,美國近年來立法動作頻頻,規制日趨嚴格.2020年2月,美國加利福尼亞州眾議院通過了《加州人臉識別技術法》[6],強調原則上不禁止私營主體與公共主體運用人臉識別技術,但要在保障公民隱私及自由與發揮人臉識別技術的公共服務優勢方面尋求平衡.2020年3月,美國華盛頓州議會通過了《人臉識別服務法》[7],法案旨在以造福社會的方式促進人臉識別服務的使用,同時禁止相關應用威脅公民自由.由于華盛頓擁有微軟和亞馬遜2家全美最大的人臉識別軟件開發公司總部,而加州則是美國谷歌、蘋果等互聯網巨頭總部最重要的聚集地,因此這2部地方性州立法將在事實上對美國人臉識別應用起到極大的規制作用.此外,自2019年5月舊金山頒布全球首個禁止政府機構購買和使用人臉識別技術的法令以來,奧克蘭、薩默維爾和波士頓等市議會也紛紛通過禁止政府使用人臉識別技術進行監控的相關法案.2020年6月,美國參議院議員Ed Markey和Jeff Merkley共同向參議院提交了《2020年人臉識別和生物特征識別技術禁令法案》,旨在禁止使用美國聯邦資金采購聯邦政府官員使用的人臉識別系統或“任何生物特征識別監控系統”.
在自動駕駛應用場景方面,自美國內達華州在2011年出臺了全美第1部地方性自動駕駛安全法案以來,截至2018年底全美共有36個州通過州議會法案或是州長行政命令的方式對自動駕駛的認證、測試、部署和安全進行規制.2017年7月,美國參眾兩院一致通過了《自動駕駛法案》[8],明確聯邦政府和州政府在確保自動駕駛汽車安全方面的職責,并要求自動駕駛汽車生產商或者系統提供商向監管部門提交安全評估證明,以證明其自動駕駛汽車在數據、產品、功能等方面采取了足夠的安全措施.同時要求自動駕駛汽車制造商必須制定隱私保護計劃,明確對車主和乘客信息的收集、使用、分享和存儲的相關做法,包括在收集方式、數據最小化、去識別化以及數據留存等方面的做法.
在隱私保護方面,截至2019年底,美國50個州都有不同完備程度的法律規制,通過規定在線互聯網企業、電信增值業務企業的數據安全保護義務,來防止數據泄露、濫用和保護公民隱私.最具影響力的州隱私法案是加州2020年1月生效的《加利福尼亞消費者隱私法》(CCPA)[9],因其能直接規制監管到像谷歌、臉書、易趣和推特等總部在加州的美國著名互聯網平臺企業,因此在美國數據安全和隱私保護方面的影響巨大.法案將可以聯系到個體的生物信息、能力智商、行為偏好和情感心理偏好等納入個人信息范疇,并重點關注個人信息收集、買賣和共享3種活動,強調企業在進行個人信息處理分析和第三方共享利用的“opt-out”模式.
1.2.2 歐盟:基于統一數據安全立法下的場景化監管
歐盟通過2018年4月生效的《一般數據保護條例》(GDPR)框架,構建了一整套統一完備的數據安全治理體系,對于全球各國數據規則制定都有著極大影響.GDPR通過對用戶數據權利全面系統地梳理,對歐盟人工智能數據安全起到了基礎性規制作用,比如GDPR要求人工智能算法具有一定的可解釋性,同時第22條對自動化決策作了明確規定,提出當自動化決策產生的法律效力涉及數據主體或對其產生重大影響時,數據主體有權隨時反對企業使用其個人數據對其進行畫像等自動化決策.未來,歐盟將在GDPR框架下繼續加快自動駕駛、人臉識別、精準推送和智能制造等人工智能重要應用場景的數據安全立法.
在此基礎上,2020年4月,歐盟委員會發布《歐洲數據戰略》[10],提出將就影響數據敏捷型經濟體系中各主體關系議題探討立法行動的必要性,解決包括企業間共生數據的共享(物聯網數據)和建立數據池(用于數據分析和機器學習)的安全和信任問題.2020年6月,歐盟委員會向歐洲議會和歐盟理事會提交《數據保護是增強公民賦權和歐盟實現數字化轉型的基礎——GDPR實施2周年》報告,指出GDPR能夠確保新技術的開發符合基本權利,尤其是在大型數字企業的在線廣告和精準推送方面,GDPR的有效實施是保護個人的重要要素.未來的挑戰將在于闡明如何將行之有效的原則應用于需要持續監控的特定技術,包括人工智能、區塊鏈、物聯網和人臉識別等.2020年6月,歐洲數據保護監管機構(EDPS)發布《EDPS戰略計劃(2020—2024)——塑造更安全的數字未來》[11],在愿景中表示EDPS將積極關注可能對隱私和數據保護產生影響的數據處理實踐和技術的發展,加強對特定新興技術發展前沿的研究,包括生物識別技術、自動識別系統、量子計算、邊緣計算和區塊鏈等.同時,EDPS需持續開發強大的技術工具和監督、審計、評估機制,提供自動決策系統和人工智能處理個人數據的操作指南.最后,計劃表示支持歐盟境內的公共場所暫停使用生物識別技術,并對此開展民主討論.
各個成員國政府也不斷推出針對人工智能具體應用場景的數據安全法律和政策.在自動駕駛應用場景方面,2017年5月,德國聯邦議會和聯邦參議院共同通過了《道路交通法》修正案,允許“按規定使用”自動駕駛功能,同時明確了駕駛員使用該功能的權利義務以及駕駛數據的采集、存儲、使用及刪除規則.2017年8月,英國政府發布《網聯汽車和自動駕駛汽車的網絡安全關鍵原則》[12],對數據和個人信息的安全存儲、傳輸、處理和刪除提出了明確要求.2019年2月,歐盟成員國達成共識,共同簽訂自動駕駛指導文件,確定了包括行駛數據記錄、網絡安全及安全評估測試等在內的8項原則.在人臉識別應用場景方面,2018年7月,比利時政府出臺相關規定,禁止非授權的公共部門和私營部門使用人臉識別或其他基于生物特征的視頻分析攝像機,主要針對非警方的私營企業和公共部門使用人臉識別攝像機帶來的侵害公民隱私問題.
1.2.3 中國:加快數據安全統一立法和人工智能場景化立法
2020年以來,我國開始加快國家層面數據安全統一立法的速度.5月28日,第13屆全國人民代表大會第3次會議通過《中華人民共和國民法典》(簡稱《民法典》),確立了數據和虛擬財產依法受到保護、公民個人信息和隱私權保護的基本原則.比如在《民法典》第4編“人格權”的第6章“隱私權和個人信息保護”中,對自然人的隱私權,侵犯隱私的行為方式,自然人的個人信息定義,收集、處理自然人個人信息的原則、方式和限制,自然人的個人信息權利,信息收集、控制者的責任、義務和豁免等進行了明確規定.同時,針對人臉識別技術的應用,《民法典》第1019條明令禁止“利用信息技術偽造侵害他人肖像權”,第1023條首次將聲音作為人格權的肖像權保護客體.
2020年7月3日,全國人大正式對外公布《中華人民共和國數據安全法(草案)》(簡稱《數據安全法(草案)》)并征求意見,《數據安全法(草案)》作為我國數據安全領域的頂層立法,將數據安全明確納入到國家整體安全觀中,對國家數據安全制度和主體數據安全保護義務進行了全面規定,將為我國人工智能數據安全治理奠定堅實的上位法基礎.2020年10月21日,全國人大正式對外公布《中華人民共和國個人信息保護法(草案)》(簡稱《個人信息保護法(草案)》),對個人信息處理者的安全責任和合規義務作出了全面規定,并在第25條明確規定“利用個人信息進行自動化決策,應當保證決策的透明度和處理結果的公平合理”.
同時,我國還高度關注人工智能重點應用場景的數據安全立法.在2017年7月國務院發布的《新一代人工智能發展規劃》中,明確提出要“制定促進人工智能發展的法律法規和倫理規范,加快研究制定相關安全管理法規”.
在國家人工智能發展戰略的指引下,我國相關部門在金融科技、智慧城市、自動駕駛等應用領域紛紛出臺了相應的規范性文件,強調要加強人工智能的相關數據安全研究和管控.如在金融科技場景,2018年4月,中國人民銀行、中國銀監會、中國證監會和國家外匯管理局共同發布了《關于規范金融機構資產管理業務的指導意見》,在第23條對運用人工智能技術開展投資業務進行了相應規定,要求金融機構應當向金融監督管理部門報備人工智能模型的主要參數以及資產配置的主要邏輯,并向投資者充分提示人工智能算法的固有缺陷和使用風險.2019年8月,中國人民銀行發布《金融科技(FinTech)發展規劃(2019—2021年)》,提出要“加強金融領域人工智能應用潛在風險研判和防范,確保把人工智能金融應用規制在安全可控范圍內”.
整體來看,我國目前尚未形成體系完善的人工智能數據安全法律法規.雖然《數據安全法(草案)》和《個人信息保護法(草案)》已發布,但其落實尚需要一系列配套法規、部門規章和規范性文件提供支撐.同時由于上位法尚未出臺,人工智能場景化立法的步伐也相對滯后,數據安全并未在相關人工智能應用行業的規范性文件中得到足夠的重視和明確的規制要求.未來,我國還需要在《網絡安全法》《數據安全法(草案)》和《個人信息保護法(草案)》的體系框架下,加快生物特征識別、工業互聯網、智能網聯汽車、數字內容精準推送等人工智能重點應用領域的場景化立法,構建完備的人工智能數據安全法律體系.
1.3.1 國際標準組織:加快推動國際人工智能數據安全標準建設
1) ISO/IEC JTCI:2017年10月,ISO/IEC JTC1(聯合技術委員會)成立人工智能分委會(即JTC1 SC42),負責人工智能技術相關的標準制定.目前,SC42已經成立了包括基礎標準(WG1)、數據(WG2)、可信(WG3)、用例與應用(WG4)、計算方法和計算特征(WG5)在內的5個工作小組.
ISO/IEC主導的相關系列標準有:①ISO/IEC TR 24027《信息技術-人工智能-人工智能系統和人工智能輔助決策中的偏見》,該標準將系統梳理人工智能系統和自動化決策中可能引起算法偏見的要點,并提出解決方案.②ISO/IEC TR 24028:2020《信息技術-人工智能-人工智能可信度概述》,提出通過透明度、可解釋性、可控性等方式建立對人工智能系統的信任,人工智能系統的工程缺陷和典型的相關威脅和風險,以及可能的緩解技術和方法.③ISO/IEC CD 23894《信息技術-人工智能風險管理》,將系統梳理人工智能多維度的風險,包括數據安全、隱私保護、數據質量等,并提出人工智能風險管理的流程方法.
2) IEEE:IEEE標準協會設立了相關工作小組開展一系列人工智能數據安全標準制定工作,如IEEE P3652.1聯邦學習基礎框架與應用工作組負責聯邦學習的相關安全標準化工作.
IEEE主導的系列標準包括:①IEEE P7002《數據隱私處理》.該標準將對涉及個人信息處理的產品、服務、系統和軟件工程過程中的隱私保護提出明確要求,包含從策略到開發、質量保證和價值實現的整個生命周期,并為企業提供隱私影響評估工具.②IEEE P7003《算法偏見注意事項》.該標準將提出并幫助用戶保證他們在創建算法時如何處理和消除負面偏見的具體方法.③IEEE P7006《人工智能代理個人數據標準》.人工智能的發展帶來了一種風險,即機器對機器的決策可能在沒有輸入和不透明的情況下做出.為了避免這種情況,并確保人工智能在道德上得到發展,個人需要能夠影響和決定價值觀、規則和輸入,這些價值觀、規則和輸入指導與他們的身份直接相關的個性化算法的發展.標準IEEE P7006將描述創建和授予個性化人工智能(AI)訪問權限所需的技術要素,包括由個人控制的輸入、學習、倫理、規則和價值觀.該標準將幫助開發AI代理,提供數據庫和算法,允許個人訪問和控制個人信息.
1.3.2 美國:強調通過標準制定來確保其全球人工智能領導地位
2019年2月,美國總統特朗普發布13859號行政令,指示聯邦機構應確保美國保持在人工智能中的領導地位,提出確保技術標準能夠反映聯邦在創新和公眾對使用AI技術的信任方面的優先事項,并提出制定國際標準以促進和保護這些優先事項.2019年8月,美國國家標準與技術研究院(NIST)發布了《美國如何領導人工智能:聯邦參與制定技術標準及相關工具的計劃》[13](簡稱《計劃》),旨在落實總統行政令的要求.《計劃》認為美國在人工智能領域的全球領導地位取決于聯邦政府在人工智能標準制定中發揮的推動作用,并確定了人工智能標準的9個重點領域,包括概念和術語、數據和知識、人機互動、指標、網絡、性能測試和報告方法、安全、風險管理和可信賴.因此,美國積極參與ISO/IEC等國際標準組織的人工智能、大數據等工作組的相關標準研究、制定和推廣工作,主導和召集了一系列涉及人工智能數據安全標準的工作.
2020年1月,NIST發布《隱私框架1.0版:通過企業風險管理來提升隱私的工具》[14],旨在為相關組織對隱私風險進行評估管理,提升自身個人數據保護能力提供支撐.隱私框架由NIST召集的眾多利益相關者共同開發,包括:1)核心層,幫助組織確定隱私保護的預期目標和各行動的優先級;2)概況層,幫助組織識別并管理隱私風險,滿足組織的隱私保護目標和業務風險防范的需求;3)實施層,幫助組織通過對資源和流程的協調管理,實現隱私保護.基于NIST在全美標準屆的權威地位,《隱私框架1.0》將成為美國各大互聯網企業開展隱私保護工作的主要參考,為美國人工智能數據安全治理提供基礎性的標準支撐.
1.3.3 歐盟:歐盟和成員國共同參與人工智能數據安全標準制定
目前,歐盟的人工智能數據安全標準包括歐盟層面的指南參考和各成員國具體制定的國家標準.2017年12月,歐盟網絡與信息安全局(ENISA)發布了《移動應用中的隱私和數據保護——應用開發生態系統與GDPR技術實施研究》[15],基于移動應用程序中的數據安全和隱私目標提出了在移動APP中實施“設計即隱私”理念的建議,其中涉及眾多用戶畫像和自動化決策場景.2018年12月,歐盟網絡與信息安全局(ENISA)發布了《自動代理中的安全和隱私——為網絡安全政策制定形成框架》[16],提出了人工智能和自動代理系統中存在的數據和隱私安全問題,包括未經授權的自主系統、劫持和濫用、透明度和問責制、數據保留和不透明的處理,并為歐洲形成相關政策框架提供了一系列對策建議.2019年6月,歐盟基本權利局(FRA)發布了《數據質量和人工智能——減輕偏見和錯誤,以保護基本權利》[17],為評估數據質量提供了指導.
同時,2020年2月,歐盟理事會發布人工智能白皮書《面向卓越和信任的歐洲人工智能發展之道》,強調歐洲人工智能治理結構必須是和成員國國家的主管部門開展合作,從而避免責任的碎片化,提升成員國能力,包括識別新興趨勢、標準化和認證活動等.以德國為例,2018年7月,德國聯邦政府通過了《聯邦政府人工智能戰略要點》文件,在10項目標的第8點中明確提出要“在國際標準化委員會中強有力地代表歐洲共同利益;致力于國際標準的制定.”2019年8月,德國標準協會(DIN)表示已成立一個領導小組,目前正加緊研制人工智能標準路線圖.該標準路線圖將包括對AI方面現有規范和標準的概述,以及對未來AI標準制定的建議,旨在提高德國在國際標準制定方面的影響力.
1.3.4 中國:高度重視人工智能行業場景化的數據安全標準建設
目前,我國工信部、全國信息安全標準化技術委員會(SAC/TC260)、中國通信標準化協會(CCSA)等國家部委和標準化組織,高度重視人工智能數據安全的相關標準制定工作.2018年1月,國家標準化管理委員會正式成立國家人工智能標準化總體組,承擔人工智能標準化工作的統籌協調和規劃布局.
2020年3月,國家工信部發布《網絡數據安全標準體系建設指南(意見征求稿)》,明確將人工智能列為數據安全標準體系建設的重點內容.2020年3月,全國信息安全標準化技術委員會發布《全國信息安全標準化技術委員會2020年度工作要點》,明確提出要“積極應對新技術新應用帶來的國家網絡安全挑戰,研制5G安全、人工智能安全、物聯網安全、區塊鏈安全等領域新技術標準.”同時在人工智能具體應用場景上,2019年5月,國家工信部發布《2019年智能網聯汽車標準化工作要點》,在重點內容的第3項中明確提出要“有序推進汽車信息安全標準制定,完成汽車信息安全通用技術等基礎通用及行業急需標準的制定”.
目前,我國涉及人工智能數據安全的在研或已發布標準大致有3類:一是基于數據安全、隱私保護視域下的數據安全標準,能夠對人工智能數據安全治理提供基礎性技術參考;二是基于人工智能技術開發和工程應用視域下的安全標準,針對終端、環境、平臺和算法等不同工程環節提出數據安全要求;三是針對生物特征識別、自動駕駛、工業互聯網、物聯網、智能家居等人工智能各種應用場景的行業性標準規范.
數據安全和隱私保護技術的研究突破和落地應用,能夠極大地提高政府和企業人工智能應用中的數據安全能力.目前國際上致力于此類技術研究的主體主要有2類:一是以谷歌、微軟等為代表的全球互聯網巨頭,投入建設了大量人工智能實驗室和研究所,如Microsoft Research,Google Brain,Intel AI,Visa Research等.二是以伯克利大學、斯坦福大學、麻省理工學院等為代表的學術機構.其中,基于隱私保護的機器學習技術可以大大解決人工智能發展中的數據和隱私擔憂,主要包括同態加密、差分隱私、安全多方計算、聯邦學習等多種技術方向.
同態加密是一種加密形式,允許對加密的數據執行計算而無需先解密.計算的結果是加密的,當解密輸出時,就像對未加密的數據執行了操作一樣.在同態映射下,先運算后加密和先加密后運算,得到的結果相同.Intel在2018年發布的開源工具HE-Transformer,就是利用同態加密,使得機器學習算法能夠處理加密的隱私數據.
同態加密可用于基于隱私保護的數據外包存儲和計算.它允許對數據進行加密,并將數據外包到商業云環境進行處理,同時進行加密.對于受到高度監管的行業來說,安全地將數據外包給云環境或數據共享伙伴進行研究和分析一直是一個挑戰.同態加密可以改變這種情況,因為它可以在不損害隱私的情況下對數據進行分析.這將影響許多行業,包括金融服務、信息技術、醫療保健等.在這些領域,同態加密可以通過消除限制數據共享的隱私障礙來利用數據產生新的服務.
與其他加密形式一樣,同態加密使用公鑰對數據進行加密.但不同的是,它使用一個代數系統來允許在數據仍然加密時對其執行函數.完成功能和操作后,只有具有匹配私鑰的個人才能訪問未加密的數據.這樣即使有人在使用數據,數據也可以保持安全和隱私.
同態加密有3種主要類型:1)部分同態加密(partially homomorphic encryption),通過只允許對加密數據執行選定的數學函數來確保敏感數據的安全;2)某種同態加密(somewhat homomorphic encryption),支持只能執行一定次數的有限操作;3)全同態加密(fully homomorphic encryption),這是同態加密的黃金標準,可以保證信息的安全和可訪問性.
美國計算機專家Craig Gentry將同態加密描述為一個手套箱,任何人都可以把手伸進手套箱,操縱里面的東西,但他們被禁止從手套箱中提取任何東西.他們只能使用原材料(數據)在盒子里創造一些東西.當操作完成時,只有擁有密鑰的人才可以刪除原材料(處理過的數據).
目前,同態加密被廣泛應用的最大障礙是它的計算速度仍然非常慢,以致于在許多應用程序中還不能實際應用.不過,IBM和微軟等科技公司和一些研究人員正在努力通過減少同態加密所需的計算開銷來加快這一進程.
在許多人工智能應用中,機器學習需要基于敏感數據開展訓練,例如照片等.在理想情況下,機器學習模型參數代表的應該是通用模式,而不是關于特定個人數據主體的信息.在這種情況下,差分隱私作為一種隱私保護技術可以提供有效的隱私保護.差分隱私是在統計和機器學習分析的背景下對隱私的一個強有力的數學定義.當基于隱私數據進行訓練時,差分隱私能夠保證模型不會學習或記住任何特定數據主體的細節信息[18].
“一般信息”(general information)是指不特定于任何單個數據主體的任何信息,可理解為“一般信息”是指數據中所包含的全部人口的信息(而不僅僅是1個人或1組數據主體).對應“一般信息”的是“私人信息”(private information),是指可具體到任何個人數據主體的信息.私人信息可導致在選擇去除某個數據主體之前和之后,數據中的信息將發生變化,這就是“差分”的含義.差分隱私在數學上可以保證,無論一個數據主體的隱私信息是否包含在數據分析的輸入數據中,都可對任何個人的隱私信息作出相同的推斷.換言之,差分隱私對每個為數據分析貢獻數據的個人主體提供了以下保證:差異隱私分析的輸出將大致相同,無論該個體是否貢獻數據.差分隱私為隱私保護提供了一個數學上可證明的保證,可以抵抗各種各樣的隱私攻擊,包括差分攻擊、鏈接攻擊和重構攻擊等.
安全多方計算(MPC)是一種加密協議,它將計算分布在多方之間,其中任何一方都不能看到其他方的數據.因此,安全多方計算能夠支持非公開的分布式計算,解決互不信任的參與方之間在協同計算時的隱私保護問題.安全多方計算協議可以使數據分析人員在不公開或移動分布式數據的情況下,遵從性和安全性地開展多方計算.在這些計算中,為達到維護安全性的目的,需要每個參與者只獲得自己的目標輸出,而不獲得其他輸出.
安全多方計算可用于解決各種各樣的問題,使數據在利用的同時不侵犯隱私.例如,在將1個人的DNA與癌癥患者的DNA數據庫進行比較,以發現這個人是否屬于某種癌癥的高危人群時,由于個人的DNA數據是高度敏感的,因此不應泄露給任何私人組織.這種情況可以通過運行安全多方計算協議來解決,協議中的“隱私需求”確保只透露癌癥的類別,而不透露任何人的DNA(既包括被檢查人的DNA,也包括數據庫中患者的DNA),此外,協議中的“正確性需求”保證惡意的一方不能改變結果(例如,使被檢測人認為他們有患某種癌癥的風險,因此需要額外的篩查).
聯邦學習(federated learning)是一種機器學習技術,指在不交換數據樣本的情況下,訓練算法跨越多個分散的邊緣設備或服務器.這種方法與傳統的集中式機器學習技術(所有的本地數據集中上傳到1臺服務器上)形成對比.其核心是,在本地進行AI模型訓練,然后僅將模型更新的部分加密上傳到數據交換區域,并與其他各方數據進行整合.聯邦學習允許多個參與者在不共享數據的情況下構建一個通用的、健壯的機器學習模型,從而能夠解決數據被集中所帶來的數據隱私問題[19].
聯邦學習的主要適用場景是AI聯合訓練.通過利用聯邦學習的特征,為多方構建機器學習模型而無需導出本地數據,不僅可以充分保護數據隱私和數據安全,還可以獲得更好的訓練模型,從而實現互惠互利.典型應用案例是谷歌將聯邦學習應用在智能手機上,AI模型可以持續迭代,而訓練數據僅安全保存在用戶的移動設備中.
聯邦學習的優勢在于:1)使移動手機等設備能夠協作學習共享的預測模型,同時將訓練數據保存在設備上,而不需要將數據上傳并存儲在中央服務器上.2)將模型訓練推向了邊緣,即智能手機、平板電腦、物聯網等設備,甚至是醫院等需要在嚴格隱私限制下運營的“組織”.將個人數據保存在本地是一個強大的安全優勢.3)使得實時預測成為可能,因為預測發生在設備本身.聯邦學習減少了由于將原始數據傳輸回中央服務器,然后將結果發送回設備而產生的時間延遲.4)由于模型駐留在設備上,即使沒有互聯網連接,預測過程也能工作.5)聯邦學習減少了所需的硬件基礎設施數量,移動設備中的硬件即可滿足聯邦學習模型的運行.
人工智能數據安全挑戰會隨著人工智能技術的發展突破、應用行業的不斷深入擴大等因素加快演變,其對于人類現實社會的外溢和威脅將是一個復雜的長期過程.因此,我國必須要在人工智能的動態發展中實現對數據安全風險整體的可知可控,確保人工智能數據在采集、標注、處理、存儲、流動、共享和場景應用的全生命周期安全,不斷提高人工智能企業的數據安全能力,增強人工智能數據安全供給鏈的連續性和可用性.
同時,我國要充分發揮“安全”對“發展”的賦能作用,通過完備的安全治理降低數據流動中的技術和法律壁壘,實現數據安全、便捷、低成本的互通和利用,賦能人工智能技術和產業的全面新發展,總結具有中國特色的人工智能數據安全治理范式,提高我國在人工智能數據安全領域的國際話語權和影響力,引領全球人工智能和數據安全規則制定.