編譯 李軍平

傳統觀點認為,尖端人工智能依賴大量數據方可發展成熟。因此,數據是一種關鍵的戰略資源,國家(或公司)獲取的數據量被視為人工智能領域進步的關鍵指標之一。數據的確對人工智能發展起到了極為關鍵的作用,目前許多人工智能系統正在使用大量數據。但是,如果政策制定者相信數據是實現所有人工智能系統的永恒真理,就會誤入歧途。過分強調數據將忽略并低估其他實現人工智能方法的潛力,而這些方法并不需要大量數據集,也無需從實際交互方式上收集數據。在本文中,我們將之稱為“小數據”方法。
我們所稱的“小數據”不是一個明確的類別,因此并沒有統一、正式的定義。學術人士在討論應用領域的小數據時,通常將其與樣本的大小相關聯,例如千字節、兆字節或兆兆字節。很多媒體文章指出了小數據與各種因素的關系,如數據可用性和人類對數據的理解程度、數據的數量以及需要哪些格式使之更易于獲取、承載更多的信息和更便于操作(對于商業決策尤為重要)。許多人通常將其視為一種全能的資源。然而,數據并非全能,構建不同領域的人工智能系統,需要不同類型的數據和方法。
有人指出,政府機構只有推行數字化并清理和標記大量數據,才能從人工智能革命中受益。雖然這一觀點頗為中肯,但人工智能的進步并非完全取決于這些條件。這種觀點掩蓋的事實是:人工智能的未來不僅僅取決于大數據,即便不進行大規模的大數據基礎設施投資,政府部門(以及更廣泛的社會)仍有可能實現人工智能創新。
“小數據”方法大致可分為五類:a)遷移學習b)數據標記c)人工數據生成d)貝葉斯方法e)強化學習。這些類別(將在下文詳述)其實并不完全。在研究人工智能和機器學習時,會結合許多不同的方法、途徑和范例,解決多種不同類型的問題,因此并不容易分類。下文介紹這些類別的目的,旨在讓讀者大致了解在沒有預先標記大數據集的情況下訓練人工智能系統的粗略概念方法。我們使用的類別并不是完全彼此獨立的,它們之間并不相互排斥,也并非總體全面的方法。
遷移學習的工作原理是:首先學習如何在數據豐富的環境中執行任務,之后將所學知識“遷移”至可用數據匱乏的任務中。這在“只有少量標記數據可用于處理感興趣的問題,但有大量標記數據可用于相關問題的設置”中非常有用。
數據標記方法適用于已標記數據很少、未標記數據很多的環境。這類方法通常使用多種方式去理解未標記數據,例如自動生成標簽(自動標記)或識別標簽能夠發揮作用的數據點(主動學習)。
人工數據生成是指通過創建新的數據點或其他相關技術,力求從少量數據中最大限度地提取信息。這類方法應用范圍較廣,既包括對現有數據進行小規模變更(例如,裁剪或旋轉圖像以分類集中數據圖像)這種簡單的方法,也包括研究可用數據的底層結構并進行推斷演繹這種復雜的方法。
貝葉斯方法借鑒了機器學習和統計學的方法,并具有兩大特點。第一,將問題的架構信息(所謂的“先驗”信息)納入問題的解決方法中。這與大多數其他機器學習方法形成鮮明對比,后者傾向于對問題做出最少的假設。貝葉斯方法可在根據可用數據進行后續改進之前納入這種“先驗”信息,因此更適合于一些數據匱乏的環境,而且可以通過數學方式列述問題信息。第二,貝葉斯方法可對預測的不確定性做出更好的修正。這在可用數據匱乏的情況下很有幫助,因為貝葉斯方法可以減少不確定性,因此可更容易地識別相關數據點。
強化學習是一個廣義的機器學習方法術語,指智能體(計算機系統)通過試錯方式來學習如何與環境交互。強化學習通常用于訓練游戲系統、機器人和自動駕駛汽車領域。
如果實現人工智能的方法不依賴于大量預先收集和標記的數據,小數據方法將具有許多優勢。
減少大型和小型實體間的能力差距大型數據集對許多人工智能應用程序變得日益重要,因而人們對小型實體能否妥善收集、存儲和處理數據憂心忡忡。擁有人工智能能力的大型實體可能拉開與其他公司的差距。如果遷移學習、自動標記、貝葉斯等方法能夠在數據較少的情況下應用人工智能,則小型實體在數據方面的準入門檻將會降低,進而縮小不同實體之間的人工智能能力差距。
減少收集大量個人數據的動機調查表明,大多數美國人認為人工智能將嚴重損害個人隱私權利。這種擔憂源自大型科技公司為了訓練人工智能算法,持續收集與個人身份相關的消費者數據的想法。而小數據方法可減少為訓練機器學習模型而收集實際數據的需求,進而減輕上述擔憂。比如,使用人工數據生成方法(如人工數據合成)或使用模擬訓練算法的方法。這兩種方法并不依賴于個人數據,也可通過合成數據的方式消除個人身份中的敏感信息。雖然這并不意味著所有隱私問題都將得到解決,但通過減少收集大量實際數據的需求,可降低人們對大規模收集、使用或曝光消費者個人數據的擔憂。
促進數據匱乏領域的發展近期許多人工智能的進步都是通過可用數據的爆炸式增長得以實現的。然而,對于許多重要的問題,卻幾乎沒有任何可以輸入人工智能系統的數據進行分析。沒有相關數據,就無法為缺乏電子病例的人士建立預測疾病風險的算法,也難以預測火山再次爆發的可能性。小數據方法可以使我們按照一定的規則去處理此種缺乏數據的情況。例如,可利用已標記和未標記的數據,將所學知識從相關任務“遷移”至數據匱乏的任務;也可以利用現有的少量數據點來創建更多的數據點,憑借有關領域的先驗知識,或通過構建模擬編碼和結構假設去探索新的領域。
規避“臟數據”問題小數據方法可使大型機構脫離“臟數據”困擾,這些機構雖然擁有許多數據,但數據不夠干凈、架構不夠清晰且不便于分析。例如,由于各個數據基礎設施獨立且系統落后,美國國防部就存在大量“臟數據”,需要付出大量時間和人力成本進行數據清理、標記和重組。小數據方法中的“數據標記”方法可通過自動生成標簽來降低處理大量未標記數據的難度。遷移學習、貝葉斯方法或人工數據方法可縮減需要清理的數據量(只需通過相關數據集、結構化模型和合成數據等),顯著減少“臟數據”的規模。
總而言之,我們認為人工智能領域的決策者必須清楚了解數據在人工智能發展中扮演的角色。雖然上述觀點(不使用大量的個人數據)并不適用于本文所述所有方法——比如,強化學習確實需要大量數據——但這些數據是在訓練過程中(例如,人工智能系統移動機械臂或在虛擬環境中導航)生成,而非預先收集的。
為了探索小數據方法的研究進展情況,我們使用了美國安全與新興技術中心(CSET)的研究集群數據集來確定哪些研究屬于上述五個類別(遷移學習、數據標記、人工數據生成、貝葉斯方法和強化學習)。研究集群是指通過提供引用鏈接而建立的科研論文群組,研究人員可以通過這一方式交流其使用的想法、方法、結果,或其參考的其他研究成果。
最終確定,在735個人工智能研究集群中,有150個研究集群屬于上述5個類別之一。150個研究集群涵蓋了80 324篇來自CSET合并學術文獻匯編的論文,占全球相關學術成果的90%以上。為了確定哪些論文屬于“小數據”類別,我們與技術專家合作,定義了一組與這5個類別相關的關鍵詞,之后搜索各個集群,確定其論文是否存在關鍵詞。最后,我們手工排除了與小數據明顯無關的集群。在我們確定了150個屬于五個類別之一的集群后,將這些研究集群中的所有論文視為相應的類別。在此過程中,雖然我們試圖平衡準確性和包容性,但很有可能會因作者引用不足的問題而遺漏一些論文,也有可能引用一些僅僅與某個集群相關,但可能沒有直接涉及主題的研究論文。因此,以下分析結論僅供參考,并不具有決定性意義。
上文介紹了一系列“小數據”人工智能方法,我們根據研究結果提出以下結論:
人工智能不等于大數據,也不是大型、預先標記的數據集的代名詞。大數據在過去十年的人工智能熱潮中發揮了巨大作用,但如果把大規模數據收集和標記視作發展人工智能的先決條件,這很可能將政策制定者引入歧途。可在不同環境下、以不同方式使用多種替代方法。如果現有問題的數據十分匱乏,但相關問題的數據相當豐富,可使用遷移學習方法。如果可提供一個模擬或真實的環境,以便智能體通過試錯、而非預先收集的數據來學習,最終解決問題,則可使用強化學習方法。
遷移學習的研究發展尤其迅速——甚至比規模更大、更廣為人知的強化學習領域發展更快。因此,這種方法在未來可能會得到更廣泛的應用。尋求確定相關數據集,并將其作為遷移學習方法的基礎,將有助于面臨利益問題數據缺乏的決策者。
根據我們的研究集群方法,在這5個類別中,美國和中國在小數據方法領域競爭激烈,也是在該領域最為領先的兩個國家(根據研究論文數量)。雖然美國在兩種規模最大的類別(強化學習和貝葉斯方法)中更為突出,但中國在遷移學習這一增長最快的類別中也取得小幅領先。
目前來看,美國政府可以在遷移學習領域加大資助力度。相對于整個人工智能領域的投資規模,美國政府在小數據方法領域投入并不大。這可能是因為此類領域的研究沒有得到美國政府足夠的重視,也可能是因為美國私營部門對小數據方法的研究資金期望過高。無論如何,鑒于遷移學習正在快速崛起,其有望從美國政府方面獲得更多的資助機會。
資料來源 CSET