人工智能從“大煉模型”到“煉大模型”

2021-06-02 23:58:14崔爽

科學導報 2021年27期

崔爽

人工智能可以分為幾個發展階段：基于數據的互聯網時代、基于算力的云計算時代，以及接下來可能將進入的基于模型的AI時代，這相當于把數據提升為超大規模預訓練模型。未來，研究人員可以直接在云模型上進行微調，很多公司甚至不用維護自己的算法研發團隊，只需要應用工程師即可。

寫小說、和人聊天、設計網頁、編寫吉他曲譜……號稱迄今為止最“全能”的AI模型GPT-3，當然遠遠不止會這些。作為2020年人工智能領域最驚艷的模型之一，GPT-3無疑把超大規模預訓練模型的熱度推向了新高。

3月下旬，我國首個超大規模人工智能模型“悟道1.0”發布，該模型由智源學術副院長、清華大學教授唐杰領銜，帶領來自清華大學、北京大學、中國人民大學、中國科學院等單位的100余位AI科學家組成聯合攻關團隊，取得了多項國際領先的AI技術突破，形成了超大規模智能模型訓練技術體系，訓練出包括中文、多模態、認知和蛋白質預測在內的系列超大模型。

1、已啟動4個大模型開發

據悉，“悟道1.0”先期啟動了4個大模型研發項目：以中文為核心的超大規模預訓練語言模型文源、超大規模多模態預訓練模型文瀾、超大規模蛋白質序列預測預訓練模型文溯，以及面向認知的超大規模新型預訓練模型文匯。

唐杰介紹，文源擁有26億參數，文瀾則為10億，文溯是2.8億，文匯則達到了百億以上。雖然相對于GPT-3的1750億參數而言還有差距，但“接下來會有更大的模型”。

目前，文源模型參數量達26億，具有識記、理解、檢索、數值計算、多語言等多種能力，并覆蓋開放域回答、語法改錯、情感分析等20種主流中文自然語言處理任務，在中文生成模型中達到了領先的效果。

“目前這些模型既有一些交集，但也存在明顯差異。文源的重點是在中文和跨語言，未來也會加入知識;文瀾的重點主要是圖文;文匯則更多地瞄向認知。”唐杰表示，認知是人工智能技術發展的趨勢和目標，關系到機器是否能像人一樣思考這個終極問題。

被問及為何會選擇這4個預訓練模型項目時，唐杰說，這是綜合考慮了國內外同行的相關工作、國內人工智能發展的現狀、團隊人員構成、北京區域優勢等作出的決定。“當時GPT-3剛發布不久，悟道團隊認為首先要對標其卓越的少樣本學習能力，同時還要做出差異化，做短、中、長3個階段的布局。于是，中文版GPT-3即清源CPM（文源的前身）應運而生，這是短期布局。之后，文源要向中英文模型乃至多語言模型發展，這是中期布局。最后走向認知智能，這是長期布局。”唐杰說，與此同時，國內頂尖的企業人才、學術人才和自然科學人才所組成的團隊給了項目巨大的想象空間。

2、大模型有大智慧

自2018年谷歌發布BERT以來，預訓練模型逐漸成為自然語言處理（NLP）領域的主流。

2020年5月，OpenAI發布了擁有1750億參數量的預訓練模型GPT-3。作為一個語言生成模型，GPT-3不僅能夠生成流暢自然的文本，還能完成問答、翻譯、創作小說等一系列NLP任務，甚至可以進行簡單的算術運算，并且其性能在很多任務上都超越相關領域的專有模型。

以GPT-3為代表的超大規模預訓練模型，不僅以絕對的數據和算力優勢取代了一些小的算法模型，更重要的是，它展示了一條通向通用人工智能的可能路徑。在此背景下，建設國內的超大規模預訓練模型和生態勢在必行。

在唐杰看來，為了提高機器學習算法的效率，改變傳統的行業布局，過去幾年，大家拼命做模型，導致模型越做越多。然而，一般的模型訓練效果并不如人意，花了大量財力精力卻達不到理想的訓練效果，“為了優化效果、提高精度，模型越來越復雜，數據越來越大，很多公司的能力不足以應對這種狀況，效率越來越低。”

唐杰舉了個例子，小煉鋼廠往往條件簡陋，能煉鋼，但質量不好。大煉鋼廠買得起設備、花得起電費，煉出的鋼質量就好，大模型就是大煉鋼廠，它可以獲得大量數據，并把數據清洗干凈，提升算力，滿足要求。

與此同時，“小模型可能只需要幾個老師和學生就能完成算法的設計，但是大模型的每一層都要找專人來做，這樣可以把模型的設計和訓練精細化，模型設計也從單打獨斗變成了眾人拾柴。”唐杰說。

3、小團隊將成最大受益者

據唐杰透露，團隊目前正在跟北京冬奧會合作，開發可通過文本自動轉成手語的模型，“醫療方面我們的主要方向是癌癥早篩，如上傳乳腺癌圖像，找到乳腺癌相關預測亞類，通過影像識別宮頸癌亞類等。”

而談到“悟道1.0”的發展，唐杰坦言，目前還存在需要持續攻關的問題。

一是模型能否持續學習的問題，即能否不斷地從新樣本中學習新的知識，并能保存大部分以前已經學習到的知識。就目前來看模型還需要調整，其效果還有待加強;二是面對一些復雜問題，目前模型還無法回答;三是萬億級模型的實用性問題，即如何在保證精度的同時壓縮模型，從而能讓用戶低成本地使用。

“這是一個全新的產業模式。原來大家數據上云、算力上云，現在模型上云。”唐杰說。

他認為，人工智能可以分為幾個發展階段：基于數據的互聯網時代、基于算力的云計算時代，以及接下來可能將進入的基于模型的AI時代，這相當于把數據提升為超大規模預訓練模型。

未來，研究人員可以直接在云模型上進行微調，很多公司甚至不用維護自己的算法研發團隊，只需要應用工程師即可。

唐杰表示，隨著超大規模預訓練模型系統的開放，小團隊是最大的受益者，大家不必從零開始，預訓練基線智能水平大幅提升，平臺多樣化、規模化，大家在云上可以找到自己所需的模型，剩下的就是對行業、對場景的理解。這將給AI應用創新帶來全新的局面。

唐杰透露，“悟道1.0”只是一個階段性的成果，今年6月將會有一個規模更大、水平更高的智慧模型發布。屆時，模型規模會有實質性的進展：模型會在更多任務上突破圖靈測試，其應用平臺的效果也會更加讓人期待。