陳寧
高速公路上,無人駕駛駛入現實,沒有司機的出租車正搭載乘客,以“頂格”時速駛向機場;
手術室里,腹腔鏡中纖毫畢現,醫生正用醫療機械臂為遠在新疆的患者實施腫瘤切除手術;
制造車間內,“鋼鐵巨象”翩然起舞,120余臺焊接、抓取、組裝和搬運機器人正圍繞16條智能生產線各顯神通;
……
這些,只是數字化時代的北京城市一隅。在數字經濟蓬勃發展的今天,“智力”已如水、電、網一樣流向日常生活,一步步實現著人們對新質生產力構造的活躍社會的渴望。
數字賦能千行百業,離不開“產業大腦”的支持。這“大腦”,就是人工智能的底座——大模型。
海淀區成府路150號。一棟看似普通的紅磚建筑里,集結了幾乎北京最頂尖的人工智能領域人才。這里,就是北京智源人工智能研究院所在地。也正是這棟樓里,誕生了我國首個大模型——“悟道”,這家研究院由此沖破西方國家的壟斷,推動我國人工智能發展行至深處。
時不我待,構筑人工智能生態“護城河”
2020年5月,美國著名人工智能公司Open AI發布一款名為“GPT-3”的語義大模型,一時掀起行業巨浪——通過海量數據學習,人工智能首次出現了類似人類的邏輯推理能力。
中國的科研工作者在為GPT-3沸騰的同時,也產生了極大的心理落差——彼時,我國人工智能領域在各個方面并不占優。
《中國新一代人工智能發展報告2019》顯示,當時,雖然我國人工智能領域論文數量全球居首,但引文影響力指標卻相對落后;人才擁有量雖僅次于美國,但高水平人才卻不到美國的五分之一。即使是在全國人工智能高地的北京,大模型方向的研究也幾乎是空白。
更嚴峻的是,一旦被裹挾進入西方構建的人工智能生態圈,那么所有與之相關的產業鏈躍遷,都有可能被掣肘。如同手機上的應用軟件,如果沒有強大的系統支撐,開發得再多、再好也用不了。“必須聚焦攻關自主可控的底座大模型,構建起自己的人工智能生態‘護城河。”清華大學自然語言處理實驗室主任孫茂松說。
孫茂松和同事們四處尋求合作者,卻發現這項壁壘極高的研究,高校做不了,企業又不愿意做。雖是春暖花開的5月,他們卻猶如淋了一身冷水。
高校通常以“項目制”牽頭科研,大多以“年”為論證周期。但人工智能領域的科技創新瞬息萬變,必須全力追趕。顯然,這種科研機制與“大模型”的研發訓練并不適配。
困擾企業的,則是投入產出比問題。大模型好似“空中樓閣”,需要算法、算力、數據的海量資金支持。況且,依據“摩爾定律”,投入的昂貴設備每18個月就會貶值一半,成果卻遙遙無期。這讓不少企業望而卻步。
躊躇之際,孫茂松、劉知遠、黃民烈等幾位科學家不約而同地將目光投向了離清華只有幾百米遠的一所新型研發機構——北京智源人工智能研究院(以下簡稱“智源研究院”)。
這家新型研發機構,新在哪里?
成立于2018年11月的智源研究院,肩負著人工智能前沿探索使命,從主體、人才使用到成果轉化,解決的是創新研發中生產要素錯配、失配、低配造成的堵點、痛點、難點。
“作為科技部和北京市政府支持下成立的民辦非營利性研究機構,智源實行理事會領導下的院長負責制。這就決定了它可以不設考核和階段性目標,鼓勵科學家自主決策,去破解那些顛覆性技術和前沿技術難題。”智源研究院理事長黃鐵軍舉了一個生動的例子,“重大的國家級科研項目,用兩三年時間研究立項并不鮮見。但在智源,只要論證科學嚴謹,兩小時通過由業內頂級專家組成的‘院務會、即刻撥付數百萬元研發資金,都是常態。”
制度集成、創新賦能,這是“時間不等人”的膽識。科學家們與智源研究院一拍即合。
以技術為信仰,勇闖大模型研發“無人區”
2020年11月,智源研究院以北京市籌集的1000P算力支持為起點,決心背水一戰。
沒有作業可以抄,沒有經驗可以循,有的是以技術為信仰的一腔熱情和錨定國家重大戰略需求的不懈努力。智源研究院將參與者整合為3個小組,深入中文大模型研發“無人區”——一個個高風險、非共識、顛覆性的研究領域。
以文源團隊負責的超大規模預訓練語言模型為例。他們遇到的第一個困難,就是怎么阻止大模型“詞不達意”和“答非所問”。原來,當時全球通用大模型數據訓練集里,中文語料僅占1.3%。團隊搜索得來的50TB原始數據,主要源自電商、社交、搜索等渠道,存在大量的數據偏見。高質量中文數據,一度成為稀缺品。
中文語義深奧又靈活多變,給大模型“投喂”的語料質量,對運行效果影響極大。團隊決心秉持細節上的“技術潔癖”,構建高質量數據集,讓大模型高效、經濟地運行。團隊負責人劉知遠與黃民烈所帶的8名博士生,全被派去做數據標注與“清洗”。
他們夜以繼日地比對、推敲著每行編碼,以確保數據的完整、全面、合法且唯一。其間,團隊沒有發表過一篇學術論文。這樣做,無論是對教師還是對學生,都是極大的冒險。“如果一無所獲,我們在學校的學術考核將被認定為不合格。”黃民烈說,“這是拿著大家的職業生涯去做賭注。幸運的是,我們的方向找對了!”
最終,團隊將原始數據壓縮至2.6TB,中文大模型有了第一個高質量數據集。
從高端芯片到深度學習框架,從算力、算法到數據……智源研究院集中優勢資源,奮力攻關。2021年3月,“悟道1.0”問世。3個月后,“悟道2.0”亮相,參數規模是GPT-3的10倍。
“悟道”,驟然改變了世界人工智能領域一家獨大的發展格局。正是從這時起,智源研究院被全球人工智能領域三巨頭之一的微軟公司視為主要競爭對手。與此同時,國家加快布局人工智能產業,并將其寫入“十四五”規劃。
以人工智能為引擎,高質量發展的底色更加鮮明。智源研究院的不懈探索,仿佛解開了中文大模型的研發密碼。隨即,猶如百舸爭流,科技企業紛紛跟進,創新火花競相迸發。截至2024年3月,國內大模型數量超243個。我國的大模型發展,已經形成了一條壁壘極高的技術“護城河”,得以涵養整個產業生態。
理想與使命合一,形成人才“強磁場”
“群星閃耀”,有人用這樣的詞,形容智源研究院的人才生態。
眾所周知,人工智能作為前沿科技,離不開人才驅動。近年來,智源研究院已經遴選并支持以“智源研究員”和“智源青年科學家”為主體的94名智源學者,其中近一半為38歲以下的青年學者。他們的學術背景橫跨高校、科研單位及企業研究機構,形成了代表我國人工智能領先科研水平的“北京隊”。
人們不免疑惑:作為一家民辦非營利研究機構,智源研究院既沒有“帽子”,待遇也無法與頭部企業對標,緣何吸引這樣一批頂級人才?
“在這里,既是在做自己想做的事,也是在做國家和社會需要的事。當理想與使命合一,就會迸發最強驅動力。”智源研究院副院長林詠華用親身經歷給出了答案。
近兩年,國內人工智能領域已進入“百模大戰”階段。為避免無序競爭,智源研究院將目光轉向營造更健康的大模型生態圈。
2023年,林詠華決心以“科學度量大模型評測基準”為研究方向,申報科技部重點課題。作為人工智能領域的開創者之一,林詠華覺得一切本該水到渠成。當她興沖沖地去領申報材料時,卻被告知不符合初選資格——沒有正高級職稱。
只能盡快申請職稱。但了解政策后,林詠華又遇波折——由于研究的領域太過前沿,自己根本沒有符合的職稱序列可以申報,更找不到合適的專家來評審。
了解情況后,黃鐵軍找到她:“只要有好的想法,智源會創造一切條件幫助科研人員實現。”不問出身、不看論文,只看是否取得標桿性成就、有沒有成為標桿的潛力——從誕生之日起,智源研究院的選人、用人機制,就一直向學術實力和科研潛力傾斜。
2023年3月,黃鐵軍找到北京市人力資源和社會保障局尋求幫助。“職稱評聘工作的改革方向,必須與國家發展戰略同心同向。”市人社局答復。
僅僅一個月后,《北京市高層次、急需緊缺、特殊特藝人才高級職稱考核認定辦法》出臺。通過“一事一議”“一人一策”“隨時隨刻”評審、“3+1”實名舉薦,很快,林詠華獲得了正高級職稱。她也成為受益于此辦法的第一人。
同年,林詠華承接的國家科技部重點課題正式立項。這個課題,也讓智源研究院完成了從“運動員”到“裁判員”的角色轉變。
“這在別處是難以想象的。它給我們的動力,不是優渥的待遇能給予的。”林詠華如是說。
林詠華的經歷,只是智源研究院眾多科研人員的一個縮影。“智源是以公共利益為導向的研究機構,注定無法提供最具競爭力的薪酬”,智源研究院院長王仲遠說,“但這也是一種篩選同行者的良性機制。”3個月前,他剛從業界一家頭部公司離職,降薪90%來到這里。
從“實驗室”走向“應用場”,賦能千行百業
作為開源系統,“悟道”大模型已被下載2000余萬次。每次下載,都有可能是對某條生產線、某個企業甚至某個產業的一次數字賦能。“這也是智源的一個重要使命,讓科技創新成果不斷從‘實驗室走向‘應用場。”黃鐵軍說。
功成不必在我。不僅是開源大模型,在科研過程中生發成熟項目,智源研究院在助推成果轉化時,同樣不遺余力。
算法工程師趙撼宇,一畢業就來到了智源研究院。他的一項專利技術,在“悟道”與OPPO手機小布語音助手的合作項目中,發揮了關鍵作用。“在成果落地的那刻,我感到自己的價值得到了認可。”趙撼宇說。
同許多手機廠商一樣,OPPO小布以往依據的是互聯網數據,有數以億計的問題難以回答,非常影響用戶體驗。但如果自建語料庫,周期長、人工數據標注成本高,企業難以承受。他們找到智源研究院學術副院長唐杰尋求幫助,唐杰將“悟道”大模型中趙撼宇負責研發的“生成式回答系統”推薦給了企業。
2023年年底,OPPO小布接入“悟道”,一紙專利,使手機語音助手的單條回答建設成本降低了99%,徹底解決了一個行業的共通性問題。
“科研工作者雖然有極強的創新能力,但成熟項目的轉化落地并不盡如人意。”智源科研運營部經理趙小帆說,“企業如何選址、怎樣融資和申請政府引導基金、去哪里組建工程技術團隊等問題,智源都會手把手地幫助他們落地。”
曾任賽迪集團總裁的孫會峰,在我國加入世貿組織談判過程中,隨團調研了大量中國企業。他發現,大部分企業70%的時間都花在了了解產業鏈、合作伙伴、競爭對手和各地產業政策上,在企業研發上投入的精力顯得力不從心。
當接觸到“悟道”大模型時,孫會峰豁然開朗:“借助智源的產業知識計算引擎,能俯瞰整個生態,為企業打開‘上帝視角,觀察趨勢。”抱著這樣的想法,他決心自己創業。
來到智源研究院,孫會峰感覺收獲更多。2021年,借助智源研究院天使輪投資1000萬元,孫會峰成立了北京上奇數字科技有限公司(以下簡稱“上奇數科”)。幾個月后,智源研究院又幫他暢通了國家專利局的專利綠色通道,以往1年半時間才能獲得的專利授權,現在4個月就拿到了,這讓上奇數科得以在激烈的人工智能“卡位賽中”占得先機。
不僅如此。當孫會峰為如何優化產業鏈精度而苦惱時,智源研究院又為他推薦了算法工程師史業民。“一次調教,產業圖譜的精度便從70%上升至98%。”孫會峰說。現在,上奇數科的產業知識圖譜“上奇產業通”兩秒就能實時生成包括100余條產業鏈、5000萬家企業在內的40余類產業數據集。
好風憑借力。
成立僅3年,上奇數科迅速成長為國家級專精特新企業,估值達10億元。
注重“從0到1”的原始創新,也注重“從1到N”的產業轉化,通過產學研用緊密合作,智源研究院至今已孵化了“月之暗面”“深言科技”等近百家企業,其中10余家已成為“獨角獸”。
有這樣一組數據,令人振奮:作為數字經濟發展的重要驅動引擎,2023年,北京人工智能產業的核心產值突破2500億元,輻射產值規模已超萬億元!
又是一個草長鶯飛的季節。前不久閉幕的中關村論壇上,智源研究院等16家機構發起并成立了中關村人工智能聯盟。一群銘記國家使命的科學工作者,錨定國家重大戰略需求和北京數字經濟標桿城市建設,正在向科學技術的更深處進軍……