張毅
ChatGPT 的熱度還沒過去,它的進階版就來了。3月15日,距離AI(人工智能)聊天機器人ChatGPT 的亮相還不到4 個月,它的開發商OpenAI 又推出了新版多模態預訓練大模型——GPT-4。與基于GPT-3.5的ChatGPT 相比,GPT-4 的表現更為驚人,讓許多網友大呼:“這下AI 真的要取代人類了!”
3月15日凌晨,OpenAI發布了多模態預訓練大模型GPT-4,這也是其大型語言模型的最新版本。
與此前的版本相比,GPT-4具備強大的識圖能力,文字輸入限制也提升至2.5 萬字;GPT-4 的回答準確性也顯著提升,還能夠生成歌詞、創意文本從而實現風格變化。同時,GPT-4 在各類專業測試及學術基準上也表現優良。
“這是OpenAI 努力擴展深度學習的最新里程碑?!監penAI介紹,“GPT-4 是一個大型多模態模型,它接受圖像和文本輸入、進行文本輸出,雖然在許多現實場景中它還不如人類,但在各種專業和學術基準上表現出與人類相當的性能?!監penAI 介紹稱,在日常對話中,GPT-4 與GPT-3.5 之間的差距或許微妙,但當任務復雜度足夠高的時候,GPT-4 將具備更可靠、更具創造性的特點,且能夠處理更細致的指令。
例如,根據OpenAI 公布的實驗數據,GPT-4 通過模擬律師考試且分數在應試者的10% 左右。相較之下,GPT-3.5 版本大模型的成績是倒數10%。
除了普通圖片,GPT-4 還能處理更復雜的圖像信息,包括表格、考試題目截圖、論文截圖、漫畫等。此外,在多語種方面,GPT-4 也體現出優越性。在測試的26 種語言中,GPT-4 在24 種語言方面的表現均優于GPT-3.5 等其他大語言模型的英語語言性能,其中包括部分低資源語言如拉脫維亞語、威爾士語等。在中文語境中,GPT-4 能夠達到80.1% 的準確性。
“多模態、推理能力、預測擴展性”是GPT-4 的三大亮點,而多模態可以說是GPT-4 最大亮點。GPT-4 可以接受文本和圖像的提示,允許用戶指定任何視覺或語言任務。具體來說,給定由穿插文本和圖像組成的輸入,GPT-4 生成文本輸出(自然語言、代碼等)。
多模態算法即融合文字、圖片、音視頻等多種內容形式的AI 算法,多模態出世之前,AI 模型只專注于單一領域,例如自然語言處理或計算機視覺等;多模態技術出現后,模型已經從早期單一的自然語言處理和機器視覺發展成自動生成圖畫、圖像文字、音視頻等多模態內容,極大地推動了AIGC 的內容多樣性和通用性。
AI 要滲透到各行業,向多模態發展是必然趨勢。各個應用場景需要交互的輸入輸出各不相同,例如AI 繪畫從輸入圖像或者文字得到圖像,PalM-E 同時處理視覺、語言和傳感器,極可能應用到工業生產中。同時多模態的大模型也可以通過細分領域數據微調,高效地應用到各個領域。畢竟現實世界中的數據天然就是多模態的,通用人工智能必然需要有能感知和理解多模態數據的能力,未來的人形機器人能和人類一樣,可以綜合通過聽覺視覺觸覺來與世界做出各種交互。

GPT-4與GPT-3.5對比各項考試成績,資料來源:OpenAI官網

視覺輸入:圖表推理(格魯吉亞和西亞的日均肉類消費量總和是多少?),資料來源:OpenAI官網
GPT-4 相較于GPT-3.5模型更加強大,更可靠、更有創意,且更能夠理解細微的指令,表現出來的性能為,在各種專業和學術考試以及NLP(自然語言處理)基準測試上達到或超越人類水平。
GPT-4 具備極強的復雜推理機制,無論是復雜的邏輯推理、編程推導或者是密集型內容幫助,GPT-4 皆表現能力不俗,例如ChatGPT 可以對稅務人士進行密集的內容幫助,該模型快速得到了標準答案,并且可以做到“理解它的解釋”。如此,GPT-4 會對編程、內容審核等場景產生深遠影響。
研發團隊在機器學習傳統基準測試上( 包括MMLU、HellaSwag 等)比較了GPT-4 和GPT-3.5、SOTA 等模型的性能,結果顯示GPT-4 在這些基準測試上的表現大大優于現有的大型語言模型,并且在大多數測試中超越了目前最先進的SOTA 模型。
總體來講,GPT-4 具有更強的生產力屬性,尤其是在應用層面,GPT-4 可能快速改變各行各業的生產和消費模式。從政府治理、社會治理的數字智能化,到教育、就業、個人發展的新形態,它都可能為人類帶來不可替代的利好作用,成為我們身邊穩定存在的伙伴。隨著GPT-4 對人機交互模式的改變,多模態能力首先有望重塑從瀏覽器到文檔智能等的軟件交互,未來還有望重塑從手機、PC、智能手表到智能家居的硬件交互。
由于大模型的規?;╯calinglaw),增加模型參數量、數據量有助于提升模型表現。過去數年中,行業推出大模型時也往往標榜模型規模之大。然而本次GPT-4 并未在論文中提供參數量、數據量等信息,AI 行業漸漸嘗試逐漸走出單純強調模型規模的時代,降低使用門檻、提高實際落地效果成為通用AI 新的發展方向。
而這次OpenAI 在發布GPT-4 的同時,推出便于落地的工具并開源了Evals 評估框架便于用戶選擇模型。這意味著使用千分之一至萬分之一的算力就能夠可靠地預測GPT-4 在下游垂直領域使用的性能,下游廠商可以先以較小的成本廣泛試用,最終選擇最適合自己需求的大模型。具體在應用方向上,現階段,大模型的能力還主要體現在NLP 上,因此主要用于搜索(如微軟繼承了大模型的NewBing)、航程輔助、聊天機器人變種(獵頭使用軟件、智能客服、智能音箱、游戲NPC 等),而1~5 年內,隨著多模態的發展,大模型首先會用于Office 類辦公工具,還將有多類簡單多模態方案落地(智能家居、工業視覺、行業化機器人)、行業專家(AI 醫療、教育等)、智能助理(聊天、工作安排、點外賣、購物等)。
未來,結合復雜多模態方案的大模型將具備完備的與世界交互的能力,在通用機器人、虛擬現實等領域得到應用。

GPT-4與其他版本GPT在相關考試中的比較,資料來源:OpenAI