2024年12月5日,OpenAI正式發布了o1模型。
關于o1,坊間早有傳聞。2023年11月,OpenAI那場短暫的“政變”過去沒幾天,路透社就報道說,Sam Altman被“除掉”的原因之一是OpenAI正在研發中的代號為“Q*”的模型過于強大,董事會擔心這項技術若所托非人,將威脅人類文明,“Q*”后來又被稱為“Strawberry”,也就是現在上線的o1。
對于一個可能會威脅人類文明的AI,我們還是有一些好奇心的。但好奇心是昂貴的,要使用“完全體”的o1,需要充值每月收費高達200美元的ChatGPT Pro,才能解鎖o1的“專業模式”,且不提供試用。按照Sam Altman的說法,“專業模式”可以讓o1“更用力地思考最難的問題”。
什么叫難題?按OpenAI自己發布的評測,o1能在物理、生物、化學等諸多學科領域超過博士水平;如果去參加2024年的美國數學邀請賽,它能進入全美前500名。但坦白說,對此類宣傳,我們作為用戶已經有些無感了。新模型出現的速度越來越快,每個新模型發布的時候都會跑一堆分數,宣稱自己在某些測試中破了紀錄。聽起來都是很厲害的“做題家”,但作為普通人,難免會感到困惑:我們日常用到的模型好像沒有那么厲害。如果我并不打算挑戰國際數學奧賽金牌,這些模型的分數跟我的日常工作有什么關系?
于是,我打算拿工作中“最難的問題”來試試。
說到最難的問題,我首先想到的是學術研究工作。我自己不做學術研究,但我的同學中研究什么的都有。我在大學和中學同學群中,請各行各業的同學幫忙列出自己工作中“最難”的問題。最后,我收集到了來自數學、物理、大氣、化學、生物、材料、哲學、藝術、經濟、金融、法律、財務……等等領域的問題。其中,最酷的是我的數學家同學,“能不能證出我的定理?”。天哪,他都有自己的定理了。
用他們的問題向o1提問,開啟“專業模式”后,等待數分鐘,就會收到答案。
同學們拿到答案后,大多數人認為和之前的模型相比更加詳細,有更多細節,邏輯也更加清晰,“條理清楚、主次分明、考慮全面”,但同時“說話也更繞了”。大家普遍認為,它看起來“肯定嚼了很多文獻”,“作為文獻收集整理挺好”,“知識水平上跟博士生差不多”;材料科學家認為,“如果能穩定保持這個水平的話,當科研助手絕對不亞于一個博士生,關鍵是博士生回答這個問題至少要一周。”
但它是否真的擁有博士生的能力?可能取決于這個能力有多通用。大氣科學家表示它套用的分析問題的“模式”是正確的,雖然很基礎,但仍然“可以給我們很多具體的參考”。生物學家則有不同意見,他問了一個基因編輯的問題,認為AI并沒有真正理解蛋白質切割的原理,“不是真的分析了蛋白結構,而是直接找已有結論”。
從研究的角度,“沒有什么突破性的思路”。但說到這里同學們話鋒一轉,紛紛開始吐槽,“現在的博士生基本也沒有……”“現在研究生的水平也不好,讓他們去干,還不如自己干了”。
所以,從這個角度來說,o1確實可以和博士生比一比。最早給別人介紹ChatGPT時,我會比喻說,可以把它看成一位本科學歷的、接受過良好通識教育、但不具有專業知識的助理,稍微有些偏文科,依靠直覺來做事。在過去這兩年,它被證明可以輕松勝任的工作是總結摘要、翻譯,以及一些應付式的官樣文章寫作。今天要介紹o1,可以用一模一樣的比喻,只是變成了一位有些偏理工科的博士,強調的是推理、邏輯能力。
那么,假如不從事研究工作,這種推理能力是否有用?這個問題有點像,理工科學生在大學都要學微積分,但大部分人的工作是不需要用到微積分的,那么為什么要學?要回答這個問題,我們讓o1去上班試試。
我原來創辦的互聯網公司大約有500人,當時我們將所有的崗位分為了軟件工程師、系統運維、產品管理、產品設計、用戶研究和戰略分析、市場營銷、商務銷售、運營等幾大類,并制定了統一的級別劃分和相應的職責能力要求。簡單重新瀏覽這些要求后,我發現,除了軟件工程師(這在上期專欄已討論過)和戰略研究員(這和上面的學術研究更相似),其他崗位的入門級別雖然工作難度不高,但涉及大量人際溝通、原始數據收集和落地執行等事務,目前很難被立刻取代。
反而是一線經理人的工作,由于更多涉及制定計劃、策劃方案、分析結果等純“動腦”的部分,可以被AI取代的部分更多一些。我們拿實際工作中的問題,分別請o1撰寫了一份競爭戰略分析報告、一份產品需求文檔,和一份市場營銷活動策劃。按市場營銷同事的看法,之前的大語言模型輸出的更像是“模板”,實際內容還是需自己去思考和撰寫,o1的輸出第一次讓人感覺稍作修改就可以直接拿去用。我們也確實拿去用了。
當然,如果要AI給出更有針對性的方案而不是泛泛而談,你需要告訴它更多細節。有趣的是,當你不得不長篇大論地把問題說清楚,你腦中的問題可能已經迎刃而解了。說到這里,我意識到這其實更像請外部顧問—在真正的咨詢項目中,向顧問講清問題、幫助他理解上下文,本身就是很大的工作量。從這個角度說,如果你是一名決策者,這一代AI或許能扮演好你可以每天請教的智囊角色,而不僅僅是幫你收集材料、潤色文檔的助理。
你還是需要理解大語言模型的局限,包括沒有實時數據、喜歡胡編亂造、記性不太好,等等。o1沒有實時搜索能力,在這方面和主流模型相比有些倒退,這意味著它只能憑借自己的積累來回答問題,“不知有漢,無論魏晉”。它自己不知道“o1”是什么,也無法直接回答關于特朗普再次當選和TikTok的問題。至于胡編亂造,隨著AI智能程度的提升,可能更難被一眼看出。它的工作,你確實需要仔細檢查。
說到底,AI即使有再聰明的大腦,但缺少眼睛和手腳,也很難真的解決實際工作中的問題,畢竟大部分工作任務并不是單純的“思考”。當我問經濟學家同學,AI是否能取代研究生時,他告訴我,他最近在做進出口相關的研究,研究生目前的主要任務是將海關官網的數據復制粘貼到表格中,因為海關官網做了防爬蟲—我嘗試了半天,用AI編程,確實就是卡在了那個我們耳熟能詳的“拖拽拼圖”的驗證環節上。現狀是,我們可能反而需要雇用人類來當AI的眼睛和手腳,每天坐在電腦前拖拽拼圖。
就在o1正式發布兩周后,Google、DeepSeek等廠商推出的新模型又在若干測試中超越了它;而在Google推出新模型的次日,OpenAI公布了“o3”,又重新拉開了差距,它可以挑戰比國際數學奧林匹克競賽題更專業的數學問題。
從業者要面對的現實是,ChatGPT上線兩年來,雖然模型能力早已大幅提升,但測試分數難以直接翻譯成普通用戶的使用體驗,用戶只能依靠口碑和自己的經驗來為每一項任務挑選合適的模型,像我日常使用的模型就有五六款之多。模型的表現也不穩定,常常需要反復嘗試不同模型,增加了使用難度。這些,都是普通用戶讓AI在工作生活中發揮更大作用的障礙。
我認為,和模型能力的提升相比,我們在產品形態的探索上大幅滯后。上期專欄提到“AI程序員”之所以更接近現實,編程能力強是基礎,更因為行業大量投入,讓“AI程序員”擁有了眼睛和手腳,通過Cursor、Windsurf、Devin等產品形態的創新釋放了AI的價值,而不是只能通過聊天來和AI溝通。將這種做法復制到其他領域中,才有可能讓AI發揮價值。
Sam Altman說,ChatGPT Pro目前是虧損的。這讓我想起大學軍訓結束那一天,我們一群男生涌進學校旁邊19.9元的自助肥?;疱伒甓习逵逕o淚的情景。如果你已經是ChatGPT等工具的重度用戶,并且感到已有模型有些力不從心,有信心把這個錢吃回來,不妨一試。當然,在此之前,Google的對應模型暫時可以免費試用,不妨先試試看。