王俊煜
今年年初以來,我一直在這里斷斷續續地分享自己對以大語言模型為代表的AI發展的觀察。大半年來,在圍觀了幾場黑客松和demo day、交流了上百個不同的團隊和創業者、自己也動手寫了幾個月代碼、和團隊一起做了三四個產品原型之后……我想,可以稍微系統一點地分享我對如何使用大語言模型來創造新應用的思路了。
ChatGPT的發布,讓從業者們看到了實現通用人工智能的曙光。而說到通用人工智能,人們最容易想到的還是科幻電影中的那些機器人角色:《2001:太空漫游》中的HAL 9000、《鋼鐵俠》中的Jarvis,以及,可能因為從業者中男性居多,《Her》中的Samantha似乎被提及得更多一些。這些虛構的角色,往往會在各種演示、宣講中被用來描繪通用人工智能的愿景:一個面向所有人的、真正的智能個人助理。這也是許多團隊今天努力的方向。
但曙光畢竟只是曙光。不可否認的共識是,ChatGPT等基于大語言模型的聊天機器人,即便在過去半年進步很快,在今天離一個真正的智能個人助理還有相當大的差距。如果我們的目標是實現一個面向所有人的、通用的智能個人助理,顯然還要付出很多的努力。
有趣的是,不同背景的創造者在此時就會選擇不同的路徑。我發現,科研、技術背景的團隊創造者,往往會對這一差距能在較短時間內彌合更為樂觀,因此傾向于選擇從模型層著手去硬磕,在產品形態上則基本追隨ChatGPT的設計。
我作為設計、產品背景的創造者,認為這條道路不可取。直接做通用的智能個人助理,試圖一次性滿足所有人的所有要求,帶來的結果就是只要在任意一方面沒有做到100分,就會被用戶感知到。普通用戶不同于技術嘗鮮者,此時會對新技術產生不信任感,甚至直接放棄。因此,我更愿意從應用層著手,根據大語言模型今天的能力來設計新的應用,通過產品設計來揚長避短,讓大語言模型能在今天的世界中馬上為普通人發揮價值。
當然,這也可能是因為我并非硬核技術背景出身,對于大語言模型的進步速度缺乏想象力,只能基于大語言模型今天的能力去做線性推演。
我們在這里討論的都是如何做面向消費者的“超級應用”,這個思路其實還有幾個分岔。例如,同樣面對今天大語言模型的能力局限,有不少朋友選擇了從娛樂方向、情感方向切入,因為他們認為這樣對大語言模型的能力要求略低。邏輯上我也認為這是成立的。但由于個人對娛樂方向、情感方向沒有什么直覺判斷,所以不會選擇這樣的道路。
我們的目標是基于大語言模型的應用最終幫助人類理解世界和表達自我,這本身就是語言的基本作用。
我選擇的道路是,先選擇一些“垂直”場景,為每個場景單獨開發基于大語言模型的應用,再看這些應用能否連點成面,最終組合成一個通用的智能個人助理。
這里所謂的“垂直”場景,其實就是比通用人工智能的場景少一個維度的場景。場景少了一個維度,復雜度就降低了一個數量級。
目前有兩種切分的維度。一是在人群上做切分。取比總人口低一個數量級的一部分人口,做針對他們的通用場景。比較容易想到的人群,包括兒童、老人、父母、大學生、年輕公司人等等,他們身上的某些共性也許可以簡化對大語言模型的能力要求。從發展的眼光來看,也可以考慮一些特定職業。比如GitHub注冊人數剛剛超過1億,假設這些人都是程序員,也大約只占全球勞動力的3%。但隨著越來越多人需要和計算機程序打交道,“編程”作為一種通用技能也許會得到普及,那可能也是一個足夠龐大的人口了。從這個角度而言,幾乎可以包攬程序員的一天的GitHub Copilot,也是通用的。
另一個切分維度,是選擇大多數人日常生活中的某個場景來切入。這個場景得是大部分人的生活里每天會出現的,用拉里·佩奇的話說,至少需要是一把“牙刷”。移動互聯網經過十多年的發展,符合上面這個條件的場景,大多已經作為一個應用圖標出現在了手機的首屏上。這些應用中有許多都可以使用大語言模型或其他AI技術來“重新發明”,只是有些適合小團隊做,有些可能只適合大公司做。還有一些人們每天都會有的需求,以之前的技術沒有辦法由一個很好的應用來承載,大語言模型的出現有可能促使這些領域誕生一些之前不存在的產品形態。這些有待依靠我們的洞察去挖掘。舉個例子,每個人其實每天都需要通過閱讀來大量獲取并消化信息,但過去沒有一個應用很好地來幫助人們處理這個過程,也許現在有這樣的可能性了。
應該注意,只能“切一刀”降低一個維度,而不能“切兩刀”同時降低兩個維度。要么,是針對少一個數量級的人口,做對他們來說覆蓋日常生活方方面面的通用場景;要么,是針對所有人口,服務好他們日常生活中的某個常見場景——如果最終的目標是做出一個通用產品的話,現在選擇的“點”切得太小,最后很有可能沒有辦法連到一起,成為“面”。
也不要選擇太小的人群,這在商業模式上有挑戰;如果目標場景太小,則不利于養成用戶習慣。
上面這部分關于尋找機會點的原則看起來很宏觀,像是傳統的市場分析,但不要忘記,我們切分場景關心的不是市場規模,而是為了通過尋找某一個人群或某一場景的共性,降低對大語言模型的能力要求。這樣子,大語言模型不需要在同一時間滿足所有人的所有要求,經過特定優化之后,更容易為用戶提供超出預期的卓越用戶體驗。因此,這也不是簡單地對著市場統計報告做排列組合,實際上還是一個自下而上的、從微觀到宏觀的過程,考驗的還是對所選人群或場景的洞察。
這部分我覺得實際上是更大的挑戰,充滿未知。前幾期講的技術可行性和用戶渴求的糾纏,也是發生在這個地方。如果我們僅僅停留在宏觀層面,大語言模型在很多領域理論上都可以發揮很大作用。但實際效果如何?只有從具體的人、具體的故事出發,開始動手、“getting hands dirty”之后才會知道。在各個黑客松中,經常能看到很多想法做出來和設想有區別,沒有辦法為用戶提供實際的價值(但這也是黑客松的價值)。
而且,我們不能滿足于簡單的“有用”,而是要追求和用戶現有解決方案相比,超出一個數量級的“有用”。只有這種質變,才能吸引用戶改變習慣。
核心要使用的方法還是以人為中心的設計方法論。只是針對大語言模型領域,有幾條更具體的設計原則。在此篇幅有限,簡單列舉其中的一部分。例如,我們認為每個產品都應該是開箱即用的,已經適配好了不同場景的不同工作流,普通用戶應該永遠都不需要理解什么叫“prompt”。事實上,我每次看到別人分享的充滿奇技淫巧的prompt模版,每一個看起來很geek的工作流,都覺得這意味著一個潛在的產品化機會。
例如,大語言模型今天的各種局限,如數據及時性、上下文窗口大小、幻覺、推理能力等,都應該努力通過產品設計來避免讓用戶感受到,或者能讓用戶理解,而這勢必涉及到根據不同的場景去做針對性的產品設計、或預設業務邏輯。
又比如,我們確保每個場景的輸入數據和輸出行動都足夠完整。今天市場上的聊天機器人,要成為真的對人有用的通用智能個人助理,其中一個很大的差距不在其是否“聰明”,而是在于是否有能力觀察、收集、記憶大量的個人信息,以及自動化地完成各種任務。以Siri、Google Assistant、Alexa為代表的上一代智能個人助理,經過十多年的發展迭代,在這方面的積累仍然非常有限。這也不是一個單純的技術或工程問題,更多涉及到用戶體驗設計、商業模式、數據所有權和個人隱私,以及不同系統之間的互聯互通,在短期內可以在通用場景中徹底解決的可能性不大。但在我們設計的垂直場景中,要做到并不困難,可以努力做到極致。
不管是創造性地用新方法解決了一個別人解決過的老問題,還是發現并解決了一個沒有人解決過的新問題,都對產品的設計能力提出了更高的要求。但的確就目前我們的嘗試而言,在場景“降維”后,以大語言模型今天的能力完全可以勝任。
我個人的思路,可能是對的,大概率是錯的。寫在這里,可以等時間來驗證。
這也是我們目前正在實踐的思路。我們的目標是基于大語言模型的應用最終幫助人類理解世界和表達自我,這本身就是語言的基本作用。只是,我們不追求一步到位創造一個通用的AI應用,而是先通過若干獨立的AI應用,試圖連點成面,來探索最終的形態。
有一點像一個實驗室,不斷用這個方法在普通人的日常生活中找到那些可以被新的AI能力解決的問題,設計出普通用戶不需要學習理解AI的技術原理就可以馬上開始使用、能給他們的日常生活帶來實際價值甚至驚喜的產品。當然,我們做的都是和“認真閱讀”相關的領域,也就是涉及到人類對信息的發現、篩選、消費、積累和分享。
再說回一點文章開始講到的來自科幻電影的機器人們。我覺得用科幻電影中的幻想作為產品的愿景,既充滿想象力,也缺乏想象力。電影里的一定是發展的終極形態嗎?我仍然覺得不見得。科幻電影之前對個人隨身計算設備的想象,更接近于Vision Pro等XR設備,而不是以iPhone為代表的智能手機。但目前而言,智能手機已經是這個時代的終極形態了。
最終形態是什么,我還不知道。這是等待被創造的,而我傾向于使用自下而上、自微觀到宏觀的方式來尋找答案,而不是先預設答案。不管如何,都沒有必要再復制一個ChatGPT。那是浪費資源。