王俊煜
每次寫稿,最痛苦的都是開頭。所謂下筆無神,坐在電腦前東摸西摸,百般拖延,就是沒有辦法開始敲第一行字。
如果面向全國中學生做一個問卷調查,問他們最痛苦的任務是什么,語文作文將可能成為第一名。據我觀察,許多人在中學語文課堂上留下的夢魘足以伴隨一生,會在每次需要提筆寫作的時候突然被喚醒,讓人忘記如何說人話。
但寫作又是一件無法避免的事情。即使不用寫專欄,即使工作和寫作沒有直接關系,恐怕也要寫文檔、寫工作計劃、寫述職報告、寫會議記錄……還有婚禮的致辭、葬禮的悼詞等等,都需要寫。如今不管是控訴上司還是伴侶也流行往社交媒體發小作文,而作文寫得好不好,直接影響傳播效果。
我不是專業的寫作者,但高考語文也考了快140分,寫作文對我來說理論上不在話下。感謝我的舅媽和歷任語文老師,讓我知道寫作的本質是表達,最重要的還是要感受自己想要表達什么。即使如此,還是很難動筆:不是沒有東西要寫,但面對千頭萬緒的混沌狀態,似乎還是很難撕開一個口子,摧枯拉朽地讓腦子里面的東西一瀉而出。
每當此時,我又會開始想,AI能提供什么幫助。于是,在拖延寫作的這段時間里我又會將市面上的AI工具嘗試一圈,看看到底有沒有哪個能給寫作幫上點忙。
AI寫作,或者說AI生成文本,出現的時間早于ChatGPT。事實上,GPT一開始就是用來生成文本的,只是后來OpenAI發現也可以用來聊天(畢竟聊天本質上就是兩個人根據之前的聊天記錄繼續生成文本),這才改造出了ChatGPT。
我最早試用的文本生成產品是Notion中的AI寫作功能,它從2022年11月中旬開始內測,比ChatGPT的推出還早半個月。同一時間,我使用的筆記產品Craft也推出了自己的同類功能。它們的背后都是GPT或者Claude,我記得我在那兩個月的專欄中就嘗試過使用AI寫作。
快進到今天,幾乎所有國外的辦公軟件中都已經集成了生成式AI功能,包括微軟和Google在內的許多技術公司最喜歡在發布會的舞臺上演示的一個場景就是一鍵生成各種長篇大論,比如郵件、文檔、營銷計劃等。
效果如何呢?可以想象,如果你只是輸入“幫我寫一篇專欄吧”,AI會瞎編一篇多么廢話連篇的文章。這并不是由什么技術限制導致的,不是我們常說的“AI幻覺”。還是用我們經常打的比方,如果把AI看成一個受過良好教育的實習生,它今天初來乍到,對你一無所知,一上來就要求人家“寫篇專欄”,它除了瞎編,還能做什么呢?
當然,如果你提的要求不太需要對你有所了解,而是基于常識,那生成效果相對是比較好的,比如我曾經用AI來生成事故處理協議、給客服寫的投訴信、大眾點評上的評論、閑魚的商品文案……
至于各大公司畫的“一鍵生成”的餅,我覺得還是代表了人們的美好幻想,就和人們幻想長生不老一樣。去年我剛開始了解大語言模型時,讀的是王建碩老師的幾篇科普文章,它們從使用者的視角教你如何和AI打交道。其中有一句話我印象很深,“不要把ChatGPT當作你肚子里的蛔蟲”。是呀,讓陌生人一鍵寫出來的東西,能用就怪了,但有趣的是,這就是我們對AI的期待。
也不能完全怪人類,誰讓今天的AI很少反問呢?如果是一個真的實習生,我大概會教他,一定要學會反問,而不是瞎編。向Perplexity提問時,如果問題比較模糊,它會反問以確認自己是否正確理解了你的問題,我們自己在做AI產品時也非常希望AI不要添油加醋,并且能學會反問。有了反問,這就讓人放心很多。
如果對方不懂得問,那就要主動告訴別人,就像我們也可以吩咐實習生,你先把這些資料讀一下。
讓AI讀資料還是有點兒麻煩的,這主要怪聊天界面。今天大多數的大語言模型標配的都是聊天界面,尤其是剛剛推出的最新模型,一般都只能通過官方的聊天界面使用,還沒有開放給第三方應用。在這點上,聊天框有點像是上個時代的搜索框,是一個萬能的基礎形態,任何需求都能滿足,但也有很多需求用它來滿足并不順手。
例如我最近安利給很多朋友的Kimi,其特點是長文本,但就官方舉例的使用場景來說,不管是往聊天框里面輸入200萬字,還是傳500份簡歷,或者在別的地方看到一個網址再復制粘貼過來,都不算順手。
另外一個障礙,則是市面上所有的產品都照搬了ChatGPT的設計,用戶可以和AI開啟多個對話記錄,然而這些對話是不會共享記憶的。當然,這么設計,本來就是因為此前的大語言模型上下文窗口很小。這可以粗略理解成AI只有短期記憶,很容易出現聊著聊著AI就忘了剛剛說過的話的情況,所以才需要這樣的設計,保持每個對話較短。
但這帶來一個問題,就是我每次想讓AI完成一個新的任務,都得重新給它背景資料。這有點像你每次見到你的實習生,他不認識你。由于經常需要請AI重新閱讀資料,之前我花時間把往期專欄整理成了不同格式、大小的文件,放在桌面上,方便隨時上傳。普通人是不會有耐心來做這個事情的,相比“提示詞工程”的難度,這一點更容易阻礙普通人使用AI。
其實,AI能順暢閱讀背景資料也就是最近才能實現的事情。本專欄已經寫了25期,共約10萬字,超過了市場上大部分模型的上下文窗口,也就是說,沒有辦法直接放在AI的短期記憶里面。一般的產品會用一個叫RAG的方式去解決這個問題,這是一個外掛的“大腦”,打個比方,有點像腦子里裝不下的東西先抄在小抄上,等考試要用的時候再去翻。不在腦子里的東西,運用起來效果還是會大打折扣的。
據我所知,市面上普通人能接觸到的支持10萬中文字的產品只有Kimi。Google的Gemini Pro 1.5也能支持,不過目前只通過API提供給開發者,還沒有被整合到Google的產品中。Kimi最近開始內測200萬字的上下文窗口,更是大幅提升了這個門檻。有些產品宣稱支持1000萬字,據說是使用RAG的方式實現的—通過這種方式,想裝多少字其實都可以。
實際上,200萬字和最初的ChatGPT相比,已經提升了1000倍。產品形態可以有一些變化了。
說回用AI輔助寫作。大家知道,正常情況下你是不會在一個聊天窗口中寫作的,而是會用類似Word這樣的文檔編輯工具。那如果你同時需要和AI“聊天”,那就麻煩了,得幾個窗口切來切去,來回不斷地復制粘貼才可以。如果對AI生成的內容大體滿意,但只是想精準地調整一大段文本中的一句話呢?要用語言描述這種要求非常困難。我之前嘗試過請AI修改文風、校對、編輯、簡化語言……都非常麻煩。
最近我倒是發現了一個挺好用的工具。你可能猜不到,這篇專欄是在VS Code中寫的。這是微軟面向程序員推出的一個用來編程的編輯器,購買了GitHub Copilot后,可以隨時在里面召喚AI來撰寫、修改代碼。反正代碼和專欄都是語言嘛,效果還是不錯的。
針對不同的場景去做“順手”的界面并不難。比如總結鏈接就不如做一個瀏覽器插件,一個實習生花一個周末就能寫出來。為什么不做呢?我猜測有一些特別的考慮。當然,也有可能是我想多了。去年這個時候我曾經在直播中和其他CEO討論過為什么ChatGPT不推出App,對方列舉了一些理由,而我說可能只是還沒有做出來罷了。果然,過了不久,ChatGPT就推出了自己的App。
也可能是我把這事兒想簡單了。多年的工作經驗告訴我,工程師們總會高估解決一個問題的難度,而低估其工作量。
那聊天適合做什么事情呢?回想現實中的寫作過程,和編輯、記者聊天,回答他們的問題,本身就是一個不錯的獲得寫作靈感的方式。所以,和AI討論選題,請它扮演讀者告訴我想看什么,甚至把大綱給它看看,討論下能不能用有創造性的方式來梳理故事線……這些操作的使用感受都還不錯。
今天的AI產品一是缺少關于我的個人數據,二是缺少直接執行操作的能力,這些都導致它們沒有辦法對普通人“開箱即用”。
王建碩老師的那句話我一直在想。一開始是從使用者的角度提醒自己,不要把AI當成我肚子里的蛔蟲。但后來切換到做事情的角度,就會想,憑什么AI不能成為使用者肚子里的蛔蟲呢?我們怎么樣才能讓AI成為使用者肚子里的蛔蟲?在腦機接口被廣泛應用之前,還是需要一些別的方式。
這也是為什么我之前很期待Google和微軟分別將AI整合到自己的辦公套件中,即Google Workspace和Microsoft 365(它的原名Office大家更熟悉一些)。我個人在Google中保存的數據更多,20年來的郵件記錄和工作文檔都在Google,理論上它應該比蛔蟲更了解我。而它們的AI都可以直接在編輯器中使用,理論上可以省去了來回復制粘貼之苦。
Google的版本(Gemini for Google Workspace)我在3月初拿到了內測權限,而微軟面向個人的Copilot Pro在1月發布,我也第一時間購買了。但測試結果都讓我非常失望,它們仍然看起來一問三不知,想請它們幫忙修改的文檔,十個也有九個做不了,不知道到底實現難點在哪里。
這個領域還是有很多做新產品的機會的。有一些產品已經擁有關于我們的大量數據,自然做起來比較容易。有一些開發者另辟蹊徑,希望用不同的方式來獲得用戶的數據。我去年提到過的Rewind通過直接錄屏的粗暴方法采集數據,我堅持使用了一年多,電腦中存下了108GB的錄屏,應該有接近3000小時。但這些數據怎么用,似乎也還沒有好的方法,噪音過多,AI無法區分哪些重要哪些不重要。另外有幾個新的硬件產品,如Humane Ai Pin、Rabbit R1等,通過隨身錄音的方式采集數據,不知道會不會遇到類似問題。
是不是其實沒有必要收集用戶所有的所見所聞,努力降低用戶輸入的門檻,也能捕捉到更多有一點點價值的火花?這是我正在嘗試的。現在我自己大部分的碎片想法都放在原型產品中,寫稿的時候拿出來,也是靈感的來源。