我一直在等待一個時機寫寫“AI瀏覽器”。原因很簡單,還是我常說的:AI最缺的是眼睛和手腳。而在今天,能讓我們放下手機、打開電腦的理由,主要還是工作。若想讓AI成為我們真正的生產力助手,瀏覽器就是那個能為AI提供眼睛和手腳的最佳載體。
明確一下,本文說的都是電腦上的瀏覽器。在電腦上,瀏覽器是我們大多數公司人每天面對時間最長的窗口。今天,人們除了通過瀏覽器來獲取信息、瀏覽內容,還可以在其中完成各種日常辦公任務、處理文檔,甚至是專業的設計工作。根據Firefox瀏覽器官網上顯示的用戶使用統計實時數據,目前,其用戶平均每天使用時長高達5.5小時,足以說明瀏覽器的重要性。
過去幾年,我一直在使用Arc瀏覽器,其開發團隊名字也頗為復古,就叫“瀏覽器公司”(The Browser Company)。去年年底,這家“瀏覽器公司”宣布將推出新的“AI瀏覽器”Dia。在Arc老用戶的反對聲中,Dia持續往前推進,今年3月開啟內測,6月啟動公測,同時公司正式宣布將停止為Arc開發新功能。
這段時間中,我身邊不少喜歡使用AI的朋友,都將自己的默認瀏覽器切換成了Dia。
那么,“AI瀏覽器”到底能否在我們的工作中發揮實用價值呢?要回答這個問題,我們還是得先搞清楚“AI瀏覽器”到底指什么。在我看來,目前市面上自稱“AI瀏覽器”的產品,可以分為三類。
第一類,是所謂的agentic browser。這是最激進的一派,它們以“agent”為主要賣點,如國內團隊開發的Fellou。當然,agent這個概念本身也被用得亂七八糟,我在5月刊的本專欄介紹Manus時已經討論過。簡單概括Fellou和Manus的差異:如果說Manus是一個自帶電腦的遠程實習生,Fellou更像是請一個實習生來直接操作你的電腦。Manus讓許多人第一次看到一臺電腦在自己操作自己,只是這臺電腦身處遠方;Fellou則讓你看到你的電腦在自己操作自己。
相較于Manus,Fellou的優點和缺點都源自于此。由于它可以直接使用你在瀏覽器中已經登錄的賬號,像是Gmail、小紅書、豆瓣、微信網頁版等等,它可以觸達一些Manus難以觸及的地方。但也因為它直接使用你的電腦,盡管團隊做了一些創新來避免AI和人類的相互干擾,但我在實際使用中仍然很害怕會“打擾”AI工作。另外,權力越大責任也越大,我真的有些害怕Fellou不小心對我這些個人賬號搞了什么破壞。
正如我在之前那期專欄中總結的,agent這個詞的重點應該是“手腳”,但今天市場上的agent能做好的仍然是信息的獲取和處理,而非真正付諸行動。Fellou未能例外。例如,我嘗試讓Fellou通過微信網頁版向我的一位朋友回復一句“收到了”,它足足花了十多分鐘,消耗了幾美元,才完成了這個任務。圍觀agent工作的感受是,現在的agent在閱讀和整理信息時都是超人,但在操作那些為人類設計的電腦界面時,它們又變回了蹣跚學步的嬰兒。
因此,結論也沒有變化:這類AI瀏覽器不適合普通用戶日常使用,但對AI愛好者來說是一個值得探索的玩具。
第二類“AI瀏覽器”以Dia為代表,號稱“為AI時代重新設計”,但仍然將核心放在了瀏覽上。
Dia最受朋友們歡迎的功能,就是直接針對網頁內容問答。在Dia的AI側邊欄中,用戶能針對當前顯示的網頁提問,Dia還支持同時針對多個甚至全部已打開的網頁提問,這在日常做研究時還是蠻方便的。相信大家都給AI聊天機器人發過網頁鏈接,所以我想應該不用再舉例說明這個功能的用處了。
好了,Dia目前最主要的特點,其實用這兩句話就說完了。可能很多人看了以后會想:不就是網頁問答嗎?很多瀏覽器的側邊欄現在也有這個功能,我為什么要用Dia?這也是我剛開始參與Dia內測時產生的疑問。
這也就引出了第三類“AI瀏覽器”:在老牌瀏覽器上直接增加AI功能,比如Chrome、Edge、Safari等推出的更新,瀏覽器擴展也歸為此類。早在2023年2月,ChatGPT發布未滿百日,微軟就憑借自己和OpenAI的獨家合作關系,率先在Edge瀏覽器(也是Windows系統的默認瀏覽器)的側邊欄中加入了“Bing Chat”,背后的技術是當時尚未公布的GPT-4。
和它們相比,Dia最直觀的優勢是設計簡潔、優雅。一些國內的產品選擇了堆砌功能,設計臃腫,我數了一下自己電腦上安裝的這些產品,其中最貪心的一家在側邊欄中一次性塞了50多個按鈕,要在這里面找到“與網頁聊天”的選項一點兒也不容易。而Dia的使用體驗非常簡單直接,整個工具欄除了“前進”“后退”“刷新”,只有一個“聊天”按鈕,打開就可以直接問答。這樣的界面設計背后實際上也是一種取舍,舍棄了無法提出問題的用戶的體驗。
這兩年中大語言模型本身的進步也讓問答體驗更成熟。整體而言,如果你經常需要將網頁鏈接發給AI,Dia可以讓你的日常使用體驗變得愉悅,經過從內測到公測的優化,目前的Dia已足夠穩定,推薦一試。
說到這里,到底“AI瀏覽器”能否成功呢?我對AI樂觀,對“AI瀏覽器”卻不那么樂觀。前面提到過Edge“搶跑”—兩年多過去了,Edge的市場份額增長很小,沒能撼動Chrome的主導地位。
人的習慣是很難改變的。即使進入移動互聯網時代、PC互聯網時代的巨頭,除了門戶網站外,瀏覽器作為一個成熟市場,要讓用戶放棄一個用了數年的工具,非常困難。
當然,非常困難并不意味著做不到。歷史上,瀏覽器市場多次改朝換代。最近的一次就是Chrome的崛起。2008年Google推出Chrome時,瀏覽器市場也已經是一個成熟市場,由微軟的Internet Explorer(IE,也是當時Windows系統的默認瀏覽器)統治。然而Chrome一騎絕塵,在短短的數年間,就取得了全球瀏覽器市場的統治地位。
究其原因,要讓人們改變習慣,不僅需要比原來的產品做得更好,而且得是超出數量級的好,好上10倍,帶來體驗的質變。我的手上還有一本2008年Chrome發布時的宣傳冊—回到2008年,隨著像Gmail、Google Docs等網頁應用的逐步流行,越來越多的工作正遷移到瀏覽器中完成,IE的卡頓和崩潰成了家常便飯,十分影響人們的工作。Chrome可以說是徹底解決了這些問題。對當時包括我在內的需要在瀏覽器中辦公的用戶來說,Chrome就像是“地獄里的一杯冰水”,是體驗的質變。
類似的經典例子還有很多,比如iPhone取代功能機,都是提供了用戶體驗的質變。當然,這只是第一步。反觀今天的“AI瀏覽器”,包括Dia在內,雖然努力做了很多體驗創新,但還遠遠不夠形成質變。AI還沒有深度融合到瀏覽器中,沒有真正成為“眼睛和手腳”。例如,既然瀏覽器承載了我在電腦上的大部分信息獲取歷史,我的標簽頁、瀏覽記錄、收藏夾其實就是非常自然的“知識庫”,Dia也在測試這方面的功能。Dia也號稱自己是agentic browser,將推出agent功能。
不過,即使Dia能從其中找到帶來“10倍體驗”的亮點,我也看不到什么Chrome無法跟進的理由。就在剛剛過去的5月,Chrome終于在瀏覽器右上角直接增加了一個Gemini按鈕,用戶可以直接和網頁聊天,體驗和Dia相似。
說回來,其實我今天使用的主力瀏覽器依然是Arc。我屬于瀏覽器標簽頁泛濫成災型用戶,以前用Chrome時一般同時開著上百個標簽頁,Arc解決了這個問題。所以,Arc在2022年推出時對我來說也是“地獄里的冰水”,義無反顧地切了過去,這對我來說就是一種“10倍體驗”。當然,Arc的操作邏輯和其他瀏覽器完全不同,學習成本很高。但另一方面,習慣了Arc后也很難切換到其他瀏覽器,包括Dia。
因此,這個產品雖然注定小眾,卻擁有許多忠實擁躉。如果能基于這個預期來設計商業模式,一樣可以是一家成功的公司。遺憾的是,這無法承載“瀏覽器公司”的野心,他們仍然決定另起爐灶。
只是,推廣Dia并沒有那么容易。