榮智慧

把ChatGPT放進口袋需要幾步?
在手機上運行生成式人工智能,而不是靠巨頭的服務器,是最熱門的科技潮流之一。
安卓手機率先搶占潮頭。
2023年年初,高通展示了第一款運行Stable Diffusion“文生圖”模型的安卓手機,該模型具有約10億個參數。當年年底,谷歌公布Gemini的Nano版本可以直接嵌入安卓系統。據稱,三星Galaxy手機將于2024年具備AI功能,運行大模型LLM2的微縮版。
中國手機商小米、榮耀、vivo和OPPO,先后宣布新一代旗艦機型包含“生成式人工智能”功能。
熱潮之下,蘋果公司顯得分外沉默。
無論是手機制造商,還是芯片制造商,都希望AI重振智能手機市場。智能手機剛剛經歷了十年來最糟糕的一年,出貨量下降5%。
高通先亮出了“無損”運行Stable Diffusion的配置。
Stable Diffusion是利用生成式人工智能來完成“文生圖”的火爆應用之一,和Dall-E 2、Midjourney齊名。
Stable Diffusion屬于深度學習家族,工作人員會逐步給圖像添加“噪點”,通過模型記錄添加噪點的過程,再進行逆轉,供AI學習。
噪點,也叫噪聲,是指數碼攝影器材拍攝的圖像中,存在的粗糙點,一般受電子干擾產生。
從AI的角度,先看到的是一幅布滿噪點的畫面,再看到畫面一點點變清晰,最后成為畫作。AI學的是整個去噪點的過程,特別是如何處理高斯噪聲(概率密度函數服從正態分布的噪聲),最后生成畫作。
Stable Diffusion的功能是,可以在幾秒內將文本轉換為512x512像素的圖像;圖像可以轉換、放大、修改和替換;使用GFP-GAN建模,允許用戶上傳模糊的面部圖像,進行放大或恢復原貌。
用手機玩這類應用,人人都能隨時當畢加索。
其實,“AI手機”具體能運行哪些模型和應用,目前評估為時過早。今年上市的第一批AI手機中,可能會包含一些“相對基礎”的應用,比如語音控制照片編輯、簡單問答等,模型參數在10億到100億之間。
像榮耀展示的下一代旗艦機Magic,用戶通過自然語言發出指令,能讓AI自動查詢相冊里的拍攝素材,并尋找合適的部分整合成一段視頻。
號稱“超越GPT-4”的谷歌Gemini的Nano版,也將落戶谷歌自家手機Pixle。
Gemini為“原生”多模態大模型,可以泛化理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。屆時用戶可以在手機感受“具有Bard體驗的高質量智能助手能力”。Bard是谷歌的對話式人工智能工具。
AI進入智能手機不是新鮮事,2017年就開始了。
那一年,工程師開始在片上系統(SoC)添加新的AI組件,以提高“智能”或AI助手任務的性能,并使其具有成本效益、功耗和尺寸效率—因此也相當依賴更快、更新的系統內存。
不過,之前的想法,還是集成云和終端設備來擴展應用。
比如加州大學伯克利分校有一款名為MyShake的地震預警應用程序,它使用手機中的加速度計傳感器和GPS,來測量局部發生的震動程度,并結合附近其他用戶的數據,在云中進行綜合分析。這款應用程序想打造的,是個人地震儀或個人地震預警系統。
而當下的主流思路是實現端側大模型推理:一方面能獲得實時響應,一方面也避免個人數據上傳到云端、泄露隱私。
安卓手機兩款最新旗艦芯片都主打“人工智能”功能。
聯發科的天璣9300,采用臺積電4納米工藝,擁有227億個晶體管。據悉使用“全大核”CPU架構,包含4個Cortex-X4超大核,最高頻率可達3.25GHz,以及4個主頻為2.0GHz的Cortex-A720大核,其峰值性能相較上一代提升40%,同性能情況下功耗節省33%。
針對AI功能,天璣9300集成了MediaTek第七代AI處理器APU 790,整數運算和浮點運算的性能是前一代的兩倍,功耗降低了45%。
其內存硬件壓縮技術,通過量化和壓縮,把大模型的內存占用降低到了5GB,讓大多數用戶(手機內存16GB)日常跑得動大模型應用。
高通的驍龍 8 Gen 3,為Qualcomm Kryo 64位架構,同樣采用4納米工藝制程。CPU部分為1+5+2的8核架構組合,相比上一代處理器8 Gen 2的1+4+3布局多了一個性能核心。
具體為1顆3.3GHz主頻Arm Cortex-X4超大核心、5顆最高主頻3.2GHz大核心,以及2顆2.3GHz主頻能效核心。
驍龍8 Gen 3支持100億參數的大語言模型。據報道,跑Llama2-7B時,每秒能生成20個Token。與此同時,8 Gen 3 跑大模型時,以往要占用10G內存,經量化后不到2G。性能相對前代提升了9.5萬億次/秒,實現30%的運算速度提升。
驍龍系有三星、華碩、榮耀、iQOO、魅族、蔚來、努比亞、一加、OPPO、真我、紅米、紅魔、vivo、小米和中興等客戶,天璣系歷來為OPPO、摩托羅拉、vivo、小米和傳音提供服務。二者有部分客戶交叉。
另外,針對個人電腦的人工智能芯片也將面世。驍龍 X Elite目前已支持在端側運行超過130億參數的生成式AI模型,面向70億參數大模型每秒生成30個Token,預計從2024年中期開始,就會有廠商會推出該芯片的PC版。

可以說,2022年年底誕生的對話式人工智能ChatGPT,正在加速進入C端—在PC和手機上針對個人用戶提供新的互動方式,從而改變消費者的學習、工作和生活習慣。
當用戶輸入任何文字、聲音、圖像信息時,端側的人工智能助手將即時對相關內容進行響應、調取和加工。
比如,當作者寫作一篇文章時,AI助手可以隨時根據關鍵詞的輸入提供相關數據和信息。
當用戶在聊天對話框打出“我們約個時間吃飯”時,AI助手立刻給出日程表、地點附近的餐廳和最優路線。如果有一天AI能判斷這句話是不是客套話,那就真的“神作”了。
這些場景,可能在未來的幾年內實現。
生成式AI助手將成為人和所有應用之間的強大接口。由此,以應用為中心的用戶界面也將被顛覆,個人和企業的生產力和生產效率也有更大的想象空間。
蘋果看似沉默,其實也沒閑著。它有“Apple GPT”。
2023年12月12日,蘋果研究人員于arXiv發布了一篇名為“LLM in a Flash”的論文,提供了“解決當前計算瓶頸的解決方案”。
論文表示,可以利用“閃存使用”技術來解決容量限制問題;使用容量較大的閃存來存儲AI模型的數據,在需要時在將數據調入內存中處理,從而“為在內存有限的設備上有效運行LLM鋪平了道路”。
基于LLM的聊天機器人,比如ChatGPT、Claude等,同時處理的數據量非常龐大,往往需要調用大量內存才能運行。通常,運算數據標準方法是將閃存中的數據加載到內存中,再在內存中進行數據推理。
手機的內存相當有限,嚴重限制了可以運行的大模型的大小。
上文提到的安卓手機芯片,采取的都是內存硬件壓縮技術—量化和壓縮,通過減少數字表示位數,來減少模型的存儲量和計算量。比如,深度學習一般使用32位浮點數來表示權重和激活值,用上量化,使用更短的整數表示權重和激活值,就能減少內存和計算開銷。
量化和壓縮肯定會導致模型準確度下降。
蘋果研究人員的辦法是發明了兩種新技術—“窗口”和“行列捆綁”,利用大硬盤的容量承接和整理數據,而不是大力壓縮模型。
據說,這方面的嘗試會整合在語音助手Siri上,目標是推出與人工智能深度集成的智能版Siri。
還有傳言稱蘋果要在盡可能多的應用程序中添加人工智能。
而且,蘋果也開發了生成式人工智能模型“Ajax”—內部叫它“Apple GPT”,在2000億個參數上運行,可能比ChatGPT 3.5強大,但應該打不過GPT-4。
有分析師表示,蘋果將在2024年底左右在iPhone和iPad上推出某種生成式人工智能功能,屆時iOS 18會包含此功能。幾百臺人工智能服務器將于這兩年建成。
借生成式人工智能的東風,智能手機將迎來一輪新周期。