999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

GPT-4o來了,最像人的AI?

2024-06-21 08:32:42周游
中國新聞周刊 2024年19期
關鍵詞:文本智能用戶

周游

本文圖/視覺中國

“我正在臺上給大家做現(xiàn)場演示呢,有點緊張怎么辦?”

“你在臺上做演示嗎?那真是太棒了!深呼吸一下吧,要記得你可是專家!”

邏輯清晰,語調幽默,感情飽滿,很難想象這是現(xiàn)實中人類與AI間的對話。北京時間5月14日凌晨,美國人工智能公司OpenAI的春季發(fā)布會上線,發(fā)布了人工智能大模型ChatGPT-4的升級版GPT-4o。前述對話就發(fā)生在發(fā)布會現(xiàn)場,這位提問的研發(fā)負責人在得到GPT-4o的回應后,隨即故意大喘幾口氣,這一動作成功被手機上的GPT-4o捕捉到,并給出了“放松點,你可不是吸塵器”的回應。

“GPT-4o可以綜合利用語音、文本和視覺信息進行推理?!監(jiān)penAI首席技術官穆里·穆拉蒂在隨后舉行的主題演講中表示,GPT-4是OpenAI此前的旗艦模型,可以處理圖像和文本的混合信息,而GPT-4o則在此基礎上新增了語音處理能力。最關鍵的是,其反應速度平均為320毫秒,完全做到了與人類在正常對話中同頻。多位業(yè)內人士指出,這是此前GPT-4或任何智能語音助手都未曾達到的水平。

就在OpenAI發(fā)布會24小時后,5月15日凌晨,谷歌在“I/O開發(fā)者大會”上發(fā)布了大模型Gemini加持下的個人數字助理Project Astra,用于對標GPT-4o。谷歌稱其為“通用AI智能體”,其視覺識別和語音交互效果與GPT-4o不相上下。不少業(yè)內人士感嘆,曾幾何時由蘋果發(fā)布會主導的“科技春晚”,如今已被AI大模型徹底接手。

邁向通用語音助手

OpenAI創(chuàng)始人、CEO薩姆·奧爾特曼并未參加此次OpenAI發(fā)布會,而是在會后于社交平臺X上發(fā)表了一個單詞“她”作為回應。在2013年的美國電影《她》中,男主結識了一個可以不斷適應環(huán)境的AI系統(tǒng),并與其墜入愛河。這個AI系統(tǒng)所擁有的迷人聲線、幽默風趣和善解人意,如今GPT-4o似乎都可以實現(xiàn)了。

GPT-4o中的“o”源自詞綴“omni-”,有“全知全能”之義。對AI大模型而言,要做到全知全能、無障礙與人交流,首先要快。OpenAI官網顯示,GPT-4o在英文文本和代碼處理上與此前最新的GPT-4 Turbo的性能不相上下,但在非英文文本、視覺和音頻理解方面都更為高效。此前,若使用語音模式對話,GPT-3.5的平均延遲為2.8秒,GPT-4則為5.4秒。人類的平均反應時間一般為100毫秒到400毫秒,而GPT-4o最低可達232毫秒,因此后者可以提供幾乎無延遲的順暢交互體驗。

OpenAI此次未放出任何具體的技術文件,僅在主頁上用一段話介紹了GPT-4o的技術突破。普通的智能語音模型由多個獨立模型組成,分別實現(xiàn)音頻轉文本,文本吞吐和處理,以及文本再轉音頻等功能。ChatGPT就是負責文本吞吐和處理的核心,也就是智能核心。據OpenAI介紹,GPT-4o一改這種流水線模式,可以同時吞吐文本、畫面和音頻數據,這意味著所有輸入和輸出都由這一個核心來處理,再加上其在視頻和音頻理解方面的升級,其處理速度顯著加快。這一模式被稱為“端到端的多模態(tài)模型”。

多模態(tài)還意味著AI可以識別和表現(xiàn)情感。目前,市面上的語音助手常被用戶詬病為冷漠、機械、一成不變,這是AI語音交互的一大阻礙。這是因為,此前的流水線模式會讓智能核心丟失很多信息,它很難探測語調、識別多個說話者、排除背景噪聲,也無法歌唱或用語氣表達情感。端到端模式下,文字和音視頻都可以成為訓練智能核心的數據,從而讓其真正明白語言所承載的情感。

OpenAI發(fā)布會上,演示者要求GPT-4o調整說話時語氣,在說話和唱歌之間快速切換,甚至用堪比莎士比亞戲劇的夸張聲調來講一個睡前故事,GPT-4o都能完成任務。在被人類打斷時,其也能耐心等待、快速理解新指令。在聽到讓自己唱歌的要求時,GPT-4o甚至輕微嘆了口氣。

清華大學智能產業(yè)研究院首席研究員聶再清對《中國新聞周刊》稱,從現(xiàn)場和官方視頻來看,GPT-4o確實做到了即時回應、準確理解并執(zhí)行指令,以及展現(xiàn)合時宜的語調情感。如果這確實是現(xiàn)場隨機的結果,而非為了演示而設定好的流程,那么GPT-4o的能力的確令人震驚。在他看來,由于缺乏技術文件,一個GPT-4性能水平的處理核心如何完成如此復雜的任務,還未可知,但“這一定是大數據喂養(yǎng)的結果”。

除了現(xiàn)場演示,發(fā)布會還有網友提問環(huán)節(jié)。按照網友要求,GPT-4o展示了同聲傳譯、情緒識別的能力。在識別一位工作人員的面部情緒時,GPT-4o說“我好像在看一個木質表面的東西”,疑似“翻車”,但該工作人員立刻調整提問策略,聲明自己“不是一張桌子”。之后,GPT-4o給出了合乎情理的答案。

GPT-4o并不是第一個多模態(tài)模型。去年12月,谷歌Gemini Ultra模型發(fā)布,用于完成任務語言理解、數學推理等高度復雜的任務,被業(yè)內認為可叫板當時的GPT-4,也是市面上最先發(fā)布的多模態(tài)模型。在谷歌官方公布的視頻中,測試員和Gemini做了一些小游戲,Gemini能夠用圖片設計智力問答,或者找出紙團被扣在哪個紙杯底下。整個過程中,Gemini的反應速度都非???,還會生成音頻和圖片來輔助回答。但發(fā)布會后僅數日,谷歌發(fā)言人便公開承認,該演示視頻不是實時錄制, Gemini實際上只能對靜態(tài)圖像做出反應。

因此,GPT-4o的發(fā)布被業(yè)內人士看作OpenAI對谷歌的“貼臉開大”。谷歌則緊隨其后,在15日的發(fā)布會上予以還擊。相比于OpenAI不足半小時的“輕聲細語”,谷歌用長達近兩小時、包含數十款AI產品的大轟炸叫板OpenAI,包括文生視頻領域對標Sora 的Veo,以及對標ChatGPT但文本吞吐量遠超前者的Gemini 1.5 Pro。

谷歌發(fā)布的視頻中,Project Astra能識別各種物體,說出代碼的功用,并與人類實時溝通,延遲上與GPT-4o沒有明顯差異。Project Astra還能與谷歌AR原型眼鏡“夢幻聯(lián)動”,為佩戴者描述周圍場景,并根據佩戴者的反饋補充細節(jié)。這一應用有可能力壓OpenAI,在未來成為視覺障礙患者的福音。有業(yè)內人士分析,除了搜索引擎,谷歌在AI大模型領域還在拉平與OpenAI差距的過程中。

在聶再清看來,兩家公司接連發(fā)布多模態(tài)語音助手,在易用性方面邁出了一大步,讓人窺見了未來通用語音助手的樣貌。通用語音助手就是人類在數字世界里的代理或管家,可以幫人解決一切數字事務,包括安排日程、整理和調用文件、利用知識指導學習、利用記憶推薦可能喜歡的產品等。未來隨著模型吸納的信息越來越多,語音助手會更加人性化、更加智能,做到真正的自然交互。隨著視頻能力的加入,除語音外,表情、肢體動作等也能夠被模型解讀,作為其決策的依據。有網友評論稱,無論是GPT-4o還是Project Astra,其身手足以秒殺蘋果的語音助手Siri。

5月14日,美國加州,谷歌I/O開發(fā)者大會。

距離用戶越來越近

OpenAI在發(fā)布會上表示, GPT-4o將在未來幾周內分階段集成至OpenAI的各項服務中,包括還未面世的ChatGPT搜索引擎。許多業(yè)內人士對此次發(fā)布會上GPT-5的缺席表示惋惜,由于OpenAI在2022年底推出ChatGPT的時候,實際上已做出了GPT-4,因此有業(yè)內人士預測,帶搜索引擎的GPT-5也許“已在路上”。英偉達高級科學家Jim Fan在X上表示,GPT-4o已經接近GPT-5,或許是后者的一次早期試水。據聶再清觀察,目前還沒有看到模型迭代的瓶頸,大模型的迭代速度有可能還會加快。

奧爾特曼在X上表示,OpenAI致力于將GPT-4o免費提供給所有用戶使用。以往,OpenAI發(fā)布新版ChatGPT模型時,通常會將其置于付費墻之后。如今,免費用戶已經可以訪問GPT-4o加持下的多項功能,例如分析數據、創(chuàng)建圖表、撰寫文件總結等,但不能使用圖片生成功能。付費用戶則可以享受5倍調用額度。谷歌在發(fā)布會中沒有公布Project Astra的具體上線時間,預計很快會到安卓、iOS等平臺使用。

對開發(fā)者來說,GPT-4o的定價也更友好。OpenAI官網顯示,從GPT-4開始,輸入單位文本的價格一直在下降,相較GPT-4 Turbo,GPT-4o收費降低50%,調用速度卻提升了兩倍。這使其在商業(yè)應用上有了更大吸引力。聶再清表示,大模型控制價格的方式之一是提升模型性能,用更少的資源做更多的事;另一個方式則是通過類似搜索引擎的商業(yè)模式,對用戶免費,但可以收取廣告商的贊助。

至于未來OpenAI和谷歌的大模型有沒有開源的可能性,聶再清表示,參考iOS和安卓,一個閉源一個開源,未來的大模型市場也極有可能出現(xiàn)開源和閉源的巨頭。用戶體驗最好的行業(yè)領先者傾向于閉源,而開源的好處在于可以集體將模型“做大做強”,二者在市場都有自己的位置。谷歌在發(fā)布會中推出了其首個視覺語言開源模型PaliGemma,針對圖像標注、視覺問答、圖像標簽化等方面進行了優(yōu)化。此外,谷歌還將在6月推出更大規(guī)模的開源模型Gemma 227B。

OpenAI也同步發(fā)布了適用于macOS的ChatGPT桌面應用程序,使用戶調用的體驗更絲滑。GPT-4o加持下的通用語音助手在未來將有廣泛應用,例如健康管理、醫(yī)療咨詢、教育教輔等領域。聶再清認為,所有開放領域用到的語音智能,例如購物App中的導購等,都可以加裝類似GPT-4o的智能核心,增強用戶體驗。這類語音助手將離用戶越來越近。

猜你喜歡
文本智能用戶
在808DA上文本顯示的改善
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲欧美日本国产专区一区| 国产日韩久久久久无码精品| 91成人免费观看| 国产自在线播放| 在线va视频| 亚洲第一精品福利| 波多野结衣无码视频在线观看| 第一区免费在线观看| 国产人成在线视频| 极品国产在线| 国产Av无码精品色午夜| 国产一区免费在线观看| 色有码无码视频| 亚洲第一视频网| 天天摸夜夜操| 国产精品hd在线播放| 久久一日本道色综合久久| 国产情精品嫩草影院88av| 91欧美亚洲国产五月天| 亚洲福利网址| 一区二区三区在线不卡免费| 亚洲欧美日本国产综合在线| 久久免费视频6| 国产日韩精品欧美一区灰| 在线观看精品国产入口| 日本欧美成人免费| 色婷婷电影网| 99激情网| 亚洲男人的天堂网| 无码精油按摩潮喷在线播放| 欧美人在线一区二区三区| 亚洲精品黄| 丁香五月婷婷激情基地| 久久国产热| 无码人中文字幕| 国产91熟女高潮一区二区| 扒开粉嫩的小缝隙喷白浆视频| 日本不卡在线视频| A级毛片无码久久精品免费| 国产欧美视频在线| 亚洲男人在线天堂| 国产在线观看91精品亚瑟| 午夜毛片免费观看视频 | 亚洲精品人成网线在线| 久久黄色影院| 一级毛片免费播放视频| 毛片在线看网站| 在线观看国产网址你懂的| 日韩欧美国产中文| 色婷婷色丁香| 国模视频一区二区| 青青草一区二区免费精品| 免费国产小视频在线观看| 亚洲欧美在线精品一区二区| 国产第一福利影院| 亚洲成综合人影院在院播放| 亚洲天堂网视频| 国产成人av大片在线播放| 国产精品亚欧美一区二区| h视频在线播放| 毛片一级在线| 国产人前露出系列视频| 凹凸国产分类在线观看| 亚洲精品日产AⅤ| 首页亚洲国产丝袜长腿综合| 国产精品一线天| 亚洲一级毛片| 日韩毛片视频| 国产精品夜夜嗨视频免费视频| 中文字幕1区2区| 久久综合国产乱子免费| 久久黄色视频影| 成人韩免费网站| 国产美女一级毛片| 美女扒开下面流白浆在线试听| 老司机aⅴ在线精品导航| 精品乱码久久久久久久| 日韩av无码DVD| 天堂成人av| 亚洲熟女中文字幕男人总站| 亚洲成年人网| 色欲色欲久久综合网|