近日,OpenAI發布了其全新旗艦模型“GPT-4o”,其中“o”寓意著“全知”。據悉,這款新模型融合了文本、音頻和圖像的處理能力,無論輸入何種組合,它都能靈活生成相應的輸出。
近年來,開發更人性化、功能更強大的生成式人工智能工具競爭激烈。GPT-4o對音頻輸入的響應極為迅速,最短僅需232毫秒,平均也不過320毫秒,幾乎達到了人類對話的響應速度。OpenAI近期發布的GPT-4o,在人工智能領域引起了廣泛的關注和討論。GPT-4o作為OpenAI在大型語言模型技術上的又一次飛躍,其卓越的性能和廣泛的應用前景,無疑為人工智能領域注入了新的活力。

GPT-4o不僅繼承了GPT系列模型在文本生成、語言理解等方面的強大能力,還在多個方面進行了顯著的優化和提升。
首先,GPT-4o在模型的規模和參數數量上實現了大幅度增長,這使得模型在處理復雜任務和應對不同場景時更具靈活性和準確性。
其次,GPT-4o在知識獲取和更新方面取得了顯著進展,通過不斷地從海量數據中學習和吸收新知識,使得模型在回答問題和提供建議時更具針對性和實用性。
據報道,相比先前版本,GPT-4o與使用者對話基本無延遲,和人類反應速度類似。即使對話中途被打斷,也能繼續下去。這些都是實現逼真語音對話的標志,也是當前眾多人工智能語音助手普遍面臨的技術難點。
在網絡直播的展示中,這款生成式人工智能工具利用其視覺和語音能力,指導演示者在紙上逐步解出一道方程題,而不是直接給出答案。它還展示了英語與意大利語互譯、用自拍照片識別情緒等能力。
開放人工智能研究中心首席執行官薩姆·奧爾特曼指出,GPT-4o就像“電影中的人工智能”技術。
開放人工智能研究中心首席技術官米拉·穆拉蒂表示,GPT-4o即將上線,用戶可免費試用。ChatGPT原有付費用戶將獲得新版本更多使用權限。