國(guó)產(chǎn)大模型成功解鎖“眼睛”,智譜AI(即北京智譜華章科技有限公司)在9月12日開(kāi)幕的2024年中國(guó)國(guó)際服務(wù)貿(mào)易交易會(huì)(簡(jiǎn)稱(chēng)服貿(mào)會(huì))上展示了最新發(fā)布的清言App “視頻通話”功能。據(jù)悉,這是全球首個(gè)面向大眾用戶開(kāi)放的大模型視頻通話功能。
據(jù)介紹,清言視頻通話功能跨越文本、音頻和視頻三大模態(tài),具備實(shí)時(shí)推理能力。用戶可以打開(kāi)攝像頭,通過(guò)視頻通話窗口與清言交流,清言不僅能“看”到用戶畫(huà)面,還能聽(tīng)懂指令并準(zhǔn)確執(zhí)行,即便頻繁打斷也能迅速反應(yīng)。在畫(huà)面上劃重點(diǎn),清言還可以理解用戶想讓它重點(diǎn)關(guān)注的地方。
智譜AI表示,此前GPT-4o上線了語(yǔ)音但并未對(duì)公眾開(kāi)放視頻功能,利用清言可以體驗(yàn)到目前最前沿的AI/大模型技術(shù)。過(guò)去和AI交互主要是文字形式,有了視頻功能,用戶可以告別文字長(zhǎng)篇大論的提示詞和AI絲滑交流。清言就像用戶身邊有眼力見(jiàn)、能聽(tīng)懂話的人類(lèi)助手,只要攝像頭一拍,AI就能知道用戶的環(huán)境、想讓AI做的事,用戶只需口頭吩咐。
清言視頻通話功能還可變身隨身英語(yǔ)翻譯,可實(shí)現(xiàn)即時(shí)翻譯中英文,根據(jù)用戶所處環(huán)境信息進(jìn)行英語(yǔ)對(duì)話,并協(xié)助糾正用戶的語(yǔ)音和語(yǔ)法錯(cuò)誤。這一功能的使用場(chǎng)景包括在旅游時(shí)隨時(shí)講解景點(diǎn)故事,為視障人士識(shí)別環(huán)境等,還可以提供學(xué)科作業(yè)輔導(dǎo)、面試指導(dǎo),在會(huì)議中完成紀(jì)要和總結(jié),分析復(fù)雜的數(shù)據(jù)圖表,實(shí)時(shí)解讀電腦屏幕的代碼。
(據(jù)澎湃新聞)