吳新

掃碼注冊,獲取2小時大模型應用免費權益包
聽悟內置豐富實用的AI 大模型功能,新注冊用戶登錄后參加簡單的口令累積會有時長贈送,阿里云的“通義聽悟”通過簡單直接的方式,開始公測其大模型的應用。和ChatGPT 相似的應用吸引了大批網友參加活動,《電腦報》的粉絲第一時間就把300 個賬號搶光了。當前讀者可通過掃碼注冊,獲得2 小時免費權益包,然后在網上搜索其他聽悟的口令進行時長疊加。
6 月上旬阿里云在廣州宣布通義大模型進展,聚焦音視頻內容的AI 新品“通義聽悟”正式上線,成為國內首個開放公測的大模型應用產品。通義聽悟接入了通義千問大模型的理解與摘要能力,可成為用戶工作學習中的得力AI 助手,幫助用戶隨時隨地高效完成對音視頻內容的轉寫、檢索、摘要和整理,比如用大模型自動做筆記、整理訪談、提取PPT 等。
“換一種方式,讓音視頻可以被輕松閱讀、整理和分享。”阿里云CTO 周靖人介紹,聽悟是一款工作學習AI助手,它瞄準具有高知識附加值的音視頻內容場景,比如開會、上課、訪談、培訓、面試、直播、看視頻、聽播客等,能通過大模型等最新AI 技術快速提煉和沉淀知識。
根據記者現場體驗,聽悟融合了十多項AI 功能,可以全面提升知識從音視頻向圖文形態轉換的效率。除了“聽力好”,能高準確度生成會議記錄、區分不同發言人,這個AI 助手“悟性也極高”,大模型可以一秒給音視頻劃分章節并形成摘要、總結全文及每個發言人觀點、整理關注重點和待辦事項。大模型一鍵提取PPT、針對多個音視頻內容向AI 提問、概括特定段落等功能近期也將上線。

Chrome插件將在近期對所有用戶開放下載
針對一些細分場景,聽悟還設置了不少“寶藏功能”:打開Chrome 插件,外語學習者和聽障人士可以借助雙語懸浮字幕條隨時隨地看無字幕視頻,日程沖突時,聽悟還可成為職場人士的“開會替身”,在靜音情況下入會AI 可代為記錄會議、整理要點;轉寫結果可下載為字幕文件,方便新媒體從業者視頻后期制作;聽悟梳理的問答回顧可以讓記者、分析師、律師、HR 等群體整理訪談更高效。
另一顯著優勢是,聽悟與阿里云盤無縫連接,一鍵就能轉寫云盤上的音視頻內容,公測期間注冊的聽悟用戶后續還將獲得更大的阿里云盤存儲空間,在云盤內在線播放視頻時也可自動出字幕。通義聽悟支持一鍵導入阿里云盤音視頻文件。
周靖人介紹,聽悟集成了阿里最先進的語音和語言技術。其內置阿里新一代工業級語音識別模型,識別準確率在多個權威中文數據集上名列第一;融合自研語音語義多模態說話人算法,能對10 人以上說話場景進行角色區分;接入通義千問大模型后,能夠對上萬字的音視頻內容進行摘要總結,事實準確性與要點完備性國內領先,支持跨多音視頻內容的精準問答理解。
此前國內語音廠商AI 轉寫定價達19.8 元每小時,而聽悟用戶可通過每日登錄等多種任務領取免費轉寫時長。公測期間,阿里云官方微博、微信及各大平臺社區還會發放大量20 小時轉寫口令碼,用戶獲得的福利權益可累加,一年內有效,免費時長可高達100 小時以上,市場價值上千元。
同時,聽悟的能力也可嵌進各類音視頻平臺,形成實時字幕、智能摘要等,典型應用如釘釘的“釘閃記”背后便集成了聽悟。未來聽悟還將在夸克APP、阿里云盤等端口提供服務。
和聽悟同期吸引眼球的,還有阿里旗下的釘釘,該辦公平臺軟件宣布全面接入通義千問大模型——釘釘斜杠“/”能力首次對外開放,現階段面向企業用戶定向邀測與產品共創。
釘釘斜杠“/”可以做到的內容包括:在創作時,它可以幫你擬標題、潤色文案,還能一句話生成海報;在匯報時,它可以幫你擴寫方案,一鍵排版或者生成 PPT;在開會時,它可以幫新進入會議的成員快速總結,一分鐘了解大家之前在聊啥;會議開完了,它還能自動生成會議紀要,列出待辦事項;在群聊時,它可以把幾十頁的聊天記錄生成摘要,讓你不用爬樓也能迅速抓住重點;在應用開發時,它可以把你的一句話、一張圖生成應用,還可以對話修改應用內容。
談及AI 大潮下企業用戶潛在的數據安全擔憂,周靖人回應稱:模型技術并不代表損失隱私,更多是提高了開發的效率。“在這樣的嶄新智能化時代,所有企業都站在同一起跑線,誰更有效地利用好模型,更好與業務場景有機結合在一起,就會在新時代里脫穎而出。今天誰能夠更敏捷、快速探索出一條業務發展創新的道路,就會在新的時代占據有利的點。”

“釘閃記”背后集成通義聽悟