非田

近日,綽號“霉霉”的美國歌手泰勒·斯威夫特的一則說中文視頻,刷屏了中國社交媒體。
在短短幾十秒的視頻里,霉霉操著一口流利的普通話,講述著自己最近的旅行—霉霉居然學會了中文,這是為來中國巡演做準備嗎?事實上,這段視頻是利用AI工具制作而成,有別于刻板印象中AI死板的翻譯,和發音對不上口型,這次的視頻幾乎以假亂真,網友被這個“沒有譯制片腔調的翻譯”深深震撼到。
AI與人聲這兩個關鍵詞結合,在今年已經貢獻了一個又一個熱搜,先是不斷有網友以AI模擬孫燕姿聲線發布翻唱,為后者贏得了“AI歌后”的昵稱,再到近來香港老牌藝人尹光,推出了一首本人和自己AI聲線合唱的歌曲,他也成為香港首個注冊了自己AI形象的歌手。
當下AI再度“進化”,以“霉霉說中文”視頻中用到的軟件“HeyGen”為例,即便是不懂技術的小白,也可以輕松實現視頻中完美口型和語音卡點的效果,這對營銷、配音等行業,乃至大家的日常生活,都是一次巨大的沖擊。
為了讓電腦能和人類一樣“說話”,科技工作者經歷了多年的漫長探索,如今AI時代來臨,如此逼真的深度合成技術,對人類而言,究竟是驚喜還是驚嚇呢?
事實上,在AI的幫助下,要想讓外國人“說中文”并不困難,但背后需要應用多種不同的AI模型。
正如“霉霉說中文”視頻上傳者所說,制作這個視頻,要掌握地道的口語翻譯、語音克隆和替換嘴型。
先是語音類,包括語音轉文本(Speech To Text,即“STT”)和文本轉語音(Text To Speech,即“TTS”)兩部分。以微軟、谷歌為代表的技術大廠,開發迭代了一系列語音類通用模型,國內如網易、訊飛等,也都開放了免費的語音識別類模型,類似微信等軟件所采用的“語音打字”,就應用了STT技術。
以微軟為例,其STT可快速準確地將音頻轉錄為超過100種語言和方言的文本,還能通過自定義模型,提高特定術語的準確性。
而短視頻網站上充斥著“這個男人叫小帥”“N分鐘看完一部劇”式的影視解說,所用的“解說聲音”,大多也是來自微軟的TTS模型。
然后是翻譯,ChatGPT等語言模型的誕生,讓翻譯變得更為自然準確,避免了轉折生硬的“機翻口吻”,從而能生成出一份更接近口語的文本。
再就是聲音,這一步通常需要用到歌聲合成(Singing Voice Synthesis,即“SVS”)和歌聲轉換(Singing Voice Conversion,即“SVC”)技術。AI可以將一段人聲音頻轉換為符合用戶需求的另一種聲線—初音未來、洛天依等虛擬歌手、地圖軟件里的明星虛擬導航員、此前異常火爆的AI翻唱,大多是應用了這類技術。
得益于AI行業的突飛猛進,上述步驟均有免費的開源軟件方案可以提供。

AI配音平臺HeyGen
處理完上述步驟后,還必須讓生成的視頻與口型同步,這一步同樣需要AI利用計算機視覺技術,生成出逼真度極高、在任意角度和距離下都不失真的三維模型。
得益于AI行業的突飛猛進,上述步驟均有免費的開源軟件方案可以提供,只要用戶不嫌麻煩,可以先將視頻里的語音提取成文字,翻譯后語音輸出,再經聲音克隆和嘴型修正,從而讓任何外國人“說中文”,而且不花一分錢。
不過,實際制作類似視頻的過程并沒有這么麻煩,如HeyGen、AI Dubbing、LipDub、Verbalate等軟件,都可以通過融合及應用上述模型實現一鍵生成。
以知名度較高的HeyGen為例,其背后的詩云科技是一家2020年在深圳成立的公司,兩位創始人本科都畢業于同濟大學。目前該公司已經獲得了兩輪百萬美元級別的融資,在加利福尼亞州也設有辦公室。
幾個月前,HeyGen發布了兩則其公司創始人面對鏡頭侃侃而談的視頻,并表示,該視頻全部內容包括人像和聲音均為AI自動生成。這讓不少網友大開眼界,一些媒體開始以“AI視頻領域的Midjourney”來稱呼HeyGen。
Midjourney是一款繪畫類AI,可根據文字描述自動生成出符合要求的圖片,其生成的圖片也解決了AI繪圖中常見的六指或人臉表情過于僵硬等常見問題。而HeyGen也頗具顛覆性—媒體發布的那兩則視頻里,除了AI數字人眨眼過于頻繁外,幾乎看不出破綻。
HeyGen趁熱打鐵,在今年9月開放了“視頻翻譯”(Video Translate)功能,再度在國外社交媒體上霸榜,其網站當月的訪問量突破700萬次,同比上漲了約92%。
兩則視頻里,除了AI數字人眨眼過于頻繁外,幾乎看不出破綻。

《未定事件簿》采用A I 配音的角色莫弈
HeyGen在官網介紹中寫著,“一鍵翻譯您的視頻,使用語音克隆技術,還原自然真實說話風格”。有媒體指出,HeyGen接入了負責翻譯的ChatGPT、實現語音克隆的11Labs,以及同步人物口型的wav2lip-2三個AI模型。
如今掛在HeyGen首頁被當作范例的,是一段頭部科技博主Brownlee說西班牙語,和埃隆·馬斯克說法語的視頻。付費版的HeyGen價格為24-192美元(約合人民幣175-1400元)/月,可實現近20種語言視頻的無縫轉換,單個視頻最多支持5分鐘時長,免費版在視頻時長等方面均有所限制,等待時間也較長。
每一次新的AI技術應用,都會對原有行業產生沖擊,AI語音同樣不例外。當AI不僅可以克隆音色,還能無縫翻譯時,這對配音行業無疑是巨大的沖擊。
這一兩年來,AI配音在游戲行業里也引發了不少討論。知名游戲《賽博朋克2077》在不久前推出的最新DLC中,就用AI技術重現了已故知名配音演員Mi?ogost Reczek的聲音。據國外媒體報道,游戲開發商使用的也是類似SVC的技術,邀請了一位聲線與Reczek接近的配音演員參與配音,再通過AI復刻。
國內游戲廠商也同樣不排斥AI聲音。米哈游的《未定事件簿》和網易的《時空中的繪旅人》兩款游戲,在去年9月都出現了部分配音演員因故無法參與的情況,而兩家公司選擇的方案都是用AI配音來代替。
盡管AI與頂級配音演員相比仍顯遜色,但在輕重、停頓、顫音等聲音細節方面都有一定的表現力。“不行就換AI”,甚至成為一些玩家吐槽配音水準太差時的常用語。
但并非所有游戲在運用AI聲音上都能讓人滿意,一款名為《The Finals》的多人競技射擊游戲,近來在國外游戲圈頗為火爆,既因為這款游戲在玩法上能看到諸多經典同類型游戲的影子,卻也因為它的配音過于難聽和洗腦。
該游戲開發團隊成員隨后承認,游戲除了呼吸聲等AI難以模擬的聲音外,大多數人聲都是AI完成,并坦稱目的就是為了能花更少錢,得到更專業的配音。
對于大多數玩家而言,AI與否或許并不重要,更有感情、更像人聲才是重點。但對于配音演員來說,AI登場后,情況明顯嚴峻得多。
據路透社報道,在美國演員工會掀起的罷工浪潮中,有98.32%的工會成員同意對包括動視、迪士尼、EA等在內的10家大型游戲公司進行罷工。
雙方無法就如何合理地使用人工智能等問題達成一致,一些由知名演員或聲優參與配音、動作捕捉的游戲勢必受到影響,該工會主席弗蘭·弗雷舍爾稱:“AI再一次將我們的成員置于減少工作機會的危機之中。”
除了具體的行業外,語音類AI對普通人的影響也不容忽視。
首先是心理層面。1970年代,日本機器人專家森政弘提出了“恐怖谷效應”理論,大意是指,當機器人與人類的接近程度超過一定界限時,人類在心理上對機器人的好感就會降至冰點。而如今隨著AI技術發展,離取代一部分人越來越近,人類對AI的驚懼隨之攀升,歷史進程也走到了屬于AI的“恐怖谷”時段。
在現實層面,HeyGen無疑給深度造假(Deepfakes)提供了更多可能。當Faceswap等換臉AI問世時,視頻畫面的內容就不再100%可信,“眼見為實”的規律被打破。
而如今HeyGen等AI上線,甚至連視頻里聽見的聲音都不一定為實。從AI換臉再到如今AI換聲,技術的加持讓居心不良者,幾乎可以憑空捏造出一個不存在的視頻,欺騙公眾的難度大大降低,普通人想要分辨哪些信息是由AI生成,也將變得更難。
得益于AI技術的發展與大量免費開源AI,創造虛假信息的難度越來越低,只要稍具名氣,都可能成為的“受害者”,名人更是不勝其擾。更不用說,這種技術正在滋生新型詐騙。

11月1日,首屆全球人工智能安全峰會在英國舉行
日前,國外社交媒體上流傳著一段印度尼西亞總統佐科以流利中文發表演講的視頻,視頻的背景音還有觀眾的笑聲,顯得相當真實。然而,該國通信和信息技術部信息應用司司長杰拉潘在調查后稱,該視頻畫面截取自2015年的一場活動,但內容是利用深度造假技術偽造而成。
極低的創作門檻低意味著更難的監管。一些國家已經推出了相關的規定—以中國為例,以今年4月公布的《生成式人工智能服務管理辦法(征求意見稿)》規定,相關AI技術在向公眾提供服務前,都需經安全評估和備案。但從世界范圍來看,相關法規還遠遠稱不上完善。
值得慶幸的是,人類在當下已經就AI問題達成了一定共識。11月1日,在首屆全球人工智能安全峰會上,中英美等近30個國家和地區及歐盟聯合簽署了《布萊切利宣言》,共同應對AI可能帶來的挑戰。英國媒體稱,這是罕見的全球團結表現。
技術不分善惡,如何牽好技術的韁繩,不讓人淪為技術進步的犧牲品,這是全人類需要共同關注的課題。
責任編輯吳陽煜 wyy@nfcmag.com