摘要:【目的】探討人工智能給新聞傳媒領(lǐng)域帶來的變革和創(chuàng)新力量。【方法】分析新聞內(nèi)容生成模式的變遷和AIGC爆發(fā)的原因及AIGC的實(shí)際應(yīng)用。【結(jié)果】技術(shù)的發(fā)展促進(jìn)了AIGC在新聞傳媒領(lǐng)域的發(fā)展,AIGC給新聞傳媒領(lǐng)域帶來了革命性的力量。【結(jié)論】傳統(tǒng)媒體需要勇于創(chuàng)新,以更開放、積極的態(tài)度去擁抱以AIGC為代表的人工智能新技術(shù)。
關(guān)鍵詞:人工智能;AIGC;深度學(xué)習(xí);內(nèi)容生成;神經(jīng)網(wǎng)絡(luò)" " " " 中圖分類號:G213" " " " 文獻(xiàn)標(biāo)識碼:A
文章編號:1671-0134(2023)05-076-05" " " " "DOI:10.19483/j.cnki.11-4653/n.2023.05.017
本文著錄格式:楊孔威.以AIGC為代表的人工智能在傳媒領(lǐng)域的發(fā)展和應(yīng)用[J].中國傳媒科技,2023(05):76-80.
人工智能對于人們來說并不陌生。
早在1997年,超級計(jì)算機(jī)“深藍(lán)”打敗了國際象棋大師加里·卡斯帕羅夫,讓大家驚嘆于計(jì)算機(jī)的強(qiáng)大。2017年AlphaGo以三比零戰(zhàn)勝人類頂尖棋手柯潔,AlphaGo超越了人類最強(qiáng)棋手的能力,帶給人們極大的震撼。
自誕生以來,人工智能發(fā)展共經(jīng)歷了三次浪潮。1956年科學(xué)界提出了人工智能的概念,人工智能之父艾倫·圖靈提出了著名的“圖靈測試”,受“圖靈測試”的刺激,全球范圍內(nèi)出現(xiàn)了第一波人工智能的發(fā)展浪潮,但受當(dāng)時(shí)技術(shù)的限制,人工智能仍處于科學(xué)探索階段。20世紀(jì)80年代,人工智能迎來了第二次發(fā)展浪潮,科學(xué)家們利用基于概率統(tǒng)計(jì)模型的新方法,通過分析語音、音素、音節(jié)之間的對應(yīng)關(guān)系使得語音識別、機(jī)器翻譯實(shí)現(xiàn)了新的突破,但這個(gè)階段的數(shù)據(jù)量訓(xùn)練有限,無法進(jìn)行有效擴(kuò)展導(dǎo)致識別率較低,人工智能還不具備太多的實(shí)用價(jià)值。直到2006年,被稱為“神經(jīng)網(wǎng)絡(luò)之父”的Hinton提出了深度學(xué)習(xí)技術(shù),人工智能的第三次發(fā)展浪潮從此開啟并迎來了跨越式的發(fā)展。
現(xiàn)階段人工智能在計(jì)算機(jī)視覺、語音識別、自然語言處理、數(shù)據(jù)挖掘等領(lǐng)域都取得了突破,也不斷地深入新的創(chuàng)新領(lǐng)域,呈現(xiàn)了深度學(xué)習(xí)、跨界融合、人機(jī)協(xié)同、群智開放、自主操控等新特征,對新聞生產(chǎn)模式和新聞編輯都產(chǎn)生了重大的影響。[1]
1. 新聞傳媒領(lǐng)域生成模式的發(fā)展和變遷
在傳統(tǒng)媒體時(shí)代,以報(bào)紙、電視為代表的媒體的生產(chǎn)模式是專業(yè)生產(chǎn)內(nèi)容即PGC(Professionally Generated Content)。進(jìn)入互聯(lián)網(wǎng)時(shí)代,一些知識背景和專業(yè)資質(zhì)較高的個(gè)人或者團(tuán)體按照幾乎與傳統(tǒng)媒體制作節(jié)目無異的方式制作內(nèi)容,生產(chǎn)流程比較專業(yè)化,制作的內(nèi)容精良、質(zhì)量可控性較強(qiáng)。優(yōu)酷、土豆是最早發(fā)力于PGC的視頻網(wǎng)站,一些內(nèi)容平臺如微信公眾號、門戶網(wǎng)站也是屬于PGC的生產(chǎn)模式。
互聯(lián)網(wǎng)的普及,5G技術(shù)的成熟促進(jìn)了移動互聯(lián)網(wǎng)的蓬勃發(fā)展,移動上網(wǎng)用戶的不斷增加帶來了社交媒體的興起,互動性的常態(tài)化使用戶能以多種形式在網(wǎng)絡(luò)上發(fā)布、展示和傳播由用戶個(gè)人創(chuàng)作的一些原創(chuàng)性的文字、圖片或音視頻內(nèi)容。在信息大爆炸的時(shí)代,特別是伴隨著以個(gè)性化為主要特點(diǎn)的Web2.0概念興起和抖音、今日頭條等App的火爆,使得人人都是內(nèi)容生產(chǎn)者的UGC(User Generated Content,用戶生成內(nèi)容)生產(chǎn)模式開始沖擊傳統(tǒng)媒體普遍采用的PGC內(nèi)容生產(chǎn)模式。UGC模式的出現(xiàn)使得社交媒體真正成為一種“所有人對所有人的傳播。”[2]
早在人工智能的第二次發(fā)展浪潮時(shí),科學(xué)家們就開始探索如何利用人工智能技術(shù)來生成各種類型的內(nèi)容,例如新聞、音樂、詩歌等。這一階段的人工智能還屬于基于規(guī)則的、通過預(yù)先設(shè)定基礎(chǔ)算法來生成內(nèi)容的一種簡單形式。隨著AI技術(shù)的不斷迭代,新型的內(nèi)容生產(chǎn)方式AIGC(AI Generated Content,人工智能生成內(nèi)容)逐漸從概念走向了落地,并以超出人們預(yù)期的速度在各行業(yè)特別是傳媒領(lǐng)域創(chuàng)造了新的格局和生態(tài),深刻改變了行業(yè)的演進(jìn)模式。
2. AIGC爆發(fā)式發(fā)展的原因
2.1" 內(nèi)容生成的需求
在傳播的實(shí)踐中,內(nèi)容生產(chǎn)永遠(yuǎn)處于整個(gè)傳媒產(chǎn)業(yè)鏈和價(jià)值鏈的中上游位置,掌握了內(nèi)容優(yōu)勢地位的媒體,往往能夠憑借優(yōu)質(zhì)內(nèi)容在媒體競爭中立于不敗之地。[3]可以看到,在PGC模式下,內(nèi)容生產(chǎn)依賴于專業(yè)化團(tuán)隊(duì)的制作,為了保障生成內(nèi)容的質(zhì)量,PGC團(tuán)隊(duì)需要投入大量的人力、物力資源及技術(shù)成本,內(nèi)容生產(chǎn)的高要求導(dǎo)致了PGC難以滿足用戶的數(shù)量和覆蓋面需求。UGC模式模糊了生產(chǎn)者與消費(fèi)者之間的界限,用戶既是內(nèi)容生產(chǎn)者也是產(chǎn)品的受眾和消費(fèi)者,這種方式降低了用戶內(nèi)容生產(chǎn)和產(chǎn)品的準(zhǔn)入門檻,滿足了用戶個(gè)性化和多樣性需求,使得內(nèi)容產(chǎn)品得以爆發(fā)式地增長,大大提高了媒體產(chǎn)業(yè)鏈的繁榮度,但由于UGC生產(chǎn)者專業(yè)化程度參差不齊,其內(nèi)容質(zhì)量不可避免地受到影響。UGC時(shí)代以來,“新聞傳播者”的角色不再只是專業(yè)新聞單位獨(dú)有而可以是任何人,甚至有可能不是人,如此帶來新聞信息良莠不齊。[4]
從用戶角度而言,碎片時(shí)間的閱讀習(xí)慣也讓人們對閱讀資源的需求飛速增長。在“個(gè)人媒體”急劇擴(kuò)展的時(shí)代,用戶通過智能終端從網(wǎng)絡(luò)實(shí)時(shí)獲取信息,也隨時(shí)隨地的傳送和分享信息,信息發(fā)布的形式“千人千面”,且門檻低、渠道多,在帶給受眾更高的參與度和互動性的同時(shí)也造成了海量信息的淹沒,參差不齊的信息海洋給用戶增加了更多的搜索成本。相較于傳統(tǒng)紙媒,智能終端更是帶來傳統(tǒng)紙媒單調(diào)圖文信息所無法充分體現(xiàn)的視覺和聽覺效果,人們需要優(yōu)質(zhì)的音視頻內(nèi)容帶來立體的情感體驗(yàn)。種種原因使人們對信息內(nèi)容的豐富性、多樣性、專業(yè)性提出了更高的要求,而內(nèi)容消費(fèi)的強(qiáng)大需求與內(nèi)容供給不足產(chǎn)生的矛盾依然突出,PGC、UGC也逐漸難以匹配內(nèi)容需求的極速擴(kuò)展,AIGC順應(yīng)內(nèi)容的需求得到快速的發(fā)展。
2.2" "技術(shù)的日益成熟
科技創(chuàng)新是先進(jìn)生產(chǎn)力發(fā)展的主要動力,技術(shù)也是媒體發(fā)展變革的第一生產(chǎn)力。AIGC的發(fā)展成熟離不開相關(guān)技術(shù)的進(jìn)步。一般而言,AI三大核心要素分別是數(shù)據(jù)、算力和算法。
2.2.1" "海量的數(shù)據(jù)基礎(chǔ)
海量數(shù)據(jù)是深度學(xué)習(xí)算法的基礎(chǔ)。深度學(xué)習(xí)算法本質(zhì)上是模擬了人類大腦的運(yùn)行機(jī)制,而人類如果要獲取相關(guān)的技能,就必須經(jīng)過不斷地實(shí)踐,AI也是如此。AI算法的實(shí)現(xiàn)過程需要經(jīng)過訓(xùn)練和推斷兩個(gè)階段,訓(xùn)練階段需要海量的數(shù)據(jù)輸入,來訓(xùn)練出一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型。經(jīng)過完善的訓(xùn)練,這個(gè)神經(jīng)網(wǎng)絡(luò)模型可以快速高效地總結(jié)出規(guī)律,并從新的數(shù)據(jù)中“推斷”出各種結(jié)論。得益于多層神經(jīng)網(wǎng)絡(luò),參與訓(xùn)練的數(shù)據(jù)量越大,模型覆蓋的場景越多,其精準(zhǔn)度就越高,因此模型訓(xùn)練數(shù)據(jù)的豐富度在一定程度上決定了深度學(xué)習(xí)算法的優(yōu)劣。
當(dāng)今大數(shù)據(jù)的時(shí)代,網(wǎng)絡(luò)、攝像頭和傳感器等設(shè)備無時(shí)無刻不在產(chǎn)生各種文字、語音、圖片、視頻等數(shù)據(jù),據(jù)IDC的報(bào)告顯示,隨著互聯(lián)網(wǎng)新技術(shù)的持續(xù)推進(jìn),2021年全球數(shù)據(jù)量已經(jīng)達(dá)到82ZB,預(yù)計(jì)到2025年將達(dá)到175 ZB[5],這些數(shù)據(jù)都可成為AI算法充裕的訓(xùn)練“飼料”。伴隨著大數(shù)據(jù)技術(shù)水平的不斷提升,可用于標(biāo)注的AI訓(xùn)練數(shù)據(jù)獲得成本也得到降低,從而降低AI商業(yè)化的成本,也在一定程度上加速推進(jìn)AI在各行業(yè)的普及應(yīng)用。
2.2.2" "算力能力的不斷提升
算力是數(shù)字經(jīng)濟(jì)時(shí)代新的生產(chǎn)力,算力的大小與數(shù)據(jù)處理能力的強(qiáng)弱息息相關(guān)。算力源于芯片,作為算力的基礎(chǔ)和核心硬件,芯片的發(fā)展程度決定著AI的進(jìn)步程度。
早期,受限于芯片的處理能力,機(jī)器無法處理復(fù)雜的程序,人工智能只能完成簡單的任務(wù)處理,計(jì)算機(jī)的性能嚴(yán)重制約了人工智能的發(fā)展。在過去的20年里,處理器性能以每年大約55%的速度提升,全世界的算力規(guī)模保持高速的增長態(tài)勢,算力芯片的快速迭代使得本輪人工智能得以爆發(fā)。目前全球AI算力主要是以GPU芯片為主,隨著硬件的發(fā)展和技術(shù)的不斷更新,專用的AI ASIC芯片、定制化的FPGA芯片等有望成為新一輪AI算力發(fā)展的支撐,異構(gòu)技術(shù)架構(gòu)、專用計(jì)算架構(gòu)、泛在協(xié)同計(jì)算架構(gòu)等多樣化的技術(shù)架構(gòu),以及計(jì)算技術(shù)與數(shù)學(xué)、物理等多學(xué)科交叉融合衍生出的量子計(jì)算、存算一體等計(jì)算技術(shù)的突破進(jìn)展,將進(jìn)一步推動著算力的加速提升。
2.2.3" "算法的不斷進(jìn)步
20世紀(jì)40年代,人們就提出了神經(jīng)元數(shù)學(xué)模型的概念,80年代,Hopfield 神經(jīng)網(wǎng)絡(luò)和BT訓(xùn)練算法的提出,進(jìn)一步推動了神經(jīng)網(wǎng)絡(luò)的研究。早期Hopfield 神經(jīng)網(wǎng)絡(luò)是通過抽象人腦結(jié)構(gòu)和外界刺激響應(yīng)機(jī)制,探索模擬人腦神經(jīng)系統(tǒng)的學(xué)習(xí)、聯(lián)想、記憶和模式識別等功能,從而進(jìn)行邏輯操作的數(shù)學(xué)模型。[6]但早期神經(jīng)元網(wǎng)絡(luò)只能解決單一的問題,復(fù)雜數(shù)據(jù)的處理受到限制,無法窮舉復(fù)雜的情景,當(dāng)網(wǎng)絡(luò)規(guī)模和數(shù)據(jù)量積累到一定程度后,即使再投入更多的數(shù)據(jù),準(zhǔn)確率依然無法提升,實(shí)際應(yīng)用價(jià)值有限。
2006年,Hinton等人提出了神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)(Deep Learning)算法,將人類從復(fù)雜的算法歸納中解放了出來,開啟了機(jī)器學(xué)習(xí)的新領(lǐng)域和第三次人工智能的發(fā)展浪潮。與傳統(tǒng)的機(jī)器學(xué)習(xí)算法比較,Deep Learning 算法的特點(diǎn)在于具有優(yōu)異的特征學(xué)習(xí)能力,不需要人工去提取規(guī)則特征,機(jī)器能夠?qū)崿F(xiàn)特征的自動提取,將復(fù)雜的歸納算法留由機(jī)器去完成,同時(shí),隨著數(shù)據(jù)規(guī)模的增加,算法準(zhǔn)確性也在不斷提高,彌補(bǔ)了傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率不高的缺陷。相關(guān)數(shù)據(jù)顯示,在引入深度學(xué)習(xí)之前,語音識別的準(zhǔn)確率連續(xù)三年穩(wěn)定在76.4%,而2018年阿里巴巴達(dá)摩院語音識別團(tuán)隊(duì)利用深度學(xué)習(xí)技術(shù)推出的新一代語音識別模型DFSMN將全球語音識別準(zhǔn)確率紀(jì)錄提高至96.04%。[7]
人工智能領(lǐng)域頂級專家吳恩達(dá)提到:發(fā)展人工智能就像用火箭發(fā)射衛(wèi)星,需要強(qiáng)大的引擎和足夠的燃料,算法模型就是其引擎,高性能的算力是打造引擎的工具,海量的數(shù)據(jù)就是引擎的燃料。“數(shù)據(jù)”“算法”“算力”是人工智能最重要的三大要素,它們之間相互促進(jìn)和相互支撐,最終促成了人工智能技術(shù)的應(yīng)用和價(jià)值創(chuàng)造。[8]
目前AI被廣泛認(rèn)為是人類歷史上第四次工業(yè)革命,美國、中國等科技大國均將其提升至頂層戰(zhàn)略高度,在技術(shù)的促進(jìn)、政策的加持和資本的催化下,“弱人工智能”的應(yīng)用已經(jīng)快速滲透到各行業(yè)中,AIGC也進(jìn)入了新聞傳媒領(lǐng)域。
3. AIGC在新聞?lì)I(lǐng)域的應(yīng)用
多模態(tài)的預(yù)訓(xùn)練模型給AIGC帶來了多樣化的內(nèi)容生產(chǎn)能力,使其不僅能夠擁有文字、圖片、音頻和視頻等基本的內(nèi)容生成模式,還可以對文字、圖片、視頻等相互之間進(jìn)行跨模態(tài)的內(nèi)容生產(chǎn),給新聞傳媒行業(yè)帶來了一輪新的生產(chǎn)革命。
3.1" AIGC+文本生成
作為AIGC最早發(fā)展的技術(shù),文本生成已經(jīng)在新聞報(bào)道領(lǐng)域得到廣泛的應(yīng)用。早在2014年,《洛杉磯時(shí)報(bào)》就使用地震新聞自動生成系統(tǒng)播報(bào)了加州地震的第一條新聞報(bào)道,給新聞傳媒行業(yè)帶來了革新力量。近幾年,隨著人工智能技術(shù)的不斷發(fā)展和成熟,國內(nèi)外媒體都開始將其運(yùn)用到新聞生產(chǎn)和傳播的產(chǎn)業(yè)鏈中。美聯(lián)社自2018年開始就用生成式AI工具Wordsmith自動生成體育新聞和財(cái)經(jīng)報(bào)告,目前至少已經(jīng)實(shí)現(xiàn)50000篇文章的自動化撰寫。路透社在2018年啟用了一款名為Lynx Lnsight Service的AI新聞撰稿工具,以幫助新聞記者分析數(shù)據(jù)、提出故事構(gòu)想、自動生成有關(guān)金融市場和企業(yè)收益的報(bào)告。新華社于2015年就研發(fā)了一款名為“快筆小新”的新聞機(jī)器人,通過數(shù)據(jù)采集、數(shù)據(jù)加工、自動寫稿、編輯簽發(fā)從而實(shí)現(xiàn)提高新聞的制作效率。人工智能專家吳恩達(dá)表示:“AIGC可以幫助人類創(chuàng)造更多高質(zhì)量的內(nèi)容,并且可以幫助人們更好地理解復(fù)雜的數(shù)據(jù)和信息。”國內(nèi)外大型媒體機(jī)構(gòu)都開始使用AIGC來提高新聞生產(chǎn)制作的速度和效率,AIGC參與生產(chǎn)的內(nèi)容也日益滲透到人們生活的方方面面,為讀者提供了更加個(gè)性化的新聞體驗(yàn)。
3.2" "AIGC+視頻剪輯
隨著5G技術(shù)的發(fā)展和智能終端的普及,受眾“碎片化”內(nèi)容消費(fèi)習(xí)慣的形成使得短視頻得以快速發(fā)展并成為當(dāng)今各個(gè)內(nèi)容消費(fèi)領(lǐng)域的主流,但內(nèi)容形式模式化和產(chǎn)品同質(zhì)化也使得生產(chǎn)者面臨著激烈的競爭和挑戰(zhàn)。如何提高內(nèi)容生產(chǎn)的效率,快速推出受眾歡迎且高質(zhì)量的內(nèi)容成為各大媒體內(nèi)容創(chuàng)作者的關(guān)注重點(diǎn)。AIGC技術(shù)與短視頻內(nèi)容創(chuàng)作的結(jié)合帶來的便利和優(yōu)勢成為問題的最佳解決方式,通過AIGC技術(shù)的應(yīng)用,可以更好地提高視頻的質(zhì)量及創(chuàng)作效率,有效地區(qū)分目標(biāo)受眾,并且更加高效地將相關(guān)的作品推送出去。
AIGC目前在視頻領(lǐng)域的應(yīng)用主要集中在視頻內(nèi)容屬性的編輯和內(nèi)容生產(chǎn)的自動剪輯等功能上。對于視頻內(nèi)容編輯,AIGC可以實(shí)現(xiàn)自動畫質(zhì)修復(fù)、敏感人物識別、主題自動跟蹤剪輯、畫面特效、自動美顏等;對于視頻自動剪輯,AIGC可以基于視頻中的畫面、聲音等多模態(tài)信息的特征進(jìn)行解析,按照相應(yīng)的語義限定進(jìn)行檢測,對滿足條件的片段進(jìn)行剪輯合成,從而實(shí)現(xiàn)智能提取、自動制作、全景直播拆條等功能。
早在2017年,新華社和新華智云立足新聞內(nèi)容生產(chǎn)自動化場景,聯(lián)合推出了名為“媒體大腦”的人工智能平臺,利用AIGC技術(shù)幫助編輯快速鎖定鏡頭,精彩片段快速拆條,生成內(nèi)容一鍵快速發(fā)布到各大平臺,簡化了流程也為編輯節(jié)省時(shí)間實(shí)現(xiàn)了“快速傳播”的功能。
中央廣播電視總臺在北京2022年冬奧會上采用AI智能自動化生產(chǎn)剪輯系統(tǒng),利用海量賽事資源,對賽事關(guān)鍵時(shí)刻實(shí)現(xiàn)快速自動剪輯,規(guī)模化地自動生成并發(fā)布短視頻內(nèi)容,有效地節(jié)省人力成本,將編輯從繁瑣的人工剪輯工作中解放出來。AIGC的剪輯能力讓中央廣播電視總臺在冬奧視頻報(bào)道中實(shí)現(xiàn)了速度與質(zhì)量的比拼優(yōu)勢。
AIGC在體育媒體視頻內(nèi)容生產(chǎn)領(lǐng)域得到廣泛應(yīng)用是大勢所趨,在大幅提升內(nèi)容生產(chǎn)效率的同時(shí)還將向內(nèi)容多元化方向進(jìn)一步延伸,創(chuàng)建系統(tǒng)化、結(jié)構(gòu)化的精品內(nèi)容,滿足受眾對內(nèi)容質(zhì)量和數(shù)量的雙重剛性需求。
3.3" "AIGC+數(shù)字人
AIGC數(shù)字人在本質(zhì)上也是建立了人與虛擬世界的鏈接和交互,同時(shí)解放了真人的勞動力。AI數(shù)字人可以很好地根據(jù)真實(shí)人的外貌、動作、表情、聲音等特點(diǎn)進(jìn)行模擬以達(dá)到惟妙惟肖的程度,并且可以通過自然語言模型來模擬人類思維和行為特征。由于AIGC數(shù)字人是通過計(jì)算機(jī)創(chuàng)建的,它們不會生老病死,也不受時(shí)間和環(huán)境的影響,能夠成為不眠不休的“勞模”。
通過自然語言處理、語音合成和語音識別技術(shù)的加持,在播音主持領(lǐng)域,AIGC數(shù)字人能夠像真人主播一樣提供出色的播音主持工作,還能24小時(shí)在線,不僅能夠根據(jù)場景節(jié)目創(chuàng)建不同的數(shù)字主持人,也可以模仿某個(gè)受用戶喜愛的主持創(chuàng)建不同的分身,“扮演”不同欄目的主持人、新聞主播等角色,分別講解科技、文化、歷史、地理、美食等不同領(lǐng)域的知識,“他們”風(fēng)度翩翩、學(xué)富五車,不僅擁有了全面、廣泛的知識,如果接入對話模型(ChatGPT)數(shù)字人還可以實(shí)現(xiàn)面對面的交流,回答觀眾提出的各類問題,讓人機(jī)交互更加真實(shí)和惟妙惟肖。人機(jī)協(xié)同不僅僅表現(xiàn)在信息處理流程方面,更多表現(xiàn)的是在身心一體的深度情感溝通層面上。[9]
新華社早在2020年就聯(lián)合搜狗公司推出了全球首個(gè)3D AI合成主播“新小微”,其采用超寫實(shí)3D數(shù)字人建模、實(shí)時(shí)面部動作生成及驅(qū)動、多模態(tài)識別及生成、遷移學(xué)習(xí)等多項(xiàng)人工智能前沿技術(shù),根據(jù)輸入的文本機(jī)器可以自動生成相似度極高的數(shù)字人視頻內(nèi)容,同時(shí)在播報(bào)過程中能夠根據(jù)語義產(chǎn)生相對應(yīng)的面部表情和肢體語言。[10]
新華智云2019年便開始試水?dāng)?shù)字人,開創(chuàng)了新聞?lì)I(lǐng)域?qū)崟r(shí)音頻與AI真人形象合成的先河,基于深度學(xué)習(xí)模型、動作模擬、情感模擬等科技,AI通過采集幾分鐘的真人視頻進(jìn)行幾小時(shí)的訓(xùn)練后,生成形象逼真、表情到位、口型匹配的數(shù)字人。在2020年的地方兩會報(bào)道中,就有7省的兩會報(bào)道使用了新華智云的虛擬主播。
2023年全國兩會期間,百度運(yùn)用了可交互式超寫實(shí)數(shù)字人與AIGC技術(shù),將數(shù)字人與人工智能生成內(nèi)容相結(jié)合,以科技感十足的人機(jī)交互式對話方式,向公眾在線解讀最高人民法院工作報(bào)告。
隨著技術(shù)的成熟,依托AI技術(shù)驅(qū)動的數(shù)字人將成為未來數(shù)字人市場的主流。越來越接近真人外形的數(shù)字人,將給各行各業(yè)特別是新聞傳媒行業(yè)的受眾提供更親切、自然、高效的服務(wù)體驗(yàn)。AI浪潮之下,AIGC數(shù)字人也將成為人類鏈接數(shù)字世界的紐帶,加速元宇宙等產(chǎn)業(yè)的持續(xù)演進(jìn)和多元化發(fā)展,豐富數(shù)字化應(yīng)用場景并推動數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)的發(fā)展。IDC在《中國AI數(shù)字人市場現(xiàn)狀與機(jī)會分析,2022》報(bào)告中預(yù)計(jì),到2026年中國AI數(shù)字人市場規(guī)模將達(dá)到102.4億元。[11]
3.4" "AIGC+聲音應(yīng)用
在新聞媒體的傳播過程中,聲音以其獨(dú)特的吸引力,成為不可或缺的“元素”,專業(yè)的配音傳達(dá)了新聞敘述者的情感,提升了觀眾的共情和體驗(yàn)感。然而音頻制作本身也存在一些難點(diǎn),例如傳統(tǒng)節(jié)目中由創(chuàng)作者制作的音頻不僅創(chuàng)作形式單一,而且對配音員要求高,耗時(shí)長,配音成本高。隨著人工智能技術(shù)的發(fā)展,AI語音識別、語音合成等技術(shù)逐步在新聞媒體領(lǐng)域得到應(yīng)用。早期的語音生成系統(tǒng)因?yàn)槿狈Ρ磉_(dá)邏輯推理和因果關(guān)系的能力,缺乏連續(xù)語音的韻律,機(jī)械感重讓人感覺單調(diào)不真實(shí);近年來,隨著數(shù)字信號處理技術(shù)的飛速發(fā)展,語音合成技術(shù)也取得了相當(dāng)大的進(jìn)步,高度擬人、流暢自然的語音合成服務(wù)、語音播報(bào)、仿真真人配音也在新聞媒體中得到廣泛應(yīng)用并提高了音頻內(nèi)容的用戶體驗(yàn)感。
AIGC也開始在語音克隆、生成虛擬人的定制聲音等領(lǐng)域得到應(yīng)用,并且交互性、實(shí)時(shí)性進(jìn)一步增強(qiáng)。生成的音頻內(nèi)容有情緒、有溫度,或深層雄厚,或俏皮可愛,或鏗鏘有力,或綿柔動人。
科大訊飛2023年新發(fā)布了一條關(guān)于節(jié)氣《雨水》的視頻,深沉厚重的男低音自帶質(zhì)感,這段配音由科大訊飛的SMART-TTS系統(tǒng)合成,其語氣的變化、語句的停頓、聲音的細(xì)膩程度都和真人所差無幾。喜馬拉雅利用AIGC理解文本的語境,選擇合適的音色,根據(jù)文本的情緒隨時(shí)轉(zhuǎn)換聲音,創(chuàng)造了多情感、多風(fēng)格的聲音模型運(yùn)用在新聞、小說、財(cái)經(jīng)等不同類型內(nèi)容的制作中。
2022年11月1日,新華社利用AIGC能力——人工智能演唱及智能視頻創(chuàng)作,發(fā)布了數(shù)字記者、全球首位數(shù)字航天員小諍的單曲MV《升》,此次發(fā)布的AI MV《升》由新華社媒體融合生產(chǎn)技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室聯(lián)合騰訊音樂娛樂集團(tuán)出品,歌曲演唱體現(xiàn)了高度擬人化的合成語音技術(shù),生成的語音甜美且深富情感。[12]
AIGC與智能語音技術(shù)的深度結(jié)合,以及應(yīng)用場景在新聞媒體行業(yè)中的創(chuàng)新落地,有望進(jìn)一步推動智能語音產(chǎn)業(yè)市場的發(fā)展。
3.5" "AIGC+視頻生成
AI生成配音可以說是當(dāng)下各種媒體行業(yè)特別是短視頻內(nèi)容創(chuàng)作者最為依賴的工具,但隨著AIGC的跨越式發(fā)展,傳統(tǒng)的配音已經(jīng)滿足不了AIGC的“大放異彩”之心了。從技術(shù)的發(fā)展可以看出,在語言大模型、圖像大模型之后,基于深度學(xué)習(xí)的生成擴(kuò)散模型和多模態(tài)預(yù)訓(xùn)練大模型已經(jīng)成為新的趨勢,視頻生成就是其中具有代表性的應(yīng)用領(lǐng)域。
2022年Meta公司推出了名為Make-A-Video的文本生成模型,實(shí)現(xiàn)了通過文本直接“書寫”視頻的能力,其AI模型還能實(shí)現(xiàn)將兩張靜態(tài)圖像轉(zhuǎn)成視頻,或者根據(jù)兩張圖片生成一段連續(xù)視頻,以及基于一段原視頻生成新視頻的能力,生成的視頻具有豐富的審美和藝術(shù)風(fēng)格。同樣谷歌公司也推出名為Phenaki的AI模型,只需向其提供一段劇本提示詞,這個(gè)文本轉(zhuǎn)視頻(Text-to-Video)模型就能生成一段長達(dá)兩分鐘且頗具故事性的視頻內(nèi)容。
國內(nèi)AI巨頭百度也不甘落后,早在2019年就已開始積累AI預(yù)訓(xùn)練模型技術(shù),并把文心大模型的能力也運(yùn)用到了智能視頻合成平臺VidPress中,實(shí)現(xiàn)圖文自動轉(zhuǎn)換視頻的功能,即把文字分析與摘要、媒體素材收集、素材智能化處理、音視頻對齊,以及視頻剪輯這5個(gè)步驟實(shí)現(xiàn)自動化,其中使用了大量的自然語言處理技術(shù)對圖文內(nèi)容進(jìn)行分析,這些都是基于文心大規(guī)模訓(xùn)練實(shí)現(xiàn)的。
2022年,新華社與百度文心一格聯(lián)合推出了一支AIGC視頻《AI描繪天宮盛宴》,視頻畫面全部由AI自動生成,通過一幅幅具備東方意象的恢宏絢麗畫作,回顧了30年來中國載人航天的輝煌歷程。
在傳媒、文化娛樂、教育等諸多領(lǐng)域,生產(chǎn)創(chuàng)作視頻內(nèi)容都是當(dāng)下吸引受眾眼球最重要的方式,越來越多的人通過制作創(chuàng)意短視頻內(nèi)容進(jìn)行推廣從而實(shí)現(xiàn)商業(yè)化變現(xiàn),這些都將促使各行業(yè)對基于AIGC的視頻生成內(nèi)容有強(qiáng)烈的需求,在視頻成為信息主要表達(dá)載體的當(dāng)下,無論在新聞節(jié)目、短視頻、直播,還是影視等領(lǐng)域,AI視頻內(nèi)容生成都將成為AIGC的主要發(fā)展方向。當(dāng)視頻生成質(zhì)量提高到專業(yè)水平時(shí),AIGC也將打開更多內(nèi)容創(chuàng)作的想象空間,更大規(guī)模地服務(wù)受眾,滿足現(xiàn)代人的生活需求。
結(jié)語
伴隨人工智能等新技術(shù)的不斷完善,媒體已經(jīng)進(jìn)入一個(gè)全新的智媒時(shí)代,媒體智能化正在重塑傳媒業(yè)的原有生態(tài)。[13]正如比爾蓋茨所說,AIGC這種變革性技術(shù),其影響力不亞于PC或互聯(lián)網(wǎng)誕生。AIGC在科技界掀起的驚濤駭浪正在向各個(gè)領(lǐng)域延伸,給人們的工作、生活模式帶來巨大變化。它的出現(xiàn)給包括新聞媒體在內(nèi)的各行各業(yè)帶來了新的挑戰(zhàn)和機(jī)遇,也促使人們必須以更加開放、積極的態(tài)度去適應(yīng)技術(shù)的不斷創(chuàng)新和發(fā)展,不斷提升自身的創(chuàng)新能力和核心競爭力,如此才能在這股科技的大浪淘沙中立于優(yōu)勢地位。
參考文獻(xiàn)
[1]任瑞娟 ,王保超 ,趙雅倩.演進(jìn)與動向:人工智能在傳媒領(lǐng)域的應(yīng)用[J].新聞與傳播評論,2021(2):26-35.
[2]王藝焜.社交媒體的傳統(tǒng)媒體化:從內(nèi)容生產(chǎn)角度的調(diào)查與分析[EB/OL].http://media.people.com.cn/n1/2017/0110/c409682-29013077.html.2017-01-10/2023-03-25.
[3] 鄒海濤.對融媒體時(shí)代“內(nèi)容為王”的思考[J].今傳媒,2017(11):150-151.
[4] 樊虹 趙小波.“人工智能+傳媒”:重構(gòu)與再造新聞生產(chǎn)流程[J].軍事記者,2020(8):22.
[5] IDC Innovator:智能文檔處理(IDP),2022[EB/OL].https://www.sohu.com/a/630711212_121124366.2023-01-16/2023-03-25.
[6] 人工神經(jīng)網(wǎng)絡(luò)簡介[EB/OL].https://blog.csdn.net/fengbingchun/article/details/50274471.2015-12-12/2023-03-25.
[7] 阿里巴巴推出了新一代語音識別模型DFSMN 已開源[EB/OL].https://www.sohu.com/a/235054085_223764.2018-6-11/2023-03-26.
[8] 孫仕.基于人工智能技術(shù)治理網(wǎng)絡(luò)暴力的探析[J].中國傳媒科技,2023(1):64-68.
[9] 趙馨.情意表達(dá):AI合成新聞直播的身體傳播芻議[J].中國傳媒科技,2022(4):65-67.
[10] 鄔金夫.“她”來了!全球首位3D版AI合成主播精彩亮相[EB/OL].http://www.xinhuanet.com/politics/2020lh/2020-05/20/c_1126011533.htm2020-5-21/2023-03-23.
[11] IDC報(bào)告:2026年中國AI數(shù)字人市場規(guī)模將達(dá)102.4億元[EB/OL].http://isuike.com/archives/15559.2022-06-28/2023-03-25.
[12]AI演唱、AI創(chuàng)作畫畫,新華社數(shù)字航天員發(fā)布單曲[EB/OL].https://baijiahao.baidu.com/s?id=1748275441565636192amp;wfr=spideramp;for=pc.2022-11-02/2023-03-26.
[13] 彭蘭.萬物皆媒——新一輪技術(shù)驅(qū)動的泛媒化趨勢[J].編輯之友,2016(3):5-10.
作者簡介:楊孔威(1977-),男,浙江杭州,碩士研究生,工程師,研究方向?yàn)槊襟w技術(shù)。
(責(zé)任編輯:張曉婧)