我永遠不會忘記那天,我把Avid ProTools系統帶進我們的演播室,我的搭檔說“計算機絕不可能比老式的刀片編輯器更快。”演播室里有兩臺計算機:一臺是會計用的,另一臺是控制24軌磁帶錄音機上的主導軸電機,使其與一臺錄像機和時間碼同步的粗糙的設備。

那時是20世紀80年代初:轉播車里沒有計算機,每一臺設備都是模擬的。錄像帶編輯是機器對機器,需要一個操作員——視頻通過一臺切換臺,而音頻通過調音臺。音樂通過NAB Cart(一種磁帶錄音格式)播放。我記憶中在轉播車里的第一臺所謂的“計算機”其實是來自硬盤驅動器上的DigiCart即時回放系統。
經過幾十年的計算機化和IP在整個廣播生態系統的實現,創新已經把我們置于一切都是計算機化之地,并且我們已經看到計算機控制計算機的概念。計算機控制計算機不是什么新鮮事,但機器學習是。對我來說,這讓我想起了庫布里克的《2001年:太空漫游》。
聲音作為一種指標
人工智能(AI)在體育領域的應用已經有一段時間了。例如,在溫布爾登,計算機聆聽和觀看網球比賽,并通過應用各種度量標準識別令人興奮的指標。這些指標引導計算機學習如何認出重要的興趣點,以及什么可以造就好的集錦或回放。
有趣的是,聲音是一個主要和可靠的指標。例如,在長時間的安靜間歇后人群中出現的喧囂是一個值得記住的精彩時刻的很好指示。我的邏輯指標之一還包括人群爆發音的持續時間,以及在關注時刻的聲音振幅、閾值、力度和持續。
此外,與迅速消失的沮喪嘆息相對的人群持續尖叫聲音調變化,是另一個有價值和可識別的指標。通過這些簡單的學習指標,計算機在十多次甚至100次的重復之內就能準確預測出一個好的精彩時刻。
我認為2018年我們已離AI很接近了。朗沃(Lawo)開發了一種混錄系統,可以獲取球的位置(或任何有興趣的跟隨目標)的數據,并將其轉化為捕獲來自最佳話筒或話筒組合的盡可能好的聲音,并且決定將它們混合在一起的電平。跟蹤球采用光學技術,在足球這樣的運動中,比賽的焦點是球——基本上你告訴計算機跟隨球。
不可否認,2018年世界杯是我聽過的最好聽的足球賽。主轉播機構(HBS)的克里斯蒂安·戈貝爾、菲利克斯?克魯克斯和朗沃團隊在廣播聲音領域實現了一個真正的范式轉變,但我認為朗沃CEO 菲利普·勞還在做別的有重要意義的事情。
SALSA算法
另一種推進自動化的有意義方法是“空間自動化現場體育音頻”,它使用球場四周現有的槍式話筒檢測球場周圍踢球聲。該系統不僅尋找總聲級強度,而且還尋找調音臺可能想要捕捉的每種聲音事件類型各個頻帶的聲頻譜包絡。 SALSA算法能夠檢測到在話筒信號上幾乎聽不到的踢球聲,而且在識別聲音事件方面比人耳更可靠。
在現場制作過程中,SALSA使用兩種方法中的一種:它可以自動化操作調音臺的推子捕捉每一個場上聲音事件,或者利用踢球聲的頻率/包絡信息觸發預制作的樣本。這些聲音可以添加到球場上的聲音,或者如果你想讓它聽起來像EA體育游戲或天空電視臺周六下午的比賽,也可以取代游戲的聲音。這取決于作為聲音設計師和消費者的你。
現在,讓我們來看看AI在體育轉播中的另一種可能性。在計算機分析一個導播風格樣本的切換模式并將導播的命令與廣播攝像機視場內的球位置進行比較時,AI開始發揮作用,計算機將導播的選擇存檔,供未來學習。
在很短的時間內,模式將被檢測、檢查并編入事件周期,以控制攝像機的方向。一個基本的“追球”模式被學習,不過,似乎可以通過混合和改變制作風格修改制作。我曾經與一名導播合作過,他的切換風格有規律和重復,在3個小時的比賽過程中重復了十幾次以上的模式。
我可以清楚地想象終有一天,機器人和機器人計算機能夠捕獲、導播和制作直播體育賽事,幾乎不需要人工干預。讓我們遵循這個流程;攝像機器人支持系統已經存在一段時間了,沒有理由攝像機和音頻不能遵循跟隨踢球動作的計算機的電子指令。
想象一下這樣一種可能的場景:計算機在計算,在一次射門后,10個導播中有7個會切換到廣角鏡頭,同時光學位置跟蹤不斷發送比賽場地的導播機器人映射數據。“導播機器人”引導攝像機X、Y和Z跟拍球,同時引導攝像機A和B跟拍教練。
此外,攝像機A和B捕獲來自教練員的音頻并將此信息發送給導播機器人,導播機器人學習教練的模式以及何時切到教練。導播機器人有一個每個球位置的可能性庫,并進行比較。
實時比賽報道可能包括由一臺攝取所有數據并人工創建解說音軌的計算機播出的語音解說。語音合成技術已經存在一段時間了,一旦你有了光學跟蹤技術,就可以相信你能夠創建解釋比賽詳情的機器人解說員和聲音再合成,完成整個體驗——替代現實。
我的未來愿景描繪了一幅與我/我們所知不同的音頻科學、藝術和實踐情景,但我相信我的猜測可能會成為現實。BP