王紹軼
(天津市濱海新區廣播電視臺,天津 300450)
隨著“十三五”科技發展中對廣電發展的要求,未來廣電的發展應朝著利用科技創新,推動廣播影視中節目制作、內容生產、安全監管等多方面向智能化方向發展。而人工智能近幾年發展十分迅速,給廣電未來的發展提供了可能,智能語音技術作為一種全新的技術,能夠實現信息的快速錄入、人工交互等功能,時下的教育、醫療、汽車等多個行業中都有所涉及。盡管科技發展提出了新的發展目標,且廣電媒體在發展的過程中有大量的文稿和音頻需要處理,但實際工作中對智能人工語音技術的使用并不常見。傳統的人工處理方式不僅耗費時間長,且工作效率低下,人工的方式稍有不慎就會造成內容理解上的偏差和記錄出現問題。本文主要針對這樣的情況,討論人工智能語音技術在廣電媒體中的實際應用情況,在傳統人工處理的基礎上,借鑒經驗,建設全新的廣電媒體智能語音應用平臺。
語音識別技術主要是指將說出的語音轉換成對應的文字進行錄入,是一種新型的信息錄入技術。語音識別技術首先要檢測音頻的端點,確定說話的位置,然后進行識別處理。通過識別語句的對話語境,智能地判斷所錄入信息的標點等相關信息。系統在錄入的過程中通過識別用戶自定義的詞匯優先選擇相對應的詞匯。
語音轉寫技術是在語音識別技術的發展基礎上延伸出來的,通過識別和理解語音信號,將信號轉變為相應的文字內容。語音轉寫可以通過大數據和用戶的歷史數據將上下文的相關語義、停頓、語氣等內容提取出來,對句子和段落進行劃分,并且可以處理遠場噪音等相關問題。
語音合成主要是指將文字通過計算機的轉換形成流暢的語音并輸出出來,可以應用在現階段的語音播報、語音提醒、語音導航等眾多場景中。語音合成主要是將文字序列進行解析,將文本進行參數化的處理,然后輸出語音波形信號,最后將波形單元序列進行串聯,形成完整的信號進行輸出。
從人工智能語音識別平臺的系統架構的組成看,它是由基礎支撐層、核心能力層、應用服務層、應用接入層和服務應用平臺5個部分組成。
基礎支撐層?;A支撐層主要是利用云計算對平臺底部的硬件和存儲的資源進行管理。
核心能力層。能夠利用核心引擎為廣電媒體的實際應用提供語音合成和語音識別等相關服務,同時能夠對資源進行優化管理。
應用服務層。應用服務層能夠將最新的語音技術集合起來,為平臺的管理和服務提供強有力的語音服務等相關功能。
應用接入層。利用應用接入層能夠實現服務接口和語音處理,能夠提供智能語音業務上的服務。
服務應用平臺。服務應用平臺能夠實現文稿唱詞、虛擬播報、內容轉寫等相關功能,支持第三方服務的對接工作。
人工智能語音識別技術中的軟件架構主要有5種。第一種是采用J2EE組成的Java應用規范架構。這種系統具有系統上的可移植性,通過將其部署在相關的應用服務器上,進行高度靈活和擴展的系統設計工作。第二種是在客戶端采用Node-Webkit這種應用程序,提供交互界面方便業務人員的使用,管理員可以在任何地點查看使用情況,使數據的安全得到可靠的保證。第三種使采用REST設計的接口,能夠提高響應速度,具有很高的性能、效率和易用性。第四種是JSON設計的數據交換的格式,這是一種方便閱讀和編寫的語言文本格式,可以跨平臺使用、跨系統使用、跨語言使用,通用性、靈活性和擴展性極強。第五種是Spring Boot框架,這種框架能夠實現方便的部署和配置,可以提供XML配置和準生產應用監控。
利用人工智能語音識別技術搭建智能化發展平臺是廣電媒體未來發展中必然的趨勢,因此對人工智能語音技術的使用,就要明確人工智能語音技術能夠應用在廣電媒體中的系統環節。
利用文稿唱詞系統,采編人員可以很快地將音頻文件和口述的內容轉變成文稿,這里需要注意的是,非普通話的文稿需要記者使用麥克風進行跟讀識別。針對一些方言,系統可以利用方言聲學模型包進行識別,一方面提高了文字識別的效率,另一方面將錄音的定位、校正等問題一并解決。在晚會中進行錄制的音頻文件,系統可以對其進行降噪處理,解決好分句與分段的問題。
內容轉寫系統主要是將未進入媒資庫的視音頻的內容形成語言內容,為媒體文件生成自己的“文字名片”,然后將媒體文件與名片一起提交審核,這樣一來編目人員能夠通過“文字名片”獲取更多關于視音頻文件的信息,更好地進行編目工作,降低編目工作的差錯率。
虛擬主持人、智能語音機器人和主播音庫共同組成,在使用的過程中將文稿導入就可以進行配音工作,實現新聞的自動播報功能,在播報的過程中,能夠實現對語速、響度、聲音模板等的調控,以便適應特定場合的要求。二次元的虛擬主持人主要是利用動漫卡通虛擬的主持人進行自動播報,在底層語言合成服務的基礎上,對節目播報形式進行了創新。語音交互機器人能夠進行中文聽寫,對人機對話的識別率達到90%以上,能夠為廣播電視的需求提供對話內容。
平臺通過提供應用中的開發接口為第三方提供合成、語音識別等業務上的功能,其他的系統能夠將數據資源接入到語音云平臺中,利用智能融媒體實現對線索的分揀功能。通過融媒體線索匯聚的方式,可以將語音形成文字文件,將這些文字內容按照用戶的需求進行分類,為用戶提供訂閱線索的服務,在內容的選題策劃、生產發布等環節應用得較多。
融媒體會議系統主要被應用在廣電媒體的會議記錄中,在會議場景中根據采集信息實時轉化為文字內容,用戶根據需要整理出會議要點。同時還可以將已經錄好的音頻文件通過導入轉寫成文字內容,轉寫的過程中自動將會議的重點內容進行標記,能夠通過雙擊文字回聽與之相關的音頻文件,使音頻與文字相對應。通過對語氣詞的過濾、內容的分段還可以讓記錄人員更有效地理解音頻文件,用戶還可以通過檢索等功能將會議模板導出,形成會議紀要內容。
廣電媒體的日常工作中包括對節目制作、內容編目、節目播報和會議記錄等,為了提高這些工作的轉寫效果,需要對相關的有用信息進行采集,并且利用具有科學性和針對性的方式對語音轉寫進行優化,達到智能的要求。在這樣的基礎上形成相應的信息資源數據庫,能夠有效地進行保存。
數據庫在使用上有相關的要求規范,主要包括以下幾個方面:第一,能夠支持多個用戶在聯機時進行業務處理,滿足多個用戶對訪問數據庫的相關要求。第二,技術使用具有較高的可靠性,且為了保證效果更好,要具備高容錯能力和自恢復能力。第三,分布數據源和異構數據源使用具有相應的支持,數據能夠自動復制且多個副本之間的數據同步工作要做好。第四,能夠提供相應的安全管理機制。第五,能夠提供一套軟件開發工具,支持軟件開發使用的整個周期。
從現階段人工智能語音技術在廣電媒體中的實際應用來看,這種全新的技術在媒體中的實際應用并不多,且有待進一步的研究和探討。綜合來說,人工智能語音技術在廣電媒體中的使用主要在文稿唱詞、虛擬播報、內容轉寫、融媒體會議和第三方接口服務幾個方面。這些功能的使用極大地提高了廣電媒體的工作效率,提升傳統的工作效率。未來廣電媒體的發展,更應該注重人工智能語音技術的使用,根據相應的規范合理進行使用,只有使用到位才有可能推動廣電媒體的進一步發展,跟上新媒體發展的步伐,推動行業整體邁上更高的發展臺階。