劉新

摘要:文章依托吉林人民廣播電臺融媒體語音智能檢索技術系統進行闡述語音智能檢索技術的主要內容以及語音識別、音頻自動索引、關鍵音檢索3個技術特點,語音檢索的系統結構設計和邏輯構架及主要功能,融媒體語音智能檢索技術系統項目實現廣播電臺桌面級音頻搜索服務實踐應用。
關鍵詞:語音識別;音頻自動索引;關鍵音索引;云計算模式
中圖分類號:G2 文獻標識碼A 文章編號1674-6708(2019)239-0136-02
當今科技創新及人工智能技術日新月異發展,為廣播電臺融媒體語音智能檢索技術專業應用開辟新的發展前景。如何利用好廣播電臺的節目素材庫,使其在廣播節目制作、音頻資源共享及為公眾服務上發揮更大的作用,是目前廣播電臺業務發展所面臨的迫切需求。對廣播節目素材庫的有效再利用的難點之一,在于提供強大高效的檢索功能。傳統的基于元數據編目的節目素材庫管理方法,音頻素材不同于文本資源,其本身的內容難于用文字去表達。簡單的初級編目信息對于素材內容的描述過于概略,不能達到詳細內容檢索的要求,高級編目又需要大量的人力物力,面對廣播電臺海量音頻庫需要的投入太大,即使做到了節目、片段、場景等編目,也不能完全滿足對節目內容的多樣和個性化檢索要求,這就需要采用真正的基于內容理解的自動化處理技術以及人工智能處理技術,對音頻進行自動索引和處理,提供更加詳細和個性化的內容搜索。
1融媒體語音智能檢索技術的主要內容及技術特點
融媒體語音智能檢索技術是對海量音頻庫中基于內容的音頻進行快速準確檢索,首先采用聲音識別手段對采集音頻文件檢索的內容進行編輯整理,然后對存放在音頻數據庫任何地方的音頻文件進行智慧檢索,用音頻內容出現的字句對音頻文件進行檢索,通過云計算模式,實現桌面級音頻搜索服務的實際應用,伴隨廣播融媒體語音檢索技術不斷完善與創新,最終實現從桌面級到移動端的全方位廣播電臺融媒體語音資源全方位音頻搜索服務的實踐運用。
廣播電臺融媒體語音智能檢索核心技術是對海量音頻庫中的音頻進行快速準確的基于內容的檢索,目的是為廣播電視臺等企業級用戶提供準確高效的語音內容檢索服務。主要包括音頻自動索引、關鍵音檢索、語音識別等關鍵技術:1)音頻自動索引技術:用戶通過系統使用界面或接口,批量導入待處理的視音頻素材,系統自動對其建立內容索引;2)關鍵音檢索技術:用戶輸入的文本形式的關鍵詞,系統從已索引的視音頻中檢索該詞發音所在的位置;3)語音識別技術:把視音頻節目的音頻內容轉換為文本形式,利用全文檢索技術進行檢索。
2融媒體語音智能檢索技術的系統結構設計和系統邏輯構架
2.1系統結構設計
融媒體語音智能檢索技術對現有多媒體庫的媒體音頻文件建立內容索引的處理數據庫文件,形成供用戶進行語音檢索查詢的數據文件,檢索結果數據文件和原始媒體文件之問建立起時問點對應關系,交互式回放給用戶瀏覽和使用。語音檢索系統只對媒體音頻文件進行分析和索引,并保存相關元數據信息,但并不保存原始的媒體音頻文件,前臺集成應用系統負責從原始媒體音頻庫中回放和瀏覽檢索結果對應的原始音頻文件。
整個語音檢索系統由以下部分構成:語音索引服務器、語音檢索服務器、集群控制器、系統管理器、開發集成接口(搜索引擎Web Service:對用戶提供Web Service方式的檢索查詢接口;搜索引擎API for Java:一組Java類庫,提供對整個系統的全功能編程支持,包括索引建立和檢索查詢、管理)、關系數據庫系統OraclelOg、Web服務器Tomcat、分布式計算平臺otcopus。
2.2系統邏輯構架
系統邏輯架構如下:索引服務從用戶的媒體音頻庫中讀取音頻數據,建立相應的內容索引,存入存儲系統和關系數據庫中;檢索服務根據用戶提交的檢索請求對內容索引進行檢索,給出檢索結果;集群服務控制協調索引服務和檢索服務,進行虛擬功能包裝和負載均衡控制;現有的用戶業務系統可通過開發集成接口直接或問接與索引和檢索服務器交互,完成系統之間的集成;系統管理統一對整個語音檢索系統進行配置和監控。
2.2.1語音搜索功能設計
語音檢索功能包括關鍵音搜索功能、全文搜索功能。在搜索引擎系統加入媒體文件,指定以搜索內容索引分類;索引完成之后,可通過相應的搜索功能對其進行檢索。
關鍵音搜索功能實現在海量媒體音頻文件中快速找出與用戶輸入的查詢詞發音相同或相似的位置,全文搜索功能實現定位用戶的查詢詞在媒體音頻文件中出現的位置。搜索結果中搜索詞準確出現媒體文件的音頻對應位置,可精確定位到毫秒。
語音搜索系統在設計中對結果條目的排序和過濾功能實現上要考慮多樣性、復雜性需求,由于媒體音頻庫含有上萬小時的音頻文件,搜索結果往往是數萬條,對結果條目的排序和過濾功能要求非常重要。語音搜索內部引擎對每個搜索結果設置一個置信度的值,系統依據置信度值降序排列返回所有搜索結果。在導入媒體文件的時候,用戶給出了附加的元數據信息,如創建時問、類型、作者等信息項,搜索時可按此元數據信息項進行條件比對搜索。用戶在搜索輸入條件中可以增加相應的條件查詢和排序指定,如搜索2017年的xx詞、按時問排序,語音檢索系統按指定的條件項對結果值進行過濾,然后按指定的排序順序返回搜索結果信息。如用戶在搜索條件項中給出了具體的需要進行搜索的媒體音頻文件列表,語音檢索系統則在這個列表中搜索指定的內容,結果排序順序可以是文件列表給出的排序順序,也可是置信度或其它元數據域排序順序。
2.2.2智能媒體語音檢索系統在廣播電臺的設計與實現
吉林人民廣播電臺智能媒體語音檢索系統主要包括音頻自動索引、關鍵音檢索、語音識別等關鍵技術,構建語音索引服務、語音內容檢索服務、集群控制服務、系統管理、數據庫等服務功能,語音索引服務實現讀取用戶輸入的各種格式的媒體文件、從中抽取音頻信息、建立音頻內容索引;語音內容檢索服務實現根據用戶的檢索條件,基于索引服務器生成的內容索引,提供音頻內容檢索服務;搭建存儲系統和數據庫系統之上的索引服務和檢索服務組成了檢索系統的底層計算支撐;集群控制服務和系統管理實現整合底層的多個索引和檢索服務的協調工作以及對整個系統的集中操作功能;實現對廣播電臺海量音頻庫中基于內容的音頻進行快速準確檢索。
該系統已廣泛運用于臺內多媒體全業務綜合服務平臺中,數十萬小時量級的媒體索引和快速檢索,支持各種常見的視音頻格式(mp3、wmv、Wmaa、rm、avi等),并可根據記者、編輯要求進行擴展支持。語音識別檢索極大地提高記者、編輯對于音頻素材轉換成文字稿件的效率。
3結束語
廣播電臺融媒體語音智能檢索技術的應用告別了傳統人工編目、簡單檢索的音頻搜索技術時代,以更高效、更精確的融媒體語音識別檢索技術以及科學、人性化的應用成為廣播電臺提升媒體資料使用率的有效利器。融媒體語音智能檢索技術極大地滿足了記者、編輯對臺內數字化海量信息多媒體智能、高效索引的需要,為未來廣播電臺移動端融媒體語音智能檢索技術實踐打下堅實的基礎,在人工智能技術發展推動下,融媒體語音檢索技術將更有效促進廣電信息化廣播音頻的建設發展。