基于深度學(xué)習(xí)的語音識(shí)別技術(shù)在音頻檔案數(shù)據(jù)化中的應(yīng)用

2024-03-26 02:30:36楊巍浙江財(cái)經(jīng)大學(xué)王茂煥臺(tái)州市檔案館

浙江檔案 2024年2期

關(guān)鍵詞：深度文本

楊巍 /浙江財(cái)經(jīng)大學(xué) 王茂煥/臺(tái)州市檔案館

1 引言

音頻錄像檔案[1]是國(guó)家機(jī)關(guān)、社會(huì)組織或個(gè)人在履行法定職責(zé)過程中采用不同記錄載體形成的、具有憑證、查考和保存價(jià)值并歸檔保存的以聲音或影像為主要呈現(xiàn)方式的信息記錄。人工智能技術(shù)的發(fā)展和應(yīng)用推動(dòng)了檔案工作數(shù)字化轉(zhuǎn)型，“數(shù)據(jù)化”成為新時(shí)代評(píng)價(jià)智慧檔案館的重要指標(biāo)，將“檔案數(shù)字化”轉(zhuǎn)型為“檔案數(shù)據(jù)化”是檔案館現(xiàn)代化管理需要首先解決的問題。音頻檔案數(shù)據(jù)化是將傳統(tǒng)音頻檔案中的模擬音頻向數(shù)字音頻轉(zhuǎn)化，并將數(shù)字音頻的文本內(nèi)容進(jìn)行識(shí)別、分類、著錄和標(biāo)引等整個(gè)過程[2]。音頻檔案數(shù)據(jù)化主要包括音頻信息文本化[3]、元數(shù)據(jù)標(biāo)引和數(shù)據(jù)庫建設(shè)等內(nèi)容[4]。現(xiàn)階段，紙質(zhì)檔案已經(jīng)能夠通過數(shù)字化掃描和OCR識(shí)別完成數(shù)據(jù)化的基礎(chǔ)轉(zhuǎn)化工作，而含有豐富語義的音頻錄像檔案因其非結(jié)構(gòu)化存儲(chǔ)特性，無法像紙質(zhì)檔案一樣批量完成文本識(shí)別工作，大量記錄珍貴歷史記憶的音頻檔案在檔案館中得不到充分的數(shù)據(jù)化管理和利用，這成為音頻錄像在檔案大數(shù)據(jù)時(shí)代發(fā)揮自身價(jià)值的現(xiàn)實(shí)屏障。隨著深度學(xué)習(xí)語音識(shí)別技術(shù)在社會(huì)生活和工作領(lǐng)域中的運(yùn)用日漸成熟，將其引入檔案數(shù)據(jù)化工作場(chǎng)景中，推動(dòng)檔案現(xiàn)代化建設(shè)具有重要的現(xiàn)實(shí)意義。

語音識(shí)別技術(shù)是電腦自動(dòng)辨認(rèn)或驗(yàn)證發(fā)出語音的說話人，將音頻語音內(nèi)容轉(zhuǎn)換成對(duì)應(yīng)的文本的信息技術(shù)，包括自動(dòng)語音識(shí)別（automatic speech recognition，ASR)、電腦語音識(shí)別（computer speech recognition，CSR）或是語音轉(zhuǎn)文本識(shí)別（speech to text，STT）[5]。識(shí)別過程如圖1，系統(tǒng)核心是音頻特征提取模塊、聲學(xué)模塊和語言模塊。

圖1 語音識(shí)別過程

音頻特征提取模塊負(fù)責(zé)根據(jù)語音信號(hào)波形提取有效的聲學(xué)特征[6]，生成機(jī)器可以理解的語言特征向量序列，比如利用梅爾頻率MFCC變換抽取原始語音特征，這類技術(shù)比較成熟；聲學(xué)模塊利用聲學(xué)模型負(fù)責(zé)將語音特征映射成音素，其中音素是最小語音單位[7]，比如“普通人”，可以分解成“p, u, t, o, ng, r, e, n”八個(gè)音素，聲學(xué)模型是語音識(shí)別技術(shù)的核心；語言模塊利用語言模型負(fù)責(zé)基于音素序列預(yù)測(cè)字符序列的概率，最終選擇概率值最大的字符序列作為解碼的文本結(jié)果，比如以上八個(gè)音素可能被預(yù)測(cè)為“撲通人”“普通仁”“普通人”等字符序列，但是“普通人”的概率最大，這類技術(shù)主要依托自然語言處理技術(shù)的發(fā)展。基于聲學(xué)模型的技術(shù)迭代，其技術(shù)發(fā)展從GMM-HMM（傳統(tǒng)聲學(xué)模型）、DNN-HMM（神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)聲學(xué)融合模型）發(fā)展到End-to-End（端到端模型）階段，深度學(xué)習(xí)語音識(shí)別技術(shù)日漸成熟，推動(dòng)現(xiàn)代社會(huì)在多場(chǎng)景中落地應(yīng)用。

2 語音識(shí)別技術(shù)在音頻檔案數(shù)據(jù)化管理中的研究現(xiàn)狀

語音識(shí)別技術(shù)在圖書情報(bào)與檔案領(lǐng)域中的應(yīng)用最早可追溯到1994年美國(guó)啟動(dòng)的“數(shù)字圖書館”項(xiàng)目中，卡耐基—梅隆大學(xué)在該項(xiàng)目中負(fù)責(zé)研究如何將圖像、語音和語言識(shí)別技術(shù)整合起來，使音頻和視頻具備與文字文獻(xiàn)相同的查詢、檢索、分類和摘要功能，從而實(shí)現(xiàn)智能搜索和圖像檢索的目標(biāo)[8]。21世紀(jì)初，醫(yī)療和法律檔案系統(tǒng)率先掀起利用語音識(shí)別技術(shù)進(jìn)行檔案數(shù)字化建設(shè)的熱潮[9]，隨后，數(shù)碼音頻筆、智能語音錄入軟件等產(chǎn)品先后問世，其便捷的音頻功能和文字轉(zhuǎn)換功能受到了檔案工作者的青睞，語音識(shí)別法成為和掃描法、人工著錄法同樣重要的檔案數(shù)字化方法之一。檔案館將語音識(shí)別技術(shù)用于口述歷史的記錄和收集工作之中，同時(shí)也廣泛用在音視頻檔案數(shù)據(jù)轉(zhuǎn)換和整理上[10]，如美國(guó)互聯(lián)網(wǎng)檔案館利用語音識(shí)別技術(shù)對(duì)其前總統(tǒng)特朗普電視演講深度轉(zhuǎn)錄，保證美國(guó)公民更加直觀及時(shí)了解特朗普政治觀點(diǎn)[11]。

針對(duì)傳統(tǒng)的模擬音頻檔案，深度學(xué)習(xí)語音識(shí)別技術(shù)能夠在音頻檔案數(shù)據(jù)化中智能標(biāo)注，生成的信息比人工標(biāo)注更加準(zhǔn)確、完整和規(guī)范[12]。同時(shí)深度學(xué)習(xí)語音識(shí)別技術(shù)為音頻檔案檢索打開了新的檢索思路，音頻檔案檢索從單一的關(guān)鍵詞檢索上升到大詞匯語音識(shí)別、字詞單元檢索、關(guān)鍵詞識(shí)別和對(duì)講話者檢測(cè)[13]等基于內(nèi)容的檢索模式。劉濤認(rèn)為深度學(xué)習(xí)語音識(shí)別技術(shù)所擁有的語音轉(zhuǎn)換文本中精準(zhǔn)的識(shí)別能力、智能的分析音頻內(nèi)容的能力和全內(nèi)容分析編目能力能解決當(dāng)前音頻檔案信息著錄有限性和音頻檔案高需求利用之間的矛盾[14]。總體上看，當(dāng)前檔案領(lǐng)域?qū)φZ音技術(shù)的研究主要集中在音頻錄像檔案收集、編目、檢索等環(huán)節(jié)，而對(duì)深度學(xué)習(xí)的語音識(shí)別技術(shù)在音頻檔案數(shù)據(jù)化中識(shí)別率有多大提升和其在檔案領(lǐng)域具體的應(yīng)用場(chǎng)景鮮有深度探討，本文利用深度學(xué)習(xí)的語音識(shí)別技術(shù)deepspeech2_aishell模型對(duì)音頻數(shù)據(jù)集進(jìn)行了實(shí)證測(cè)試，驗(yàn)證了深度學(xué)習(xí)語音識(shí)別技術(shù)識(shí)別質(zhì)量好、識(shí)別效率高、準(zhǔn)確度精準(zhǔn)等優(yōu)勢(shì)，同時(shí)探討了深度學(xué)習(xí)語音識(shí)別技術(shù)在目前檔案領(lǐng)域中的具體應(yīng)用場(chǎng)景，以期檔案領(lǐng)域利用深度學(xué)習(xí)語音識(shí)別技術(shù)進(jìn)行音頻檔案數(shù)據(jù)化管理。

3 深度學(xué)習(xí)deepspeech2_aishell模型在傳統(tǒng)模擬音頻檔案文本化中的實(shí)證測(cè)試

傳統(tǒng)音頻檔案文本化是音頻檔案數(shù)據(jù)化工作中的首要任務(wù)，為了進(jìn)一步加強(qiáng)驗(yàn)證，筆者以linux系統(tǒng)為例，進(jìn)行deepspeech2_aishell模型的部署，命令行可以直接在系統(tǒng)的終端shell上執(zhí)行，開發(fā)python代碼進(jìn)行最終的語音識(shí)別，input.wav為原始音頻文件，text為最終輸出的文本內(nèi)容（如圖2)。選取《中華人民共和國(guó)檔案法》總則中的前5條內(nèi)容，利用朗讀工具生成5個(gè)音頻文件，然后利用deepspeech2_aishell模型分別進(jìn)行語音識(shí)別，5段音頻內(nèi)容，3條錯(cuò)誤率為0%，2條錯(cuò)誤率在3%以下，最終識(shí)別準(zhǔn)確率如表1所示，通過上述實(shí)證測(cè)試可知，目前人工智能語音識(shí)別模型的識(shí)別結(jié)果，已經(jīng)達(dá)到了比較高的準(zhǔn)確率，在實(shí)際應(yīng)用中有很大的可行性。

表1 語音模型識(shí)別結(jié)果分析

圖2 deepspeech2_aishell模型的部署程序

4 深度學(xué)習(xí)語音識(shí)別技術(shù)在音頻檔案數(shù)據(jù)化中的應(yīng)用

當(dāng)前，國(guó)內(nèi)大部分檔案館在傳統(tǒng)音頻數(shù)字化中采用人工轉(zhuǎn)寫方式，效率不高，而利用深度學(xué)習(xí)語音識(shí)別技術(shù)，可根據(jù)不同的功能需求，設(shè)置不同的語音指令和文本輸出來進(jìn)行交互，批量化、高精度、不間斷地、快速完成音頻檔案信息到文本形式的轉(zhuǎn)化，不但方便檢索和編輯，還提高了音頻檔案管理的效率，節(jié)省了人力成本。同時(shí)，語音識(shí)別技術(shù)還可以對(duì)音頻資料進(jìn)行自動(dòng)分類和標(biāo)簽化，進(jìn)一步提高了音頻檔案的檢索效率和準(zhǔn)確性。所以，深度學(xué)習(xí)語音識(shí)別技術(shù)在音頻檔案數(shù)據(jù)化的各方面都有較大的應(yīng)用價(jià)值。

4.1音頻檔案數(shù)據(jù)庫建設(shè)

對(duì)音頻檔案著錄標(biāo)引，建成數(shù)據(jù)庫是檔案數(shù)字化工作的基本需求。傳統(tǒng)音頻檔案數(shù)字化參照當(dāng)前行業(yè)標(biāo)準(zhǔn)或國(guó)家標(biāo)準(zhǔn)通過人工聽寫、分類、標(biāo)識(shí)，過程煩瑣、編目簡(jiǎn)單粗放[15]，難以全面描述錄像檔案所載信息。一方面，利用深度學(xué)習(xí)語音識(shí)別技術(shù)將錄像檔案文本化后，對(duì)文本中的所包含的內(nèi)容、場(chǎng)景、人物、事件、地點(diǎn)、結(jié)果等資源屬性進(jìn)行結(jié)構(gòu)化的描述，構(gòu)建以人物、事件為核心屬性的能被機(jī)器全文識(shí)別的數(shù)據(jù)庫，并設(shè)定相應(yīng)的語音指令，實(shí)現(xiàn)音頻全內(nèi)容檢索。另一方面，語音識(shí)別技術(shù)還能對(duì)語音中的不同元素（如音色、音調(diào)、節(jié)奏等）的分類和特定詞匯、短語或句子的標(biāo)注和描述，促使不同模態(tài)的音頻檔案數(shù)據(jù)結(jié)構(gòu)化存儲(chǔ)。利用深度學(xué)習(xí)語音識(shí)別技術(shù)建設(shè)音頻檔案數(shù)據(jù)庫的模式，是在現(xiàn)有錄音檔案數(shù)據(jù)庫系統(tǒng)上進(jìn)行簡(jiǎn)單擴(kuò)展就能實(shí)現(xiàn)，是音頻檔案數(shù)據(jù)化發(fā)展的方向。

4.2音頻檔案數(shù)據(jù)知識(shí)化加工

語音識(shí)別技術(shù)為音頻檔案內(nèi)容知識(shí)化加工和二次創(chuàng)作提供了千載難逢的機(jī)遇。目前，音頻檔案數(shù)字化處理不足，語義理解深度不夠、音頻檔案信息復(fù)雜多樣等問題導(dǎo)致音頻檔案知識(shí)化效率和質(zhì)量受到限制。而利用深度學(xué)習(xí)語音識(shí)別技術(shù)對(duì)文本化的信息進(jìn)行上下文理解和語義分析，然后自動(dòng)化著錄音頻的主題、概念、事件、觀點(diǎn)等信息，自動(dòng)生成內(nèi)容摘要，聚合音頻數(shù)據(jù)，構(gòu)建知識(shí)圖譜，形成知識(shí)體系，為音頻檔案內(nèi)容挖掘和知識(shí)化加工創(chuàng)造條件。京劇名家檔案故事化手游開發(fā)項(xiàng)目[16]，其中一個(gè)重要的組成部分就是收集京劇名家檔案史料、音像檔案與口述檔案等音頻檔案進(jìn)行知識(shí)化加工，推進(jìn)音頻檔案故事化呈現(xiàn)，提高音頻檔案內(nèi)容的張力。比如項(xiàng)目選取了一段關(guān)于荀慧生先生的珍貴音頻檔案，為了全方位呈現(xiàn)這位藝術(shù)家的風(fēng)采，項(xiàng)目團(tuán)隊(duì)將音頻檔案進(jìn)行了故事化處理。他們根據(jù)音頻內(nèi)容，制作了可視化知識(shí)圖譜和一段動(dòng)畫視頻，再現(xiàn)了荀慧生先生舞臺(tái)上的場(chǎng)景，同時(shí)，項(xiàng)目團(tuán)隊(duì)注重音頻檔案故事與受眾的交互方式，以互動(dòng)游戲的形式實(shí)現(xiàn)對(duì)京劇名家檔案數(shù)據(jù)的故事化呈現(xiàn)，通過這種音頻檔案故事化的方式，觀眾不僅能夠聽到珍貴的歷史音頻檔案，還能夠通過視覺和聽覺的雙重呈現(xiàn)，更好地理解檔案的背景和意義。

4.3音頻檔案視聽服務(wù)平臺(tái)建設(shè)

語音識(shí)別技術(shù)可以為音頻檔案視聽服務(wù)平臺(tái)的建設(shè)提供有力支持。語音識(shí)別技術(shù)可以幫助實(shí)現(xiàn)語音與文字的快速轉(zhuǎn)換，通過提高音頻檔案數(shù)字化處理效率，完善音頻檔案數(shù)據(jù)庫建設(shè)，構(gòu)建音頻檔案知識(shí)化體系、嵌入語音導(dǎo)航等多個(gè)步驟，可以建立一個(gè)高效、便捷、智能的音頻檔案視聽服務(wù)平臺(tái)，為檔案用戶特別是有視聽障礙的特殊群體提供更加人性化的查檔、用檔服務(wù)，提升用戶體驗(yàn)。目前，國(guó)家圖書館基于智慧化和新媒體技術(shù)手段研發(fā)和建設(shè)的影音視聽資源知識(shí)服務(wù)平臺(tái)[17]，該平臺(tái)創(chuàng)新資源生產(chǎn)、加工、組織與應(yīng)用，運(yùn)用智慧化和新媒體技術(shù)，優(yōu)化音視頻資源管理機(jī)制，深入挖掘資源關(guān)聯(lián)和內(nèi)容價(jià)值。同時(shí)，提供個(gè)性化知識(shí)服務(wù)，適配多終端設(shè)備，提升視聽服務(wù)效益，助力智慧圖書館的進(jìn)步與發(fā)展。

4.4音頻檔案信息在線擴(kuò)展泛化

為了盡可能豐富和完善音頻檔案背景信息，深度學(xué)習(xí)語音識(shí)別技術(shù)為傳統(tǒng)音頻檔案的傳播、共享等在線擴(kuò)展泛化過程創(chuàng)造了條件。第一，利用深度學(xué)習(xí)語音識(shí)別技術(shù)轉(zhuǎn)變了音頻檔案的存在模態(tài)，將二進(jìn)制的符號(hào)轉(zhuǎn)變成可標(biāo)識(shí)的結(jié)構(gòu)化信息，以便于音頻檔案信息存儲(chǔ)、傳輸和在線播放。第二，通過數(shù)據(jù)分析和挖掘技術(shù)提升音頻檔案的易讀性，將音頻檔案中的數(shù)據(jù)信息多角度、多層次地被標(biāo)注出來，提高音頻檔案的被理解力。第三，利用云計(jì)算分布存儲(chǔ)技術(shù)保證音頻檔案數(shù)據(jù)的易用性，建成音頻檔案集中管理數(shù)據(jù)庫，設(shè)定開放權(quán)限并連接互聯(lián)網(wǎng)，用戶通過身份認(rèn)證可以即時(shí)在線訪問音頻檔案數(shù)據(jù)，進(jìn)而提高音頻檔案的利用價(jià)值和音頻檔案信息傳遞效率。第四，利用流媒體傳輸和智能推薦技術(shù)，將通過開放審核的音頻檔案及時(shí)通過流媒體主動(dòng)推送到用戶的設(shè)備上，面向社會(huì)及時(shí)分享音頻檔案內(nèi)容，同時(shí)加強(qiáng)和用戶的互動(dòng)，收集音頻檔案相關(guān)的信息，不斷補(bǔ)充和完善原有音頻檔案信息內(nèi)容，能夠更加真實(shí)完整全方位還原音頻檔案所記載的歷史事件。荷蘭國(guó)家檔案館在“De ijsberg zichtbaar maken”（“讓冰山可見”）[18]人工智能技術(shù)轉(zhuǎn)錄檔案項(xiàng)目中初步嘗試這種模式，該項(xiàng)目通過館藏檔案數(shù)字化和新媒體信息技術(shù)，將荷蘭皇室的檔案、繪畫、手稿、照片、音頻等多模態(tài)檔案數(shù)據(jù)聚合，利用新媒體技術(shù)向公眾推送荷蘭歷史和文化，公眾可以根據(jù)自己的知識(shí)背景和掌握的歷史信息在線反饋給圖書館，圖書館工作人員根據(jù)反饋信息及時(shí)補(bǔ)充檔案內(nèi)容，在線擴(kuò)展泛化模式成為館藏補(bǔ)充資源、修正資源、完善資源的新模式，截至2023年約有200萬份資源中部分資源已通過在線擴(kuò)展模式進(jìn)行了更正、更新和實(shí)體資料的補(bǔ)充和完善。

在人工智能技術(shù)發(fā)展的浪潮中，深度學(xué)習(xí)語音識(shí)別技術(shù)逐漸成熟并廣泛應(yīng)用社會(huì)各領(lǐng)域，也推動(dòng)檔案數(shù)字化建設(shè)進(jìn)入新的數(shù)據(jù)化階段。目前，我國(guó)檔案館內(nèi)館藏大量具有珍貴價(jià)值的模擬音頻格式的檔案和部分?jǐn)?shù)字化設(shè)備生成的音頻檔案，亟需數(shù)字化轉(zhuǎn)錄和數(shù)據(jù)化挖掘，人工智能深度學(xué)習(xí)語音識(shí)別技術(shù)具有智能化、低成本、高識(shí)別率和高精準(zhǔn)率等特點(diǎn)，能夠解決音頻檔案數(shù)據(jù)化工作中的困境，深度學(xué)習(xí)語音識(shí)別技術(shù)不局限于轉(zhuǎn)存音頻檔案，同時(shí)創(chuàng)新了檔案工作方式，確保音頻檔案數(shù)據(jù)化轉(zhuǎn)化的質(zhì)量，有利于更加充分挖掘音頻檔案的價(jià)值。