999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的語音識(shí)別技術(shù)在音頻檔案數(shù)據(jù)化中的應(yīng)用

2024-03-26 02:30:36楊巍浙江財(cái)經(jīng)大學(xué)王茂煥臺(tái)州市檔案館
浙江檔案 2024年2期
關(guān)鍵詞:深度文本

楊巍 /浙江財(cái)經(jīng)大學(xué) 王茂煥/臺(tái)州市檔案館

1 引言

音頻錄像檔案[1]是國(guó)家機(jī)關(guān)、社會(huì)組織或個(gè)人在履行法定職責(zé)過程中采用不同記錄載體形成的、具有憑證、查考和保存價(jià)值并歸檔保存的以聲音或影像為主要呈現(xiàn)方式的信息記錄。人工智能技術(shù)的發(fā)展和應(yīng)用推動(dòng)了檔案工作數(shù)字化轉(zhuǎn)型,“數(shù)據(jù)化”成為新時(shí)代評(píng)價(jià)智慧檔案館的重要指標(biāo),將“檔案數(shù)字化”轉(zhuǎn)型為“檔案數(shù)據(jù)化”是檔案館現(xiàn)代化管理需要首先解決的問題。音頻檔案數(shù)據(jù)化是將傳統(tǒng)音頻檔案中的模擬音頻向數(shù)字音頻轉(zhuǎn)化,并將數(shù)字音頻的文本內(nèi)容進(jìn)行識(shí)別、分類、著錄和標(biāo)引等整個(gè)過程[2]。音頻檔案數(shù)據(jù)化主要包括音頻信息文本化[3]、元數(shù)據(jù)標(biāo)引和數(shù)據(jù)庫建設(shè)等內(nèi)容[4]。現(xiàn)階段,紙質(zhì)檔案已經(jīng)能夠通過數(shù)字化掃描和OCR識(shí)別完成數(shù)據(jù)化的基礎(chǔ)轉(zhuǎn)化工作,而含有豐富語義的音頻錄像檔案因其非結(jié)構(gòu)化存儲(chǔ)特性,無法像紙質(zhì)檔案一樣批量完成文本識(shí)別工作,大量記錄珍貴歷史記憶的音頻檔案在檔案館中得不到充分的數(shù)據(jù)化管理和利用,這成為音頻錄像在檔案大數(shù)據(jù)時(shí)代發(fā)揮自身價(jià)值的現(xiàn)實(shí)屏障。隨著深度學(xué)習(xí)語音識(shí)別技術(shù)在社會(huì)生活和工作領(lǐng)域中的運(yùn)用日漸成熟,將其引入檔案數(shù)據(jù)化工作場(chǎng)景中,推動(dòng)檔案現(xiàn)代化建設(shè)具有重要的現(xiàn)實(shí)意義。

語音識(shí)別技術(shù)是電腦自動(dòng)辨認(rèn)或驗(yàn)證發(fā)出語音的說話人,將音頻語音內(nèi)容轉(zhuǎn)換成對(duì)應(yīng)的文本的信息技術(shù),包括自動(dòng)語音識(shí)別(automatic speech recognition,ASR)、電腦語音識(shí)別(computer speech recognition,CSR)或是語音轉(zhuǎn)文本識(shí)別(speech to text,STT)[5]。識(shí)別過程如圖1,系統(tǒng)核心是音頻特征提取模塊、聲學(xué)模塊和語言模塊。

圖1 語音識(shí)別過程

音頻特征提取模塊負(fù)責(zé)根據(jù)語音信號(hào)波形提取有效的聲學(xué)特征[6],生成機(jī)器可以理解的語言特征向量序列,比如利用梅爾頻率MFCC變換抽取原始語音特征,這類技術(shù)比較成熟;聲學(xué)模塊利用聲學(xué)模型負(fù)責(zé)將語音特征映射成音素,其中音素是最小語音單位[7],比如“普通人”,可以分解成“p, u, t, o, ng, r, e, n”八個(gè)音素,聲學(xué)模型是語音識(shí)別技術(shù)的核心;語言模塊利用語言模型負(fù)責(zé)基于音素序列預(yù)測(cè)字符序列的概率,最終選擇概率值最大的字符序列作為解碼的文本結(jié)果,比如以上八個(gè)音素可能被預(yù)測(cè)為“撲通人”“普通仁”“普通人”等字符序列,但是“普通人”的概率最大,這類技術(shù)主要依托自然語言處理技術(shù)的發(fā)展。基于聲學(xué)模型的技術(shù)迭代,其技術(shù)發(fā)展從GMM-HMM(傳統(tǒng)聲學(xué)模型)、DNN-HMM(神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)聲學(xué)融合模型)發(fā)展到End-to-End(端到端模型)階段,深度學(xué)習(xí)語音識(shí)別技術(shù)日漸成熟,推動(dòng)現(xiàn)代社會(huì)在多場(chǎng)景中落地應(yīng)用。

2 語音識(shí)別技術(shù)在音頻檔案數(shù)據(jù)化管理中的研究現(xiàn)狀

語音識(shí)別技術(shù)在圖書情報(bào)與檔案領(lǐng)域中的應(yīng)用最早可追溯到1994年美國(guó)啟動(dòng)的“數(shù)字圖書館”項(xiàng)目中,卡耐基—梅隆大學(xué)在該項(xiàng)目中負(fù)責(zé)研究如何將圖像、語音和語言識(shí)別技術(shù)整合起來,使音頻和視頻具備與文字文獻(xiàn)相同的查詢、檢索、分類和摘要功能,從而實(shí)現(xiàn)智能搜索和圖像檢索的目標(biāo)[8]。21世紀(jì)初,醫(yī)療和法律檔案系統(tǒng)率先掀起利用語音識(shí)別技術(shù)進(jìn)行檔案數(shù)字化建設(shè)的熱潮[9],隨后,數(shù)碼音頻筆、智能語音錄入軟件等產(chǎn)品先后問世,其便捷的音頻功能和文字轉(zhuǎn)換功能受到了檔案工作者的青睞,語音識(shí)別法成為和掃描法、人工著錄法同樣重要的檔案數(shù)字化方法之一。檔案館將語音識(shí)別技術(shù)用于口述歷史的記錄和收集工作之中,同時(shí)也廣泛用在音視頻檔案數(shù)據(jù)轉(zhuǎn)換和整理上[10],如美國(guó)互聯(lián)網(wǎng)檔案館利用語音識(shí)別技術(shù)對(duì)其前總統(tǒng)特朗普電視演講深度轉(zhuǎn)錄,保證美國(guó)公民更加直觀及時(shí)了解特朗普政治觀點(diǎn)[11]。

針對(duì)傳統(tǒng)的模擬音頻檔案,深度學(xué)習(xí)語音識(shí)別技術(shù)能夠在音頻檔案數(shù)據(jù)化中智能標(biāo)注,生成的信息比人工標(biāo)注更加準(zhǔn)確、完整和規(guī)范[12]。同時(shí)深度學(xué)習(xí)語音識(shí)別技術(shù)為音頻檔案檢索打開了新的檢索思路,音頻檔案檢索從單一的關(guān)鍵詞檢索上升到大詞匯語音識(shí)別、字詞單元檢索、關(guān)鍵詞識(shí)別和對(duì)講話者檢測(cè)[13]等基于內(nèi)容的檢索模式。劉濤認(rèn)為深度學(xué)習(xí)語音識(shí)別技術(shù)所擁有的語音轉(zhuǎn)換文本中精準(zhǔn)的識(shí)別能力、智能的分析音頻內(nèi)容的能力和全內(nèi)容分析編目能力能解決當(dāng)前音頻檔案信息著錄有限性和音頻檔案高需求利用之間的矛盾[14]。總體上看,當(dāng)前檔案領(lǐng)域?qū)φZ音技術(shù)的研究主要集中在音頻錄像檔案收集、編目、檢索等環(huán)節(jié),而對(duì)深度學(xué)習(xí)的語音識(shí)別技術(shù)在音頻檔案數(shù)據(jù)化中識(shí)別率有多大提升和其在檔案領(lǐng)域具體的應(yīng)用場(chǎng)景鮮有深度探討,本文利用深度學(xué)習(xí)的語音識(shí)別技術(shù)deepspeech2_aishell模型對(duì)音頻數(shù)據(jù)集進(jìn)行了實(shí)證測(cè)試,驗(yàn)證了深度學(xué)習(xí)語音識(shí)別技術(shù)識(shí)別質(zhì)量好、識(shí)別效率高、準(zhǔn)確度精準(zhǔn)等優(yōu)勢(shì),同時(shí)探討了深度學(xué)習(xí)語音識(shí)別技術(shù)在目前檔案領(lǐng)域中的具體應(yīng)用場(chǎng)景,以期檔案領(lǐng)域利用深度學(xué)習(xí)語音識(shí)別技術(shù)進(jìn)行音頻檔案數(shù)據(jù)化管理。

3 深度學(xué)習(xí)deepspeech2_aishell模型在傳統(tǒng)模擬音頻檔案文本化中的實(shí)證測(cè)試

傳統(tǒng)音頻檔案文本化是音頻檔案數(shù)據(jù)化工作中的首要任務(wù),為了進(jìn)一步加強(qiáng)驗(yàn)證,筆者以linux系統(tǒng)為例,進(jìn)行deepspeech2_aishell模型的部署,命令行可以直接在系統(tǒng)的終端shell上執(zhí)行,開發(fā)python代碼進(jìn)行最終的語音識(shí)別,input.wav為原始音頻文件,text為最終輸出的文本內(nèi)容(如圖2)。選取《中華人民共和國(guó)檔案法》總則中的前5條內(nèi)容,利用朗讀工具生成5個(gè)音頻文件,然后利用deepspeech2_aishell模型分別進(jìn)行語音識(shí)別,5段音頻內(nèi)容,3條錯(cuò)誤率為0%,2條錯(cuò)誤率在3%以下,最終識(shí)別準(zhǔn)確率如表1所示,通過上述實(shí)證測(cè)試可知,目前人工智能語音識(shí)別模型的識(shí)別結(jié)果,已經(jīng)達(dá)到了比較高的準(zhǔn)確率,在實(shí)際應(yīng)用中有很大的可行性。

表1 語音模型識(shí)別結(jié)果分析

圖2 deepspeech2_aishell模型的部署程序

4 深度學(xué)習(xí)語音識(shí)別技術(shù)在音頻檔案數(shù)據(jù)化中的應(yīng)用

當(dāng)前,國(guó)內(nèi)大部分檔案館在傳統(tǒng)音頻數(shù)字化中采用人工轉(zhuǎn)寫方式,效率不高,而利用深度學(xué)習(xí)語音識(shí)別技術(shù),可根據(jù)不同的功能需求,設(shè)置不同的語音指令和文本輸出來進(jìn)行交互,批量化、高精度、不間斷地、快速完成音頻檔案信息到文本形式的轉(zhuǎn)化,不但方便檢索和編輯,還提高了音頻檔案管理的效率,節(jié)省了人力成本。同時(shí),語音識(shí)別技術(shù)還可以對(duì)音頻資料進(jìn)行自動(dòng)分類和標(biāo)簽化,進(jìn)一步提高了音頻檔案的檢索效率和準(zhǔn)確性。所以,深度學(xué)習(xí)語音識(shí)別技術(shù)在音頻檔案數(shù)據(jù)化的各方面都有較大的應(yīng)用價(jià)值。

4.1音頻檔案數(shù)據(jù)庫建設(shè)

對(duì)音頻檔案著錄標(biāo)引,建成數(shù)據(jù)庫是檔案數(shù)字化工作的基本需求。傳統(tǒng)音頻檔案數(shù)字化參照當(dāng)前行業(yè)標(biāo)準(zhǔn)或國(guó)家標(biāo)準(zhǔn)通過人工聽寫、分類、標(biāo)識(shí),過程煩瑣、編目簡(jiǎn)單粗放[15],難以全面描述錄像檔案所載信息。一方面,利用深度學(xué)習(xí)語音識(shí)別技術(shù)將錄像檔案文本化后,對(duì)文本中的所包含的內(nèi)容、場(chǎng)景、人物、事件、地點(diǎn)、結(jié)果等資源屬性進(jìn)行結(jié)構(gòu)化的描述,構(gòu)建以人物、事件為核心屬性的能被機(jī)器全文識(shí)別的數(shù)據(jù)庫,并設(shè)定相應(yīng)的語音指令,實(shí)現(xiàn)音頻全內(nèi)容檢索。另一方面,語音識(shí)別技術(shù)還能對(duì)語音中的不同元素(如音色、音調(diào)、節(jié)奏等)的分類和特定詞匯、短語或句子的標(biāo)注和描述,促使不同模態(tài)的音頻檔案數(shù)據(jù)結(jié)構(gòu)化存儲(chǔ)。利用深度學(xué)習(xí)語音識(shí)別技術(shù)建設(shè)音頻檔案數(shù)據(jù)庫的模式,是在現(xiàn)有錄音檔案數(shù)據(jù)庫系統(tǒng)上進(jìn)行簡(jiǎn)單擴(kuò)展就能實(shí)現(xiàn),是音頻檔案數(shù)據(jù)化發(fā)展的方向。

4.2音頻檔案數(shù)據(jù)知識(shí)化加工

語音識(shí)別技術(shù)為音頻檔案內(nèi)容知識(shí)化加工和二次創(chuàng)作提供了千載難逢的機(jī)遇。目前,音頻檔案數(shù)字化處理不足,語義理解深度不夠、音頻檔案信息復(fù)雜多樣等問題導(dǎo)致音頻檔案知識(shí)化效率和質(zhì)量受到限制。而利用深度學(xué)習(xí)語音識(shí)別技術(shù)對(duì)文本化的信息進(jìn)行上下文理解和語義分析,然后自動(dòng)化著錄音頻的主題、概念、事件、觀點(diǎn)等信息,自動(dòng)生成內(nèi)容摘要,聚合音頻數(shù)據(jù),構(gòu)建知識(shí)圖譜,形成知識(shí)體系,為音頻檔案內(nèi)容挖掘和知識(shí)化加工創(chuàng)造條件。京劇名家檔案故事化手游開發(fā)項(xiàng)目[16],其中一個(gè)重要的組成部分就是收集京劇名家檔案史料、音像檔案與口述檔案等音頻檔案進(jìn)行知識(shí)化加工,推進(jìn)音頻檔案故事化呈現(xiàn),提高音頻檔案內(nèi)容的張力。比如項(xiàng)目選取了一段關(guān)于荀慧生先生的珍貴音頻檔案,為了全方位呈現(xiàn)這位藝術(shù)家的風(fēng)采,項(xiàng)目團(tuán)隊(duì)將音頻檔案進(jìn)行了故事化處理。他們根據(jù)音頻內(nèi)容,制作了可視化知識(shí)圖譜和一段動(dòng)畫視頻,再現(xiàn)了荀慧生先生舞臺(tái)上的場(chǎng)景,同時(shí),項(xiàng)目團(tuán)隊(duì)注重音頻檔案故事與受眾的交互方式,以互動(dòng)游戲的形式實(shí)現(xiàn)對(duì)京劇名家檔案數(shù)據(jù)的故事化呈現(xiàn),通過這種音頻檔案故事化的方式,觀眾不僅能夠聽到珍貴的歷史音頻檔案,還能夠通過視覺和聽覺的雙重呈現(xiàn),更好地理解檔案的背景和意義。

4.3音頻檔案視聽服務(wù)平臺(tái)建設(shè)

語音識(shí)別技術(shù)可以為音頻檔案視聽服務(wù)平臺(tái)的建設(shè)提供有力支持。語音識(shí)別技術(shù)可以幫助實(shí)現(xiàn)語音與文字的快速轉(zhuǎn)換,通過提高音頻檔案數(shù)字化處理效率,完善音頻檔案數(shù)據(jù)庫建設(shè),構(gòu)建音頻檔案知識(shí)化體系、嵌入語音導(dǎo)航等多個(gè)步驟,可以建立一個(gè)高效、便捷、智能的音頻檔案視聽服務(wù)平臺(tái),為檔案用戶特別是有視聽障礙的特殊群體提供更加人性化的查檔、用檔服務(wù),提升用戶體驗(yàn)。目前,國(guó)家圖書館基于智慧化和新媒體技術(shù)手段研發(fā)和建設(shè)的影音視聽資源知識(shí)服務(wù)平臺(tái)[17],該平臺(tái)創(chuàng)新資源生產(chǎn)、加工、組織與應(yīng)用,運(yùn)用智慧化和新媒體技術(shù),優(yōu)化音視頻資源管理機(jī)制,深入挖掘資源關(guān)聯(lián)和內(nèi)容價(jià)值。同時(shí),提供個(gè)性化知識(shí)服務(wù),適配多終端設(shè)備,提升視聽服務(wù)效益,助力智慧圖書館的進(jìn)步與發(fā)展。

4.4音頻檔案信息在線擴(kuò)展泛化

為了盡可能豐富和完善音頻檔案背景信息,深度學(xué)習(xí)語音識(shí)別技術(shù)為傳統(tǒng)音頻檔案的傳播、共享等在線擴(kuò)展泛化過程創(chuàng)造了條件。第一,利用深度學(xué)習(xí)語音識(shí)別技術(shù)轉(zhuǎn)變了音頻檔案的存在模態(tài),將二進(jìn)制的符號(hào)轉(zhuǎn)變成可標(biāo)識(shí)的結(jié)構(gòu)化信息,以便于音頻檔案信息存儲(chǔ)、傳輸和在線播放。第二,通過數(shù)據(jù)分析和挖掘技術(shù)提升音頻檔案的易讀性,將音頻檔案中的數(shù)據(jù)信息多角度、多層次地被標(biāo)注出來,提高音頻檔案的被理解力。第三,利用云計(jì)算分布存儲(chǔ)技術(shù)保證音頻檔案數(shù)據(jù)的易用性,建成音頻檔案集中管理數(shù)據(jù)庫,設(shè)定開放權(quán)限并連接互聯(lián)網(wǎng),用戶通過身份認(rèn)證可以即時(shí)在線訪問音頻檔案數(shù)據(jù),進(jìn)而提高音頻檔案的利用價(jià)值和音頻檔案信息傳遞效率。第四,利用流媒體傳輸和智能推薦技術(shù),將通過開放審核的音頻檔案及時(shí)通過流媒體主動(dòng)推送到用戶的設(shè)備上,面向社會(huì)及時(shí)分享音頻檔案內(nèi)容,同時(shí)加強(qiáng)和用戶的互動(dòng),收集音頻檔案相關(guān)的信息,不斷補(bǔ)充和完善原有音頻檔案信息內(nèi)容,能夠更加真實(shí)完整全方位還原音頻檔案所記載的歷史事件。荷蘭國(guó)家檔案館在“De ijsberg zichtbaar maken”(“讓冰山可見”)[18]人工智能技術(shù)轉(zhuǎn)錄檔案項(xiàng)目中初步嘗試這種模式,該項(xiàng)目通過館藏檔案數(shù)字化和新媒體信息技術(shù),將荷蘭皇室的檔案、繪畫、手稿、照片、音頻等多模態(tài)檔案數(shù)據(jù)聚合,利用新媒體技術(shù)向公眾推送荷蘭歷史和文化,公眾可以根據(jù)自己的知識(shí)背景和掌握的歷史信息在線反饋給圖書館,圖書館工作人員根據(jù)反饋信息及時(shí)補(bǔ)充檔案內(nèi)容,在線擴(kuò)展泛化模式成為館藏補(bǔ)充資源、修正資源、完善資源的新模式,截至2023年約有200萬份資源中部分資源已通過在線擴(kuò)展模式進(jìn)行了更正、更新和實(shí)體資料的補(bǔ)充和完善。

在人工智能技術(shù)發(fā)展的浪潮中,深度學(xué)習(xí)語音識(shí)別技術(shù)逐漸成熟并廣泛應(yīng)用社會(huì)各領(lǐng)域,也推動(dòng)檔案數(shù)字化建設(shè)進(jìn)入新的數(shù)據(jù)化階段。目前,我國(guó)檔案館內(nèi)館藏大量具有珍貴價(jià)值的模擬音頻格式的檔案和部分?jǐn)?shù)字化設(shè)備生成的音頻檔案,亟需數(shù)字化轉(zhuǎn)錄和數(shù)據(jù)化挖掘,人工智能深度學(xué)習(xí)語音識(shí)別技術(shù)具有智能化、低成本、高識(shí)別率和高精準(zhǔn)率等特點(diǎn),能夠解決音頻檔案數(shù)據(jù)化工作中的困境,深度學(xué)習(xí)語音識(shí)別技術(shù)不局限于轉(zhuǎn)存音頻檔案,同時(shí)創(chuàng)新了檔案工作方式,確保音頻檔案數(shù)據(jù)化轉(zhuǎn)化的質(zhì)量,有利于更加充分挖掘音頻檔案的價(jià)值。

猜你喜歡
深度文本
深度理解一元一次方程
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
深度觀察
深度觀察
深度觀察
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
深度觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 国产91丝袜在线播放动漫 | 亚洲人精品亚洲人成在线| 色偷偷一区| 亚洲三级a| 国产高清无码麻豆精品| 97人妻精品专区久久久久| 国产精品香蕉| 欧美亚洲另类在线观看| 99九九成人免费视频精品| 在线色国产| 蜜桃臀无码内射一区二区三区 | 国产成人综合网| 欧洲日本亚洲中文字幕| 亚洲欧美激情小说另类| 日韩精品专区免费无码aⅴ| 久久综合国产乱子免费| 亚洲一级毛片在线播放| 成人va亚洲va欧美天堂| 久久精品免费国产大片| 亚洲成a人在线观看| 亚洲永久视频| 国产地址二永久伊甸园| 黄色国产在线| 婷婷六月在线| 欧美日韩va| 日韩免费毛片视频| 亚洲手机在线| 不卡午夜视频| 亚洲一级毛片在线观播放| 精品国产Av电影无码久久久| 日韩av手机在线| 伊大人香蕉久久网欧美| 91麻豆精品国产高清在线| 亚洲国产第一区二区香蕉| 国产91麻豆免费观看| 欧美高清视频一区二区三区| 亚洲精品中文字幕午夜| 国产精品视频猛进猛出| 欧美国产日本高清不卡| 成人精品区| 午夜激情婷婷| 五月天天天色| 国产精品久久精品| 欧美色亚洲| 一级毛片在线免费看| 久久天天躁狠狠躁夜夜2020一| 亚洲无码37.| 波多野结衣国产精品| 国产美女一级毛片| 亚洲欧州色色免费AV| 欧洲日本亚洲中文字幕| 亚洲开心婷婷中文字幕| 免费三A级毛片视频| 影音先锋丝袜制服| 亚洲av无码人妻| 久久无码av三级| 久久精品无码一区二区日韩免费| 欧美自慰一级看片免费| 亚洲综合久久一本伊一区| 日韩av无码精品专区| 亚洲日本精品一区二区| 欧美日韩中文国产| 一本综合久久| 97视频免费看| 国产欧美视频一区二区三区| 国产精品lululu在线观看| 久久久国产精品无码专区| 婷婷六月综合网| 国产最新无码专区在线| 91视频精品| 国产白浆一区二区三区视频在线| 亚洲无码日韩一区| 午夜国产精品视频黄| 亚洲无码久久久久| 伊人国产无码高清视频| 欧美亚洲综合免费精品高清在线观看| 亚洲不卡无码av中文字幕| 欧美黑人欧美精品刺激| 少妇精品网站| 国产理论最新国产精品视频| 综合色在线| 成人毛片免费观看|