


摘要:隨著對TXT/PDF/Word/HTML等各種文本文檔轉換為音頻文件,以及音頻文件轉換為文本文字的需求日益增加,本文給出了讓普通人都能夠利用現有技術達到這些目標的方法。方法簡單易行,實用有效。
關鍵詞:殘障人士;朗讀;音頻;文本
中圖分類號:TP317 文獻標識碼:A
文章編號:1009-3044(2020)21-0180-03
開放科學(資源服務)標識碼(OSID):
引言
現在越來越多的工作和生活中都會使用文本文檔(例如:TXT文檔、Word文檔、PDF文檔甚至HTML網頁內容等)和音頻文件。但是視障人士無法觀看這些文檔,即便是視力正常的人長時間閱讀電子文檔也會損傷眼睛而且不能同時進行其他的事情;與此同時,聽障人無法聽到音頻文件的內容,只能閱讀文檔。而且殘障者由于行動受限更渴望豐富生活,了解社會[1]。
如果文本文檔可以朗讀并轉成音頻文件,那么就能解放雙眼,滿足視障人士聽讀、放映廳放映、課堂教學、外語學習等場景下的需要,而且音頻文件相對于文本文檔更便于手機上播放和攜帶。同時,如果音頻文件能轉換成文本文檔,那么就能滿足聽障人閱讀、文檔打印、將各種資料匯總成文檔、殘障人士文字錄入等場景下的需要。尋找簡單有效的方法,完成各種文本文檔與語音文件的相互轉換,是幫助殘障人士的重要環節。
目前文字轉語音的現狀(參見文獻[2-9])是:Office Word的菜單中都已經有了朗讀功能,在“百度經驗”中搜索“word朗讀”可以查閱調出“朗讀”菜單項的配置方法。本次使用的Word2016版本朗讀功能可以做到朗讀選中的文字和停止朗讀。
目前語音轉文字的現狀是:各種語音輸入法陸續發布,雖然存在著由于各種原因導致文字轉換不夠完美的問題,但該功能已經初步實現。
如何利用現有的技術,達到文本文檔轉換為音頻文件,或者將音頻文件轉為文本文字,是此次研究的主要目的。
1 實現方法
1.1 準備工作
在開始實現之前,需要做好準備工作,特別說明如下:
1)文檔朗讀實際使用了windows的語音組件,所以使用前需要安裝windows語音組件。本次使用的windows 10操作系統自帶了語音組件。
2)因為要做文本文檔和音頻文件的相互轉換。根據需求,筆者選定的實驗環境是windows 10操作系統+Office Word2016+“訊飛語音輸入法”。
1.2 文本文檔轉音頻文件基本步驟
利用目前的Word朗讀功能和windows的錄音功能,我們現在只需簡單地處理就可以實現Word文字轉音頻的目標。而其他的各種類型的文檔,只要可以拷貝進Word文檔里都可以用以下的方法,來轉換成音頻文件。特別需要說明的是,HTML頁面的朗讀一直都是瀏覽器插件開發的一個方向,但是如果可以直接拷貝HTML文檔的內容或者利用生成HTML用的原始文本,將他們朗讀成音頻掛載在網頁上播放,會去掉很多不必要的廣告或者其他內容的干擾,提高網頁朗讀的品質。具體步驟如下:
1)在電腦右下角的揚聲器上單擊右鍵,“打開聲音設置”,選擇其中的“聲音控制面板”,如圖1所示。
2)在聲音控制面板的“錄制”選項卡中啟用“立體聲混音”,如圖2所示。
3)回到圖1所示位置,設置默認聲音輸入為“立體聲混音”(也就是電腦播放音),如圖1所示。
4)準備工作完成,可以開始錄制Word文檔的朗讀語音。如圖3所示,打開電腦的錄音機,并打開Word文檔,選中要朗讀的內容。開始錄音機錄音,然后在Word文檔中開始朗讀,朗讀完成即可停止錄音,生成錄音文件了。
1.3音頻文件轉文本文字基本步驟
接下來我們完成音頻文件轉文本文字的工作。因為音頻文件轉文本文字其實是利用了“訊飛語音輸入法”,所以首先需要設置語音輸入法的語音來源為電腦播放音,這樣語音輸入法就可以根據電腦播放的音頻文件的聲音,在Word文檔中錄入文字。步驟如下:
1)在電腦右下角的揚聲器上點擊右鍵,“打開聲音設置”,向下找到其中的“高級聲音選項”,打開“應用音量和設備首選項”,如圖4所示。
2)確認其中的聲音輸入為“立體聲混音”,并確認“訊飛語音輸入法”相關兩項的輸人為“默認”(也就是立體聲混音)。如圖5所示。
3)完成準備工作,可以開始音頻文件轉Word文檔的工作。打開音頻文件,電腦開始播音;在Word文檔中,光標移動至需要輸入文字的地方,并將“訊飛語音輸入法”的“點擊說話”按鈕按下。這時候“訊飛語音輸入法”就會將聲音轉為Word文檔中的文字。將1.2節中錄制的音頻文件轉換為Word文檔,我們來看看文字恢復情況。如圖6所示。
可以看到由于文檔朗讀錄音時使用了標準的普通話,所以文字恢復后除了標點符號不同,無法分段,沒有各種文檔樣式之外,沒有文字錯誤。
由上面的過程想到,通過將“訊飛語音輸入法”的語音來源設置為麥克風(如圖7所示),將音頻播放出來的聲音收音到麥克風,借助語音輸入法轉為文字;當然借助語音輸入法,如果你對著麥克風講話,也可以轉為文字。
2 實驗結論
本次研究,借助現代科學技術順利地達到各種文本文檔轉換為音頻文件的目的,滿足視障、殘障、聽障人在很多應用場景下對這項技術的需要。雖然語音轉文字過程中,可能由于某些語音文件的質量不高、普通話不夠標準等原因,文字的準確性還有待進一步提升;文字轉語音過程中,播放出來的語音還無法像人一樣自然流暢。但是隨著技術的發展,相信文字的識別會越來越準確,而播放的語音也會越來越自然流暢。
除此之外,目前的語音輸入法不能分段,也沒有文字格式,只能恢復文字。所以目前只能簡化還原文本文檔需要付出的努力。
3 結束語
針對目前各種文本文檔轉換為音頻文件以及音頻文件轉文字的需求,本文提出了結合現有的windows語音組件技術、Word文檔朗讀技術、錄音技術、語音輸入技術,達到了文字與語音相互轉換的目的。它能使工作和生活變得更智能、更人性化;使視障人士、聽障人和殘障人能夠更輕松地應對工作和生活中的難題。相信將來會在越來越多對文本文檔轉音頻文件,及音頻文件轉文本文字的應用場景中發揮作用。也希望隨著研究的深入,不久的將來相關的轉換軟件可以誕生,使得轉換工作得以更輕松完成。
參考文獻:
[1]林英.視力障礙人士閱讀問題研究[J].圖書館理論與實踐,2014(4):22-24,25.
[2]張修振.兩方法助你輕松閱讀Word文檔[J].秘書之友,2009(8):46.
[3]巧用“錄音機”制作音頻文件[Jl,電腦知識與技術,2000 (01):20.
[4]羅海濤.wav音頻文件格式分析與數據獲取[J].電腦知識與技 術,2016,12(27):211-213.
[5]阮高峰.TXT文件也玩大變身[J].電腦知識與技術,2003(22):8-11.
[6]飛雪散花.乾坤大挪移,文本也轉換[J].電腦迷,2011(18):21.
[7]鄉里人家.文出有聲護眼養神[J].電腦愛好者(普及版),2010(10):33.
[8]朱煥民.讓Word XP給你讀文檔[Jl.電腦知識與技術,2003(31):29-30.
[9]李剛.智能語音識別技術的架構與設計[J].電腦知識與技術,2018,14(18):175-177.
【通聯編輯:唐一東】
作者簡介:曹紅萍(1977-),女,新疆精河人,清華大學軟件工程碩士,高級系統架構設計師,主要研究方向為:計算機教育、計算機應用技術、軟件工程。