郭冰奇 李志揚 鄧蕾 楊澤信 鄒穎



摘要:目前教學網站提供的教師講課視頻一般以課時為單位,時長很長,而且知識點繁多。本文提出了一種可以快速將視頻根據知識點進行剪輯整理的方法。該方法首先采用語音識別技術將視頻中的語音轉化成文字,生成字幕文件,然后借助字幕文件中關鍵詞出現的時間段對整個教學視頻進行分節或提取知識點,制作成帶有字幕的教學短視頻。采用這種根據知識點分節的短視頻,學生可以依據自己的興趣重點搜索、學習相關知識點視頻,而不是整個視頻,從而大量減輕學生負擔,提高學習效率。
關鍵詞:語音識別;視頻剪輯;知識點;字幕
中圖分類號:TP391? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)26-0006-03
開放科學(資源服務)標識碼(OSID):
A Teaching Video Clip Method Based on Speech Recognition
GUO Bing-qi,LI Zhi-yang, DENG Lei, YANG Ze-xin, ZOU Ying
(College of Physical Science and Technology, Central China Normal University, Wuhan 430079, China)
Abstract: Presently the videos on most teaching websites are provided in time unit of the class hour, which are relatively long and consist of lots of knowledge points. The paper proposed a method to clip the video quickly according to knowledge points. The method first uses the speech recognition technology to convert the speech in a teaching video into text, producing a subtitle file. Then, it divides the whole video into sections or extracts the knowledge points based on the time stamp of the keywords in the subtitle file, yielding short teaching videos with subtitles. With such short videos? students may search and focus on their interested knowledge points without referring the whole video.
Key words:? speech recognition; video editing; knowledge; subtitles
1 引言
近年來,隨著互聯網的發展,網上教學模式逐漸興起,直播授課[1]和視頻教學等軟件層出不窮,如在疫情影響下被廣泛使用的釘釘直播授課軟件以及功能豐富的中國大學MOOC教學網站,不但可以線上授課,還具備上課簽到、提交作業和學生管理等豐富的功能,而且教師完成授課后視頻被永久的保存在了網站中,供學生課后重復觀看復習知識點。但是這樣保存的原始教學視頻一般時長較長,而且知識點繁多,當學生只想針對性地學習某一個知識點時也必須瀏覽整個視頻,浪費大量的學習時間。
針對時長長且知識點繁多的教學視頻,本文提出了一種快捷剪輯整理方法,它借助語音識別技術[2-4]識別視頻中的知識點,然后根據知識點進行視頻切分。該方法可用于教學網站的視頻數據整理,有助于提升學生學習效率。
2 基于語音識別的視頻處理算法框架與原理
本文提出的基于語音識別的視頻剪輯整理方法,其處理流程如圖1所示。首先選擇一個教學視頻,然后對其進行語音識別,獲得字幕文件。由于字幕文件中每一句文字都記錄了相對應的視頻時間段,借助關鍵詞出現的時間段可以對整個教學視頻進行分節或提取知識點。最后根據字幕文件將文字內容插入原始視頻,得到帶字幕的以小節或知識點為單位的教學短視頻。
圖1中語音識別所采用的算法框架與流程如圖 2 所示,主要包括預處理與數字化、特征提取、聲學模型、語言學模型和解碼搜索等5個方面:
①預處理與數字化。把語音信號進行采樣和量化,使之變成頻域離散信號,采樣頻率應取信號最高頻率的兩倍以上,然后對得到的頻域信號進行加窗,窗函數在信號上移動,把信號分成幀,幀與幀之間的偏移取1/2。
②特征提取。本文采用的聲學特征提取方法是“梅爾頻率倒譜系數(MFCC)[5-6]”,對①中的信號幀進行FFT變換求頻譜,然后求得幅度譜[|Xn(k)|](其中,k=0,1,2...)。幅度譜存在大量冗余信息,可以通過Mel濾波器組對其進行簡化提煉,步驟如下:
根據[fmel(f)=2595.log(1+f700HZ)](其中[fmel(f)]是Mel頻率,[f]是語音信號的實際頻率)求出最大的Mel頻率[fmax[mel]]。然后在Mel頻率軸上配置K個通道的三角形濾波器組(K由信號截至頻率決定)。在Mel刻度范圍內,任一三角濾波器的中心頻率都是等間隔的線性分布,因此,可以通過公式[Δmel=fmaxk+1]計算相鄰三角濾波器中心頻率的間距。
設第x個濾波器的下限、中心和上限頻率分別是d(x),b(x),u(x),則相鄰三角形濾波器的下限,中心,上限頻率的關系如下:b(x)=u(x-1)=d(x+1)。根據語音信號幅度譜[|Xn(k)|]求每個濾波器的輸出。公式如下: