劉立?豐洪才


摘要:針對教育視頻內容的復雜性,本文主要探討如何解決在教育領域里快速、準確地檢索所需的視頻內容的問題。文中從分析視頻結構入手,介紹了基于內容的視頻檢索技術以及其優(yōu)勢。檢索效果顯示該技術在教育教學領域中有一定的應用價值,豐富了教學方式,學生對其認可度較高。
關鍵詞:視頻;基于內容的視頻檢索技術;教育;教學;學生
一、引言
近年來,計算機網絡和多媒體技術得到了迅猛發(fā)展,視頻作為主要的多媒體信息載體,已經成為互聯(lián)網中重要的數(shù)據(jù)類型,且在安全監(jiān)控和視頻網站中得到了廣泛應用。與文本、音頻和圖像相比,視頻因其豐富的信息量和直觀體驗已成為主要的信息來源。每天有數(shù)以百萬計的視頻被上傳到互聯(lián)網上,傳統(tǒng)的信息檢索主要依靠人工標注的方式,但這種方式無論是在網絡帶寬占用量、資源定位時間開銷還是用戶的使用習慣等方面都存在不足。面對海量的視頻數(shù)據(jù),僅通過添加文本標簽描述的形式對視頻進行基于關鍵詞匹配的檢索已無法滿足人們的需求,于是基于內容的視頻檢索(Content Based Video Retrieval, CBVR)技術橫空出世。CBVR是通過對視頻數(shù)據(jù)從低層到高層進行處理、分析和理解的過程,根據(jù)視頻的內容及上下文關系獲取其內容,并根據(jù)內容進行檢索[1]。
教育是人類社會發(fā)展的一個重要領域,現(xiàn)代教育正日益重視科技創(chuàng)新。視頻技術所帶來的改變也已經開始影響傳統(tǒng)教學方法。然而,隨著視頻資源井噴式增長,如何更有效地挖掘其價值成為一個關鍵問題。因此,本文將探討視頻檢索技術在教育中的應用。
二、基于內容的視頻檢索技術
視頻是由一系列靜態(tài)圖像幀按時間或空間順序排布得到的圖像集。作為一種交互性強的媒體,視頻具有內容豐富和邏輯性強的特點。近年來,視頻在采集、存儲、傳輸和回放等方面取得了顯著進展。從20世紀90年代后期開始,國際社會開始對視頻檢索技術進行研究?;趦热莸囊曨l檢索一直是國內外研究者關注的熱點問題,已經取得了一定的研究成果。代表性的系統(tǒng)之一是由IBM公司研發(fā)的QBIC(按圖像內容查詢)系統(tǒng),它是一個功能齊全的視頻檢索系統(tǒng),在視頻檢索領域具有重要意義。另外,Video Q系統(tǒng)改進了傳統(tǒng)的基于主題和關鍵詞的檢索方法,使用戶能夠通過視覺特征和視頻序列中的時空關系進行視頻檢索。在我國,對視頻檢索的研究起步較晚,技術水平相對落后。近年來,國內研究學者開始重視視頻檢索系統(tǒng)中相對較少的問題,并且在基于內容的視頻搜索技術方面取得了許多成果。其中代表性的系統(tǒng)包括Ifind系統(tǒng)、New VideoCAR系統(tǒng)和TV-FI系統(tǒng)。
(一)基本概念
視頻的視覺信息通過每一幀圖像來表達,而每一幀圖像又由一系列連續(xù)的幀組成,而鏡頭則是由一組連續(xù)拍攝的幀序列構成的。關鍵幀是能夠準確反映和體現(xiàn)一個鏡頭或整個視頻內容的圖像幀。關鍵幀提取是一種從視頻幀集合中發(fā)現(xiàn)并消除重復幀的技術。在鏡頭分割之后,可以根據(jù)鏡頭的內容選取一定數(shù)量的關鍵幀建立視頻索引,這對于視頻的索引、檢索和瀏覽非常重要。而場景則是由在時間上相鄰并具有相似視覺屬性的鏡頭所組成的。場景檢測的主要目的是描述視頻中具有語義的事件。場景檢測也被稱為鏡頭聚類,它關注的是在時間上的連續(xù)性以及在內容上的相似性。通過對鏡頭進行聚類,可以將視頻分割成不同的場景,從而方便進行進一步的視頻分析和處理。
(二)關鍵技術
CBVR包含了特征提取與匹配技術、鏡頭邊緣檢測技術(Shot Edge Detection)[2]、關鍵幀提取技術(Key Frame Extraction)[3]、場景分割(Scene Segmentation)[4]、視頻摘要(Video Summary)[5]等技術。
CBVR工作過程如下:
第一步:將視頻流轉化成幀圖像,并保存到視頻數(shù)據(jù)庫中。
第二步:解決如何有效地組織視頻信息等關鍵問題。將視頻分割成多個視頻片段并描述每個片段的特殊性是組織視頻信息的方法之一。視頻鏡頭分割(鏡頭邊緣檢測)的主要目標是檢測出鏡頭的邊緣,即將一段視頻分割成若干獨立的鏡頭。其分割技術的關鍵在于確定鏡頭邊界。鏡頭邊界主要依據(jù)鏡頭之間的明顯特征差異確定,即如果相鄰兩幀的差異超出了設定閾值,則說明存在鏡頭邊界(分割點)。鏡頭變化有突變和漸變兩種方式,突變是指從一個鏡頭直接切換到下一個鏡頭,沒有使用任何編輯手段;漸變(緩變)是指鏡頭之間通過某種過渡方式緩慢地切換到下一個鏡頭,該變化過程一般在幾幀或幾十幀之間完成。鏡頭檢測的準確性將直接影響視頻語義標注和后續(xù)瀏覽、檢索效果。
第三步:關鍵幀是指視頻序列中最能準確反映和體現(xiàn)一個鏡頭甚至整個視頻內容的圖像幀。它是將視頻轉換為圖像的關鍵環(huán)節(jié),也是保證視頻索引、檢索和瀏覽的重要前提,同時也是形成視頻摘要的重要方式之一。
第四步:視頻特征提取與匹配,在視頻檢索過程中,從視頻中提取一些圖像特征與視覺感受保持一致,通常采用特征向量表示相應的圖像。特征提取是視頻幀分析與識別的前提,是高維視頻數(shù)據(jù)簡化表達的有效方式。而視頻幀的特征匹配是通過比較特征向量的相似性來判斷視頻幀的相似程度,實質上是計算各特征向量之間的距離[6]。常用計算相似度的方法有:歐式距離、絕對值距離、切氏距離、名氏距離、最值相似系數(shù)等。
第五步:輸出視頻檢索結果,將特征最相近的視頻幀返回給用戶。
CBVR對于視頻的存儲、處理、檢索和傳輸有重要的意義。
三、基于內容的視頻檢索技術在教學的應用
當下中國教育信息化正邁向全面轉型提升的階段,基于視頻的課堂實錄、直播與視頻的混合學習也在層出不窮,這不僅激發(fā)了學生的興趣,同時也拓寬了教育信息傳播渠道,豐富了教學內容呈現(xiàn)形式,給學生帶來了多感官的體驗視頻已經成為教學活動展示的主要形式,傳播教學理念的重要載體。視頻可以把豐富的網絡資源與課本上的知識進行有機結合,這不斷加速推進教育模式的創(chuàng)新,還擴展了傳統(tǒng)課堂的知識容量。特別是在疫情時代,國內各級各類學校開啟了一場史無前例的在線教育活動,視頻作為現(xiàn)代教學改革的重要載體,對教育資源的整合與強化起到了重要的作用。但當前的教育視頻資源數(shù)量巨大且以分散狀態(tài)存在,不少教育視頻依然存在加工粗糙、導航不明確等不利于教育持續(xù)發(fā)展的因素。
傳統(tǒng)視頻教材大多以“課”作為單位進行錄制,具有整體性、封閉性等特點,但這忽略了學生的使用體驗,學生很難獲取個性化、專業(yè)化的信息資源,限制了視頻中價值的發(fā)揮。而基于內容的視頻檢索技術通過有效地管理視頻資源并查找其中的重要信息,使得高效、準確地進行視頻內容檢索成為可能。這也帶動了教育視頻價值的提升,解決了我國教育信息化發(fā)展中存在的建設成本高、信息化效果不突出等一系列問題。具體體現(xiàn)如下:
(一)加快教學視頻的瀏覽、查詢和檢索
人類社會的知識生產與傳播模式一直在發(fā)生變化,當今社會正處于信息傳播“碎片化”的時代,傳統(tǒng)媒體傳播效果與體驗感都不如視頻。視頻的優(yōu)點是視覺感強,且簡單易懂。有研究表明人類在接受信息時,視覺的接受率為83%,而聽覺的接受率只有13%。視頻將教育知識方便、快捷地送達到學生手中,減少學生獲取知識的時間,這拓寬了信息傳播的渠道,提高了學生的信息獲取能力,也加快了信息轉化為知識的進程[7]。學生獲取知識的方式已經不再局限于傳統(tǒng)方法,因此通過視頻可以解決由于知識和技術缺乏而制約學生發(fā)展的問題,促進宣傳和普及。與此同時,教育視頻的數(shù)據(jù)量也呈指數(shù)級增長,如何在較短時間內從海量且參差不齊的教學視頻庫中提取出最佳的學習材料,改善學習效果,一直困擾著眾多學者。傳統(tǒng)的視頻查找方式通常是通過快進來查找內容,而利用CBVR(Content-Based Video Retrieval,基于內容的視頻檢索)中的鏡頭分割技術能夠有效地檢測出鏡頭的邊緣,將一段段冗長的教學視頻分割成若干獨立的鏡頭。精準地定位鏡頭的分割點,減少了學習者檢索的時間,提高了教學視頻的檢索效率。該技術不僅便捷了師生對視頻資源的獲取方式,更能優(yōu)化視頻資源的利用效果,為教學帶來更多的可能性和靈活性。
(二)提高教學視頻檢索的精度
基于內容的視頻檢索技術通過對視頻內容進行分析和處理,能夠提高教學視頻檢索的精度。傳統(tǒng)的視頻檢索技術主要是基于文本信息的檢索,但是對于一些復雜的視頻內容,僅僅通過文本信息的檢索是無法準確地找到所需要的內容。CBVR則能夠從視頻中提取出各種基于視覺和語義的特征,并據(jù)此建立索引,使得視頻檢索的精度更高,從而能夠更準確地滿足學生對于教學資源的需求。
視頻具有靜態(tài)特性和動態(tài)特性。靜態(tài)特性是指圖像幀的原始屬性,主要是從顏色、紋理、形狀、大小等視覺特征來體現(xiàn)。通過分析比較視頻圖像的靜態(tài)特征,可以區(qū)別于其他圖像的特征。動態(tài)特征是視頻獨有的屬性,主要是視頻中的物體運動或攝像機的運動引起,反映了視頻動態(tài)的時域變化。
CBVR會自動獲取視頻的特征,然后根據(jù)這些特征進行查找。查找的過程中,直接對獲得的幀進行分類是不現(xiàn)實的。原因在于:一是視頻的數(shù)據(jù)量巨大,需要占用較多的存儲空間,這就難以滿足用戶實時性要求;二是視頻中可能包含許多與識別無關的信息。因此,必須對視頻幀進行有效的特征提取和選擇,以簡化被識別幀數(shù)據(jù),提高視頻的識別率。通過比較特征向量的相似性來判斷視頻幀的相似度?;趦热莸囊曨l檢索技術對教學視頻進行分析,選擇相應的特征,然后利用這些特征建立索引進行檢索。用戶只需提供教學視頻的片段信息,CBVR采用一種近似匹配的方法逐步求精來獲得查詢和檢索結果,可以實現(xiàn)視頻內容的自動標注和分類,并與特定主題或教學目標進行關聯(lián),這避免了采用傳統(tǒng)檢索方法所帶來的不確定性。例如,學生要學習計算機組裝與維護技術,可以給出一段類似的示例視頻或提取的圖像幀作為范例。系統(tǒng)就可以根據(jù)例子檢索出類似的視頻段,學生可以通過觀看操作視頻漸進地掌握計算機組裝與維護的技術。這項技術為教學提供了更多有效的視頻資料,實現(xiàn)了以應用能力為本的培養(yǎng)形式,提高了學生理論聯(lián)系實際的綜合素質。
(三)實現(xiàn)對教學視頻功能的挖掘與價值提升
教育視頻內容分析包括感知理解、認知理解和情緒理解這三個方面[8]。感知理解主要從人物動作、表情、語言等方面理解視頻內容,已經有許多學者利用視頻技術評估學生在課堂中的注意力、參與度和是否存在異常行為等方面。教師可以通過學生的聽課狀態(tài)來判斷他們是否積極主動地參與課堂活動,是否能夠跟上教師的教學進度。然而,聽課狀態(tài)需要通過分析學生的行為來獲取。
當一個學生玩手機、睡覺、嬉戲聊天、吃東西等時,往往表示該學生對學習內容感到困惑;學生的課堂行為也是多變的,因此需要實時監(jiān)測學生的聽課狀態(tài),以獲得及時的教學效果反饋。視頻檢索技術中的目標檢測可以較好地檢測學生的課堂行為,為調整教學方法和評估課堂效果提供依據(jù)。這種方式關注學生的學習狀態(tài)。可以將人臉識別的結果與學生日常行為表現(xiàn)、成長記錄情況結合起來,這為形成教學過程性評價提供了參考依據(jù)。
認知理解較直觀感知需要更高層次的抽象,它是在感知理解的基礎上對視頻內容進行抽象實現(xiàn)更高層語義理解[9]。目前,學者們正在不斷探索認知理解。在教學中,教師和學生可以根據(jù)對視頻的語義理解來檢索視頻媒體?;趦热莸囊曨l分析可以提取視頻的語義信息,構建從底層特征到高層語義之間的橋梁,最終形成符合人類思維形式的信息檢索方式。
教育過程不僅僅局限于認知層面的教育,情感教育是教育過程中的重要組成部分。它旨在培養(yǎng)學生的情感能力、道德品質、社交能力等,使學生在認知上得到提升的同時,也能在情感上得到鍛煉和提升。近年來,人們越來越多地在各種網絡平臺上以文字、圖片、視頻等方式表達個人情感,通過視頻來挖掘用戶的情感已成為當前的研究熱點。目前,情緒的感知主要通過觀察法、人物表情識別法、行為分析法以及傳感器生理信號分析法等方式進行。與其他情緒感知方式相比,視頻感知只需要攝像頭即可完成,操作簡單且可行性高。通過從視頻序列中分離出特定的表情狀態(tài),可以判斷學生的學習情緒。情緒對學習的影響主要表現(xiàn)為影響學習者的認知和記憶,良好的情緒有助于增加學習者積極選擇的注意程度[10]。激發(fā)學習者積極情緒并調節(jié)認知投入度。視頻因其表現(xiàn)形式豐富,能夠承載更多的情感特征。通過視頻進行情感分析的主要研究任務是圍繞視頻中的人物對象進行建模,并檢測人物的面部、身體姿勢或與情緒相關的視覺特征進行情感分析。這包括以下幾個步驟:首先提取視頻的關鍵幀,將動態(tài)視頻轉化為靜態(tài)幀,然后對這一系列的視頻幀進行處理,提取具有代表性的幀,最后使用分類器對視頻數(shù)據(jù)進行情感分析。通過挖掘學生在教學活動中的情感傾向,幫助教師了解真實的教學情況,進而改善教學效果[11]?;谝曨l的教學情感分析是一種通過自然語言處理技術來分析視頻中教學內容和教師的情感狀態(tài)的方法。這種方法可以有效地衡量學生對視頻教學的看法和情感反應,幫助教師更好地了解學生的需求并作出相應的調整?;谝曨l的教學情感分析可以發(fā)揮以下作用:
①評估教學質量和提高教學效果通過對教學材料的情感分析,教育工作者可以對教學過程和效果進行評估和分析,并有針對性地調整教學策略,提高學生的興趣和學習效果。
②優(yōu)化教材內容和設計:情感分析可以幫助教育工作者提高教材的可讀性和理解性,優(yōu)化教學設計,使教材更適合學生的需求和興趣。
③提高師生互動效果:情感分析可以幫助教育工作者更好地了解學生的情感反應,進一步改善師生關系和提高師生互動效果。
④提高學生的學習體驗和滿意度:通過情感分析,教育工作者可以更好地滿足學生的需求,提高學生的學習體驗和學習滿意度。
⑤推動教育教學科技創(chuàng)新:基于內容的教學情感分析涉及自然語言處理、圖像處理、機器學習等多種技術和工具的應用和整合,可以推動教育教學科技創(chuàng)新,促進教育教學的持續(xù)發(fā)展。
(四)減輕視頻存儲負擔
隨著MOOC、在線學習網站等教育視頻數(shù)據(jù)的急劇增加,海量的教育視頻數(shù)據(jù)需要分析與理解,這給用戶實現(xiàn)快速查找造成了極大的困擾?;趦热莸囊曨l檢索技術可以通過智能的搜索和推薦算法,自動化地整合和挖掘視頻資源,使得教師和學生可以更加方便地獲取所需的教學視頻資源。該技術還能夠提高視頻制作的效率和質量,因為基于內容的視頻檢索技術可以自動標注和分類視頻內容,用戶就不必通過一遍遍瀏覽視頻文件的方式來查找所需要的視頻,從而減輕了視頻存儲的負擔?;趦热莸囊曨l檢索技術為教育視頻制作提供參考和準確的數(shù)據(jù)支持,這能夠幫助視頻制作者更快地了解用戶需求和教學目標,從而更好地制作出符合需求和品質的教育視頻。
四、結束語
教育的現(xiàn)代化是教育變革的重要趨勢,視頻作為教育現(xiàn)代化的重要手段,能有效地促進學習者參與學習活動、理解學習內容、掌握學習技能[12]。在教學理論的指導下,應用基于內容的視頻檢索技術于教育領域,既符合教育信息化的要求,又優(yōu)化了知識傳播的形式,從而促進教學質量的提升。未來還可以從視頻在線互動學習、在線資源開發(fā)等方向進行深入的研究,推動教育向智能化、多模態(tài)化的發(fā)展。
參考文獻
[1]胡志軍,徐勇.基于內容的視頻檢索綜述[J].計算機科學,2020,47(01):117-123.
[2] Bouyahi Mohamed,Ben Ayed Yassine. Multimodal Features for Shots Boundary Detection[J]. THIRTEENTH INTERNATIONAL CONFERENCE ON MACHINE VISION (ICMV 2020),2021,11605.
[3] Sun Yunyun,Li Peng,Jiang Zhaohui,Hu Sujun. Feature fusion and clustering for key frame extraction.[J]. Mathematical biosciences and engineering : MBE,2021,18(6).
[4]Dai Cheng,Liu Xingang,Yang Laurence T.,Ni Minghao,Ma Zhenchao,Zhang Qingchen,Deen M. Jamal. Video Scene Segmentation Using Tensor-Train Faster-RCNN for Multimedia IoT Systems[J]. IEEE INTERNET OF THINGS JOURNAL,2021,8(12).
[5]李群,肖甫,張子屹等.基于空時變換網絡的視頻摘要生成[J].軟件學報,2022,33(09):3195-3209.
[6]劉立.基于視頻內容檢索關鍵技術在水果病蟲害檢測中的應用[D].武漢輕工大學,2022.
[7]胡水星.教育數(shù)據(jù)挖掘及其教學應用實證分析[J].現(xiàn)代遠距離教育,2017(04):29-37.
[8]繆裕青,董晗,張萬楨等.一種多任務學習的跨模態(tài)視頻情感分析方法[J/OL].計算機工程與應用:1-8[2023-03-08].http://kns.cnki.net/kcms/detail/11.2127.tp.20220422.1637.012.html.
[9]王萍.人工智能在教育視頻中的應用分析與設計[J].電化教育研究,2020,41(03):93-100+121.
[10]黃歡,孫力娟,曹瑩等.基于注意力的短視頻多模態(tài)情感分析[J].圖學學報,2021,42(01):8-14.
[11]歐陽元新,王樂天,李想等.教育領域反饋文本情感分析方法及應用研究[J].計算機教育,2020(06):80-84.
[12]況姍蕓,黃潤梅,盧昀等.基礎教育信息化教學實踐現(xiàn)狀分析與推進建議——基于“部級優(yōu)課”視頻課例的調查[J].中國電化教育,2018(09):61-68.