
摘要:媒體認知實驗課程是清華大學電子信息學科在課程體系改革過程中提出的一門創新性前沿必修課程。文章闡述全面覆蓋人機感知交互、媒體信息處理、虛擬現實及信號處理領域的一套基于英特爾RealSense設備的探索前沿型實驗教學課程內容及平臺特點,分別介紹三維手勢識別實驗項目和三維虛擬交互行為分析實驗項目,旨在培養學生的智能感知技術開發能力,掌握成為感知技術前沿領域高層次專業人才必需的各項基本技能和專業知識,采用集體創新培養和個人研究探索相結合,最終達到理工與人文、技術與藝術、感知與思考的高度融合。
關鍵詞:ReaISense;媒體認知;智能感知;機器學習;人機交互
1 媒體與認知實驗課程建設概況
電子信息科學與技術是以物理和數學為基礎,研究通過電學形式表達和操控信息的基本規律以及運用這些基本規律實現各種電子系統的方法。在進入電子時代和信息社會的今天,電子信息科學技術已滲透到各個領域。隨著電子信息技術日新月異,電子信息教學領域也面臨著全新的挑戰,需要培養具有全方位視野和超強能力的新一代工程師及領導者。本著這一目標,清華大學電子系自2008年開始著手進行課程改革,通過改革課程體系將原有課程重新整合,從學科范式的角度整理出電子工程本科教育的知識體系結構,從而梳理出新的本科課程體系,形成了電子信息領域學科地圖。
媒體與認知是電子系在課程改革中提出的一門全新的核心必修課程,位于電子信息領域學科地圖的最上層,通過對媒體信息、認知科學及信號處理領域開展具體、深入的研究及實踐,在學乍充分了解領域知識的前提下,用文、理、工相融合的眼光看待該學科發展歷史、研究現狀、最新研究進展以及未來課題,為今后開展高水平、創新性的研究鋪平道路。該課程結合清華大學電子系已經落實的本科教學改革以及在教學、科研、學科建設等方面的實踐成果,通過培養學生的創新性思維推動工程學和管理學、社會科學和人文科學的結合,培養素質全面的人才。
媒體與認知實驗課程借鑒國際頂尖高校及清華大學電子工程系的前沿科研項目內容,實現智能感知和機器學習領域的科研成果向實驗技術和實驗教學轉化。該實驗課程基于電子系梳理出新的本科課程體系,通過設計開發一套完整的以實時智能感知技術為基礎的前沿探索型實驗教學課程內容及平臺,涵蓋三維人機感知交互、媒體信息處理、虛擬現實等領域;建立具有未來探索性的智能感知技術實驗教學方法,實施跨學科、多層面、綜合性的學習與實踐,在課程量不變的同時提高教學效果和拓寬知識層面;突破傳統驗證性實驗課程及平臺因采取基于目標或任務導向而導致高素質人才培養與國際化培養方式存在較大差異的瓶頸,解決了知識量膨脹和學時有限之間的矛盾,實現了培養智能感知領域未來領軍人才的目標,充分體現了實驗教學科研工作在學校人才培養方面的重要意義。
2 媒體與認知實驗課程特點
媒體與認知實驗構建了一套以實時智能感知技術為基礎的探索前沿型實驗教學課程及平臺,在設備和設計內容方面均與國際水平接軌,具有如下特點。
1)教學互促。
該課程采用教學互促的設計模式,通過設計實現一整套進階互動的實驗教學方法和步驟,將教學互動的理念貫穿于全部課程設計、平臺實施、項目更新等階段,充分實現教學互動的作用。
2)知識延伸。
該課程設計上著重強調通識教育和學科交叉,提高學生的綜合素質和適應能力。通識教育有利于培養知識面寬的復合型人才,確保學生全面發展,提高學生的綜合素質;文、理、工知識交叉滲透使學生可以從多角度和多學科運用知識處理實際問題。
3)技能拓展。
在對該平臺進行學習和研發的過程中,學生的理論課程知識不斷鞏固加深,同時學生需要自主提出多個學科和研究方向上的全局及局部解決方案,拓展包括項目規劃、知識交叉、三維感知設計、跨平臺編程等多方面技能。
4)設備復用。
利用全新的英特爾三維智能感知設備ReaISense可以實現手勢識別、人臉識別、語音識別、場景識別等智能感知功能。英特爾的ReaISense設備是一種能通過采集視覺、深度、音頻等多種媒體信息獲得手勢、語音等表征意圖的智能感知設備,可以廣泛應用于自然互動、沉浸式協作與創作等創新應用,能夠幫助開發人員在游戲、娛樂和內容創建交互方面實現新的突破。
3 三維手勢識別實驗項目
肢體語言是人類傳遞信息的一種重要方法,利用人體的姿態實現自然、高效的人機交互已經成為熱門的研究方向。在以人為中心的環境中如何對人以及人的意圖進行正確認知,是提高人機交互水平的關鍵因素,而基于手勢識別的人機接口能夠保證人機交互更加自然和有效。手勢功能主要分為圖l中的幾種。
近年來,基于機器視覺的手勢識別技術正逐步成為人機交互研究的熱點。美國Stanford大學提出一種基于Kinect的手勢識別方法,通過Kinect獲取RGB圖像信息和深度數據,采用SURF變換算法實現高準確度的手勢識別。瑞士蘇黎世聯邦理工大學計算機視覺實驗室提出一種基于Haarlet的手勢識別系統,根據微軟Kinect設備獲取深度信息,檢測手勢的三維指向,將手勢轉換為交互命令,提高人與機器人交互的自然性。
該實驗項目首先通過ReaISense的3D攝像頭捕捉多個手關節的運動圖像,從圖像中提取多個手關節的特征和位置,通過基于多個手關節的目標檢測跟蹤算法對多個手關節目標進行檢測和跟蹤,最后根據多個手關節的運動軌跡進行手勢識別。手勢分割階段需要將手勢從復雜的環境背景中分離出來,同時由于不同手勢之間會有一定的相似性,導致系統將非手勢空間誤識為手勢空間或者將手勢空間誤識為非手勢空間,因此降低環境噪聲是正確分割的前提。在特征提取與選擇方面,我們需要選擇具有一定代表性的、具有很強區分度的三維手勢特征向量,同時要求計算量較低,提高識別的魯棒性。最后,在三維手勢識別算法方面要提高算法的執行效率,提高系統的實時處理能力。
4 三維虛擬交互行為分析實驗項目
虛擬交互現實技術包括利用人類的感官功能如聲音、觸覺等實現虛擬世界和真實世界交互。虛擬現實技術將實現“虛物實化”和“實物虛化”,洲涂物理對象和抽象對象、輸入裝置和輸出裝置在交互窄問中的差別,為人提供多感覺通道的自然臨境體驗。目前,大多數虛擬現實技術只是最為初級的虛擬體驗,通過簡單的屏幕顯示或者立體顯示完成。
美國UC Berkeley大學通訊實驗室與美國Johns Hopkins大學圖像科學中心共同開發了一套名為Berkeley MHAD的三維可理解多模式人類行為數據庫,利用多基線雙聲道攝像機從多個視角進行錄制,利用景深傳感器、加速計和多個麥克風進行信號采集,利用光學動作捕捉系統獲得時間司步且空間幾何校準的數據,該三維虛擬交互行為數據集為研究人員提供了一個包容性的測試平臺進行技術開發和標準制訂。瑞士聯邦技術研究所信號處理實驗室P.Besson提出的基于多模式說話人探測的信息理論框架利用視頻信息提取優化后的語音特征,利用語音和視頻特征之問的互信息目標函數(mutual informationobj ective function)對多個候選目標說話人進行識別,一般場景下的識別正確率在85%左右。
該實驗項目結合ReaISense的語音識別模塊,通過定義統一的算法融合語義框架和語法規則,將來自語音和其他不同模式的語義進行融合,最終通過多模式語法進行打分得到最佳候選結果由于虛擬交互行為通常以語音為首選,岡此將其他人機對話方式與語音交互方式的關系定義為互補關系和獨立關系。互補關系中的語音內容必須和其他人機對話方式一起存在,才能構成完整的語義,如當用戶說“請告訴我那個設備的川途”時,需要用戶同時提供該設備的具體位置或其他補充信息,才能做出下一步的反應。在獨立關系下,其他人機對話方式與語音交互方式彼此獨立,它們之間沒有很強的約束關系,但有時可以提高彼此的表達效果,如當人說話時一手勢可以起到增強情感表達的作用,但語音通道仍起主要作用,通過這種不同層次上的分別處理能有效提高人機虛擬交互行為的自然度。
5 結語
媒體與認知實驗課程的建直使得學生能夠了解國際科學界及工業界最前沿的媒體認知及智能感知技術熱點和難點問題,利用平臺的基礎設施和設備構建并實施多種解決方案。媒體認知及智能感知類前沿綜合實驗課程作為在清華大學首度實現的跨行業、跨領域、跨學科課程,通過借助智能感知及人機交互知識作為工具和手段解決媒體信息處理、虛擬現實及人機交互的問題,可以充分挖掘和激發理工科學生在交叉學科和前沿技術方面的實力和潛力。