智能座艙多模態(tài)交互技術(shù)發(fā)展現(xiàn)狀及趨勢

2023-01-31 02:12:58李亞楠

汽車實用技術(shù) 2023年1期

劉堯，李亞楠

（中國汽車技術(shù)研究中心有限公司，天津 300380）

隨著通信技術(shù)、傳感技術(shù)、人工智能、互聯(lián)網(wǎng)大數(shù)據(jù)分析等新科技的進步與發(fā)展，汽車市場的定義也開始產(chǎn)生了變化。智能化、網(wǎng)聯(lián)化、電動化、共享化是如今電動汽車產(chǎn)業(yè)發(fā)展的主流方向。電動汽車也正在逐步地由單純的機械交通工具，過渡為個性化的智慧終端。在汽車新四化趨勢下，用戶體驗成為現(xiàn)在汽車產(chǎn)業(yè)轉(zhuǎn)型的重要發(fā)力點。而汽車智能座艙內(nèi)智能性、情感性、高效性等方面的用戶體驗必將成為用戶選擇汽車品牌的重要依據(jù)。調(diào)查研究表明，在我國消費者購車的關(guān)鍵因素中，座艙智能技術(shù)是僅次于汽車安全配置的第二大指標，重要程度甚至高于汽車動力性、經(jīng)濟性等因素[1]。

智能座艙，是指搭載了高度智慧與網(wǎng)聯(lián)化科技的車輛產(chǎn)品，是基于使用要求和使用環(huán)境，能自主洞察和感知，從而形成的一個智能的移動交互環(huán)境和體驗空間。智能座艙可以實現(xiàn)人、車、路之間的互動交流，是人車關(guān)系從工具使用向情感溝通的重要紐帶和關(guān)鍵場所。智能座艙以其在帶給用戶最直觀的愉悅、舒適、方便體驗方面的優(yōu)勢，已逐步成為汽車發(fā)展重點探索的領(lǐng)域之一。作為智能座艙的核心技術(shù)，多模態(tài)交互技術(shù)實現(xiàn)了聲音、手勢、眼神捕捉等多種模態(tài)的融合，未來必將取代單一的語音交互模式[2]。

1 汽車座艙與智能座艙

在世界汽車工業(yè) 100多年的發(fā)展歷史中，汽車座艙經(jīng)過了機械化時期和電子化時代，正在走向智能信息化時代。機械化時代的汽車座艙，主要使用機械式和簡易物理裝置進行單一功能和基本信息地獲取；電子化時代，音響、小型液晶顯示屏等開始廣泛使用，以及具有高度娛樂性的播放影片、音樂和離線導(dǎo)航等基本功能。目前，信息化與智能化的時代，互聯(lián)網(wǎng)加人工智能、大數(shù)據(jù)一起進入汽車領(lǐng)域，進入了汽車座艙，帶動汽車走進智能網(wǎng)聯(lián)化時代，座艙開始成為駕乘人員可以發(fā)號施令的自主舒適智能移動空間。這個自主舒適移動空間，現(xiàn)在一般稱作智能座艙。

1.1 汽車座艙

“座艙”不是汽車的正規(guī)用語，汽車行業(yè)有二個相關(guān)術(shù)語描述座艙這個空間：一個是“客艙”，“供乘員利用的地區(qū)，即司機區(qū)和乘務(wù)員區(qū)的統(tǒng)稱”，出自《汽車車身用語》（GB/T 4780—2020）；還有一種是“乘員艙”，“由頂罩、天花板、側(cè)圍、門窗、單玻窗和前圍、后圍或后座靠背支承板，和避免乘員觸及帶電部分的電氣防護遮欄、外殼等圍成的，承載著乘員的空間”，來自《電動汽車術(shù)語》（GB/T 19596—2017）。兩項標準中規(guī)定的客艙或乘員艙就是汽車座艙，一個帶沙發(fā)的金屬房間，讓駕駛員和乘客享受相對安全、舒適和便捷的駕乘體驗，設(shè)備多傾向于機械式，滿足的功能相對單一，駕乘人員手動操作發(fā)出指令，能做的提升也相對有限。

1.2 智能座艙

智能座艙就是汽車由機械化、電子化時代進入信息化、智能化大數(shù)據(jù)時代的必然產(chǎn)物。關(guān)于智能座艙方面的術(shù)語、定義還需在新時代標準化工作中不斷補充完善。

智能座艙是在保持原有傳統(tǒng)的駕駛艙所具備的安全、舒適和便捷性基礎(chǔ)上，以液晶顯示屏取代了普通物理按鈕，人機交互手段便利多元，自動化、網(wǎng)聯(lián)化水平大大提高。智能座艙的基礎(chǔ)是人機交互技術(shù)，但人機交互目前主要是利用語言交互技術(shù)來實現(xiàn)，駕駛者可以專心于行車視覺上，而不需通過聽覺即可實現(xiàn)要求、通過說話完成非駕駛動作的需求。不過，當前智能座艙的語言通訊系統(tǒng)，在情感性、多輪對話、喚醒或打斷等方面仍有一定困難，特別是不能領(lǐng)會命令實質(zhì)。而多模態(tài)交互技術(shù)能夠使人機交互整個過程更加立體、高效和低誤差，必將成為未來智能座艙發(fā)展最為核心的技術(shù)之一。

2 語音交互技術(shù)和多模態(tài)交互技術(shù)的發(fā)展

2.1 語音交互技術(shù)

近年來，智能、網(wǎng)聯(lián)、大數(shù)據(jù)功能不斷滲入汽車領(lǐng)域，且成本逐年降低，智能座艙逐步成為中高端品牌車型的必備選項。它給駕乘人員提供了立體化人機交互智能、舒適、情感體驗的移動空間，這其中最早使用的技術(shù)是語音交互技術(shù)，也就是人機對話。

語音交互技術(shù)是相對簡單的技術(shù)，主要包括語音識別技術(shù)（Automatic Speech Recognition,ASR）、自然語言處理技術(shù)（Natural Language Processing, NLP）、語音合成技術(shù)（Text To Speech,TTS）等，也就是通過聲音識別、聲音處理生成指令要求[3]。

汽車是一個各種噪音的組合體,包括輪胎噪聲、風阻噪聲等，極易干擾語音交互系統(tǒng)的工作，除去噪聲干擾需要一些技術(shù)處理工作。語音識別技術(shù)（ASR）是將聲音轉(zhuǎn)化為文本信號，通過聲音模型數(shù)據(jù)庫和文本模型數(shù)據(jù)庫進行相應(yīng)的比對和識別。自然語言理解（Natural Language Understanding, NLU）通過文本分析、分類、檢索、信息抽取、文字校對等流程將聲音轉(zhuǎn)化為信息化指令。對話管理（Dialogue Management, DM）通過分析對話產(chǎn)生系統(tǒng)決策。語音合成（TTS）是將自然語言生成（Natural Language Generation, NLG）所生成的文本通過文本處理和音色頻率處理，最終通過語音庫進行語音合成。具體語音交互技術(shù)流程如圖1所示。

圖1 語音交互技術(shù)流程

如圖1所示，當乘員用語言發(fā)出需求指令時，車輛通過預(yù)處理找出乘員發(fā)出語音指令的聲音，通過聲音識別對聲音進行信息轉(zhuǎn)化，通過功能轉(zhuǎn)化篩選出乘員需要的相關(guān)服務(wù)功能需求，在對話管理中將聲音轉(zhuǎn)換所生成的指令進行回應(yīng)。最終通過聲音生成和聲音合成組合模式，以對話的形式回復(fù)乘員，最終形成語音交互行為。

近年來隨著人工智能、芯片、大數(shù)據(jù)、傳感等技術(shù)逐漸興起，語音交互技術(shù)已在手機等很多領(lǐng)域廣泛應(yīng)用。汽車作為新的終端用戶，使用這個技術(shù)可以給乘客更安全、高效、簡單的駕駛體驗，所以語音交互已是智能座艙的最重要的組成部分，是智能座艙生態(tài)系統(tǒng)的核心環(huán)節(jié)和首選。

2.2 聲紋識別技術(shù)

根據(jù)文獻[4]，每個人的發(fā)音特色都不相同，聲紋和指紋一樣，都是每個人的獨特標志。一個人成年之后，他的聲紋基本是固定的，很難變化。聲紋識別術(shù)就是基于這種特性可以利用每個人的說話聲來確定不同人的身份。在現(xiàn)在的智能座艙領(lǐng)域，聲紋識別技術(shù)在語音交互中正處于起步研究與測試標定階段。它通過提取錄入使用者的一定時間內(nèi)的有效聲音，辨識出有效聲紋特色，錄入聲紋數(shù)據(jù)庫。當車輛用戶再發(fā)出語音指令時，可首先通過數(shù)據(jù)庫進行比對。智能座艙人機交互系統(tǒng)可以聽音辨人，為車上每個用戶提供個性化服務(wù)。這個技術(shù)也利于車輛安全，用戶也可更容易地控制車輛[5]。

2.3 多模態(tài)交互技術(shù)

車與駕駛?cè)说慕换ピ谲囕v行進過程中一直存在。車輛向駕駛?cè)嘶虺藛T提供各種信息，同時駕駛?cè)烁鶕?jù)相關(guān)信息做出必要的合理反應(yīng)，這就是信息交互。隨著電子、傳感器等技術(shù)的不斷發(fā)展，汽車已經(jīng)是一個比較智能的“機器人”，傳統(tǒng)的交互方式已經(jīng)不適合現(xiàn)在的技術(shù)背景下用戶對于汽車智能座艙的智能性、舒適性、情感性的需求，多模態(tài)交互技術(shù)成為智能座艙設(shè)計的核心技術(shù)之一，融合了觸摸交互、手勢交互、凝視與頭部姿態(tài)交互、語音交互等多個模態(tài)，其表達效率和表達的信息豐富和立體程度都遠遠優(yōu)于單一的語音交互模式。

3 多模態(tài)交互技術(shù)應(yīng)用現(xiàn)狀及趨勢

智能座艙多模態(tài)交互技術(shù)在不斷的發(fā)展中，目前比較主流的技術(shù)有信息識別、車載多維人機界面系統(tǒng)和新興汽車智能單元三個領(lǐng)域。

3.1 信息識別技術(shù)

汽車人機交互指令信息辨識技術(shù)，一般有觸覺辨別、動作辨別、凝視辨別、頭部姿勢辨識和語音識別等。從目前汽車行業(yè)人機交互界面的發(fā)展狀況分析，未來汽車行業(yè)人機交互方法將越來越多樣化，更多的人機界面設(shè)計都將偏向于把視覺、聽覺、觸覺等多種感覺通道進行綜合設(shè)計，達到信息識別的最優(yōu)化。

3.1.1 觸摸識別

智能座艙內(nèi)的顯示觸摸屏，觸摸識別類似過去的按鈕，但功能遠超按鈕。其包含的關(guān)鍵技術(shù)涉及觸覺傳感器、電容式觸覺傳感、接近感應(yīng)和觸覺反饋。其中，技術(shù)核心是高性能的觸覺傳感器。這種依托于材料科學(xué)、柔性電子技術(shù)、納米技術(shù)的高性能觸覺傳感器顯著提升了智能座艙內(nèi)觸摸屏可觸摸識別功能板塊的分辨率和靈敏度，在未來有望實現(xiàn)進一步的功能和場景突破。

3.1.2 手勢識別

手勢識別這種最基本的人類肢體語言能夠區(qū)分二維手勢辨識和三維手勢辨識。二維動作識別即靜止手勢，如點贊、用手去比劃數(shù)字等。一些復(fù)雜手勢需要通過 3D攝像頭和先進的車載傳感器結(jié)合進行檢測。由于車艙內(nèi)攝像頭數(shù)量逐漸增加，再加上多模態(tài)混合技術(shù)和人工智能技術(shù)（Artificial Intelligence, AI）算法的提升，各種優(yōu)秀的車載感應(yīng)器的性價比將提高，手勢識別裝置也會在提升手勢識別信息庫的豐富程度、識別時間和高效可用性等方面有所突破。

3.1.3 視線識別

人眼狀態(tài)是駕駛員發(fā)出的重要信息，駕駛員在駕駛過程中視線處于哪個位置、短暫凝視狀態(tài)，都是有用信息。特別是車上有語言、行為障礙的用戶，這是一種相對簡單、直接的交互方式。它需要眼球追蹤器和遠紅外光線模組進行視線捕捉、追蹤。頭部位置識別相對淺顯易懂，如簡單的點頭、搖頭動作。可與視線識別進行融合。

3.1.4 語音識別

在多模態(tài)交互技術(shù)中，語音交互也是第一核心技術(shù)。智能座艙中的大部分功能場景，如導(dǎo)航、打電話、調(diào)節(jié)車內(nèi)溫度、聽音樂都可通過語音交互來完成，語音交互功能可依靠深度學(xué)習軟件不斷提高識別水平。

科大訊飛在目前智能語音助手行業(yè)占有重要份額。在智能座艙領(lǐng)域，科大訊飛與絕大多數(shù)國內(nèi)自主品牌車企、合資品牌車企合作開發(fā)語音助手。科大訊飛率先推出的聲源定位技術(shù)、窄波束定向識別技術(shù)、全雙工立體聲回聲消除技術(shù)定義了如今智能座艙內(nèi)語音交互的主流技術(shù)。

3.2 車載多維人機界面

汽車人機交互界面作為人和車輛之間交互頻率很高的重要區(qū)域，以集成的多界面、多模態(tài)和多區(qū)域的新形態(tài)，向汽車多維人機界面方向發(fā)展。

3.2.1 智能多模態(tài)交互人機界面

智能多模態(tài)交互人機界面目前逐漸成為智能座艙行業(yè)研究和發(fā)展的熱點。與之前交互人機界面相比，它更有直觀性和高效性，適應(yīng)了智能座艙日趨復(fù)雜的情景要求。智能多模態(tài)人機交互界面結(jié)合了語音交互、手勢交互、視線交互、頭部位置交互、觸摸屏交互等交互方式，也融合了提取人體生理信號、聲紋識別和臉部微表情變化等特征提取與特征融合技術(shù)。這些交互方式取長補短，避開了各自在單一交互模式上的局限性，能滿足用戶更大的需求，未來的想象空間也更大。各種感官交互可以自由組合，完成一次多模態(tài)交互，最常見的就是基于聽覺的語音交互與基于觸覺的觸摸屏交互以及手勢識別交互。如用戶最基礎(chǔ)的需求之一，控制座艙內(nèi)溫度，通過語音發(fā)出指令“我有點熱”，座艙內(nèi)空調(diào)會打開，通過手勢識別調(diào)節(jié)溫度，如果需要調(diào)節(jié)到具體溫度，則需通過觸摸屏交互完成。

1.無障礙信息交互

殘障人士由于感官和認知能力上的不足，不能完成正常的交互。多模態(tài)交互將幫助殘障人士以及廣義上的應(yīng)幫扶弱勢群體完成信息無障礙交互。如基于計算機視覺的道路識別技術(shù)通過立體聲或震動反饋為視力障礙用戶指引方向。運動能力障礙用戶可通過手勢交互和視線交互完成想要的功能指令。目前的自動駕駛汽車，更是可以通過方向盤與觸覺識別的結(jié)合，協(xié)助視力障礙用戶控制車輛的轉(zhuǎn)向。

2.人車協(xié)同控制

智能輔助駕駛系統(tǒng)可以在人車之間發(fā)生危險時發(fā)出警告甚至強制執(zhí)行制動或轉(zhuǎn)向來避免危險。人車協(xié)同控制技術(shù)則是從“互聯(lián)互通、雙向協(xié)同”的角度實現(xiàn)人車協(xié)同。如未來的自動駕駛汽車，人可以通過多模態(tài)人機交互界面向汽車提出駕駛請求，車也可以通過多模態(tài)人機交互界面向人提出接管駕駛的請求。人的駕駛觀點也可以與車通過多模態(tài)交互進行交流互動，不僅利于人車協(xié)同控制情況下保證安全和合規(guī)，也利于車企更直接地收集用戶意見和用戶需求。目前已有相關(guān)學(xué)者研究開展多模態(tài)下人車控制權(quán)移交的完整流程[6]。

根據(jù)李明俊博士的研究[7]，要實現(xiàn)人機協(xié)同控制，首先就是駕駛意圖判斷，駕駛意圖判斷需通過仿真實驗平臺采集駕駛意圖數(shù)據(jù)，采集后的數(shù)據(jù)用于建立駕駛意圖方向的數(shù)據(jù)庫。再通過駕駛意圖數(shù)據(jù)庫所生成的關(guān)于駕駛環(huán)境危險評估、表現(xiàn)評估、路徑跟隨的參數(shù)，再結(jié)合模糊控制理論，建立出結(jié)合人機協(xié)同控制的模糊控制器和協(xié)同控制策略。通過駕駛員意圖識別和駕駛環(huán)境信息采集形成的駕駛危險評估，再通過路徑更新所生成的路徑控制器共同生成人機控制權(quán)分配策略。具體人車協(xié)同控制流程如圖2所示。

圖2 人車協(xié)同控制流程

3.2.2 空間立體交互

空間立體交互即用戶在三維空間內(nèi)完成交互，它有一個核心理念，就是讓數(shù)據(jù)、功能出現(xiàn)在它最該出現(xiàn)的位置，而不是集合在相近的位置。如理想L9實現(xiàn)的五屏交互，這是最直觀的空間立體交互，如圖 3所示。未來的三維空間更多依賴于AR虛擬現(xiàn)實技術(shù)、3D顯示技術(shù)、虛擬投影技術(shù)。多模態(tài)交互空間不再局限于中控儀表這些傳統(tǒng)界面。特別是AR虛擬現(xiàn)實技術(shù)，能夠?qū)F(xiàn)實和虛擬世界結(jié)合在一起。在導(dǎo)航上，將實際路面信息與導(dǎo)航信息相疊加呈現(xiàn)出來，增強時空信息呈現(xiàn)效果。AR導(dǎo)航提供給用戶駕駛中應(yīng)掌握的全部信息，如距離前車多少米、車道線信息、對駕駛安全造成隱患的信息等等，提供完整的車輛情景和非機動車、行人等弱勢道路使用者的信息，增強了用戶對整體的把握能力，實現(xiàn)安全、準確、愉悅的駕駛。

圖3 空間立體交互

3.3 智能表面與個人智能助理

智能表面是多模態(tài)交互中的重要組成部分，在未來將成為智能座艙多模態(tài)交互最重要的載體，未來智能座艙內(nèi)每一個表面都能成為智能表面。從觀賞性的角度，未來它也會被注入更多的美觀甚至藝術(shù)氣息，但在用戶使用的時候，它甚至可以在未來慢慢取代車內(nèi)的幾塊大屏的作用，完成溫度控制、座椅調(diào)節(jié)、音樂播放、光線調(diào)節(jié)等功能多模態(tài)交互。智能表面又名模內(nèi)電子，它是將模內(nèi)裝飾和柔性印制電路結(jié)合到一起，它比傳統(tǒng)人機接口（Human Machine Interface, HMI）設(shè)計更加輕巧，使用更加便利。未來在智能表面上完成的多模態(tài)交互，設(shè)計者不再受限于龐大的電路要求完成設(shè)計，智能座艙內(nèi)的多模態(tài)交互真正做到無處不在和無孔不入。在技術(shù)上，智能表面很多技術(shù)都與智能手機相同，也可發(fā)展薄膜材料與納米技術(shù)的結(jié)合、電鍍技術(shù)，再融合電子功能。通過慣性傳感器、紅外傳感器、雷達系統(tǒng)、眼動追蹤、力感應(yīng)等多個傳感器，智能表面將了解你目前具體所處的情景。如智能表面感知到你因寒冷身體發(fā)抖，就會打開空調(diào)暖風和座椅加熱；感知到你駕駛非常不熟練，就會強制關(guān)閉音樂等可能對你造成干擾的聲音；感知到你在高速上車速過快，自動掛斷電話來保證你的駕駛安全。智能座艙未來必定在美學(xué)上和交互立體感和全面性上有更高的要求，智能表面將會越來越重要。

個人智能助理主要與智能輔助系統(tǒng)結(jié)合，以智能機器人、智能專家等形式出現(xiàn)。用于提供出行各方面信息、提供娛樂需求和情感陪伴。如寶馬所推出的“寶馬（Bayerische Motoren Werke,BMW）個人助理”，用戶對它提出的要求都能得到解答，會調(diào)動座艙內(nèi)可調(diào)動的功能滿足用戶的需求，想用戶所想。未來智能表面與智能助手相結(jié)合，全方位滿足用戶對多模態(tài)交互高效性、立體感、情感性方面的需求。

4 智能座艙未來發(fā)展建議

本文詳細論述了智能座艙之于汽車的重要性和多模態(tài)交互技術(shù)之于智能座艙的重要性。雖然“智能座艙”這個概念雖已被廣大用戶所熟知，但是各大車企之間存在著孤島效應(yīng)，互聯(lián)互通能力的缺失無法讓車企之間的智能座艙實現(xiàn)優(yōu)勢互補。同時，多模態(tài)交互還沒有發(fā)展成熟，更多的技術(shù)應(yīng)被融入到多模態(tài)人機交互中。基于此，本文給出一些發(fā)展建議。

4.1 持續(xù)完善標準化工作

智能座艙的標準化評估機制有待進一步建立完善，行業(yè)內(nèi)尚未完整、統(tǒng)一的評價方法。未來，行業(yè)主管部門應(yīng)聯(lián)合行業(yè)相關(guān)標準化組織，如汽車標準化技術(shù)委員會，進一步完善智能座艙新領(lǐng)域的標準化工作，統(tǒng)一術(shù)語定義，規(guī)范試驗方法，在多模態(tài)交互技術(shù)方面更多的盡快形成統(tǒng)一的評判標準。

4.2 營造良好的應(yīng)用環(huán)境

目前，智能座艙主要針對中高端車，成本問題不容忽視。為推動智能座艙的大規(guī)模應(yīng)用，國家工信部已出面聯(lián)合地方政府營造良好的應(yīng)用環(huán)境，不斷創(chuàng)造條件以鼓勵研發(fā)、示范運營，直至市場化運行，引導(dǎo)消費者對此類產(chǎn)品的了解和選購，降低由此帶來的研發(fā)成本，不斷推動智能座艙等先進智能化、網(wǎng)聯(lián)化技術(shù)的研發(fā)和應(yīng)用。各大車企智能座艙產(chǎn)品的聯(lián)系與相互借鑒也日漸增多。如目前中汽數(shù)據(jù)牽頭成立的2022中汽數(shù)據(jù)智能聯(lián)盟創(chuàng)新發(fā)展聯(lián)盟，致力于解決各大車企互聯(lián)互通方面的問題。

4.3 不斷優(yōu)化語音交互、多模態(tài)交互功能

在多模態(tài)人機交互技術(shù)真正大規(guī)模應(yīng)用于智能座艙之前，語音人機交互功能依然是目前智能座艙人機交互的主導(dǎo)，但當前的語音人機交互功能，在情感化、多輪對話、提醒/打斷方面，仍亟待改善。未來，語音研發(fā)科研企業(yè)或單位應(yīng)進一步完善語音交互功能，實現(xiàn)智能座艙的語言交互系統(tǒng)能夠比較精準地辨別用戶的日常用語、方言甚至是一些專業(yè)術(shù)語。科大訊飛未來在技術(shù)領(lǐng)域的探索將給各大車企智能座艙提供更多技術(shù)支撐。

4.4 發(fā)展聲紋識別技術(shù)

聲紋技術(shù)可以為不同的駕乘人員提供差別化服務(wù)。相對于智能座艙中普遍采用的語言交互，聲紋識別技術(shù)是一項科技門檻相對更高的領(lǐng)域，在汽車行業(yè)中的應(yīng)用也還處在起步階段。聲紋識別可進行更精確的使用信息習慣收集，改善車內(nèi)互動感受，從而提高汽車安全防護。

4.5 智能表面與智能助理相結(jié)合

智能表面是指座艙內(nèi)任何一個部分都可以完成多模態(tài)交互，智能助理相當于用戶一個智能化的車機助手，能主動根據(jù)用戶學(xué)習思考用戶的需求。兩者結(jié)合將對提升汽車座艙智能化水平起到合力推動作用，相關(guān)供應(yīng)商企業(yè)或科研單位應(yīng)注重此類技術(shù)的研發(fā)，以提供多元化的駕乘體驗。