基于ChatGPT機理的智能家居語音交互構(gòu)建研究

2023-03-24 10:44:02焦利敏曲宗峰李紅偉劉澤超胡亞欣

中國標(biāo)準(zhǔn)化 2023年11期

焦利敏曲宗峰李紅偉劉澤超胡亞欣

摘要：智能家居語音交互作為用戶控制家電的重要入口，“聽不懂人話”等情況經(jīng)常發(fā)生。以ChatGPT為代表的生成式大語言模型，為解決當(dāng)前語音交互存在的問題帶來了新的曙光。本文提出了語音交互與類GPT大語言模型的耦合構(gòu)建方案，以及耦合方法、引導(dǎo)式語音交互等技術(shù)路徑，也給出了評價方法，期望為智能家居行業(yè)語音交互提供一種新的解決方案。

關(guān)鍵詞：智能家居，語音交互，大語言模型，耦合，引導(dǎo)式交互

DOI編碼：10.3969/j.issn.1002-5944.2023.11.008

《中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標(biāo)綱要》要求，在學(xué)習(xí)推理與決策、圖像圖形、語音視頻、自然語言識別處理等新一代人工智能領(lǐng)域創(chuàng)新；應(yīng)用感應(yīng)控制、語音控制、遠程控制等技術(shù)手段，發(fā)展智能家電、智能照明等智能家居產(chǎn)業(yè)[1]。

語音、圖像、觸控、體感、手勢、體態(tài)等交互方式，是智能交互常用的技術(shù)手段，是用戶使用智能家居產(chǎn)品的第一入口，是影響用戶體驗的重要因素。智能家居產(chǎn)品采用語音交互方式后，有些產(chǎn)品僅僅具有單純的特定控制指令交互模式，用戶需要記憶這些關(guān)鍵詞，隨著家庭有語音交互功能的產(chǎn)品增多，記憶不同設(shè)備的關(guān)鍵詞成為用戶頭疼的問題；有些行業(yè)頭部企業(yè)采取了強泛化控制指令交互模式，一定程度改善了交互的體驗，但是距離用戶期望的自然交互還有一定差距，特別在用戶意圖判斷方面還有很大的提升空間。

2022年11月，美國OpenAI發(fā)布ChatGPT（ChatGenerative Pre-trained Transformer），以人工智能技術(shù)驅(qū)動的自然語言處理方式給智能家居交互體驗的提升帶來了新的曙光，用戶可以用日常自然說話的方式控制家電；可以用多輪對話交流方式控制家電；可以用多模態(tài)的方式判斷用戶意圖，提升了用戶體驗和便利性。

本文圍繞語音交互體驗的提升，通過分析ChatGPT的底層模型GPT機理，提出一種基于ChatGPT機理的智能家居語音交互方式構(gòu)建方法，提出了耦合大語言模型、語義引導(dǎo)式交互等技術(shù)路線，期望為智能家居語音交互構(gòu)建提供新的思路和方法。

1 ChatGPT機理及智能家居語音交互現(xiàn)狀

1.1 ChatGPT機理

2022年11月，OpenAI推出人工智能聊天原型ChatGPT，ChatGPT 是一種專注于對話生成的語言模型，其通過學(xué)習(xí)大量的文本、對話等信息，并根據(jù)用戶的輸入信息，智能解答用戶的各種需求，比如回答問題、寫商業(yè)計劃書、行業(yè)分析等[2]。

2 0 23年3月15日，Open A I正式推出GP T- 4。GPT-4是多模態(tài)大模型，即支持圖像和文本輸入以及文本輸出，擁有強大的識圖能力，文字輸入限制提升到了2.5萬字。GPT-4的特點在于，第一，它的訓(xùn)練數(shù)量更大；第二，支持多元的輸出輸入形式；第三，在專業(yè)領(lǐng)域的學(xué)習(xí)能力更強[2]。

總的來說，GPT（Generative Pre-Training）具有以下值得智能家居交互借鑒的特點：

（1）強泛化能力可以幫助用戶使用日常說話方式交互，用戶與機器的交互更加易學(xué)；

（2）從做“選擇題”的決策型A I到做“簡答題”的生成式AI，用戶與智能機器的交互更加高效理解用戶意圖，相對于傳統(tǒng)交互，對用戶輸入指令的容錯能力更加增強；并且可以多輪對話，實現(xiàn)從交互到聊天的進階，增加對用戶使用的吸引力；

（3）多模態(tài)、跨模態(tài)遷移增強知識獲取，實現(xiàn)能力的涌現(xiàn)，實現(xiàn)從原始數(shù)據(jù)中發(fā)現(xiàn)新的、未知的特征和模式，提高學(xué)習(xí)的有效性；

（4）類似于人的推理方式的思維能力，具有一定邏輯分析能力（比如簡單數(shù)學(xué)問題、符號操作和常識推理等任務(wù)），區(qū)別于詞匯概率逼近模型；

（5）R L HF（Rein forcement L ea r ning fromHuman Feedback）：即，使用強化學(xué)習(xí)的方法，利用人類反饋信號直接優(yōu)化語言模型，提高模型的學(xué)習(xí)有效性和效率。

1.2 智能家居語音交互現(xiàn)狀

智能家居智能交互包括語音、觸控、圖像、手勢、肢體等多種交互方式。在多種交互方式中，聲音信息大約占人類大腦皮層每天處理的信息20%，它是溝通最重要的紐帶，人機對話將方便人們的工作與生活。因此，本文舉例、分析集中在語音交互方式。當(dāng)前，智能語音技術(shù)發(fā)展已經(jīng)歷了萌芽、起步、產(chǎn)業(yè)化、應(yīng)用落地四個階段，但是在大量詞匯連續(xù)語音識別性能等方面，技術(shù)還不是十分成熟，因此智能家電的回答經(jīng)常出現(xiàn)“不知道您說的是什么”等情況，其主要原因是：

（1）語音交互主要有關(guān)鍵字識別、命令字識別、連續(xù)語音識別等方式，以特定控制指令交互為主，部分頭部企業(yè)可以通過弱泛化指令進行交互。但是距離用戶期望的采用日常說話方式交互還有一定差距；

（2）語音交互訓(xùn)練集仍舊屬于有限集合，因此采用的還是“選擇題”方式；

（3）智能交互多數(shù)采用語音等多模態(tài)交互方式，個別采用的App、手勢、圖像等多模態(tài)方式，但是還沒實現(xiàn)跨模態(tài)、多模態(tài)的耦合實施意圖判斷；

（4）采用多輪對話、引導(dǎo)式交互還處于研究期。

2 基于ChatGPT機理的語音交互構(gòu)建

本文通過研究當(dāng)前語音交互存在的問題，以及ChatGPT的基礎(chǔ)GP T等大語言模型與智能家居語音交互的耦合為路線，探索、研究語音交互的新方法。

2.1 語音交互與大語言模型的構(gòu)建

現(xiàn)階段，多數(shù)企業(yè)智能家居語音交互系統(tǒng)如圖1所示，語音的識別類別包括特定控制指令、弱泛化（弱AI）語音、強泛化（強AI）語音等，但是由于人類習(xí)慣的自然語言交互，對智能家居控制的表述方式千差萬別，智能家居產(chǎn)品“聽不懂人話”的現(xiàn)象仍然存在。

以GPT-3為代表的千億級數(shù)據(jù)訓(xùn)練量的大語言模型，具有涌現(xiàn)能力和簡單思維能力。但其高額的訓(xùn)練費用、算力需求等原因，每家企業(yè)都擁有自己的大語言模型難度比較大，因此未來大語言模型作為一種基礎(chǔ)設(shè)施的可能性非常大。

GPT大語言模型基礎(chǔ)背后的主要技術(shù)原理（見圖2）是RLHF（Reinforcement Learning from HumanFeedback），即人類反饋強化學(xué)習(xí)。GPT使用強化學(xué)習(xí)的方法，利用人類反饋信號直接優(yōu)化語言模型。

GPT作為一種通用的大語言模型，其涌現(xiàn)能力和簡單思維能力，通過生成式預(yù)訓(xùn)練提升語言理解能力，接受的輸入信號和輸出結(jié)果更加接近于人類偏好，對于解決“聽不懂人話”的缺點有極大的改善作用。

當(dāng)然，在生成監(jiān)督微調(diào)模型、訓(xùn)練獎勵模型等環(huán)節(jié)的人類標(biāo)注、標(biāo)準(zhǔn)修正答案、打分排序等環(huán)節(jié)，采用智能家居行業(yè)領(lǐng)域?qū)I(yè)數(shù)據(jù)進行優(yōu)化模型，可以進一步提高識別效率和精準(zhǔn)度，實現(xiàn)GPT通用向?qū)I(yè)的商業(yè)化應(yīng)用，還需企業(yè)進一步訓(xùn)練，訓(xùn)練出企業(yè)適合的“類GPT等專業(yè)大語言模型”。

GPT目前還存在不可解釋、魯棒性差等缺點，有時候胡言亂語的現(xiàn)象仍舊存在。智能家居產(chǎn)品受制于安全等因素要求，GPT直接用于控制智能家居產(chǎn)品還不能被接受。因此本文提出了智能家居語音控制系統(tǒng)與類GPT等專業(yè)大語言模型相互耦合的構(gòu)建方案（見圖3）。

2.2 耦合大語言模型

智能家居語音交互與類GP T等專業(yè)大語言模型的耦合，可以是語音交互從做“選擇題”的決策型AI到做“簡答題”的生成式AI，用戶與智能家居的交互將更加流暢，可以較大改善“聽不懂人話”難題?；赗LHF的人類反饋強化學(xué)習(xí)，增強交互系統(tǒng)自我學(xué)習(xí)進化的能力，也可以在引導(dǎo)式交互中不斷進化，解決系統(tǒng)用戶端“一次不懂，次次不懂”的問題。

如圖3所示，當(dāng)用戶請求落入智能家居交互系統(tǒng)已經(jīng)標(biāo)注的特定控制指令、泛化控制指令等知識范圍內(nèi)時，意圖判斷清晰，則執(zhí)行交互決策模塊、器具控制模塊，控制智能家電完成用戶請求。

當(dāng)用戶請求未落入智能家居領(lǐng)域內(nèi)時，采取耦合類GPT等專業(yè)大語言模型的方式，根據(jù)上下文、器具、環(huán)境等信息，生成泛化指令，將用戶的請求編譯為接近特定控制指令、泛化控制指令等知識范圍（見圖4）。

2.3 語義引導(dǎo)式交互

由于用戶對智能家居產(chǎn)品的功能不是很熟悉，用戶習(xí)慣于按照自己的理解、過去的操作習(xí)慣，通過語音控制家電。但是用戶語言請求并不能完全吻合特定控制指令、泛化指令，智能家居產(chǎn)品并不能準(zhǔn)確理解用戶的意圖，有些產(chǎn)品標(biāo)準(zhǔn)了一些固定的反饋，雖然滿足了用戶的交互需求，但是并沒有正確按照用戶請求，開啟對應(yīng)的智能功能。

為此，本文提出語義引導(dǎo)式交互的方式，引導(dǎo)用戶啟動期望的智能功能（見圖5）。語音引導(dǎo)分為兩次分配：

（1）當(dāng)用戶請求的表述內(nèi)容未在智能家居領(lǐng)域時，通過類GPT等專業(yè)語言模型的語義理解，生成泛化的指令，趨近于智能家居領(lǐng)域。

（2）當(dāng)用戶請求的表述內(nèi)容落入智能家居領(lǐng)域，進行意圖判斷。如果意圖不明確，基于知識庫進行語義理解，給出接近的語音反饋建議，引導(dǎo)用戶修正自己的請求表述，給出清晰、準(zhǔn)確的請求表述，實現(xiàn)控制智能家居的目的。

3 評價的方法

本文建議采用語音測試試驗的方法，依據(jù)GB∕T 36464.2-2018《信息技術(shù) 語音交互系統(tǒng) 第2部分：智能家居》[3]進行測試，本文不再贅述。

3.1 測試集

測試集是測試的重要資料，傳統(tǒng)的智能語音測試集主要有特定控制指令和泛化控制指令，測試集的來源由制造商提供，或者檢測機構(gòu)泛化等，也可以采用現(xiàn)成的國家標(biāo)物。

本文所涉及的測試集更加接近于日常交流用語，因此本文的測試集需要從日常交流中提煉。同時還要構(gòu)建“語料”與“功能”的對應(yīng)關(guān)系。測試集示例如下（見表1）。

如果需要引導(dǎo)式交互，比如：

用戶：我已經(jīng)把衣服放到洗衣機里面了？

器具：可以開始洗了嗎？

用戶：是的

器具：好的，已啟動。

這類引導(dǎo)式交互，由于其開放性，當(dāng)前建立測試集還有一定的難度，暫時需要人工測試，等時間成熟再建“語義引導(dǎo)式交互測試集”。

3.2 評價方法

評價的方法采用美國用戶體驗專家WhitneyQuesenbery提出的5E模型[4]評價，評價指標(biāo)如下（見表2）。

4 結(jié) 語

語音交互與類GPT等大語言模型的耦合方案為提升智能家居的語音交互體驗提升提供了新的思路，尚處于探索期。因此本文并沒有深入討論用戶數(shù)據(jù)與大語言模型耦合中的信息安全問題，以及多模態(tài)、跨模態(tài)的耦合方法，后續(xù)將做進一步的研究。

從當(dāng)前的研究看，語音交互與大語言模型耦合方案，使用戶與智能家居的語音交互變得更加接近于自然語言交互；生成泛化指令提高了語義理解結(jié)果與用戶請求接近度，減少了引導(dǎo)式交互的無效輪次。本文基于ChatGPT機理的語音交互構(gòu)建研究，是提高用戶交互體驗的新方法，期望為智能家居智能交互提供可參考的路徑。

參考文獻

中華人民共和國國務(wù)院.《中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標(biāo)綱要》[ EB/OL].（2021-03-13）[2023-].http：//www.gov.cn/xinwen/2021-03/13/content_5592681.htm.

百度百科. ChatGP T[EB/OL].https：//baike.baidu.com/item/ChatGPT/62446358？fr=aladdin.

國家標(biāo)準(zhǔn)化管理委會.信息技術(shù) 語音交互系統(tǒng) 第2部分：智能家居： GB∕T 36464.2-2018[S].2018.

陶堅，徐立洋，黃雪冰，等.關(guān)于智能家居場景體驗評估模型的研究[J].家電科技， 2022（S1）：670-673.

作者簡介

焦利敏，高級工程師，智能家居試驗室主任，主要從事智能家電技術(shù)、檢測和標(biāo)準(zhǔn)方向的研究。

曲宗峰，教授級高級工程師，副院長，多年從事智能家居標(biāo)準(zhǔn)與質(zhì)量管理和研究。

李紅偉，正高級工程師，檢測所副所長，主要從事智能家電技術(shù)、檢測和標(biāo)準(zhǔn)方向的研究。

劉澤超，智能家居試驗室技術(shù)人員，主要從事智能家電檢測和技術(shù)標(biāo)準(zhǔn)方向的研究。

胡亞欣，工程師，智能交互試驗室主任，主要從事智能家電檢測和技術(shù)標(biāo)準(zhǔn)方向的研究。

（責(zé)任編輯：張佩玉）

中國標(biāo)準(zhǔn)化2023年11期

中國標(biāo)準(zhǔn)化的其它文章: 軍民通用質(zhì)量管理體系建設(shè)思路探討; 人臉識別考勤機電磁輻射發(fā)射風(fēng)險監(jiān)測研究; 非織造布吸收性的不確定度分析與評定; 氣相色譜法測定溶劑型木器涂料中苯系物含量; 食品相關(guān)復(fù)合膜袋產(chǎn)品質(zhì)量風(fēng)險分析探究; 家用及類似用途飲用水處理裝置對飲用水中病毒凈化性能的評價