


摘 要:依據(jù)現(xiàn)行新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南規(guī)定,本文分別以國家、行業(yè)、團體發(fā)布的有效標(biāo)準(zhǔn)3個維度系統(tǒng)梳理了人工智能涉及智能語音領(lǐng)域技術(shù)標(biāo)準(zhǔn)化研究現(xiàn)狀。從統(tǒng)計數(shù)據(jù)可以得出,我國智能語音領(lǐng)域的標(biāo)準(zhǔn)化研究已趨向成熟。但是仍存在標(biāo)準(zhǔn)更新滯后、標(biāo)準(zhǔn)覆蓋范圍有限、缺乏協(xié)同合作等突出問題,最后對智能語音領(lǐng)域相關(guān)標(biāo)準(zhǔn)化工作提出建議。
關(guān)鍵詞:人工智能,標(biāo)準(zhǔn)化,智能語音,現(xiàn)狀
DOI編碼:10.3969/j.issn.1674-5698.2024.12.017
0 引 言
智能語音技術(shù)起源于2 0世紀(jì)50年代至6 0年代的早期語音識別研究[1],當(dāng)時科學(xué)家們試圖構(gòu)建能夠理解和響應(yīng)人類語音的系統(tǒng)。早期工作主要集中在模板匹配和基于規(guī)則的方法上,但由于計算能力有限和語音數(shù)據(jù)的復(fù)雜性,進展較為緩慢。進入21世紀(jì),特別是在2000年后,隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)的興起,智能語音技術(shù)實現(xiàn)了質(zhì)的飛躍。深度神經(jīng)網(wǎng)絡(luò)模型被應(yīng)用于語音特征提取、聲學(xué)建模和語言模型構(gòu)建等方面,顯著提高了語音識別和語音合成的準(zhǔn)確率和自然度[2]。
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算和大數(shù)據(jù)時代的到來,人機交互方式的需求發(fā)生了深刻變化。用戶對于便捷、高效、自然的交互體驗有了更高的追求,這催生了智能語音技術(shù)在智能手機、智能家居、可穿戴設(shè)備、車載信息系統(tǒng)等各種場景中的廣泛應(yīng)用[3]。隨著智能語音技術(shù)在智能終端的不斷進步和廣泛應(yīng)用,相關(guān)行業(yè)領(lǐng)域正在迎來顯著增長,預(yù)計如:智能手機、智能家居、可穿戴設(shè)備這些領(lǐng)域的市場價值將實現(xiàn)上千億元的大幅提升[4]。
智能語音技術(shù)的研究背景是由科技進步、社會需求以及多學(xué)科交叉融合共同塑造的,因此智能語音領(lǐng)域標(biāo)準(zhǔn)體系中的各項標(biāo)準(zhǔn)都是相互聯(lián)系不可分割的,需要堅持整體觀以制定高效協(xié)同的智能語音技術(shù)標(biāo)準(zhǔn)[5]。本文通過對智能語音領(lǐng)域當(dāng)前已發(fā)布的國家、行業(yè)及團體標(biāo)準(zhǔn)以及正在研制的國家標(biāo)準(zhǔn)計劃進行分析,得出智能語音技術(shù)標(biāo)準(zhǔn)化研究進展。基于綜合分析結(jié)果,指出我國在推進智能語音技術(shù)標(biāo)準(zhǔn)化過程中面臨的主要問題,并針對這些問題提出具體改進建議。
1 我國智能語音領(lǐng)域技術(shù)標(biāo)準(zhǔn)化現(xiàn)狀
1.1 整體標(biāo)準(zhǔn)化現(xiàn)狀
智能語音行業(yè)中國家、行業(yè)、地方和團體各類標(biāo)準(zhǔn)的制定進展,很大程度上展示了該領(lǐng)域在國內(nèi)的成長狀態(tài)及政府、行業(yè)對其監(jiān)管的程度。如:國家推薦性系列標(biāo)準(zhǔn),涵蓋了基礎(chǔ)技術(shù)、服務(wù)質(zhì)量、安全性等多個層面,旨在規(guī)范智能語音產(chǎn)品的功能、性能和安全性要求,推動國內(nèi)市場的規(guī)范化和技術(shù)創(chuàng)新。我國智能語音行業(yè)已經(jīng)逐步建立了較為完善的國家標(biāo)準(zhǔn)化體系,包含一系列國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、地方標(biāo)準(zhǔn)和團體標(biāo)準(zhǔn)。智能語音標(biāo)準(zhǔn)不僅局限于家庭消費電子產(chǎn)品,還延伸到了教育、醫(yī)療、政務(wù)、電信、電商、金融等企業(yè)級應(yīng)用領(lǐng)域。針對不同的應(yīng)用場景,爭取做到有對應(yīng)的標(biāo)準(zhǔn)化要求,以確保智能語音技術(shù)在各行業(yè)健康有序發(fā)展,這不僅有效規(guī)范了市場行為,也為我國智能語音技術(shù)的自主創(chuàng)新和產(chǎn)業(yè)發(fā)展提供了強有力的支持。
1.2 國家標(biāo)準(zhǔn)
智能語音行業(yè)國家標(biāo)準(zhǔn)制定現(xiàn)狀在很大程度上反映了該行業(yè)在國內(nèi)的發(fā)展水平和政府監(jiān)管力度。智能語音方向已發(fā)布的國家標(biāo)準(zhǔn)總計17項(見表1),均為推薦性標(biāo)準(zhǔn),內(nèi)容涵蓋術(shù)語和定義、語義庫要求、通用規(guī)范、測試方法、終端設(shè)備要求和具體場景應(yīng)用要求等[6 ]。在研的國家標(biāo)準(zhǔn)計劃有3項(見表1),均為智能語音產(chǎn)品在應(yīng)用場景中的規(guī)范要求,這表明國家對智能語音行業(yè)的監(jiān)管力度逐步增大,對智能語音交互系統(tǒng)的要求日益嚴(yán)格,顯示出國家對這一新興技術(shù)領(lǐng)域的重視愈加提高。國家旨在通過制定和實施一系列標(biāo)準(zhǔn),完善建設(shè)標(biāo)準(zhǔn)體系,確保行業(yè)中的產(chǎn)品和服務(wù)能夠達到一定的質(zhì)量要求,即通過有效標(biāo)準(zhǔn)化手段規(guī)范市場秩序,推動行業(yè)良性競爭。同時,隨著相關(guān)國家標(biāo)準(zhǔn)的發(fā)布和修訂,有助于用權(quán)威手段解決市場上存在的例如:測試方法具有差異性、服務(wù)接口不統(tǒng)一、應(yīng)用場景不同等問題,從而增加公眾信任度。此外,規(guī)范性文件也更加明確且具有針對性,有利于引導(dǎo)整個產(chǎn)業(yè)鏈向可持續(xù)的方向發(fā)展。總之,加強對智能語音技術(shù)的規(guī)范化、標(biāo)準(zhǔn)化,是利用國家標(biāo)準(zhǔn)推動該領(lǐng)域長期穩(wěn)定發(fā)展的關(guān)鍵所在。
1.3 行業(yè)標(biāo)準(zhǔn)
行業(yè)標(biāo)準(zhǔn)方面,智能語音方向發(fā)布并現(xiàn)行標(biāo)準(zhǔn)9項(見表2),均為推薦性行業(yè)標(biāo)準(zhǔn),規(guī)范了移動通信、物聯(lián)網(wǎng)、智能家居、車載信息服務(wù)等多個重要領(lǐng)域,并且對這些領(lǐng)域的智能語音技術(shù)要求及測試方法進行了詳細(xì)的規(guī)范。通過針對行業(yè)內(nèi)特定應(yīng)用場景設(shè)定統(tǒng)一的技術(shù)指標(biāo)和評價體系,有利于提高整個行業(yè)的技術(shù)水平和服務(wù)質(zhì)量,促進健康有序的發(fā)展。特別值得一提的是,在某些特定的應(yīng)用場景中都是結(jié)合自身領(lǐng)域特點分別制定了更加細(xì)致化的行業(yè)標(biāo)準(zhǔn)來指導(dǎo)智能語音技術(shù)的應(yīng)用。公安、金融領(lǐng)域考慮到信息安全和隱私保護的重要性,在這些領(lǐng)域發(fā)布的標(biāo)準(zhǔn)會更加注重數(shù)據(jù)加密傳輸、用戶身份驗證等方面的要求,以保證過程中收集或存儲的信息能夠得到妥善處理。而在智能電視領(lǐng)域針對家庭多媒體這一場景,則更加強調(diào)用戶體驗優(yōu)化、識別準(zhǔn)確性、應(yīng)答效率等功能實現(xiàn)。通過為不同的應(yīng)用場景量身定制標(biāo)準(zhǔn),不僅有利于解決行業(yè)內(nèi)的共性問題,還能激發(fā)更多智能語音技術(shù)創(chuàng)新應(yīng)用的出現(xiàn)。
1.4 團體標(biāo)準(zhǔn)
團體標(biāo)準(zhǔn)通常由行業(yè)內(nèi)具有影響力的企業(yè)或技術(shù)領(lǐng)導(dǎo)者牽頭制定,團體標(biāo)準(zhǔn)的制定和發(fā)布主要是為了應(yīng)對快速發(fā)展的技術(shù)趨勢以及市場中不斷涌現(xiàn)的新需求,例如:針對新興的語音識別算法、語音合成技術(shù)、多模態(tài)交互方式等制定相應(yīng)的技術(shù)標(biāo)準(zhǔn)。相比國家和行業(yè)標(biāo)準(zhǔn),團體標(biāo)準(zhǔn)的一個顯著優(yōu)勢是制定流程相對靈活,由于不需要經(jīng)過漫長的制定過程,因此能迅速地根據(jù)科技成果的最新發(fā)展調(diào)整內(nèi)容,并及時反映到標(biāo)準(zhǔn)當(dāng)中。目前智能語音領(lǐng)域發(fā)布并現(xiàn)行團體標(biāo)準(zhǔn)13項(見表3),主要以智能語音技術(shù)與產(chǎn)品評估方法為方向進行標(biāo)準(zhǔn)化制定。通過推動團體標(biāo)準(zhǔn)的發(fā)展和完善,有利于企業(yè)間通過一起制定標(biāo)準(zhǔn)交流最新的科技成果,形成良好的市場競爭環(huán)境。
2 我國智能語音領(lǐng)域技術(shù)標(biāo)準(zhǔn)化存在問題
2.1 標(biāo)準(zhǔn)更新滯后
通過對當(dāng)前智能語音領(lǐng)域標(biāo)準(zhǔn)制定現(xiàn)狀的研究,我們可以觀察到,這一產(chǎn)業(yè)正逐步實現(xiàn)與不同行業(yè)的深度融合,尤其是在金融、醫(yī)療和安全監(jiān)控等行業(yè)中。然而,在智能語音技術(shù)迅速發(fā)展的背景下,標(biāo)準(zhǔn)的制定往往難以跟上技術(shù)創(chuàng)新的速度。這種滯后性不僅體現(xiàn)在新標(biāo)準(zhǔn)的發(fā)布時間上,還包括現(xiàn)行標(biāo)準(zhǔn)對新興技術(shù)和應(yīng)用場景的適應(yīng)性不足。標(biāo)準(zhǔn)制定過程通常需要經(jīng)過廣泛的協(xié)商、測試和驗證,以確保其科學(xué)性和實用性。這一過程涉及多個利益相關(guān)方,包括政府機構(gòu)、行業(yè)組織、企業(yè)和研究機構(gòu)等,各方之間達成共識往往需要較長時間,這進一步延長了標(biāo)準(zhǔn)從立項到正式發(fā)布的時間周期。
2.2 標(biāo)準(zhǔn)覆蓋范圍有限
由于智能語音技術(shù)快速發(fā)展且應(yīng)用場景廣泛,智能語音技術(shù)是一個跨學(xué)科的領(lǐng)域,它的研究和發(fā)展集合了眾多學(xué)科的知識[ 7 ],包括但不限于:數(shù)字信號處理(DSP),用于預(yù)處理和解析語音信號;人工智能(AI)與機器學(xué)習(xí)(ML),用于模式識別和自適應(yīng)學(xué)習(xí);自然語言處理(NLP),負(fù)責(zé)理解語音背后的含義;聲學(xué),研究聲音產(chǎn)生和傳播機制,優(yōu)化語音識別性能;心理學(xué)與情感學(xué),探索語音表達的情感維度,提升交互體驗的真實性;統(tǒng)計學(xué)和數(shù)學(xué),提供量化分析手段和模型構(gòu)建的基礎(chǔ)[8]。現(xiàn)有標(biāo)準(zhǔn)往往難以全面覆蓋所有新興技術(shù)和特定使用場景,例如:雖然已有不少針對普通話等主要語言的語音識別與合成標(biāo)準(zhǔn),但對于地方方言以及小語種的支持仍然不足。現(xiàn)有的智能語音技術(shù)在處理方言時,由于缺乏統(tǒng)一的發(fā)音、詞匯、語法和表達習(xí)慣等標(biāo)準(zhǔn)[9],導(dǎo)致語音識別引擎難以適應(yīng)所有方言變體,識別準(zhǔn)確率受限。
2.3 缺乏協(xié)同合作
智能語音領(lǐng)域團體標(biāo)準(zhǔn)文本公開程度較低,體現(xiàn)出企業(yè)間缺乏協(xié)同合作的問題。由于各企業(yè)間存在競爭關(guān)系,導(dǎo)致關(guān)鍵技術(shù)和研究成果難以共享,形成了技術(shù)壁壘;同時,不同企業(yè)、科研機構(gòu)收集的語音數(shù)據(jù)集往往互不兼容,限制了模型訓(xùn)練的效果和通用性。此外,學(xué)術(shù)界與企業(yè)界缺乏有效溝通機制也阻礙了理論創(chuàng)新向?qū)嶋H應(yīng)用轉(zhuǎn)化。
3 我國人工智能關(guān)鍵領(lǐng)域技術(shù)標(biāo)準(zhǔn)化發(fā)展建議
3.1 提高標(biāo)準(zhǔn)制定時效性
為了加快智能語音領(lǐng)域技術(shù)標(biāo)準(zhǔn)的制定速度,可以構(gòu)建一個多方參與、快速響應(yīng)的標(biāo)準(zhǔn)工作組,該工作組應(yīng)包括來自政府、企業(yè)、科研機構(gòu)以及用戶群體等多方面的代表。可以在制定標(biāo)準(zhǔn)時采用模塊化和靈活的標(biāo)準(zhǔn)框架,以便于及時更新和適應(yīng)新技術(shù)的發(fā)展,確保標(biāo)準(zhǔn)既能跟上創(chuàng)新步伐又能滿足市場需求。
3.2 拓寬標(biāo)準(zhǔn)覆蓋廣度
為了應(yīng)對智能語音領(lǐng)域標(biāo)準(zhǔn)覆蓋范圍有限的問題,可以加強行業(yè)內(nèi)以及跨行業(yè)合作[10],建立統(tǒng)一的智能語音技術(shù)標(biāo)準(zhǔn)框架,確保技術(shù)兼容與數(shù)據(jù)互通;加快新興技術(shù)和應(yīng)用場景的標(biāo)準(zhǔn)制定速度,緊跟技術(shù)發(fā)展步伐;在標(biāo)準(zhǔn)研究制定時對不同語言地區(qū)不同使用場景等因素進行全維度考量,吸納語言學(xué)等領(lǐng)域的專業(yè)知識,提升標(biāo)準(zhǔn)的適用性和實用性,逐步完善智能語音技術(shù)標(biāo)準(zhǔn)體系,促進行業(yè)規(guī)范發(fā)展。
3.3 促進標(biāo)準(zhǔn)化工作協(xié)同
為解決智能語音領(lǐng)域標(biāo)準(zhǔn)化工作中缺乏協(xié)同合作的問題,應(yīng)構(gòu)建多方參與的協(xié)作平臺,鼓勵企業(yè)、研究機構(gòu)及政府之間建立常態(tài)化的溝通機制,通過成立聯(lián)合工作組或行業(yè)協(xié)會來協(xié)調(diào)各方利益,共同制定和推廣統(tǒng)一的技術(shù)標(biāo)準(zhǔn)與數(shù)據(jù)格式;同時,推動標(biāo)準(zhǔn)共享項目的發(fā)展,共享標(biāo)準(zhǔn)中的關(guān)鍵技術(shù)指標(biāo)和測試方法等,加速創(chuàng)新成果的應(yīng)用轉(zhuǎn)化。此外,定期舉辦會議和技術(shù)論壇,加強同行間的交流與合作,以形成合力推進智能語音技術(shù)領(lǐng)域的標(biāo)準(zhǔn)化進程。
4 結(jié) 語
從本文可以看出,在制定相關(guān)智能語音交互技術(shù)標(biāo)準(zhǔn)的過程中,應(yīng)結(jié)合最新研究成果和實踐經(jīng)驗,選取科學(xué)、合理、可行的技術(shù)要素,提高標(biāo)準(zhǔn)制定時效性,拓寬標(biāo)準(zhǔn)覆蓋廣度,促進標(biāo)準(zhǔn)化工作協(xié)同,引導(dǎo)和推動智能語音應(yīng)用行業(yè)的健康發(fā)展。
參考文獻
[1]張筱蘭,王保論.智能語音技術(shù)在教學(xué)中的應(yīng)用研究[J].現(xiàn)代教育技術(shù),2011,21(11):91-94+90.
[2]唐永軍.基于深度學(xué)習(xí)的智能語音助手研究[J].現(xiàn)代信息科技,2021,5(12):75-79.
[3]許為.九論以用戶為中心的設(shè)計:智能時代的“用戶體驗3.0”范式[J].應(yīng)用心理學(xué),2024,30(02):99-117.
[4]胡郁,嚴(yán)峻.智能語音交互技術(shù)及其標(biāo)準(zhǔn)化[J].信息技術(shù)與標(biāo)準(zhǔn)化,2015(04):14-17.
[5]雷靜,王佳勝.基于關(guān)鍵要素的人工智能標(biāo)準(zhǔn)化研究[J].標(biāo)準(zhǔn)科學(xué),2018(11):68-72.
[6]朱肖曼,申志偉,時文豐,等.我國人工智能關(guān)鍵領(lǐng)域技術(shù)標(biāo)準(zhǔn)化研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2023,42(09):65-71.
[7]陳鑫源.智能語音交互技術(shù)及其標(biāo)準(zhǔn)化[J].電聲技術(shù),2018,42(05):78-80.
[8]張宣,楊易臻.智能語音技術(shù),為“聲音”帶來更多可能[N].新華日報,2023-11-15(011).
[9]鄭曄,歐智堅,楊艇.閩南語智能交互引擎開發(fā)和應(yīng)用研究[J].廣播與電視技術(shù),2022,49(11):124-127.
[10]許小春.關(guān)于智能語音識別技術(shù)的應(yīng)用與發(fā)展研究[J].科技風(fēng),2022(25):1-3.