






摘" 要:隨著人工智能技術(shù)的不斷進(jìn)步,語音識(shí)別技術(shù)作為人工智能技術(shù)領(lǐng)域的一項(xiàng)關(guān)鍵技術(shù),可以幫助醫(yī)生和護(hù)士更高效的溝通和操作。文章提出了一種基于YAMNet模型遷移學(xué)習(xí)網(wǎng)絡(luò)的智能手術(shù)語音識(shí)別方法,通過遷移學(xué)習(xí)技術(shù)將YAMNet模型應(yīng)用于手術(shù)語音識(shí)別任務(wù)中,實(shí)現(xiàn)對(duì)手術(shù)器械清點(diǎn)過程中語音的自動(dòng)識(shí)別。首先收集了手術(shù)清點(diǎn)常用器械語音數(shù)據(jù),其次利用訓(xùn)練集對(duì)遷移學(xué)習(xí)后的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,最后通過驗(yàn)證集對(duì)該網(wǎng)絡(luò)模型進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,所提方法在智能手術(shù)語音識(shí)別任務(wù)中取得了顯著的性能,識(shí)別準(zhǔn)確率達(dá)到97%,為智能手術(shù)系統(tǒng)的發(fā)展提供了新的思路和方法。
關(guān)鍵詞:語音識(shí)別;YAMNet;遷移學(xué)習(xí);手術(shù)清點(diǎn)
中圖分類號(hào):TP39;TP183 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)24-0061-05
Research on Intelligent Surgical Speech Recognition Based on YAMNet Transfer Learning
SUN Wenye1, XU Wei2, WANG Chunliang1
(1.The Second Affiliated Hospital of Soochow University, Suzhou" 215004, China;
2.Changshu Institute of Technology, Suzhou" 215500, China)
Abstract: With the continuous advancements in Artificial Intelligence technology, as a key technology in Artificial Intelligence technology field, speech recognition technology can help doctors and nurses communicate and operate more efficiently. This paper proposes an intelligent surgical speech recognition method based on the YAMNet model and Transfer Learning network. By Transfer Learning technology, it applies the YAMNet model to surgical speech recognition tasks, realizing automatic speech recognition during the counting of surgical instruments. Firstly, speech data of commonly used surgical instruments during the counting process is collected. Secondly, the network model after Transfer Learning, is trained using the training set. Finally, the network model is validated by the validation set. Experimental results show that the proposed method achieves significant performance in intelligent surgical speech recognition tasks, with a recognition accuracy rate of 97%, providing new ideas and methods for the development of intelligent surgical systems.
Keywords: speech recognition; YAMNet; Transfer Learning; counting of surgical instruments
0" 引" 言
智能化手術(shù)室可以實(shí)現(xiàn)手術(shù)室內(nèi)部的非接觸式遠(yuǎn)程示教、手術(shù)識(shí)別、手術(shù)全流程信息的管理。近些年,隨著人工智能技術(shù)的不斷進(jìn)步,如語音識(shí)別技術(shù)等,使得通過非接觸式的方式實(shí)現(xiàn)人與計(jì)算機(jī)之間的相互交互得以實(shí)現(xiàn),這些技術(shù)的發(fā)展為建立新型的非接觸式自然交互智慧化手術(shù)室信息系統(tǒng)提供了得以實(shí)現(xiàn)的方法和技術(shù)上的可能[1]。2019年中國(guó)科學(xué)院軟件研究所聯(lián)合陸軍軍醫(yī)大學(xué),將語音識(shí)別技術(shù)和多模態(tài)信息處理技術(shù)相融合,構(gòu)造了手術(shù)室無菌條件下的非接觸式多通道的自然交互環(huán)境,使得醫(yī)生在需要觀察相關(guān)病灶成像時(shí),可以通過相應(yīng)的語音命令、手勢(shì)命令等非接觸式交互方式快速定位到,為智能化手術(shù)室提供了技術(shù)與方法驗(yàn)證[1]。
作為手術(shù)患者進(jìn)行診斷、治療、手術(shù)及搶救的重要場(chǎng)所的手術(shù)室,隨著手術(shù)量的不斷攀升,對(duì)手術(shù)室護(hù)理工作提出嚴(yán)峻的挑戰(zhàn),手術(shù)室護(hù)理工作也將面臨巨大壓力[2]。手術(shù)清點(diǎn)記錄是手術(shù)護(hù)理重要一環(huán),其中的清點(diǎn)記錄單是手術(shù)室護(hù)士對(duì)手術(shù)患者術(shù)中所用器械、敷料等相關(guān)物品的記錄,是手術(shù)過程中的重要記錄文書,應(yīng)當(dāng)在手術(shù)結(jié)束后即時(shí)完成。但在臨床中手術(shù)清點(diǎn)記錄單在實(shí)際操作時(shí)會(huì)出現(xiàn)各種各樣的問題,如書寫不規(guī)范、不準(zhǔn)確等,如何避免和減少這些問題是手術(shù)室管理者急需解決的問題[3]。華中科技大學(xué)同濟(jì)醫(yī)學(xué)院附屬協(xié)和醫(yī)院于2019年嘗試基于PDA移動(dòng)技術(shù)實(shí)現(xiàn)手術(shù)器械質(zhì)量追蹤與數(shù)據(jù)清點(diǎn)一體化共享,通過前后饋控制方法,形成器械質(zhì)量追蹤與器械清點(diǎn)的閉環(huán)管理,提高護(hù)理工作效率,但存在改變醫(yī)護(hù)人員的工作習(xí)慣、PDA書寫不太方便等問題[4]。在實(shí)際臨床工作中,手術(shù)室清點(diǎn)物品時(shí)需堅(jiān)持“點(diǎn)唱”原則。語音識(shí)別技術(shù)可以在不改變臨床操作流程的基礎(chǔ)上,在“點(diǎn)唱”的過程中智能地完成手術(shù)器械清點(diǎn)單的內(nèi)容,解放手術(shù)人員雙手,減少重復(fù)錄入操作,進(jìn)而提高效率。然而,國(guó)內(nèi)外對(duì)語音識(shí)別技術(shù)的應(yīng)用主要集中于醫(yī)生電子病歷的錄入[5-6],對(duì)手術(shù)室環(huán)境中的語音識(shí)別技術(shù)尚在探索期,其中針對(duì)手術(shù)護(hù)理中的智能語音技術(shù)少之又少。傳統(tǒng)的語音識(shí)別系統(tǒng)往往受到噪音干擾、特定場(chǎng)景下的識(shí)別困難等問題的限制,因此需要更加高效和精準(zhǔn)的解決方案。
近年來,深度學(xué)習(xí)技術(shù)的持續(xù)進(jìn)步為語音識(shí)別領(lǐng)域注入了新的活力和可能。YAMNet是一個(gè)基于深度學(xué)習(xí)的預(yù)訓(xùn)練模型,可以有效地提取音頻中的語義特征,被廣泛應(yīng)用于音頻分類和分析任務(wù)中[7]。本論文旨在提出一種基于YAMNet模型遷移學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的智能手術(shù)清點(diǎn)語音識(shí)別方法,通過利用YAMNet模型提取音頻特征,并結(jié)合遷移學(xué)習(xí)技術(shù),實(shí)現(xiàn)對(duì)手術(shù)過程中語音指令的自動(dòng)識(shí)別和清點(diǎn)。本文將探討該方法模型設(shè)計(jì)的原理、實(shí)現(xiàn)的方式以及實(shí)驗(yàn)結(jié)果的驗(yàn)證,以期為智能手術(shù)系統(tǒng)的進(jìn)一步發(fā)展提供新的思路和方法。
1" 方法模型設(shè)計(jì)
本文所提出的基于YAMNet模型遷移學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的智能手術(shù)語音識(shí)別方法總體架構(gòu)如圖1所示,主要包括語音信號(hào)采集、語音信號(hào)預(yù)處理、語音信號(hào)特征提取、YAMNet遷移學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練。將原始語音數(shù)據(jù)進(jìn)行預(yù)處理以及特征提取后,對(duì)獲取到的數(shù)據(jù)進(jìn)行數(shù)據(jù)集分割,分割成訓(xùn)練集和驗(yàn)證集。使用訓(xùn)練集數(shù)據(jù)訓(xùn)練遷移學(xué)習(xí)網(wǎng)絡(luò),再使用驗(yàn)證集數(shù)據(jù)進(jìn)行識(shí)別驗(yàn)證,最后得到該遷移學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)語音識(shí)別系統(tǒng)的識(shí)別結(jié)果。
1.1" 語音采集
分析了某三甲醫(yī)院2023年全年手術(shù)清點(diǎn)記錄單,從中選取出現(xiàn)頻次最高的74種手術(shù)器械,器械列表如表1所示。對(duì)其分別采集了16例樣本的音頻數(shù)據(jù),組成1 184個(gè)不同語音的語音庫,其采樣率為48 000 Hz。文中的音頻樣本采用了作為音頻數(shù)據(jù)標(biāo)準(zhǔn)的WAV文件格式。
本實(shí)驗(yàn)聚焦于孤立詞語音識(shí)別的研究,所處理的語音片段時(shí)長(zhǎng)主要在0.5秒至2.7秒之間,對(duì)于孤立詞語音識(shí)別來說,相比時(shí)序相關(guān)信息,語音的全局信息要更加重要。在實(shí)際操作過程中,我們首先對(duì)每段語音進(jìn)行分幀、加窗以及音頻增強(qiáng)等預(yù)處理步驟,以便為后續(xù)的特征提取工作奠定基礎(chǔ)。隨后,我們進(jìn)一步提取語音中的特征信息,為后續(xù)的語音識(shí)別任務(wù)提供關(guān)鍵依據(jù)。最后構(gòu)建遷移學(xué)習(xí)網(wǎng)絡(luò)模型。
1.2" 語音信號(hào)預(yù)處理
為了確保識(shí)別模型的兼容性和理想輸入,從而提高模型的魯棒性和模型的泛化能力,要對(duì)語音信號(hào)進(jìn)行預(yù)處理。通過在訓(xùn)練過程中引入音頻增強(qiáng)技術(shù),模型可以更好地適應(yīng)各種不同的語速、語調(diào)和發(fā)音方式,從而提高其在真實(shí)世界中的性能。本文通過時(shí)間伸縮、時(shí)間偏移、音量調(diào)節(jié)、音調(diào)調(diào)節(jié)等技術(shù)對(duì)原始音頻進(jìn)行增強(qiáng),從而增加樣本的數(shù)量和泛化性。
1.3" 語音特征提取
特征提取的過程就是去除冗余信息提取重要信息的過程,特征參數(shù)的選擇對(duì)整個(gè)系統(tǒng)具有舉足輕重的影響,它的最重要的兩個(gè)因素是有效性和魯棒性。人耳對(duì)于聽覺反饋具有非線性特征,語音特征參數(shù)應(yīng)能反映出這一特性。研究表明這些非線性特征的倒譜系數(shù)不受音頻特性的影響,不僅對(duì)輸入的語音信號(hào)沒有特定要求,還能直接運(yùn)用人耳的聽覺模型。提取這些特征參數(shù)后,語音信息能夠與實(shí)際工作中人耳的聽覺特性高度契合,即使在信噪比低于標(biāo)準(zhǔn)音頻要求的情況下,仍能保持良好的語音識(shí)別性能,從而展現(xiàn)出優(yōu)越的魯棒性[8]。本文采用梅爾頻譜(Mel-spectrogram)對(duì)每段音頻信號(hào)進(jìn)行特征提取。整個(gè)語音特征提取的過程可以概括為:重采樣、分幀/填充、短時(shí)傅里葉變換(Short Time Fourier Transform, STFT)、梅爾濾波器組、對(duì)數(shù)運(yùn)算、標(biāo)準(zhǔn)化。
預(yù)處理過程主要包含重采樣、分幀/填充等操作。重采樣主要用于將音頻信號(hào)重采樣到16 000 Hz,與YAMNet網(wǎng)絡(luò)相匹配[7]。分幀主要用于將音頻信號(hào)切割為960毫秒的片段,而填充則用于對(duì)音頻過短信號(hào)的填充,通常是補(bǔ)零,從而達(dá)到960毫秒的長(zhǎng)度。
短時(shí)傅里葉變換(STFT)主要用于提取單邊帶時(shí)間頻率圖。傅里葉變換的長(zhǎng)度為512點(diǎn)、步進(jìn)長(zhǎng)度為10毫秒。梅爾濾波器組則用于將線性功率譜轉(zhuǎn)換為梅爾頻率刻度上的非線性功率譜[9]。梅爾濾波器通常設(shè)計(jì)為三角濾波器,并在梅爾尺度上等間隔分布。即濾波器的中心頻率首先在梅爾尺度上等間距分布,然后再轉(zhuǎn)換回線性頻率。中心頻率計(jì)算式如下:
(1)
(2)
其中,mi是梅爾頻率,fi是線性頻率,L是濾波器的數(shù)量。
最后將所有提取特征用于構(gòu)建基于YAMNet的遷移學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)不同語音的識(shí)別。
1.4" YAMNet模型遷移學(xué)習(xí)網(wǎng)絡(luò)
在傳統(tǒng)的分類識(shí)別學(xué)習(xí)中,為了確保訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)具有較高的識(shí)別準(zhǔn)確率,通常會(huì)采用獨(dú)立同分布的訓(xùn)練集和測(cè)試集。此外,通過增加訓(xùn)練樣本的數(shù)量也可以提升訓(xùn)練效果。然而,在實(shí)際應(yīng)用中,同時(shí)滿足這兩個(gè)條件往往是困難的。對(duì)于醫(yī)院而言,對(duì)手術(shù)清點(diǎn)而言,缺少大規(guī)模的標(biāo)記樣本。遷移學(xué)習(xí)是將一個(gè)已經(jīng)訓(xùn)練好的模型參數(shù)遷移到另一個(gè)新的神經(jīng)網(wǎng)絡(luò)模型中,并使用遷移來的參數(shù)輔助新的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練[9],這將在保證識(shí)別率的基礎(chǔ)上,同時(shí)大大減少訓(xùn)練的時(shí)間和復(fù)雜度。
深度遷移學(xué)習(xí)方法的優(yōu)勢(shì)在于其能夠同時(shí)處理分類識(shí)別任務(wù)和源域到目標(biāo)域的遷移任務(wù)。一方面,深度遷移學(xué)習(xí)在學(xué)習(xí)過程中整合了這兩項(xiàng)任務(wù),另一方面,這種端到端的訓(xùn)練方式不僅能提取更具表現(xiàn)力的相關(guān)特征,還摒棄了傳統(tǒng)遷移學(xué)習(xí)中先遷移再分類的步驟。因此,深度遷移學(xué)習(xí)方法更加簡(jiǎn)潔,且更符合實(shí)際應(yīng)用的需求[10]。
YAMNet是Google開發(fā)的一個(gè)預(yù)訓(xùn)練模型,用于對(duì)音頻信號(hào)進(jìn)行高效的音頻事件分類。它可以識(shí)別數(shù)千種不同的聲音,包括動(dòng)物聲、樂器聲、自然聲音等。YAMNet是建立在深度學(xué)習(xí)技術(shù)基礎(chǔ)上的,利用了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)對(duì)音頻信號(hào)進(jìn)行處理和分類[11]。
對(duì)于YAMNet的遷移學(xué)習(xí),基本思路是將YAMNet的預(yù)訓(xùn)練模型作為基礎(chǔ)模型,然后根據(jù)新的任務(wù)需求進(jìn)行微調(diào)或調(diào)整。下面是YAMNet遷移學(xué)習(xí)的工作流程:
1)基礎(chǔ)模型加載。從已經(jīng)訓(xùn)練好的YAMNet模型中加載預(yù)訓(xùn)練權(quán)重。這個(gè)模型通常在大型音頻數(shù)據(jù)集上已進(jìn)行了訓(xùn)練,能夠提取有效的音頻特征。
2)修改輸出層。根據(jù)任務(wù)需求,修改YAMNet模型的全連接層,使其能夠適應(yīng)新的分類識(shí)別任務(wù)。同時(shí),設(shè)置全連接層的學(xué)習(xí)速度是其他層的10倍。
3)微調(diào)模型。使用新的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練。在訓(xùn)練過程中,YAMNet模型的權(quán)重會(huì)根據(jù)新數(shù)據(jù)集進(jìn)行調(diào)整,以便更好地適應(yīng)新的分類識(shí)別任務(wù)。通常會(huì)采用較小的學(xué)習(xí)率進(jìn)行微調(diào),以防止過度調(diào)整預(yù)訓(xùn)練權(quán)重。
4)評(píng)估模型性能。訓(xùn)練完成后,評(píng)估模型在新任務(wù)上的性能。可以使用各種指標(biāo)(如準(zhǔn)確率、精確率、召回率等)來評(píng)估模型的性能。
5)調(diào)整和優(yōu)化。根據(jù)評(píng)估結(jié)果,對(duì)模型進(jìn)行進(jìn)一步的調(diào)整和優(yōu)化,例如增加訓(xùn)練數(shù)據(jù)量等。
總的來說,YAMNet的遷移學(xué)習(xí)充分利用了預(yù)訓(xùn)練模型在大規(guī)模數(shù)據(jù)上學(xué)到的知識(shí),并將其應(yīng)用到新的分類識(shí)別任務(wù)中。通過微調(diào)模型,可在新分類識(shí)別任務(wù)上獲得更好的性能,同時(shí)減少訓(xùn)練時(shí)間和數(shù)據(jù)需求。
2" 實(shí)驗(yàn)結(jié)果
本實(shí)驗(yàn)采用的實(shí)驗(yàn)環(huán)境為Windows 11家庭中文版,處理器13th Gen Intel(R) Core(TM) i7-13650HX 2.60 GHz,內(nèi)存16 GB,在MATLAB下完成實(shí)驗(yàn)。在訓(xùn)練模型時(shí),所有樣本被分成訓(xùn)練集和驗(yàn)證集,比例為9∶1,利用YAMNet預(yù)訓(xùn)練網(wǎng)絡(luò)構(gòu)建遷移學(xué)習(xí)網(wǎng)絡(luò),使用Adaptive Moment(ADAM)優(yōu)化算法訓(xùn)練,每一小批量訓(xùn)練樣本數(shù)設(shè)置為128,總迭代周期為50個(gè)Epoch,在訓(xùn)練前所有數(shù)據(jù)都被隨機(jī)打亂,學(xué)習(xí)率設(shè)為0.001。實(shí)驗(yàn)使用準(zhǔn)確率(Accuracy)、AUC(Area Under Curve)、F1分?jǐn)?shù)、精確率(Precision)、召回率(Recall)等標(biāo)準(zhǔn)分別評(píng)判實(shí)驗(yàn)方法的效果,具體的數(shù)據(jù)處理過程如下。
首先是音頻數(shù)據(jù)集的增強(qiáng)處理。利用音頻增強(qiáng)技術(shù),包括時(shí)間伸縮、時(shí)間偏移、音量調(diào)節(jié)、音調(diào)調(diào)節(jié)等方法,對(duì)原始音頻進(jìn)行增強(qiáng)擴(kuò)展,增加音頻數(shù)據(jù)的泛化性,提升模型穩(wěn)定性和精度。如圖2所示,針對(duì)“眼科剪”的原始音頻,利用音頻增強(qiáng)技術(shù),擴(kuò)展出5條音頻增強(qiáng)序列,該方法可以極大地提升訓(xùn)練數(shù)據(jù)集的泛化性能。
然后計(jì)算音頻信號(hào)的梅爾頻譜,提取特征,如圖3所示,給出了圖2原始音頻“眼科剪”的梅爾頻譜圖,得到96×64的梅爾頻譜圖。
最后將所有梅爾頻譜圖構(gòu)建音頻識(shí)別數(shù)據(jù)集(36 815×96×64),并將數(shù)據(jù)集進(jìn)行隨機(jī)打亂,然后將其中的90%(33 134)作為訓(xùn)練,10%(3 681)作為驗(yàn)證。本文采用的模型構(gòu)建方法是基于YAMNet預(yù)訓(xùn)練網(wǎng)絡(luò)的遷移學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)。YAMNet是一個(gè)基于MobileNet V1架構(gòu)的音頻分類模型,專門用于識(shí)別和分類各種環(huán)境音頻事件,旨在通過輕量級(jí)的網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)高效的音頻分類識(shí)別任務(wù)。
YAMNet的架構(gòu)可以分為以下幾個(gè)主要部分:
1)輸入層。輸入是音頻信號(hào)的log-Mel頻譜圖,尺寸為(T,64),其中T是時(shí)間幀數(shù),64是Mel頻帶數(shù)量。
2)特征提取部分(基于MobileNet V1)。使用MobileNet V1的架構(gòu)進(jìn)行特征提取。MobileNet V1以其高效的深度可分離卷積而著稱,大幅減少了參數(shù)量和計(jì)算量。
3)全局平均池化層。將特征圖經(jīng)過處理轉(zhuǎn)變?yōu)楣潭ù笮〉奶匦韵蛄俊?/p>
4)全連接層。將特征向量經(jīng)過映射對(duì)應(yīng)到不同音頻類別。
遷移學(xué)習(xí)中,我們將全連接層的輸出層的節(jié)點(diǎn)數(shù)改為74,與音頻分類的種類相同,并將該層的參數(shù)更新速度是其他層的10倍,便于全連接層參數(shù)的快速迭代更新,然后開始訓(xùn)練,訓(xùn)練過程如圖4所示。
如圖4所示,在模型迭代5 850次后,訓(xùn)練集準(zhǔn)確率達(dá)到99%左右,而驗(yàn)證集的精度基本穩(wěn)定在97%左右。隨著迭代次數(shù)的增加,網(wǎng)絡(luò)模型逐漸朝著收斂狀態(tài)演進(jìn),損失逐漸降低,最終達(dá)到一個(gè)相對(duì)穩(wěn)定的性能水平,可以看出模型表現(xiàn)良好,沒有出現(xiàn)過擬合,實(shí)驗(yàn)結(jié)果如表2所示。
本文主要采用基于YAMNet模型遷移學(xué)習(xí)網(wǎng)絡(luò)來實(shí)現(xiàn)手術(shù)清點(diǎn)語音識(shí)別,盡管使用了不同的語音數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果仍然顯示,即便目標(biāo)數(shù)據(jù)集與預(yù)訓(xùn)練模型的源數(shù)據(jù)集有所不同,預(yù)訓(xùn)練特征依然普遍適用。此外,在語音識(shí)別應(yīng)用中,遷移學(xué)習(xí)在小數(shù)據(jù)集上的效果顯著,即便是非常小的數(shù)據(jù)庫,也能實(shí)現(xiàn)近97%的精度和準(zhǔn)確度,AUC接近1,表明檢測(cè)方法的真實(shí)性高。小數(shù)據(jù)集的應(yīng)用不僅減少了數(shù)據(jù)集生成的時(shí)間和成本,還縮短了模型訓(xùn)練時(shí)間,并降低了對(duì)計(jì)算資源的需求。實(shí)驗(yàn)結(jié)果表明,該方法模型在識(shí)別手術(shù)過程中的專業(yè)語音交流內(nèi)容方面取得了良好的性能,具有較高的準(zhǔn)確性和魯棒性,在實(shí)際應(yīng)用中具有重要的參考意義。
3" 結(jié)" 論
本文提出了一種基于YAMNet模型遷移學(xué)習(xí)網(wǎng)絡(luò)的智能手術(shù)語音識(shí)別方法,該方法在手術(shù)專業(yè)術(shù)語器械清點(diǎn)語音識(shí)別中取得了良好的性能,同時(shí)具有較好的泛化性。在以后的研究中,將不斷改進(jìn)系統(tǒng)的設(shè)計(jì)和算法以及使用不同類型的聲學(xué)模型,以此來探索更有效的深度學(xué)習(xí)模型和技術(shù),以應(yīng)對(duì)手術(shù)環(huán)境中的挑戰(zhàn)和復(fù)雜性。
參考文獻(xiàn):
[1] 陶建華,楊明浩,王志良,等.無菌條件非接觸式多通道自然交互手術(shù)環(huán)境 [J].軟件學(xué)報(bào),2019,30(10):2986-3004.
[2] 高興蓮,楊英,吳荷玉,等.影響手術(shù)物品清點(diǎn)準(zhǔn)確性原因分析與改進(jìn)措施 [J].醫(yī)學(xué)信息,2013(20):630-631.
[3] 林珂,王芳,白菁,等.手術(shù)室??谱o(hù)理專利成果的臨床運(yùn)用實(shí)踐效果 [J].昆明醫(yī)科大學(xué)學(xué)報(bào),2018,39(11):143-148.
[4] 余文靜,高興蓮,肖瑤,等.基于PDA移動(dòng)技術(shù)融合手術(shù)器械質(zhì)量追蹤與數(shù)據(jù)清點(diǎn)的實(shí)踐 [J].護(hù)理學(xué)報(bào),2020,27(2):27-29.
[5] 丁中正,常翀,曹凱迪,等.醫(yī)療智能語音識(shí)別系統(tǒng)的建設(shè)與應(yīng)用 [J].電子技術(shù)與軟件工程,2022(1):188-191.
[6] 趙夢(mèng),任海玲,廖聰,等.智能語音識(shí)別技術(shù)在醫(yī)療領(lǐng)域中的應(yīng)用研究 [J].中國(guó)現(xiàn)代醫(yī)生,2022,60(28):108-112.
[7] VALLIAPPAN N H, PANDE S D, VINTA S R. Enhancing Gun Detection with Transfer Learning and YAMNet Audio Classification [J].IEEE Access,2024,12:58940-58949.
[8] 鄧鑫瑞,孔建國(guó).基于雙向神經(jīng)網(wǎng)絡(luò)的民航陸空通話語音識(shí)別研究 [J].電腦與信息技術(shù),2022,30(2):9-12+25.
[9] 蔣佳旺,陳艷,王佳慶.卷積神經(jīng)網(wǎng)絡(luò)與遷移學(xué)習(xí)的顱腦癌癥識(shí)別方法的研究 [J].中國(guó)醫(yī)療設(shè)備,2020,35(9):70-73+83.
[10] 顏丙聰.基于遷移學(xué)習(xí)的語音識(shí)別算法研究 [D].南京:東南大學(xué),2020.
[11] MOHAMMED K K,EL-LATIF E I A,EL-SAYAD N E,et al. Radio Frequency Fingerprint-based Drone Identification and Classification Using Mel Spectrograms and Pre-trained YAMNet Neural [J].Internet of Things,2023,23:100879.
作者簡(jiǎn)介:孫文業(yè)(1989—),女,漢族,安徽六安人,工程師,碩士,研究方向:語音信號(hào)處理;徐偉(1986—),男,漢族,江蘇蘇州人,講師,博士,研究方向:人工智能;汪春亮(1979—),男,漢族,安徽銅陵人,高級(jí)工程師,碩士,研究方向:醫(yī)療信息化。