陳 靜 王 碩 劉 蘇 張 華*
(1.首都醫科大學附屬北京同仁醫院北京市耳鼻咽喉科研究所耳鼻咽喉頭頸科學教育部重點實驗室,北京100730;2.首都醫科大學生物醫學工程學院,北京100069)
言語測聽是一種用言語信號作為聲刺激來檢查受試者言語聽閾和言語識別能力的聽力學測試方法。言語測聽材料的復測信度(test-retest reliability)指以同樣測試材料在不同時間段內測量同一對象所得結果的穩定性,是考核言語測聽材料可靠性的重要指標[1]。單音節言語詞表是臨床應用最為廣泛的言語識別率(speech recognition score,SRS)測試材料。
國外現有英文言語測聽材料中多數已經實現復測信度的評估[2]。英文單音節測試詞表相關研究記載較少,僅有NU-6(N.U.Auditory Test No.6)和Maryland CNC測試表實現了復測信度評估,因此該詞表作為同類詞表中最敏感的測試工具而廣泛應用于臨床[3]。目前在中國已有一些漢語普通話言語測聽材料面世。相關研究正處在發展階段:郗昕等[4]完成了漢語普通話單音節測試表在北京聽力正常人群中的復測信度評估;陳艾婷等[5]評價了一組等價的漢語普通話單音節詞表在聽力損失人群中的復測信度;冀飛等[6]進行了漢語普通話單音節測聽表在不同方言地區聽力正常人群中的復測信度研究。
王靚等[7]圍繞普通話言語測聽材料(mandarin speech test materials,MSTMs)開展了一系列研究工作,詞表的等價性和可靠性已從臨床實踐[7-9]得到驗證。本實驗在上述工作的基礎上,對MSTMs中的單音節小詞表的復測信度進行分析,完善MSTMs的標準化設計,為今后進一步應用和推廣該材料打下必要基礎。
北京市耳鼻咽喉科研究所研發的普通話言語測聽材料MSTMs(mandarin speech test materials)是一套完整的、集測聽材料和測聽軟件于一體的言語測聽系統。本次實驗以該材料中的單音節小詞表為測試表。共16張,每張20個單音節詞,附帶練習表1張,表內包含10個詞。
利用Cool Edit Pro 2.0聲音處理軟件檢驗,各詞表間聲能量均方根值變化在±1dB之內,符合國家標準GB/T17696-1999《聲學測聽方法第三部分:語言測聽》中言語級法的規定。對修訂后的16張小詞表進行切割,在每個測試音節前后各加入0.5 s靜音。將練習表與測試表音頻導入首都醫科大學生物醫學工程學院與首都醫科大學附屬北京同仁醫院聯合開發的漢語言語測聽智能化系統以用于測試[10]。
招募聽力正常的北京高校在校生共16例,其中男生8例,女生8例,年齡20至25歲,平均年齡22.2歲;聽力較好耳在0.25、0.5、1、2、4 和8k Hz處純音聽閾 <15 dB HL;鼓室導抗測試結果均為A型,受試者均未患耳科疾病且無相關病史;平日主要交流方式為普通話,吐字清晰且較標準;所有受試者均首次接觸測試材料。
用MSTMs單音節小詞表對16例受試者進行識別率測試。
1)測試地點:首都醫科大學附屬北京同仁醫院耳鼻喉科臨床聽力學中心標準雙間隔聲室,本底噪聲<20 dB(A)。
測試前使用B&K 2209型精密聲級計,B&K 4145電容傳聲器和B&K 4152型仿真耳,參考國標GB/T 7341.2-1998對耳機進行校準。校準時,調節1k Hz校準純音來代替言語信號,輸出的20 dB SPL被定為0 dB聽力級(HL)。
2)測試順序:實驗采用拉丁方設計,將詞表順序循環排列,使每張表均有1次機會作為首張測試表出現,以此將若干例受試者個人心理、生理狀態等混雜因素相對若干張表均衡分布。排序設計見表1。

表1 MSTMs小詞表測試順序Tab.1 Test sequence of the monosyllable word short lists in mandarin speech test materials
3)測試步驟:以受試者500~4 000頻率處純音聽閾均值較好一側為測試耳。測試前由測試者講解測試流程,并播放1張練習表以便受試者熟悉測試方法(練習表不計分)測試采用固定給聲強度(通過預試驗,確定小詞表采用12 dB HL),將受試者得分控制在70%上下;由測試者手動選擇詞表;每張詞表測試項目的播放順序通過軟件隨機給出。測試過程中根據受試者要求適當安排休息。2次測試間隔6至35 d(中位數11 d),受試者于同一時間段(±2 h),在相同測試環境下,以同樣的測試材料、測試設備和給聲強度,由同一名測試者進行單音節識別率的復測。
受試者以口述作為應答形式,測試者通過手動操作智能測聽軟件進行計分。計分時以整字為單位,即單音節字的聲母、韻母和聲調完全復述正確則得一分,否則不得分;每張詞表單獨計算得分。計算方法如下:單音節詞識別率=(正確復述詞數/總詞數)×100%。
復測信度可由前后2次測試結果的差異程度進行描述。單音節識別率測試結果符合二項分布,其差異程度與得分相關聯(識別率在接近0%及100%時變異度最小,50%處變異度最大)。為消除此種關聯性,本實驗通過Matlab 2010軟件編程實現“合理化”反正弦變換(“rationalized”arcsine transform)對識別率進行調整,使不同得分下隨機誤差大致相等。其公式為:

式中X為應答正確項目數,N為表中測試項目總數,R為反正弦變換后的單位(rationalized arcsine units,RAU)[11]。
復測信度常用Pearson相關系數或臨界差值(critical difference,CD)進行評估。本實驗采用統計學軟件SPSS19.0對經“合理化”反正弦變換調整的兩輪測試得分進行相關性分析和配對t檢驗,計算相關系數r值;逐表計算兩輪測試得分差異的標準差(standard deviation,SD),以 95% 置信區間(confidence interval,CI)計算各表臨界差值,計算式為:CD=SD×1.96。
由于測試表之間嚴格等價,詞表整體標準差可由各表得分差異的平均偏離程度(以方差表示)間接求得,則:

(N為材料包含的詞表數),當兩次測試結果差異大于該臨界值時可認為該差異具有臨床意義。
16張小詞表兩輪測試總體得分為(69.5±10.6)%、(71.0±11.4)%。經“合理化”反正弦變換,最終得到2輪測試結果(68.1±10.7)%、(69.1±11.7)%。經Shapiro-Wilk正態性檢驗,變換后數據均服從正態分布(P>0.05)。
小詞表兩輪測試得分總體相關系數r=0.748(P<0.01),測試結果顯著相關。將各受試者前后兩輪測試平均成績進行配對t檢驗。結果顯示小詞表兩輪測試得分比較差異無統計學意義(P=0.249)。
普通話單音節小詞表總體標準差為11.5%,臨界差值22.5%。由于本實驗所使用測試材料為每表20詞,共計100%,則每詞可以5%計算。當干預前后測試得分差值超過25%即5個詞(以詞計分,得分只能是5%的整數倍)時該差值不可用復測信度解釋,而應考慮為測試前后干預效果(表2)。

表2 MSTMs單音節小詞表兩輪測試得分標準差、臨界差值、相應測試項數目Tab.2 The standard deviation,critical difference and corresponding test items of the two tests
用同樣的測試方法在不同時間段內對同一對象進行重復測試,其得分差異由測試過程中產生的各種誤差決定。這些誤差包括隨機誤差和各種因素造成的變異[2]。復測信度在理論上應以隨機誤差來表示。理想情況下,同一張表前后測試得分差異總和為0;測試結果相互獨立,服從二項分布。基于這一點,Thornton等[12]提出根據測試項目數推算出隨機誤差的數學模型,并且列出當測試項目數一定時,95%置信區間下不具有統計學意義的差異范圍。
Studebaker等[11]提出另一種直接計算置信區間的方法,即求RAU方差 Vrau。RAU可理解為“合理化”反正弦變換調整后的測試得分,仍然保持原始百分數形式,但消除了隨機誤差與得分間的關聯性,使不同識別率下隨機誤差基本保持一致。對于測試項目數和置信水平已知的測試表,僅有一個RAU值用來表達它的臨界區間,該值可以通過幾步簡單計算求得。公式如下:
若:N <50,V=1/(N+0.5)
若:N≥50,V=1/(N+1)
Vrau=V×2159.8(常數)
根據方差計算臨界差值,公式如下:

其中V為反正弦變換方差;n為觀察指數(number of observations),本式中n=1。由此可知,測試項目數為20的詞表其CD推算值為28.5%。實驗測得本套材料的相應值為22.5%,略小于理論推算。
影響復測信度測量結果的因素可大致分為3個方面,即測試環境的影響,受試者個體差異的影響,測試材料特征的影響。由于實際測量結果總是被多種因素同時作用、交互影響,這就要求實驗采用多因素均衡設計,最大限度地排除系統誤差[1];同一名受試者的初測和復測應當在完全相同的條件下進行——包括使用同樣的測試材料、測試設備和刺激聲強度,身處同樣的聲學環境下由同一測試者進行測試,兩次測試的設備校準,耳機型號保持一致,這有利于去除儀器和計分帶來的誤差[13-16]。本次試驗控制了影響隨機誤差范圍的因素,以保證評估結果的真實可靠。
Plomp等[17-20]在改善句表信度的相關研究中發現,影響復測信度的最主要因素為學習效應,即受試者對測試方法和測試內容的熟悉程度。由于單音節測試材料言語冗余度很小,不便于記憶,故這里的學習效應主要指受試者對測試方法的熟悉程度。單音節小詞表兩輪測試分差不具有統計學意義(P=0.249),說明學習效應對本次研究的影響不大。
復測信度的評估,其主要臨床目的在于判斷患者接受干預前后測試結果的差異是否具有臨床意義。本次實驗對MSTMs單音節小詞表的復測信度進行評估,得CD值為22.5%,小于理論臨界值28.5%,可以用于臨床測試。
[1]冀飛.言語測聽材料的復測信度評估[J].聽力學及言語疾病雜志,2009,17(3):209-211.
[2]Lisa L M,Jeffrey L,Danhauer.Audiologic evaluation and management and speech perception assessmen[M].San Diego,CA:Singular Publishing Group,1997,59-74.
[3]張華.研發漢語測聽材料的重要性(專家筆談)[J].中華耳科學雜志,2008,6(1):11-12.
[4]郗昕,趙烏蘭,冀飛,等.漢語單音節測聽表在北京聽力正常人群眾的復測信度評估[J].聽力學及言語疾病雜志,2009,17(2):95-99.
[5]陳艾婷,冀飛,郗昕,等.一組漢語普通話單音節詞表在聽力損失人群中的復測信度研究[J].聽力學及言語疾病雜志,2009,17(3):201-204.
[6]冀飛,郗昕,韓東一,等.漢語普通話單音節測聽表的多中心復測信度研究[J].中華耳鼻咽喉頭頸外科雜志,2010,45(3):200-205.
[7]王靚,張華,王碩,等.普通話單音節詞言語測聽材料的等價性分析[J].中國耳鼻咽喉頭頸外科,2006,13(6):397-401.
[8]張華,王碩,王靚,等.普通話言語測聽材料的數字化錄制與等價性分析[J].臨床耳鼻咽喉科雜志,2006,20(22):1011-1015.
[9]張華,曹文,王碩,等.語音學理論在普通話單音節小詞表編錄中的應用[J].聽力學及言語疾病雜志,2009,17(2):100-106.
[10]Wu W,Zhang H,Chen J,et al.Development and evaluation of a computerized Mandarin speech test system in China[J].Comput Biol Med,2011,41(3):131-138.
[11]Studebaker G A.“Rationalized”arcsine transform[J].J Speech Hear Res,1985,28(3):455-462.
[12]Thornton A R,Raffin M J.Speech-discrimination scores modeled as a binomial variable[J].J Speech Hear Res,1978,21(3):507-518.
[13]Bamford J,Wilson I.Methodological considerations and practical aspects of the BKB sentences lists[M].London,UK:Acadamic Press,1979:146-187.
[14]Dillon H.A quantitave examination of the sources of speech discrimination test score variability[J].Ear Hear,1982,3(2):51-58.
[15]Tom W.Tillman,Raymond Carhart,An Expanded Test for Speech Discrimination Utilizing CNC Monosyllabic Words.Northwestern University Auditory Test No.6.USAF School of Aerospace Medicine Technical Report,1966.
[16]Wilson R H,Carter A S.Relation between slopes of word recognition psychometric functions and homogeneity of the stimulus materials[J].J Am Acad Audiol,2001,12(1):7-14.
[17]Plomp R,Mimpen A M.Improving the reliability of testing the speech reception threshold for sentences[J].Audiology,1979,18(1):43-52.
[18]Wagener K,Josvassen J L,Ardenkjaer R.Design optimization and evaluation of a danish sentence test in noise[J].Int J Audiol,2003,42(1):10-17.
[19]Rhebergen K S,Versfield N J,Dreschler W A.Learning effect observed for the speech reception threshold in interrupted noise with normal hearing listeners[J].Int J Audiol,2008,47(4):185-188.
[20]Causey G D,Hood L J,Hezmanson C L,et al.The Maryland CNC Test:normative studies[J].Audiology,1984,23(6):552-568.