祁 旋
(福建師范大學,福建 福州 350100)
近幾十年來,體育參與程度增加的同時也帶來了肌肉骨骼損傷的風險增加。而先前的損傷、體能以及技能水平的高低等多個因素可能導致損傷的發生。長期以來,孤立的肌肉拉伸是減少肌肉酸痛或肌肉骨骼損傷的有效干預措施; 然而,研究表明,為了減少傷害風險,運動醫學專業人士早已關注改善運動模式,而不是專注于恢復特定關節[2,3]。Nadler 等人[4]證明了損傷后的康復不應該只限制于到受傷區域,而是應該將運動員作為一個整體,以使運動員返回到最高水平的能力。術語“區域相互依賴性”用于描述身體各個區域之間的關系,以及一個區域中的功能障礙如何影響另一個區域的功能障礙[5]。因此,可靠有效的測量工具要求能夠同時評估多個功能區域。
FMS 作為一種損傷風險篩選措施似乎正在獲得國際認可[6],并已被納入其他篩選體系中[7]。迄今為止,有來自團隊研究最新的證據表明FMS評分與多個人群的損傷風險之間的關聯,包括美式足球運動員[8,9],大學生運動員[10],綜合格斗運動員[11]、軍事人員[12,13]、消防隊員[14]等,最近有研究利用FMS 確定普通成年人損傷潛在風險[15]。然而,FMS 作為預測變量,在損傷風險或臨床研究的使用中,應以可接受的心理測量特性為基礎。對于任何給定的診斷測量,其有效性的范圍受到可靠性的限制[16]。因此,可靠性是研究和臨床應用的先決條件。 FMS 測試通常由不同的評估者和在不同的時間點施用,有必要在評估者之間與評估者內部,測試環節之間與測試環節內證明其可靠性。因此到目前為止,出現許多關于信度爭議的研究。因此本文通過對FMS 信度研究與臨床應用方面總結,以便臨床醫生和研究人員能夠在使用這些動作質量測試措施時做出更加明智的決定。
Cook等描述的功能性運動篩查包含七個運動測試:過頭深蹲測試、跨欄步測試、直線箭步測試、肩部靈活性測試、直膝抬腿測試、軀干穩定性俯撐和轉動穩定性測試。FMS能進行實時現場測試,該篩查試圖識別人體基本的運動模式,這種模式同時測量關節活動范圍、穩定性和平衡能力。并已在臨床上用于預先篩選和運動損傷研究。通過使用標準化的評分標準對七個動作進行視覺評估,測試期間每個動作評分標準為0-3分,另外還包括三個排除性測試。FMS旨在評估動作質量,暴露出身體局限于不對稱性,最終整合得出相關結果。功能動作篩查不是用于診斷,而是用于評估基本動作的標準,一旦確定最嚴重的不對稱性或缺陷,即可根據需要采取更準確恰當的干預措施。FMS具體測試內容的更為詳細的描述見參考文獻[16,17]。

Gulgin[10]等讓20 名健康大學生分別完成七個動作測試,四名評估人員(三名新手一名專家)通過觀看視頻記錄的動作,對這七個動作測試獨立評分,來研究不同的經驗水平評估者之間的信度。利用Fisher’s Exact 檢驗來比較評估者之間的評分差異。 結果顯示評分者之間無顯著性差異(p=0.14),組內相關系數為(ICC 范圍0 到1,1表示完全可靠)為0.88,這表明評分者間整體具有良好至極好的一致性。Minick 等人[19]描述了FMS 新手(學習過FMS 標準化入門級培訓課程并實踐不超過一年)和專家(對FMS 的開發并具有超過十多年經驗的個體)評估者之間的信度。評分者用FMS 測試的視頻記錄評分。使用加權Kappa統計分析表明,在大多數測試中,評估者之間存在極好的或基本的一致性。作者建議FMS 可以可靠地用于評估運動員的運動模式,并識別哪些人可能有受傷的風險。Shultz[20]等利用視頻記錄39 名NCAA 不同專項的職業運動員完成每一項測試。采用6 名評估者進行評估,其中5 名經由已認證過的FMS 管理者進行培訓,一名本科生通過自學的方式學習FMS 并在數據收集結束前完成FMS 指導員認證。重測信度分析(ICC=0.6)表明信度相對較好,但Krippendorff’s α=0.38,表明評估者間信度較差,在比較評分時需謹慎。
Onate 等人[21]研究一名具有雙重認證的運動訓練師(具有4 年經驗的體能訓練認證專家(CSCS)和FMS 認證專家)與只有3 年經驗的CSCS 體能訓練師(是評估FMS的新手且沒有經過認證,只在評分前對評價標準進行一次閱讀)對16 名受試者進行實時現場FMS 評分信度,結果表明仍具有較高的評分者間信度(ICC=0.98),但跨欄步測試的Kappa 值為0.33,表明其信度低。Smith 等人[22]用4 名不同教育背景和經驗的評估者對20 名健康大學生進行2 次(間隔一周后進行第二次篩查)實時現場FMS 評分的信度研究。這些評估者包括入門級物理治療學生,已完成超過100 次FMS 測試,但未獲得認證(評估者1); 經認證的FMS 測試儀(評估者2); 運動訓練的教練員,生物力學和運動科學博士,但沒有FMS 的經驗(評估者3);以及沒有FMS 經驗的入門級物理治療學生(評估者4)。第1 次實時測試期間(ICC = 0.89; 95%置信區間[CI]:0.80-0.95)和第2 次實時測試期間(ICC = 0.87; 95%CI:0.76-0.94)的結果表明評分者間信度是好的。此外,評估者間的3 次清除測試具有100%一致性。Teyhen 等[23]將八名物理治療專業的實習生平均分為兩組(4 名用于評估,另外4 名用于觀察受試者的活動情況)對64 名受試者進行測試評價,從而確定評估者間信度。所有評估者在測試前接受20 小時的FMS 操作培訓。數據統計分析結果ICC=0.74 (95%CI:0.,60 -0.83),這表明FMS 評分者間具有中等的信度。
Gribble 等人[24]使用視頻錄制來評估總FMS 評分的評分者信度。40 名沒有近期骨骼肌損傷的參與者進行視頻記錄,完成7 個組件的FMS 測試。 以前沒有使用過FMS 的六名NHS 物理治療師參加了由經過認證的FMS 醫師提供的2 小時的培訓計劃。 評估者然后查看并評價完成40 位參與者FMS 測試的視頻錄制。結果顯示總體FMS 評分者內信度較好(平均ICC=0.754(95%CI:0.526 to 0.872)。Parenteau[25]等采用28 名13-16 歲的男子曲棍球運動員由四名獲得FMS 認證資格的人員進行評估。 評估者間的可靠性由兩名現場評估員(現場)評估。 對所有的測試過程進行錄像。 另外兩名評估者對視頻進行一次評估,然后在7 周后再次評估,以確定評估者內的可靠性。 使用加權Kappa 統計量分析每個FMS 分測驗的評分者內和評分者間信度,結果顯示:組內相關系數分別為0.960(CI 95%:0.916-0.981)和0.959(CI 95%:0.914-0.981),說明視頻評分者在總評分中表現出良好的可靠性。
Onate 等人[21]同樣對19 名健康的受試者進行的實時現場FMS 評分,結果表明仍具有較高的內部信度,但結果也顯示跨欄步(HS)產生最低的kappa 值(k=0.16);因此,HS 在實時現場評估方面的表現出很低的信度。這可能與評估者所處的觀察位置有著很大關聯。Smith 等人[22]使用實時評估來評價總FMS 評分的評分者內信度。他們報告不同專業背景和經驗的評估者內的信度,結果顯示具有良好的評分一致性。但他們也提出經過FMS 認證的人員并不能提高評分者內部信度。Waldron 等[26]通過非參數統計方法對FMS 子測試(共12 個,五個對稱測試2 個獨立測試)的可靠性進行評估,基于2 次試驗(間隔一周)----在賽前、賽季中和賽季末期,對12 名19 歲以下男子橄欖球運動員的運動能力(包括力量,跑動速度和跳高)進行了評分。兩次FMS 試驗之間沒有明顯差異(p> 0.05),大多數子測試達到100%“完全一致”,反映了FMS 作為篩查工具有良好的可靠性。
FMS 試圖采取全面評估人體的動作方式,并鼓勵臨床醫生在分析問題時不要局限于孤立的區域和單關節運動[17]。盡管在已經發表了使用FMS 的研究中增加了在臨床環境中的應用,但臨床應用的可靠性尚未得到充分證實。沒有明確的可靠性判定臨床醫生在使用這個工具來衡量身體變化的能力的方面是有限制的。 被測試人員的分數之間的差異可能是因為評分與實際變化之間的測量誤差。此外,由于對FMS 評分標準的解讀,臨床醫生之間的分數可能會有很大差異。因此,如果使用FMS 來檢測臨床環境中的內在可修改風險因素,則了解此篩選工具的可靠性和一致性至關重要。最近有人呼吁使用100 分的評價系統[26]來提高預測損傷風險的精度,并為干預策略提供補充方向以糾正有缺陷的運動模式。
在這些已經發表的文獻中,使用FMS 評分標準研究評分者間可靠性[10,19-21,27],但有研究調查評測者內部信度較少[22,26]。 雖然有發現評分信度水平中等至良好,但在臨床環境中的適用性方面存在顯著的局限性。FMS 的綜合得分≤14 通常被認為是個體潛在的潛在風險的閾值。以下段落突出了使用這一閾值的潛在局限性,包括研究之間缺乏一致性; 敏感性差;測試后的決策能力差。
Kiesel 等人[9]在46 名NFL 運動員的研究中利用受試者工作特征曲線(ROC)首次確定了的FMS 及格線,他們發現當:在一個賽季里FMS 綜合得分≤14 的球員受傷的幾率遠遠大于得分超過14 分的球員。Lisman 等[12]利用同樣的閾值來預測874 名海軍陸戰隊候選軍官在軍事訓練中的損傷風險。但這幾項研究都是在小而均勻的群體中進行的,這限制了在人群中的應用。例如,不同運動項目,性別,技能水平和成熟度水平的運動員的及格線可能會改變。Brown 等[29]對大學55 名三大球女性運動員進行損傷預測研究,結果發現FMS 評分低于16.5 則有很大的受傷風險。徐建武等[1]對北京市217 名不同項目的優秀運動員FMS 測試結果與損傷風險之間關系進行研究,結果表明FMS 測試總分小于等于17 分能夠很好的預測運動損傷風險。Perry等[30]對622 名健康的中年人(男性、女性平均年齡分為52.1 歲和48.8 歲)分別進行FMS 的七個測試,男性與女性的平均得分分別為14.5(SD=2.80)和14.0(SD=2.80),并同時證實了年齡與BMI 等與FMS 評分顯著相關,但這只是表明了中年人較為規范的參考值并沒有得出能夠預測中年人損傷的截斷值。不同的截斷值或研究無法準確識別任何的截斷值與損傷的關系,這加劇了FMS 評分的困境,同時也破壞了FMS 綜合得分≤14 分截斷值的有效性。
另外一個問題就出現了,因為FMS 被定義為“篩查”,通常用于高靈敏度測試的術語。FMS 評估方法作為損傷預測工具的六項研究的綜合分析指出0.24(95%CI :0.15—0.36)的敏感性和0.85(95%CI :0.77—0.91)的特異性[31]。24%的敏感度表明,有24%的運動員最終遭受損傷則說明FMS 預測結果是陽性的。換句話說,使用FmS 及格線≤14 將忽略76%最終受傷的人。 使用meta 分析,計算陰性似然比(—LR)的結果為0.87(95%CI 0.82—0.92)[31]。作為篩檢工具,報告的—LR 為0.87,表明FMS無法排除得分在14 分以內個體的潛在的損傷風險。 這些統計數據表明FMS 不是有效的篩查。
當FMS 作為傷害篩查時,另外要注意的是迄今為止研究中使用的損傷的變量定義。關于損傷的流行病學資料完全取決于損傷的定義。變量損傷定義使得個人處于不同的傷害分類,使得難以比較研究結果。對于最初的Kiesel等人[9]的研究,損傷定義為在傷病儲備名單上至少停留3周。相比之下,Chorba 等人[32]將傷害定義為(1)由于參與有組織的校際實踐或競賽設置而發生,(2)要求獲得醫療觀察或來自認證的運動訓練師,運動訓練學生或醫師的建議。因此,這兩個研究產生了非常不同的結果,因為它們采用損傷的定義是不同的。
目前現有關于信度的研究結果是相似的。總體上,FMS評分者信度是可靠的。這也說明FMS 可以被訓練有素的人使用。無論實時現場評估或者使用視頻錄像進行評估均有良好的信度。Moran 等[27]也有指出從實況觀察得到的評分信度優于從觀看視頻記錄的評分信度。然而,似乎新手評分者也存在良好的可靠性,且誤差處于可接受范圍內。在實驗室或模擬臨床環境特征執行的研究中,可能會產生可接受的預期結果,但不能充分代表通常的實踐環境,研究者可以引入改善研究中的偏倚風險的條件,從而改善內部信度[27]。迄今為止,關于FMS 研究方法的限制性和準確的數據統計(靈敏度和LR)足以令人擔心,它不能放心地用作預測運動損傷的篩選工具。FMS 作為篩選工具主要在較小同質的人群中進行了研究,意味著臨床有效性應限于那些同一群體。此外,FMS 的最近研究表明[33],使用單個FMS綜合評分可能是有缺陷的,因為FMS 的每個子測試是相對獨立的,每個子測試強調其自己獨特的構造。FMS 作為一個整體或部分的衡量結果是否能夠準確預測,應該繼續調查。
隨著康復專業人士在不同臨床環境中使用FMS,在實時監管中確定不同評估者的可靠性至關重要。那些通過研究創新出的篩查方法,必須通過高質量的、嚴格的研究對其進行考量,并且能被證實可以運用于實踐。而作為運動醫學相關的工作者,在將FMS 廣泛的實施于臨床實踐中去預測損傷應審慎。建議未來的研究,應考慮在實際的臨床應用中所遇到的設計特征,如:在評估深蹲動作中將足跟墊高時,腳底踩在板上的位置等。以及運用科學的方法對其測試的靈敏性進行補充說明,如:在執行測試中的-關節角度變化,受力情況、足底壓力中心或目標肌肉的放電情況的變化等。