【摘 要】 文章基于“國考”政策背景,采用問卷調查法,探討不同區域和等級公立醫院對績效考核指標合理性認知的差異。選取我國不同地區、不同等級的公立醫院為樣本,運用描述性統計和方差分析等方法,考察醫院管理者及醫務人員對績效評價指標在醫療質量、運營效率、持續發展、滿意度評價4個維度的合理性認知程度。研究發現,西部地區醫院和三級公立醫院對績效評價指標4個維度的合理性認知均高于東部地區醫院和二級公立醫院,其他地區或等級之間無明顯差異。研究創新性地揭示了“國考”政策實施過程中存在的區域合理性認知差異問題,驗證了醫院等級在合理性認知差異中的調節作用,為優化績效考核體系提供了實證依據。
【關鍵詞】 區域差異; 等級差異; 公立醫院; 績效評價; 合理性認知
【中圖分類號】 F234.3;R197.322" 【文獻標識碼】 A" 【文章編號】 1004-5937(2025)18-0102-08
一、引言
為進一步深化公立醫院改革,2019年1月,國務院辦公廳印發《關于加強三級公立醫院績效考核工作的意見》(國辦發〔2019〕4號,以下簡稱“三級國考”);2019年11月,在總結三級公立醫院績效考核工作經驗的基礎上,國家衛生健康委辦公廳和國家中醫藥管理局辦公室印發了《關于加強二級公立醫院績效考核工作的通知》(國衛辦醫發〔2019〕23號,以下簡稱“二級國考”)。以上文件旨在通過均等化的統一“國考”,促進公立醫院建立健全現代醫院管理制度,提升公立醫院治理能力與高質量發展[ 1-2 ]。
政策能否得到有效執行,認知起基礎性支撐作用[ 3 ]。類似一般性政策實施時碰到的普遍性阻礙,“國考”政策要想真正落實到位并發揮實效,基層工作人員能不能充分認識政策、深刻理解政策要點,繼而有效執行政策,成為亟待解決的問題。認知差異是影響政策執行者能動性理解和選擇性行動的重要因素[ 4 ]。認知差異與地區經濟發展水平、政策執行力度、醫院管理理念和文化差異、醫療資源供給和需求結構差異等主客觀條件息息相關。地區經濟發展不均衡不僅帶來財富分配不均衡,而且引發了我國基本公共服務供給地區不均等問題。此外,地區經濟發展與公共需求偏好之間也存在廣泛差異[ 5 ]。“國考”指標是政府“自上而下”的均等化考核,并沒有考慮地區經濟發展等客觀因素,因此調研不同經濟發展水平地區績效評價活動中各類參與主體(即公立醫院)對“國考”指標的認知差異,對更好地理解與分析績效評價結果有一定幫助。
“三級國考”和“二級國考”的操作手冊均由國家衛生健康委三級公立醫院績效考核工作領導小組主編,“二級國考”是在“三級國考”方案的框架基礎上進行差異化適應性調整。兩者均由醫療質量、運營效率、持續發展和滿意度評價4個維度組成,逐一對比分析考核指標計算方法后發現,“二級國考”的28個指標中除少部分指標在“三級國考”的55個指標中找不到對應外,其他均可以找到對應項(對“二級國考”“三級國考”中均存在的指標以下簡稱共同指標)。因此,調查不同等級公立醫院的醫務工作者對共同指標的合理性認知能反映不同等級醫院對國家公立醫院績效考核指標合理性的整體認知情況。
鑒于此,本文通過對公立醫院績效考核指標合理性認知的調查分析發現,不同地區醫院、不同等級醫院醫務工作者對公立醫院績效考核指標合理性認知存在明顯的差異性。本文的研究具有以下貢獻:第一,豐富了政策認知理論在醫療領域的應用,為理解政策落地的微觀阻力提供了新視角;第二,結合我國地區經濟發展不均衡的現實,分析政策“均等化”設計與地區差異化需求的矛盾,豐富了公共政策地區適配性的理論探討;第三,為績效考核指標動態優化提供了區域和等級適配視角,有利于促進跨區域醫療資源公平配置與功能協同。
二、理論分析與研究假設
公立醫院績效考核的對象是公立醫院,即基礎醫療衛生資源的供給端,有不少學者研究發現我國基礎醫療衛生資源供給水平存在區域差異[ 6-8 ]。參考張學波等[ 9 ]的研究,依據醫院所在地區可劃分為醫療資源主導型、經費主導型、環境依賴型、科研依賴型四類。
(1)醫療資源主導型地區的醫院發展對每萬人醫院數、每萬人醫院床位數及每萬人執業和助理醫師數等醫療資源依賴程度較高,這些地區的醫院可能對績效考核指標中門診人次數與出院人次數比、每名執業醫師日均住院工作負擔、醫護比、每百張病床藥師人數等指標的合理性賦予更高的分值。(2)經費主導型地區的醫院發展主要依賴衛生支出占比、教育支出占比和科研支出占比等政策傾向及財政經費支持,此類地區醫院可能對績效考核指標中收支結余、資產負債率、人員支出占業務支出比重等指標合理性賦予更高的分值。(3)環境依賴型地區的醫院發展對當地環境質量(如年平均PM2.5濃度)依賴程度更高,部分資源型城市、五線城市、經濟發展程度較低的城市由于醫療資源、財政經費和科技等方面的水平較低,空氣環境質量對醫療的支撐作用凸顯,此類地區的醫院可能對萬元收入能耗支出指標的合理性賦予更高分值。(4)科研依賴型地區醫院會申請更大規模的醫藥類專利,此類地區的醫院可能對每百名衛生技術人員科研項目經費、每百名衛生技術人員科研成果轉化金額等指標合理性賦予更高分值。總之,不同地區醫院發展依賴途徑存在結構性差異,對均等化的公立醫院績效考核指標的合理性認知也存在差異。因此,本文提出以下假設:
假設1:不同地區的醫院對公立醫院績效評價維度及指標合理性認知存在差異。
此外,即便面對相同的績效考核指標,不同等級醫院因功能定位差異、資源配置水平差異及發展訴求差異,對指標合理性的認知也呈現系統性分化。三級醫院定位為疑難重癥診療和科研創新,二級醫院更關注常見病診療和費用控制指標;三級醫院資源豐富,更容易達到科研、設備等指標要求,而二級醫院資源有限,可能認為某些指標脫離實際;二級醫院存在“爭級上等”現象,員工更認可三級醫院指標,視其為發展目標,而三級醫院員工則認為指標過于嚴苛。因此,本文提出以下假設:
假設2:不同等級的醫院對公立醫院績效評價指標的合理性認知存在差異。
三、問卷設計與數據收集
(一)問卷發放與數據回收
在研究啟動階段,筆者積極聯動有關單位多部門及業務分管領導,搭建多方協同工作機制,共同開展初步調研,夯實研究基礎。并通過廣泛征求各方意見,對問卷內容進行針對性修訂與完善,確保調研工具的科學性和有效性。正式投放問卷時,借助行業協會的專業權威渠道,向全國公立醫院目標人群定向推送,成功構建起具有代表性的大規模調研數據樣本庫。本次調研共發放問卷1 000份,經嚴格的質量篩查,剔除無效問卷后,最終回收有效問卷826份,回收率達82.6%,為后續研究提供了堅實的數據支撐。
(二)調研對象選擇
依據2011年國家統計局對我國東部、中部、西部和東北部四大經濟區域的劃分標準,本次問卷調研的醫院管理者與醫務人員均覆蓋上述區域,調研對象構成豐富。其中三級公立醫院626人,二級公立醫院162人,其他38人,確保了樣本具有廣泛的地域代表性與醫院層級多樣性。
(三)設計調研量表
在調研設計中,本研究構建了多維度的綜合量表,通過采集受訪者的基礎個人信息,并依據國家衛生健康委三級公立醫院績效考核工作領導小組制定的統一標準,針對“三級國考”55項指標逐一設計了對應的合理性測評題項。由于“三級國考”與“二級國考”指標結構一致(均包含醫療質量、運營效率、持續發展和滿意度評價),但前者覆蓋更全面,因此直接參照“三級國考”體系,將醫療質量、運營效率、持續發展和滿意度評價4個維度作為核心變量,并采用李克特5點量表進行標準化量化,確保對55項指標合理性的測評科學規范。
四、數據分析
(一)描述性統計分析
將參與本次問卷調查的醫院所在地區劃分為東部、中部、西部與東北部四區,占比分別為61.62%、10.29%、26.51%和1.58%,總體上樣本的地區分布是比較平衡的。變量的描述性統計見表1。熟悉程度得分為3.63,高于中間值3,由此可見調研對象對績效指標體系較為熟悉。
(二)信度和效度檢驗
采用Amos21.0對量表的信度分析后,按照Anderson amp; Gerbing的建議進行了驗證性因子分析,以確保整體測量模型的效度及擬合度水平。
1.信度檢驗
本文采用內部一致性系數(Cronbach's α)[" 10" "]和校正的項總相關系數(CITC)來分析測量題項的信度。4個變量的CITC值均大于0.7,量表的克隆巴赫系數Cronbach's α值大于0.7(見表2),問卷信度較高。
2.效度檢驗
本次調研所獲取的有效樣本量達到826份,該樣本量與測量題項數量的比值超過10,樣本量規模適中。對4個變量以及55個測量題項進行驗證性因子分析(CFA),未報告結果顯示:驗證性因子模型的整體擬合效果較好(CMIN/DF=4.002,CFI=0.928,GFI=0.772,AGFI=0.748,RMR=0.048,RMSEA=0.06,NFI=0.907,NNFI=0.924;GFI與AGFI略高于既定標準,其他指標均滿足要求)。此外,標準化因子負荷、CR與AVE均滿足要求,提示收斂效度較好[ 11-12 ]。
將4個變量的AVE平方根值與因子間相關系數絕對值的最大值進行比較后,未報告的區分效度分析結果顯示:醫療質量、運營效率、持續發展區分效度表現不夠理想(AVE平方根值與因子間相關系數絕對值最大值的對應數值關系分別為0.798lt;0.876、0.840lt;0.883和0.857lt;0.883);滿意度評價則相反,區分效度較好(AVE平方根值0.977gt;因子間相關系數絕對值的最大值0.796)。總體來看,醫療質量、運營效率、持續發展、滿意度評價4個主要變量具備較好的效度。對于區分效度欠佳的部分變量,由于指標體系的固定性和實踐要求,本文沒有進行指標項目的刪減,從后續的分析來看,這些誤差并沒有影響總體結果。
(三)醫院所在地區差異分析
采用單因素方差分析法,判斷不同地區的調查對象對醫療質量、運營效率、持續發展與滿意度評價4個變量的合理性感知是否有差異。調查對象被分為4組:東部地區(509人)、中部地區(85人)、西部地區(219人)、東北部地區(13人)。Levene's方差齊性檢驗結果顯示(見表3),醫療質量、運營效率和滿意度評價的方差齊性檢驗顯著性水平低于0.05,方差齊性假設不成立;持續發展的方差齊性檢驗顯著性水平高于0.05,方差齊性假設成立。
當方差齊性假設不成立時,使用校正的單因素方差分析。本文采用Welch方差分析來檢驗地區因素對醫療質量、運營效率和滿意度評價的影響,結果顯示(見表3),不同地區的醫院對醫療質量(Welch F(3,53.031)=6.427,p=0.001)、運營效率(Welch F(3,52.785)=6.259,p=0.001)、滿意度評價(Welch F(3,52.996)=5.914,p=0.001)的合理性感知具有顯著差異。方差齊性假設成立時,使用普通的單因素方差分析,結果顯示不同地區的醫院對持續發展的合理性感知具有顯著差異(F(3,822)=7.403,plt;0.0001),驗證了假設1。
方差分析結果顯示,對不同地區所構成的各組別而言,其間的差異具有統計學意義,但仍有必要進行組間的兩兩比較分析。具體而言,持續發展變量滿足方差齊性先決條件,選用Tukey檢驗進行組間兩兩比較;醫療質量、運營效率和滿意度評價3個變量不滿足方差齊性先決條件,選用Games-Howell檢驗進行組間兩兩比較。表4匯總了多重比較的結果。結果顯示醫療質量、運營效率、持續發展和滿意度評價的合理性感知4個維度均顯示東部地區低于西部地區,分別低了0.307(95%CI:-0.494~-0.119)、0.329(95%CI:-0.530~-0.128)、0.351(95%CI:-0.555~-0.147)和0.316(95%CI:-0.512~-0.120),其余地區之間沒有顯著差異。
(四)醫院等級差異分析
為了更好地研究不同等級的醫院對公立醫院績效考核方案的合理性認知情況,本文選取“二級國考”和“三級國考”中均存在的共同指標進行分析。共同指標篩選的具體方法為:(1)指標名稱和計算方法完全一致,例如資產負債率,計算公式為(負債合計/同期資產合計)×100%;(2)指標內容實質一致,例如“三級國考”輔助用藥收入占比指標和“二級國考”重點監控藥品收入占比指標,根據操作手冊,輔助用藥即重點監控藥品,兩個指標內容實質一致。選取的“二級國考”和“三級國考”均存在的共同指標詳見表5。
將表5選出的4個維度22個指標采用單因素方差分析法,判斷不同地區的調查對象對醫療質量、運營效率、持續發展與滿意度評價4個變量的合理性感知是否有差異。調查對象分為3組:三級醫院(626人)、二級醫院(162人)、其他(38人)。每組的描述性統計信息見表6。
經Levene's方差齊性檢驗,醫療質量、運營效率、持續發展、滿意度評價的方差齊性檢驗顯著性水平低于0.05,方差齊性假設不成立。方差齊性檢驗結果如表7所示。
當方差齊性假設不成立時,需要使用校正的單因素方差分析。本文采用Welch方差分析來檢驗醫院等級因素對醫療質量、運營效率、持續發展和滿意度評價的影響,檢驗結果如表7所示。不同等級的醫院對醫療質量(Welch F(2,91.384)=6.737,p=0.002)、運營效率(Welch F(2,92.205)=6.853,p=0.002)、持續發展(Welch F(2,90.678)=3.460,p=0.036)、滿意度評價(Welch F(2,90.463)=5.818,p=0.004)的合理性感知具有顯著差異,驗證了假設2。
上述方差分析顯示不同醫院等級的組間差異具有統計學意義,仍需要進行組間的兩兩比較。4個變量均不滿足方差齊性假設,均采用Games-Howell檢驗進行組間兩兩比較,檢驗結果見表8。對于醫療質量的合理性感知,三級醫院比二級醫院高0.366(95%CI:0.128~0.603),其余等級之間沒有顯著差異。對于運營效率的合理性感知,三級醫院比二級醫院高0.369(95%CI:0.128~0.609),其余等級之間沒有顯著差異。對于持續發展的合理性感知,三級醫院比二級醫院高0.281(95%CI:0.029~0.532),其余等級之間沒有顯著差異。對于滿意度評價的合理性感知,三級醫院比二級醫院高0.377(95%CI:0.116~0.638),其余等級之間沒有顯著差異。綜上,三級醫院在4個維度方面合理性感知均高于二級醫院,其他等級沒有差異。
五、結論與啟示
本研究通過調查問卷的方式,檢驗不同地域范圍和不同等級的醫院對公立醫院績效考核評價指標所蘊含的合理性在認知層面存在的差異表現,通過Amos21.0統計軟件分析發現東部地區的醫院在績效評價指標合理性認知的4個維度上均低于西部地區,其余地區之間沒有顯著差異,這可能與不同地區間經濟發展水平、人口流動、資源環境、財政投入、人口規模和密度、城市化程度差異有關。根據2023年度全國三級公立醫院績效考核結果,綜合醫院中獲評最高等級A++的16家醫院中,東部地區占12家(75%),而西部地區僅1家(6.25%),這一分布凸顯了西部地區醫院在政策執行中存在的“高政策認可低執行結果”悖論——盡管政策認知度較高,但實際考核表現與東部醫院差距顯著。造成這一現象的原因可能是:第一,政策認知與行動力的非對稱性。國外研究表明公眾對政策的高認知度未必轉化為高行動力[ 13 ],這一現象同樣適用于醫療政策領域,西部醫院雖普遍認同“國考”導向,但受制于資源稟賦與歷年積累的差異,難以快速響應指標要求。第二,人才優勢與政策解讀能力的區域分化。人才虹吸效應與更多的學術交流和政策培訓機會,使東部醫院具有更高的政策敏銳度,可快速解讀政策細節,積極探索政策優化空間。第三,政策博弈動因的區域差異。東部醫院在激烈的區域競爭中主動面對政策合理性,積極爭取制度紅利,西部醫院則因“追趕者”心態被動接受政策框架,將資源集中于對標東部現有標準,而非投入高成本的政策博弈。這種“強者愈強”的生態倒逼東部醫院將績效考核視為零和博弈——通過質疑指標權重、聯合行業協會游說政策調整,甚至利用區域話語權影響下一輪國考細則修訂,以維持競爭優勢。
研究還發現三級公立醫院在4個維度合理性感知均高于二級公立醫院,其他等級沒有差異。這可能與二級公立醫院定位模糊、政策培訓與解讀不足、資源配置與能力差異有關。首先,“二級國考”與“三級國考”同根同源,多數指標相同,加上二級醫院長期處在夾心層的尷尬位置,難以把“國考”指標與自身定位一一映射,合理性感知自然下降。其次,國家層面針對三級醫院的專項培訓、指標解讀會、臨床路徑試點數量遠多于二級醫院,二級醫院往往通過省級或地市級衛健委“二次傳遞”獲得信息,培訓頻次低、內容滯后,且缺少向上反饋通道,只能用“猜測”方式解讀指標,合理性感知被削弱。最后,三級醫院擁有更強的信息化、人才和財政資源,能把“國考”指標拆解到科室、個人,形成“指標—績效—薪酬”閉環,資源冗余度越高,越能對沖政策帶來的不確定性,從而感知政策更合理。簡言之,三級醫院因“身份清晰—培訓充分—資源充裕”三重優勢,能把“國考”政策轉化為可掌控的內部管理工具,故合理性感知高;二級醫院則在“身份模糊—信息滯后—資源匱乏”的夾縫中,感知到的是政策與現實的張力,而非政策本身的合理性。
基于此,本文的政策啟示在于:第一,建立差異化考核機制,例如可以根據醫院所在地區不同對公立醫院績效考核的相關指標賦予不同的權重,提高評價指標的精準性和適應性。第二,加強“國考”政策在二級公立醫院的宣傳與解讀力度,提升政策認同感,減少因“指標認同度低”導致的執行困境。第三,通過財政等手段縮小區域基礎醫療衛生資源供給水平差距,改善公共服務提供機制,增強公共服務提供能力,從根本上緩解地區差異對公立醫院績效考核帶來的不利影響。
【參考文獻】
[1] 宋慧敏,申飛虎.職業特征會影響三級公立醫院績效評價認知嗎[J].會計之友,2024(9):125-129.
[2] 申飛虎,王小合,楊豆豆,等.三級公立醫院績效考核一級指標間關系研究[J].中國衛生經濟,2024,43(1):63-66.
[3] 陳云,范艷存.新醫改以來公立醫院績效考核政策述評[J].中國衛生經濟,2018,37(7):67-70.
[4] 李輝.理性選擇與認知差異:運動模式下基層政策執行的變與不變:基于專項行動的多案例研究[J].中國行政管理,2021(9):78-86.
[5] 郭小聰,劉述良.中國基本公共服務均等化:困境與出路[J].中山大學學報(社會科學版),2010,50(5):150-158.
[6] 鄭文升,蔣華雄,艾紅如,等.中國基礎醫療衛生資源供給水平的區域差異[J].地理研究,2015,34(11):2049-2060.
[7] 鄧宗兵,吳朝影,封永剛,等.中國區域公共服務供給效率評價與差異性分析[J].經濟地理,2014,34(5):28-33.
[8] 俞佳立,楊上廣.中國醫療衛生資源供給水平的區域差異及影響因素[J].統計與決策,2021,37(6):69-72.
[9] 張學波,吳江楠,王振波,等.中國地級以上城市醫療服務韌性的時空分異與驅動力分析[J].地理科學進展,2024,43(7):1273-1289.
[10] CRONBACH L.Coefficient alpha and the internal structure of tests[J].Psychometrika,1951,16(3):297-334.
[11] HAIR J F,SARSTEDT M,HOPKINS L,et al.Partial least squares structural equation modeling (pls-sem):an emerging tool in business research[J].European Business Review,2014,26(2):106-121.
[12] FORNELL C,LARCKER D F.Evaluating structural equation models with unobservable variables and measurement error[J].Journal of Marketing Research,1981,24(2):337-346.
[13] HAMMAR H,JAGERS S C.What is a fair CO2 tax increase?On fair emission reductions in the transport sector[J].Ecological Economics,2007,61:337-387.