倪 星 李佳源
一
政府績效評估,就是運用一定的指標和方法,對各級政府及其工作人員的績效進行測量、考核。評估結果能反映其工作的實際效果,從而達到改進政府工作,提高管理效率和服務質量的目的。在公共管理實踐中,政府績效評估具有內部控制、結果導向和外部責任三項主要功能,是優化政府管理、提升公共服務質量的重要戰略工具,因而受到越來越多的關注。在長期的公共管理實踐中,逐漸形成了兩種主要的政府績效評估模式,即重視成本效益分析的客觀測量模式及強調滿意度等軟指標的公眾主觀評價模式①公眾主觀評價是指在政府績效評估中,通過公眾這一評估主體的主觀知覺獲取有關公共服務績效狀況的信息,有學者稱之為軟指標評估、公眾評議政府或者公眾參與的政府績效評估。出于討論方便考慮,本文不對這些不同的稱謂作嚴格區分。。20 世紀80 年代以來,伴隨著新公共管理運動的興起,在顧客至上和結果導向的理念引導下,當代政府績效評估的關注重心從繁文縟節、內部控制逐漸轉向外部公眾滿意,公眾主觀評價模式備受重視和推崇。美國許多地方政府開始將公眾滿意度作為衡量公共服務質量的重要指標[1],王小虎等人(Xiaohu Wang &Gianakis ,G.A.)的研究也發現地方官員傾向于采用公民對部門績效的主觀評價[2]。
公眾主觀評價模式的理論預設是公眾能夠知覺政府運作的實際績效并且公眾作出的評價與公共服務的實際績效狀況相一致。許多公共管理學者和實踐者在討論公眾主觀評價的意義時,總是想當然地把這種理論預設當做無需檢驗的公理,而將注意力更多地集中在論證公眾評估政府績效的意義、方法、操作流程和數據的獲取與使用等方面。[3]但事實上,如果要把公眾主觀評價作為政府績效評估的可靠工具,這一工具本身的效度如何是我們必須首先回答的問題。
20 世紀70 年代以來,陸續有學者開始關注公眾主觀評價的效度問題,他們圍繞公眾主觀評價是否可以準確反映公共服務的實際績效,以及影響公眾主觀評價的相關因素等問題展開爭論。我們認為,公眾主觀評價的效度是公共管理實踐者和研究者都不能忽視的重要問題。通過對主要來自美國《公共行政評論》(Public Administration Review)的權威文獻的梳理,本文力圖呈現這場爭論的來龍去脈,并結合中國實踐探討其中的啟示與借鑒意義。
二
從現有文獻來看,對公眾主觀評價效度的質疑主要源于有關不同的城市居民群體對公共服務質量滿意度差異的研究。坎貝爾和舒曼(Campbell ,A.&Schuman,H.)對美國15 個城市的調查發現,相比較于白人,黑人對警察、公立學校、垃圾回收和公園等公共服務的滿意度較低。隨后的相關研究也得出了相似的結論,如福勒(Fowler ,F.)發現黑人對警察服務的知覺和評價遠遠低于白人。盡管這些研究不是專門針對公眾主觀評價工具的效度問題,也沒有進一步論述種族因素在多大程度上影響了公眾對服務的滿意度,但是卻為該主題的研究提供了啟發和思路,即公眾主觀評價可能受到非服務特征因素的影響。后來,斯蒂帕克(Stipak,B.)、布朗和庫爾特(Brown,K.&Coulter,P.B.)、帕克斯(Parks ,R.)以及珀西(Percy,S.L.)等人均是沿著這種分析思路,研究種族、收入、年齡和受教育程度等個體特征及其他非服務因素對公眾主觀評價政府績效的影響。
學術界對公眾主觀評價的效度的爭論,肇始于斯蒂帕克在其博士論文中的研究發現。圍繞地方政府服務的差異是否對公眾評價產生影響這一問題,斯蒂帕克以洛杉磯大都會區為個案進行了研究,發現沒有充分的證據來證明服務質量影響了公眾對地方政府服務的主觀評價。斯蒂帕克隨后發表了幾篇有影響力的文章,對過度依賴公眾主觀評價的做法進行了系統深入的反思。
斯蒂帕克的研究思路是對具體公共服務項目的客觀績效與公眾的主觀評價進行多元線性回歸分析,進而測算兩者在統計上的相關性。他將公眾主觀評價作為因變量,服務特征(如破案率、被搶財物損失的挽回率、每萬人全職警察數量、每千人七類嚴重犯罪數量)、政府特征、社區特征以及個體特征(如受教育程度、收入水平、性別、種族、年齡)作為自變量,建立回歸方程。通過公眾對警察、公園、娛樂設施、垃圾回收以及其他基本服務作出的評價,獲取有關的主觀評價數據??陀^績效數據則是針對不同的服務項目,從服務產出、服務投入、行政工作量三個方面設置具體的指標來采集。統計分析表明,公共服務的特征不能很好地解釋公眾主觀評價的差異,公眾對公共服務質量的知覺似乎不能準確反映實際的情況?;诖?,斯蒂帕克認為,地方政策制定者不能簡單地根據主觀指標的績效信息來判斷社區服務質量的好壞。他認為:“這類指標的含義是不清楚的,先前一些研究已經表明滿意度或者評價指標并不總是準確地反映了政府提供的服務。而且,潛在的分析困難是很大的,這些困難并不都是可以解決的。因此,使用滿意度數據來評估服務績效可能會誤導政策分析者”。[4]
針對上述結論,斯蒂帕克認為可能的解釋包括四個方面。首先,公眾滿意度能否作為有效的績效衡量標準取決于它是否反映了服務的質量,而事實上,公眾對滿意度調查問題的回答并非只受到來自公共服務質量的影響。在對洛杉磯大都會區的研究中,斯蒂帕克把受訪者對警察、公園、垃圾回收等基礎服務的主觀評價看做服務特征、政府特征、社區特征和個體特征四組自變量的函數。通過多元回歸分析得到的數據無法支持服務特征影響了公眾對服務的評價的觀點,而且服務特征的客觀指標對公眾滿意度的預測能力較其他因素(如種族、年齡)小。其次,公眾并不總是能夠準確知覺政府公共服務的實際績效。只有當服務質量特別好或特別差的時候,公眾對服務質量的知覺才會受到影響并發生變化。再次,即使主觀評價和客觀指標之間存在關聯性,政策制定者也不能對主觀評價的數據作簡單化比較,進而推論不同地區間的服務質量的高低。斯蒂帕克認為,只有在主觀評價與客觀服務質量之間呈現單調遞增關系的情況下,我們才能利用主觀指標進行服務質量高低的排序。但是,由于公眾對服務的偏好和期望的復雜性,這種單調遞增關系往往是不存在的。換言之,高的主觀評價并不一定意味著高的服務質量。最后,政策制定不能過于依賴公眾主觀評價信息的原因還在于研究本身的“非實驗性”(nonexperimental )。[5]在斯蒂帕克看來,大多數關于公眾滿意度的民意調查沒有采用實驗研究的方法設置實驗組和控制組,因此,無法排除其他與服務無關的因素對公眾主觀評價的干擾。
在此基礎上,斯蒂帕克對公共管理實踐中應用公眾主觀評價問題提出了一些建議。(1 )在社區服務滿意度調查中,研究人員一般很難采用嚴格的實驗法排除與服務特征無關的因素對公眾主觀評價的影響。斯蒂帕克主張采用多元回歸分析解決非實驗性問題,借助多元回歸數據可以看出相關變量與公眾對城市服務評價的相關度。當然,多元回歸分析本身也無法克服非實驗研究方法帶來的推論困難,因為受訪者的某些個體特征變量是無法測量的,如個體對服務質量的期望,而這恰恰可能是影響公眾滿意度的一個重要因素。(2)如果確實要采用主觀指標測量服務的質量,調查者必須針對服務的具體維度來向服務使用者采集績效信息,而不是籠統地向他們調查對某項服務的總體滿意度。例如,當我們簡單地詢問公眾對警察服務的滿意度時,所得到的回答可能受到一系列因素的影響,包括受訪者是否是犯罪受害人,最近是否被警察攔截,被攔截時警察對待他的態度等。因此,必須根據服務的具體維度來設計調查問題,這樣才能獲得更為全面和有價值的信息。(3)總體滿意度這樣的績效指標反映了公眾對公共服務的態度,而這種態度反過來又會影響公眾對執法人員(如警察)工作的配合程度。因此,執法人員可以根據不同地區、不同時間、不同人群的滿意度差異靈活采用合適的操作標準。
總之,斯蒂帕克的貢獻在于通過經驗研究對公眾主觀評價與公共服務的客觀績效狀況相一致這個假設提出質疑。在他看來,正是因為沒有意識到公眾主觀評價的復雜性,許多城市管理者才會簡單地根據滿意度來推論不同區域或不同時段服務質量的變化。這個推論只有在公眾準確知覺服務質量的前提下才能成立,而經驗研究表明這個前提不一定能成立。
在《警察服務供給的主觀和客觀測量》一文中,布朗和庫爾特同樣通過實證研究的方法對簡單使用公眾主觀評價數據的做法提出質疑。在他們看來,如果政策制定者使用公眾滿意度調查的方法來獲取有關服務質量的信息,那就必須弄清楚:客觀測量和主觀評價在多大程度上產生一致或矛盾的結果?哪些變量能夠解釋公眾主觀評價的變化?在多大程度上,公眾的主觀評價反映了公共服務的客觀績效?他們采用的研究方法與斯蒂帕克類似,即通過對警察公共服務供給的客觀績效指標及公眾在該項服務上的主觀滿意度進行回歸分析,進而檢驗公眾主觀評價受到客觀績效指標的影響的程度。布朗和庫爾特構建了一個基于警察服務的公眾滿意度模型來呈現其研究的推進邏輯。在這個模型中,作者建立了以下三組假設:(1)公眾對警察服務的滿意度是在若干具體服務維度基礎上作出的,包括警察響應速度、警察接警方式、與其他社區相比本社區的警察保衛工作、與其他社區相比本社區警察的響應速度、與其他社區相比本社區警察的接警方式、與其他社區相比本社區的犯罪率等六個方面;(2)公眾在這些具體維度上的滿意度與其人口統計學特征、政治態度特征、接受服務經歷、對服務的期望等個體特征顯著相關;(3)警察服務的客觀績效指標與公眾滿意度直接相關。[6]
在接下來的研究中,布朗和庫爾特對阿拉巴馬州塔斯卡盧薩市16 個校區的538 名市民進行電話訪問獲取數據。在市民主觀評價數據的采集方面,研究人員詢問受訪者對警察服務的評價(分為優秀、良好、一般和差四個等級),了解受訪者對警察保護、警察響應速度以及警察接警方式的看法;同時,研究人員要求受訪者就上述方面與城市其他社區的情況進行比較,因為這種比較會影響他們對本社區服務的滿意度。為了測量市民對警察服務的期待程度,研究人員將之操作化為市民在社區夜間活動的安全感。對于客觀績效指標數據,研究人員從城市警察檔案記錄中獲得有關警察響應時間、出警數量、逮捕數、嚴重犯罪數等客觀數據。為了檢驗研究假設,布朗和庫爾特采用多元回歸分析技術,對公眾滿意度與警察服務的各個維度間的關系、公眾滿意度與公眾個體特征之間的關系以及公眾滿意度與客觀績效指標之間的關系進行分析。
數據顯示,模型中警察服務的六個細分維度(自變量)可以解釋市民總體滿意度(因變量)55%的變化。其中,響應時間、接警方式以及對警察保護的公正性的知覺三個具體維度在0.05 的水平上顯著,這說明公眾對警察服務的總體滿意度是基于這三個具體維度的知覺作出的。根據第一組假設檢驗的結果,布朗和庫爾特進一步分析了公眾滿意度的三個主要維度與公眾個體特征(包括年齡、種族、收入及受教育程度等變量)之間的關系。他們發現,公眾對地方政府質量的評價、公眾受侵害次數與公眾滿意度的三個維度均存在顯著相關性,對三個維度的變化具有良好穩定的解釋力。他們最后分析了客觀績效數據與市民主觀評價之間的關系。對公眾滿意度的三個細分維度和八個具體的客觀評價指標分別進行回歸分析的結果表明,二者之間并沒有顯著相關性。換句話說,主觀滿意度水平與客觀服務水平彼此之間似乎是獨立的。對此,他們給出了自己的解釋,公眾是依據自己的期望來看待公共服務的客觀績效的,這可能是主觀評價和客觀評估之間存在較弱的一致性的重要原因。
應該說,布朗和庫爾特的研究較斯蒂帕克更為嚴謹,尤其是他們意識到公眾對公共服務的評價可能是基于服務的不同方面而作出的判斷,并對公眾滿意度進行維度細分,避免了模糊的問題導致模糊化的回答這一弊端。另外,他們將公眾對服務的相對滿意度(相比較于其他社區)變量納入分析模型中,這也使得研究設計更為科學。當然,研究中的一些指標操作化不盡合理。例如,將公眾對警察服務的期待定義為夜間安全感,顯得頗為牽強。而且,進行電話訪問的時間是1981 年的3 月至5 月,而分析所用的客觀績效指標是1978 年1 月到1979 年9 月的數據,中間的時間差可能是導致主觀滿意度水平和客觀服務水平之間弱相關性的重要原因。另外,他們在統計分析過程中沒有區分直接接受公共服務和間接接受公共服務的受訪者,這也是后來一些學者抨擊的地方。
三
斯蒂帕克、布朗和庫爾特對公眾主觀評價效度的質疑發人深省,但也招致不少學者的反駁,包括布魯登尼、帕克斯、珀西在內的許多學者加入到這場爭論當中,他們分別從規范研究和經驗研究的層面提出自己的見解。
布魯登尼和英格蘭德(Brudney,J.L.&England,R.E.)從“合作生產”(coproduction)的角度重新審視公眾主觀評價模式的價值。[7]所謂合作生產,是指在公共服務供給上改變政府生產公眾消費的傳統模式,轉而由公共部門和公眾作為積極平等的合作者共同參與到公共服務的生產過程中。這種合作生產模式需要公眾主動表達服務需求,通過協商與公共機構在服務供給上達成一致。從這個角度講,民意調查是公眾表達意愿以及政府了解公眾對公共服務需求的重要途徑。同時,了解公眾的滿意度對綜合評價一項公共服務的績效是十分必要的。布魯登尼和英格蘭德認為,一項公共服務可以從效率、效益、回應性和公平性四個維度進行評價。在效率和效益維度,主要涉及公共服務的價格和數量,可以用一些硬性指標表示,行政官員掌握的信息較公眾充分,前者比后者更適合扮演評估角色。而在回應性和公平性維度,作為服務的消費者和公共政策的目標群體,公眾對服務質量、服務分配的知覺則為評價提供了更有價值的信息。通過政府為主的客觀績效測量和公眾為主的主觀評價,公共服務的供給將實現合作生產。由于公共服務的合作生產離不開這四個評價維度的信息,就決定了公眾主觀評價模式的不可替代性。而且,在他們看來,基于公眾的主觀評價模式(citizen-based measure )有助于彌補單純依賴客觀產出指標無法評估政策影響的缺陷。布魯登尼和英格蘭德的論述是有說服力的,他們從規范層面闡釋了公眾主觀評價的民主憲政價值及其對于民主治理的重要性。但由于缺乏實證研究,顯得對斯蒂帕克等人的質疑回應力不足。
此后,帕克斯、珀西各自發表了頗具影響力的文章,對公眾主觀評價和客觀績效測量之間的弱相關性提出了新的替代性解釋。帕克斯認為,主觀評價和客觀測量之間缺乏一致性的原因可能有兩個:一是所采用的客觀指標和主觀指標在概念上有區別,兩者的指向不同,也即兩套指標測量的并不是同樣的內容。[8]例如,警察保護等服務的財務支出和人員配備更多的是對投入的客觀測量,而公眾在評價服務質量高低的時候關注的是公共服務供給所產生的實際效果。即使采用逮捕率和犯罪率這些和公眾密切相關的指標來評估警察服務的質量,也是有問題的,因為它們不能涵蓋警察工作的全部內容。也許警察服務在某些客觀指標上的績效是出色的,但卻由于在其他指標上的表現不佳而降低了公眾的總體滿意度。二是由于使用了總體客觀測量(aggregated objective measures )的數據。事實上,公眾接受的不是城市總體的公共服務,而是自身居住或工作范圍內的公共服務。因此,與城市總體公共服務水準相比較,社區服務的客觀評價指標與公眾主觀評價之間具有更密切的關系。帕克斯認為,斯蒂帕克之所以得出客觀測量和公眾主觀評價之間不一致的結論,原因在于他使用轄區平均績效水平,忽視了轄區內部更小單位之間的服務供給的差異。在洛杉磯大都會區,警力資源分布在空間上呈現非均衡性,為了打擊犯罪,那些高犯罪率的區域往往配置了更密集的警力資源。簡單采用整個地區的平均績效指標數據顯得過于粗糙,且在多元回歸分析中可能降低這些客觀績效自變量的解釋力。因此,帕克斯主張采用社區服務的客觀績效指標進行分析,這類指標承載的信息和公眾的主觀感受是密切相關的。
珀西也認為,將公眾主觀評價與客觀績效測量之間的差異歸結為公眾知覺錯誤的做法是不妥當的,這種歸因只有在客觀績效信息是真實有效的前提下才能成立。他指出,斯蒂帕克等人表面上提出了對使用公眾滿意度作為績效指標的質疑,但實際上這些研究只是提供了服務供給的客觀測量沒有顯著影響公眾主觀評價的證據罷了??陀^測量之所以無法對公眾主觀評價產生顯著影響,原因在于對服務的客觀測量是一個情境因素,受到犯罪率、響應時間等指標的影響。而事實上,公眾不會特別關注這些因素。相反,個人與警察的接觸、媒體的報道這些因素反而可能對公眾知覺產生更強烈的影響。所以,不能由于主觀評價和客觀測量之間的弱相關性就草率地得出公眾評價不準確的結論。[9]
應該說,帕克斯和珀西的解釋頗具啟發性,但要回答“公眾對服務的主觀滿意度能否反映事實上的客觀服務績效”的問題,經驗數據的支撐是不可或缺的。
帕克斯認為,要探究主觀指標和客觀指標之間是否相關,研究者必須弄清楚兩者之間是如何發生聯系的。也就是說,投入是通過怎樣的過程轉化為結果輸出的?在這個過程中有哪些中間指標?公眾是如何構建他們對公共服務的評價的?為此,帕克斯選取警察響應速度和公眾對警察響應速度的知覺進行研究,建構了一個公眾對警察響應速度的知覺模型,該模型①模型中“+”、“-”、“?”分別表示兩個變量間的關系是正相關、負相關及方向待檢定。位于虛線左邊的變量為間接變量,虛線右邊的變量為直接變量,間接變量通過直接變量影響公眾對社區警察快速響應的知覺。(見圖1)區分了影響公眾知覺的直接因素和間接因素。
帕克斯的數據來源于對美國密蘇里州圣路易斯(St.Louis )大都會區的研究。他首先根據最近一段時間是否與警察打過交道將受訪者分為兩組,各獲得559 個和2 789 個個案。針對這兩組受訪者,帕克斯分別將影響因素與公眾對警察響應速度的知覺進行多元線性回歸分析,得到的結論和斯蒂帕克等人的相似,即機構記錄反映的客觀績效數據并沒有對受訪公眾的主觀評價產生顯著和直接的影響。例如,負責巡邏的正規警察比重的回歸系數只有0.006 ,即負責巡邏的正規警察的比重每增加10 個百分點,公眾對警察響應速度的知覺才提高0.06 分(5 分制)。而且,針對第二類受訪者(近期未與警察打過交道)建立回歸方程的判定系數只有13.8%,說明回歸方程的總體解釋力不理想。但是,帕克斯認為,這些發現并不足以支撐客觀績效改變不會導致主觀評價變化的觀點。在客觀指標和主觀指標之間存在一些中間變量,客觀指標通過中間變量進而作用于公眾的主觀知覺。如果只關注客觀績效指標對公眾主觀知覺的直接影響,將大大低估其實際影響力。

圖1 影響公眾對社區警察響應速度知覺的因素
為了檢驗這種假設,帕克斯詳細梳理了影響公眾知覺社區警察響應速度的各種因素,構建出主觀指標和客觀指標相互影響的單向模式網狀圖。在這個網狀圖中,客觀指標的變化將引起某些中間的客觀變量或主觀變量的變化,進而引起公眾對社區警察響應速度知覺的變化。例如,負責巡邏的正規警察的比重不僅直接作用于公眾對警察響應速度的知覺,也可以通過市民報告遇見巡邏警車的頻率、與警察交往經歷的不滿意率等內生變量間接地對因變量產生影響。為了準確測量各個自變量對公眾知覺的疊加影響力,帕克斯采用統計學中的路徑分析方法,分別計算了各個自變量對因變量的直接、間接和總的影響力。統計結果表明,原先與公眾知覺相關性弱的自變量通過其他變量明顯提高了與因變量的相關度。例如,負責巡邏的正規警察比重這一變量對因變量的直接影響系數只有0.09 ,但通過中間變量的作用可以將總影響系數提高到0.26 。這表明,將中間變量納入公眾主觀評價和客觀測量的相關性分析中顯得更為合理。因為社會現象之間的關系是復雜的,各種因素相互關聯并形成一個復雜的因果網。采用路徑分析方法測算客觀績效指標對公眾主觀評價的總影響力,這是帕克斯的創新之處,極大地拓展了既有的研究思路,也為斯蒂帕克等人的研究結論提供了一種新的解釋。
珀西則是通過一個警察溝通研究項目①該項目是美國印第安納大學政治理論與政策分析工作室開展的,他們通過對田納西州沃思堡市警察局收到的5 000 多個求助電話進行分析來采集數據。來檢驗公民知覺和評價公共服務的影響因素。他首先建立了一個理論框架(見圖2 ),認為公眾對特定服務行為的評價受到了他們對這些行為的知覺、對行為的期望、服務環境的特征以及公眾個體特征的影響。在此基礎上,公眾對特定服務的評價進而影響了他們對服務機構整體績效的評價。珀西認為,早前研究的不足之處在于沒有將公眾對服務的期望納入回歸分析方程中,而這是影響公眾對服務質量知覺的關鍵變量之一。
珀西首先搜集和分析了警察局電腦輔助調配系統中記錄的三個有效節點:第一個節點是求助電話被話務員分配到調配器的時間,第二個節點是警察被派遣的時間,第三個節點是警察到達現場的時間。第二個節點減去第一個節點得出求助者大致的等待時間,第三個節點減去第二個節點得出警察前往現場的時間,第三個節點減去第一個節點得出警察響應時間的總體估算。同時,為了收集市民的意見和評價,研究者通過電話訪談了1 200 多位最近兩周內打過求助電話的市民,調查內容包括市民與警察局話務員的交流、對響應時間的評價、現場警察的行動以及受訪者個體特征等。然后,研究者將求助電話的數據和電話采訪的信息進行配對,總共獲得625 個個案,形成了整份研究的數據庫。

圖2 公眾知覺和評價服務機構績效的理論框架
珀西的研究圍繞三個問題展開:(1)公眾對公共服務績效的知覺是否準確?(2 )公眾對服務績效的知覺在多大程度上影響了他們對具體公共服務行為的評價?(3 )公眾對特定服務行為的評價是否影響了公眾對服務機構總體績效的評價?對于第一個問題,珀西通過比較公眾對警察響應時間的估算和警察局記錄來檢驗。數據顯示,公眾估算的響應時間平均值為16.6 分鐘,而警察局電腦系統記錄的平均響應時間為15.5 分鐘,兩者數值上十分接近。另外,兩種測算方式的交互分類分析顯示兩者之間的相關系數達到0.44 ,這就證明了公眾能夠準確知覺警察響應速度的實際狀況。研究者還通過多元回歸分析來檢驗公眾主觀知覺的警察響應速度與實際響應記錄之間的關系。結果顯示,警察響應時間記錄自變量的標準化回歸系數為0.37 ,遠高于其他自變量的系數值,且通過0.01 的顯著度檢驗。而包括收入、種族、教育、性別等個體特征的自變量均沒有通過顯著性檢驗。期望變量與公眾對警察響應時間滿意度在0.01 的水平上呈正相關關系。相比較于參照組(即認為警察響應速度與預期一致的受訪者),認為警察抵達現場速度比預期要快的居民所報告的警察響應時間要少4.25 分鐘,認為警察抵達現場速度比預期要慢的居民所報告的警察響應時間要多8.5 分鐘,這驗證了作者在理論框架中提出的期望變量影響公眾對客觀服務績效知覺的假設。
為了回答第二個問題,珀西將受訪者對響應時間的知覺和期望、服務環境的特征、受訪者個體特征視作三組自變量,將公眾對響應時間的主觀滿意度評價視作因變量,進行多元回歸分析。數據顯示,公眾報告的響應時間和公眾主觀滿意度在1%的水平下呈負相關關系,公眾報告的響應時間變量的回歸系數為-0.01,即在公眾知覺中警察響應時間每增加10 分鐘,公眾主觀評價打分將降低0.1 分(5 分制),這說明公眾對警察響應時間的主觀評價在某種程度上是基于對實際響應時間的知覺。服務環境的特征(如社區犯罪率)對于公眾主觀評價沒有顯著影響,期望變量對主觀評價則有顯著影響?;貧w方程顯示,相比較于參照組(即回答警察響應時間與預期一致的受訪者),認為警察響應時間比期待要快的受訪者在對警察響應時間的滿意度上的打分要高出將近0.5分,而認為警察響應時間比期待要慢的受訪者在對警察響應時間的滿意度上的打分要低1.22 分。在受訪者個體特征方面,只有年齡和態度對公眾主觀評價存在顯著性影響。由此可見,公眾對響應時間主觀評價的變化更多的是通過知覺和期望變量得到解釋,公眾的主觀評價主要是受到其對機構行為的知覺和期望的影響。
為了回答第三個問題,珀西將公眾對警察行為的評價、對社區犯罪情況的知覺、服務環境的特征、公眾個體特征作為自變量,將公眾對警察服務的總體滿意度作為因變量進行回歸分析。結果發現,對接線員響應的滿意度、對警察響應時間的滿意度、支持警方工作的態度三個變量與公眾對警察服務總體滿意度之間存在顯著的正相關關系,而公眾對社區犯罪情況的知覺、受訪者的受教育程度與因變量存在顯著的負相關關系。這一發現證明,公眾對服務機構總體績效的主觀評價與其對特定服務行為的評價顯著相關。
根據上述數據分析的結果,珀西提出了三個重要的研究結論:(1)公眾擁有知覺服務機構績效的能力;(2)公眾對公共服務的評價是基于他們對服務質量的知覺作出的;(3)公眾對特定服務行為的評價影響著他們對服務機構總體績效的評價。與之前的研究相比較,珀西的獨到之處就在于,他將知覺變量和期望變量納入分析中,并證實這兩類變量顯著地影響了公眾的總體滿意度。
四
綜上所述,盡管公眾參與政府績效評估在許多國家和地區如火如荼地開展,但現有文獻仍未對公眾主觀評價的效度給出一個令人信服的答案,理論與實踐中的爭執仍將持續。首先,公眾能否準確知覺和判斷公共服務的實際績效?或者說,公眾的主觀評價與公共服務的客觀績效是否一致?其次,公眾對公共服務的主觀評價在多大程度上是基于對客觀績效的知覺?如果說公眾對公共服務的評價受到其他非服務特征的干擾,那么,評估工具的效度將大打折扣。最后,如何提高研究設計的科學性?在既有的研究中,學者們在對具體服務領域的選取、研究假設的操作化、統計工具的選擇上有很大的不同,究竟應該如何提高研究設計的精細化和合理性是值得進一步探討的問題。
基于對上述文獻的梳理,筆者認為,今后深化公眾主觀評價效度研究的時候必須注意以下問題:
第一,政府機構記錄的真實性問題?,F有文獻大多將主觀評價的效度操作化為在某項具體服務上公眾主觀評價與實際績效之間的一致性程度,其中公眾主觀評價一般是采用公眾滿意度調查獲取的數據,實際績效則是取自機構記錄。這種研究設計中暗含的假設是,政府服務的實際績效等同于機構記錄的績效。而事實上,由于數據本身的真實性問題,機構記錄不一定能夠準確反映政府實際績效狀況。從這個角度看,帕克斯等人的邏輯基礎是不牢固的。
第二,樣本的代表性問題。在帕克斯、珀西等人的研究中,基本都是采用簡單隨機抽樣的方法獲取樣本。在分析公眾主觀評價受何種因素的影響問題上,為了提高樣本的代表性,采用分層隨機抽樣的方法更為科學合理。
第三,在客觀績效指標的選取上必須更加慎重。斯蒂帕克和布朗等人所采用的客觀績效指標備受質疑,如諾森特布、哈羅和湯普森曾聯合致信美國《公共行政評論》編輯部,表達了對斯蒂帕克的研究結論的不同看法[10]。他們認為,斯蒂帕克選取的客觀指標與公眾主觀評價之間缺乏一致性是正常的,因為該研究采用“逮捕率”、“破案率”、“嚴重犯罪率”等指標,公眾一般不會關注這些指標,從而導致了多元回歸分析中公眾主觀評價與客觀績效指標之間的弱相關性。此外,必須區分投入指標和產出指標,多元回歸分析時采用產出指標可能會更加合理。
第四,分析工具的選擇問題。在前面介紹的文獻中,學者們都是選擇簡單的多元線性回歸作為分析工具。但實際上,公眾主觀評價與公共服務客觀績效之間的關系不一定是線性關系。根據經濟學的邊際效益遞減原理,隨著公共服務質量的提高,其帶給服務使用者的邊際效益會逐漸下降。從這個意義上講,公眾對公共服務的主觀評價與實際績效之間很可能是一種非線性關系。如果借助非線性相關分析和非線性回歸分析,或許可以更深刻地揭示兩者之間的內在聯系。
本文所引用的文獻全部來自美國公共行政學界的研究成果。在對公眾主觀評價效度的實證研究上,國內學術界相對滯后,現有研究基本上停留在規范層面,如討論公眾參與政府績效評估的必要性和積極意義[11],以及如何完善政府績效評估中公眾參與的機制設計[12],等等。應該說,這些規范研究對于弘揚公眾的主體地位、保障政府績效評估的公眾導向具有重大意義。但是,目前我國許多地方政府已經開始將公眾主觀評價納入政府績效評估體系中,并產生了重大的現實影響。為促進政府績效管理實踐的科學化,我國公共行政學界應當積極開展公眾主觀評價效度的實證研究,與國外現有的研究成果進行對話,以期為公眾參與政府績效評估的實踐提供更有力的理論指導。
[1]Poister ,T.H.&Streib,G.“Performance Measurement in Municipal Government :Assessing the State of the Practice”.Public Administration Review,1999 ,59(4).
[2]Xiaohu Wang &Gianakis ,G.A.“Public Officials'Attitudes toward Subjective Performance Measures ”.Public Productivity &Management Review,1999 ,22(4).
[3]Daneke ,G.A.&Klobus-Edwards,P.“Survey Research for Public Administrators ”.Public Administration Review,1979 ,39(5).
[4]Stipak,B.“Citizen Satisfaction with Urban Services :Potential Misuse as a Performance Indicator ”.Public Administration Review,1979 ,39(1).
[5]Stipak,B.“Are There Sensible Ways to Analyze and Use Subjective Indicators of Urban Service Quality”.Social Indicators Research,1979 ,6(4).
[6]Brown,K.&Coulter,P.B.“Subjective and Objective Measures of Police Service Delivery”.Public Administration Review,1983 ,43(1).
[7]Brudney,J.L.&England,R.E.“Urban Policy Making and Subjective Service Evaluations :Are They Compatible ?”.Public Administration Review,1982 ,42(2).
[8]Parks ,R.B.“Linking Objective and Subjective Measures of Performance ”.Public Administration Review,1984 ,44(2).
[9]Percy,S.L.“In Defense of Citizen Evaluations as Performance Measures ”.Urban Af fairs Review,1986 ,22(1).
[10]Rosentraub,M.S.&Karen Harlow,Lyke Thompson.“In Defense of Surveys as a Reliable Source of Evaluation Data”.Public Administration Review,1979 ,39(3).
[11]彭國甫、譚建員、劉佛強:《政績合法性與政府績效評估創新》,載《湘潭大學學報》(哲學社會科學版),2008(1)。
[12]陳振明等:《公共服務績效評價的指標體系建構與應用分析》,載《理論探討》,2009(1)。