冀翠萍,馬 亮
(1.山東省委黨校 公共管理教研部,山東 濟南 250000;2.中國人民大學 公共管理學院,北京 100872)
移動政務是電子政務和數字政府的前沿領域,各地正如火如荼地建設實踐,形成了政務微博、政務微信、政務小程序和政務客戶端(App)等構成的移動政務服務體系,有效解決了政務服務的最后一公里,政務服務效率和質量得到顯著提升。[1](p99-111)特別是政務App 作為一種獨立運行的移動端應用程序,面向公眾和企業辦事需求提供多對象、多流程的復雜業務功能,成為政府提供政務服務的主渠道和主陣地。[2](p31-38)因此,對政務App發展績效進行研究有重要意義。
移動政務是政務服務創新的重要手段,是溝通公眾與政府的重要橋梁,是影響公眾政府信任和公眾滿意度的重要載體,如果移動政務服務績效欠佳,就會顯著負向影響用戶的使用意愿和體驗。[3](p198-207)當前,各政務App績效表現怎樣,又如何去評價和測量發展績效?現有研究認為技術質量、服務質量、安全性能等是衡量電子政務服務質量與滿意度的重要指標,[4](p60-64)提出可通過政務App的系統兼容度、穩定度、便捷度、流暢度等過程化指標進行衡量。[3](p198-207)但是,當前的研究實踐較多采用問卷調查、訪談等方式獲取數據,問卷和訪談屬于小樣本研究,樣本范圍受到抽樣條件等限制,并且都是封閉式的、高度結構化的設計,其指向性、主觀性較強,調研過程易受到外部因素的干擾,數據的客觀真實性難以得到有效保證。盡管有部分研究實踐采用了體驗團、體驗官等形式,[3](p198-207)然而,政務App 要面向海量用戶群,他們的手機型號、操作系統、使用環境、網絡速度、年齡差異、數字素養等均不一致,僅靠數量較少的體驗團、體驗官難以完整、準確、全面獲得真實評測結果。
政務服務的對象是公眾和企業,政務服務績效的優劣也應該由公眾和企業來評價。2019 年國務院政府工作報告提出建立政務服務“好差評”制度,就是要采集和歸集公眾和企業對各類政務服務的真實評價信息,[5](p51-58)然而在實際推行中卻遭遇數據收集困難的尷尬。[6](p14-22)移動互聯網的發展創新了收集公眾真實意見的方法,比如,用戶評論就是評價移動服務質量的重要數據,但是對其開發和利用得還較少。[7](p71-85)政務App 在手機應用商店上架推廣,用戶可對應用商店中的政務App 發表評論,這些評論數據內容豐富、更新及時、易于獲取,并且只有那些留下深刻印象的應用才會促使用戶有動力去發表評論,因此這些評論數據能夠真實表達用戶最為關心的內容。[8](p43-53)
當前,31 個省、直轄市和自治區以及新疆生產建設兵團均推出了基于App的移動政務服務,積累了大量用戶評論數據。這些數據是從用戶體驗出發對政務App 服務效能的檢視,可以測量政務App服務質量,可以用于完善移動政務的績效評估。本研究采集各省級政務App的用戶評論數據,分析這些數據在不同手機平臺上的表現,以此探求將用戶評論數據引入政務App績效評估的可行性。
近年來我國政務App 發展迅速,應用數量、服務模式不斷增長創新,但卻并沒有相應提升公眾的使用率和參與度,某些時候對政務App服務質量的評價甚至有所下降。[1](p99-111)研究發現,政務App 存在更新維護不及時、運行不順暢等技術問題,[9](p83-91)這類基礎問題的存在,導致用戶對政務App 無感,難以形成“用戶黏性”,無法發揮出其作為政務服務提供和政民互動渠道的價值和作用,[10](p76-81)這可能與政府較多關注政務App 的建設而忽視后期維護和完善有關。[11](p74-84)政務App建設發展特別需要發揮績效評價的“指揮棒”作用,引導各級政府部門重視建設和發展中的薄弱環節和關鍵問題,對癥下藥地進行整改。[1](p99-111)
學界已經關注到政務App 績效問題的研究。首先,研究關注到政務App 績效評價體系的構建。朱春奎等對電子政務研究的梳理總結發現,電子政務服務質量與滿意度的評價主要包含信息質量、服務質量、組織表現、技術質量、安全性能、滿意度六個方面。[4](p60-64)徐緒堪等構建了政務App 服務效能的評價指標體系,還組建了評估團隊,對樣本App進行了參與式體驗和評價。[3](p198-207)其次,研究關注到要從用戶感知出發評估政務App 發展績效。Hung 指出,移動政務帶有強制性使用色彩,感知有用性和感知易用性可以顯著影響用戶的滿意度。[12](p33-44)王法碩等研究發現系統質量是顯著影響政務App用戶滿意度的重要因素,政務App系統能否正常訪問、運行是否穩定、設計與功能是否合理直接決定了用戶的使用意愿。[13](p65-74)最后,學界和業界積極探索政務App 績效評估的實踐。復旦大學數字與移動治理實驗室構建“掌上好辦”指標體系,從可得性、有用性、易用性、滿意度、安全度五個方面,對省級移動政務App 發展情況進行評測,同時關注到技術和用戶的重要作用,設立“技術性體驗”和“用戶體驗評價”指標并占有一定權重。[14]
綜上所述,研究已經關注到政務App服務質量的重要性,以及用戶感知的重要作用。但是,已有研究多是從政務服務供給側出發,站在政務App的外部對可獲得的功能模塊進行評測,考察政務App有什么,比如有哪些信息、服務、渠道和方式。[7](p71-85)但是,政務App 服務的對象是公眾和企業,公眾和企業自有對政務服務的主觀感知和評測,也就是用戶的使用效果,這是從需求側出發對政務App服務質量的真實評價,如果用戶側評價指標缺失將導致評估的完整性和全面性受到挑戰。既有研究發現,公眾與政府的“合供”可以很好地幫助政府提升服務質量,對于電子政務發展具有顯著推動作用。[15](p68-89)政務App發展有賴于用戶提供的反饋,用戶的積極參與對于提升其質量和績效至關重要。
實際上,大數據時代的到來,為政府更好感知公眾、與公眾互動提供了可能。美國聯邦政府實施了一項數字分析計劃(DAP),對政府提供的移動政務建立數據跟蹤,實時獲取政務App 下載量、平臺商店用戶評論等,并以此作為移動政務績效評估和服務優化改進的支點。[16](p97-107)公眾的政務服務使用行為、使用頻率、在線評論等反映了公眾的問題、需求、態度和意愿,這些海量數據可以幫助政府發現公共服務中存在的問題,決定如何提供更好的公共服務,[17](p1011–1026)實現“以評促建”“以評促改”,發揮績效評估的積極作用。
私營部門較早注意到用戶評論對商品或服務發展的重要作用,認為用戶的體驗和使用反饋是商品優化改進的支點,用戶的吐槽和意見建議是App迭代更新的重要指南,因此私營部門會將各個渠道的用戶評論視為“富礦”。有研究對攜程酒店、豆瓣影評、美團等用戶評論數據和評論行為進行挖掘,為商家精準營銷提供決策依據。[18](p99-104)[19](p99-104)[20](p85-93)
現有研究還關注公共服務中用戶評論數據的應用。Herbst 等利用Yelp 中美國40 個城市消費者的評論數據,使用自然語言處理技術分析評論中的情感和心理狀態,探討群體收入、環境安全、環境質量、孩子與老師之間的互動等影響父母選擇托育機構的因素。[21](p288-306)張文亮爬取了39所省級公共圖書館在大眾點評App上的評分和用戶評論,揭示用戶評論的傾向性,分析公共圖書館評價要素之間的關系。[22](p51-60)第三方應用市場上的評論數據也開始得到重視和利用。[23](p53-61)范建軍以移動知識付費平臺“得到”為例,對用戶在App Store上的評論和評分進行分析,發現用戶最為關注的是內容和功能,也較為接受付費內容的價格。[24](p67-70)張莉曼等以學術知識類App“丁香園”的用戶評論為樣本,進行主題識別分析和語義關聯分析,為App運營者完善平臺功能提供借鑒。[25](p155-162)
與私營部門廣泛使用用戶評論的現狀相比,公共部門卻少有效仿。僅有網絡輿情、網絡問政的應用相對充分些,分析網民評論中的情感極性、[26](p37-42)評論主題語義網絡,[27](p77-90)幫助政府部門理解網民觀點、情感的變化,為輿情處置提供參考。令人欣慰的是,已經有研究者開始關注到政務服務中的用戶評論數據。比如,劉桂琴獲取武漢市政務公開數據網上的用戶評論數據,分析定位用戶痛點、用戶關注以及政府工作中存在的問題。[28](p18-23)公眾的在線評論資源豐富也很有見地,提供了關于公共服務的各方面意見建議,是傳統統計調查方法難以代表和覆蓋的,基于對在線評論數據的有效挖掘,可以聚合公眾意見,將公眾反饋有效納入公共服務的改革范疇。[29](p1011–1026)
利用應用商店中各政務App的評分評論數據,可以觀測各地區移動政務服務質量。但是,各手機平臺面向用戶群不同、使用習慣有差異,加上用戶生產內容過程中傳統意義上的“把關人”缺失,用戶評論質量參差不齊,各手機平臺上的用戶評論是否都值得花力氣去挖掘?如果這些數據價值密度低,無法有效反映用戶意愿和需求,那就很難為政務App運維者提供有用可信的反饋信息。[30](p55-63)因此,本研究需要去衡量和評價承載用戶評論的信息來源(手機平臺)質量,最終篩選出較高質量的平臺,從而對高質量平臺上的用戶評論數據進行挖掘分析。
于文軒和馬亮建構了一個對第三方評估進行再評估的分析框架,認為可以從獨立性、相關性、效度、信度、易懂性、功能性等六個方面對第三方評估進行評估,[31](p144-171)并對中國兩個大型公共服務績效測評項目進行比較。本研究中各手機平臺形成的用戶評論可看作是對政務App的第三方評估,當前就需要對這些手機平臺進行再評估,因此本研究可借鑒其分析框架。
信度和效度是評價績效的兩個重要標準。信度指可靠性,即不同測量者使用不同測量方法測量的結果應該具有很高的一致性。如果測量的信度不高,那就說明測量的結果是不可靠的、不穩定的,被評價對象就會接收到差別較大的“績效信號”,他們在彷徨猶豫中不知道該選擇和相信誰,測量的效用就會大打折扣,甚至會影響被評價對象對于評價主體的印象和態度。效度是評測程序、指標、方法等是否科學,能在多大程度上客觀地反映現實,可以通過觀測評價原數據是否公開、統計技術是否科學、樣本量是否充足等,獲得對效度的度量。
基于信度和效度的度量標準,我們構建本研究的評價模型(如圖1)。我們認為手機平臺上政務App 的用戶群越廣泛、用戶評論越積極、樣本量越大、數據內容越豐富、用戶評論越客觀、用戶評論可持續性越好,用戶評論信息來源的質量就越高,就越適合用于移動政務服務績效的評估。

圖1 信息來源質量評價模型
滲透性。下載量是評判一個App 運維質量的關鍵指標,高下載量也是信度與效度的重要保障。消費者在消費過程中會表現出馬太效應,用戶受到應用程序下載量的影響,通常選擇高下載量的應用程序使用。[32](p742-749)因此,App 運營者非常看重App下載量指標,也較多采用市場推廣的手段提高下載量。本研究以省份為行政區劃的政務App,其用戶群有較強的地域性,省份與省份之間、省份與各直轄市之間的人口基數差異較大,因此不能單純考察用戶下載量這一絕對值指標,應該體現出不同人口基數下的下載量差異,用滲透性表征更恰當,滲透性能夠有效地測量政務App 在本地用戶群中的普及和流行程度。
活躍度。評論數量是用戶就某一產品或服務發表的評論數的總量,是用戶人數的直接體現,也是產品或服務信息量的間接體現。Duan 等對電影的在線評論研究發現,電影評論的數量和電影票房之間有相互影響關系。[33](p233-242)Chen 等發現評論數量能造成一種積極的觀察學習效應,評論數量越多,越促使更多的用戶有意愿去知曉和了解該App。[34](p238-254)評論數量顯示了用戶對該產品或服務的關注程度,可以作為其影響力的重要指標。[35](p162-171)對于政務App來說,評論數量同前述的下載量一樣,還要與地區實際相結合,考察政務App的影響力實際就是考察有多少用戶積極進行評論,即用戶的活躍度。活躍度越高,代表用戶越積極發表評論,越能為政務App績效評測提供數據資源。
客觀性。政務App績效受地區經濟發展水平、互聯網普及程度、地方數字治理能力等影響,在客觀上是不均衡的,《省級政府和重點城市一體化政務服務能力(政務服務“好差評”)調查評估報告(2021)》《2021 年省級移動政務服務能力調查評估報告》均顯示當前省級政務發展績效有“好”“中等”“差”,總體呈現倒U 形的正態分布。Sussman 等認為,信息的客觀屬性是體現信息質量的重要指標。[36](p47-65)因此,我們預測不同手機平臺上的各個省級政務App評價也應該服從正態分布,意味著測量指標能夠真實有效地度量出每個樣本的績效。
極端性。對Yelp旅游類產品的研究發現,用戶更喜歡極端評價,極端評價能夠表達評論者觀點的鮮明方向,比中立評價更能影響后續用戶的選擇。[37](p67-83)對亞馬遜網站手機產品的研究發現,極端評價對評論有用性有積極的正向影響。[38](p16-27)我們認為,對政務App使用無感的用戶一般不參與評價,而那些對政務App使用感觸較深(糟糕或愉快)的用戶會參與評價,通過極端評價反映用戶態度,極端評價的評論中往往會深入對問題、需求和痛點的描述。因此,極端性的評論有更多的特征點可以給后續用戶或者App運營者參考,更能有效地體現評論的價值。
有用性。由于網絡的開放性,用戶發布在線評論的成本很低,導致部分虛假、無效信息充斥于在線評論,甚至部分評論數量多、噪音大,無益于其他用戶的決策和運營者服務的改善,反而增加評論的無序性,降低評論的可信性。因此,評價用戶的評論文本是否有用,是否真正表達用戶體驗,開發運營者能否從評論文本中提煉出優化完善的建議點,這是觀測用戶評論效度的重要手段,也是測量信息來源質量的重要指標。
可持續性。應用商店在提供服務的同時,負有網絡生態治理的平臺主體責任,因此應用商店設置刪除評論的功能,對產生的攻擊性言論、反黨反社會言論等進行必要的清理。但是,部分應用商店將這種功能進行市場化運作,受利益等因素的驅動,將刪除用戶評分評論的權力泛化、擴大化,這就影響評分數、評論內容等數據的抓取和分析,也影響用戶對該平臺的認可度。因此,將用戶評論在平臺上的存活情況視為評論利用的可持續性,這是應用商店信度的重要保證,是測量信息來源質量的重要指標。
隨著各地政府加快推進移動政務服務的集約化建設,省級移動政務客戶端日益取代市縣鄉和職能部門單獨開發的App,而成為地方移動政務的主入口。因此,我們對省級移動政務服務App進行研究,來考察用戶評論數據如何用于“好差評”制度實施。
數據采集面向App Store和Android平臺(華為、小米、VIVO、OPPO),獲取應用商店中31個省(自治區、直轄市)和新疆生產建設兵團(不含港澳臺)開發和運營的移動政務App 中的相關數據,政務App以國家政務服務平臺中的地方移動政務和各省份政務服務官網提供的鏈接為準(如表1),采集App評分、用戶評分數、用戶評論數據、App下載量、App評分等級分布等數據,數據采集截至2021 年8 月7日。因樣本數據類型較多、數據更新頻率高,所以在采集期內樣本數據會略有波動,但是不影響本文的主要研究發現。七麥數據平臺匯聚了移動客戶端的各類用戶評論數據,為本研究提供了主要數據來源。在本研究中,我們主要關注如下數據。

表1 政務App樣本一覽表
App評分。App評分是用戶群體對該應用的綜合定量評價,可以體現用戶對App 的認可程度,同時也是應用商店對App 進行推廣排名的參考指標。[39](p193-200)App 評分取值1~5 之間,是連續數值型變量。
用戶評分數。用戶對政務App 的星級評定會計入用戶評分數。評分數過少,App 評分就缺乏客觀性和精準性。因此,本研究剔除少于20個用戶評分數的App評分,用戶評分數以次為計量單位。
App下載量。App下載量是用戶下載該App的實際次數,用戶每下載一次,App 下載量數據增長一個,下載量數據以萬次為計量單位。
用戶評論數據。用戶自主發表的對App 應用的評論。評論數據由中文字符、英文字符、標點符號與表情符號等組成,鑒于直接抓取的用戶評論數據噪音較大,本研究需要對用戶評論數據進行清洗,剔除廣告評論、無效評論、純表情符號、開發者回復。特別說明的是,iOS 平臺提供了開發者與用戶的互動渠道,以便開發者對用戶提出的問題和建議進行反饋,也就是“開發者回復”,這部分數據不屬于用戶產生數據,無益于本研究的分析,因此剔除開發者回復評論數據。用戶評論數據是非結構化文本數據,對評論數據的采集處理,同時可以獲得用戶評論數。
評分等級分布。應用商店通常設定1星到5星五個評定等級,用戶評分時選擇不同星級,應用商店根據各用戶評分星級生成App總體評分,通過對各應用商店的數據計量發現,App總體評分值=(5*5 星評分數+4*4 星評分數+3*3 星評分數+2*2 星評分數+1*1星評分數)/當前總評分數,該測量辦法既體現了不同星級的權重,也充分考慮星級間的差異性,評分等級分布顯示了五個評定等級各自的評分數據。需說明的是,小米應用商店設定“差評”和“好評”兩個等級,無法獲取本研究的研究特征,因此,我們未采集和分析小米應用商店。
其他數據。本研究涉及的地區人口數據來源于國家統計局網站,以各地區2020 年末常住人口(萬人/單位)為來源數據;省級電子政務發展水平數據來源于中央黨校(國家行政學院)電子政務中心發布的《省級政府和重點城市一體化政務服務能力(政務服務“好差評”)調查評估報告(2021)》中的省級政府調查評估總體指數。這些數據均為政府統計數據或政府委托的權威調查報告,具有較強的可靠性和穩定性。
本研究中用i代表手機平臺的編號,用j 代表樣本App 的編號,五個手機平臺各自都有對樣本App的評分,用Si,j表示每個App在一個手機平臺上的評分,下載量用Di,j表示,評分數用SDi,j表示,評論數用RDi,j表示,地區人口總數用Totalj表示。
滲透性(Penetration)。手機平臺在本地區用戶中的普及和占有情況,取值為:政務App 下載量與本地區人口總數的比值,具體數值化是Pi,j=Di,j/Totalj。滲透性越高,代表該平臺輻射和覆蓋的用戶面越大,對用戶的影響也就越大。滲透性計量單位為百分比。
活躍度(Activity)。手機平臺用戶參與政務App 評價的情況,取值為:政務App 評分數與政務App下載量的比值,具體數值化是Ai,j=SDi,j/Di,j,指的是已經下載App的用戶群中有多少用戶參與App使用的反饋評價。活躍度計量單位為萬人。
客觀性(Objectivity)。手機平臺各政務App 評分分布情況,用評分數據是否服從正態分布來表征,客觀性的考察以Shapiro-Wilk檢驗結果SWi,j為依據,SWi,j>0.05,說明評分數據服從正態分布,否則不服從正態分布。
極端性(Polarization)。政務App評分內部極端評分的占比情況。5 個評定等級中,1 星為極差,5星為極好,統計每個App評分中的1星、5星評分的總數為極端評分數SEi,j,看極端評分數在總體評分數中的占比情況,具體數值化Pi,j=SEi,j/SDi,j。極端性計量單位為百分比。
有用性(Usefulness)。評論文本有多種度量指標,包括評論發表時間、評論字符串長度、評論文本語義特征、評論情感特征等。Mudambi 等嘗試過用評論字數來衡量評論質量,結果發現,評論的篇幅越長,涉及商品的介紹便越多,消費者也會獲得更多的有用信息,正向影響評論有效性和購買決策。[40](p185-200)還有學者對評論文本長度與評論有用性的關系進行了深入研究,證明評論的文本長度與評論有用性呈顯著的正相關關系。[41](p598-612)Huang等學者發現,文本長度對評論有用性的影響有一個臨界值(144 詞),閾值內為正向影響,超過這一閾值,其影響就會顯著減弱或幾乎不存在。[42](p17-27)本研究對每個手機平臺上的政務App 評論文本進行文本長度的計量,并取均值為Li,j,當Li,j<144 時,Li,j越大說明評論文本的有用性越強。有用性以詞為計量單位。
可持續性(Sustainability)。用戶評分數不同于評論數,是因為用戶在評分時可以選擇既評分也評論,也可選擇只評分不評論,所以App 的評分數通常意義上要大于或者等于評論數。如果出現評分數小于評論數的情況,通常就是應用商店刪除用戶評分導致的。因此本研究用評分數與評論數的差值就能顯示是否存在刪除評分的情況,用差值在評分數中的占比就能顯示刪除評分的程度,也就是用戶評分評論的存活程度,具體數值化是SSi,j=(SDi,j-RDi,j)/SDi,j。可持續性以百分比為計量單位。
各手機平臺對政務App 的評價情況與官方的評估報告之間是怎樣的關系,這是能否將政務App評分納入政務服務“好差評”的重要因素。要兼顧各個手機平臺的評分貢獻,得到每個樣本App的總評分Scorej,本研究認為下載量是用戶需求和認可的表現,在計算總評分時需要充分考慮下載量所占的比重,并將其作為評分值的系數。下載量Di,j與地區總人口數Totalj比值為加權系數Wi,j,樣本App在應用商店中的總體評分就可以通過以下公式獲得:Scorej=
《省級政府和重點城市一體化政務服務能力(政務服務“好差評”)調查評估報告2021》中關于省級政府調查評估的總體指數是連續數值型變量,將樣本評分Scorej與省級政府調查評估的總體指數進行相關性分析,發現兩者在1%水平上顯著,相關系數為0.708,表現為強相關。也就是說公眾對政務App 的總體評價與權威調查報告的趨勢基本一致。因此,公眾的評價可以用于衡量政務App發展的績效,對移動政務“好差評”評價有可用性。
依據前述的信息來源質量評價模型,我們對樣本數據進行六個方面的分析。
1.滲透率分析。
樣本缺失iOS 版本、Android 版本、小米數據、VIVO數據等,會帶來樣本個數的變化,因此樣本的個案數量不一致。描述性統計分析(如表2)顯示,華為平臺滲透率均值58.75%,是所有手機平臺中最高的;iOS 平臺滲透率均值5.79%,是所有手機平臺中最低的。

表2 主要變量的描述性統計分析
數據顯示有多個地區的滲透率大于100%,這可能有幾個方面原因:一是用戶存在反復下載的情況。有調查顯示,用戶人均安裝App 數量約40 個。政務App具有低頻特點,公眾需要辦理政務事項的時候下載并使用,使用完畢后為了減輕手機運行負擔又進行卸載,直到下一次有需求時再次下載安裝。所以,這會造成同一個用戶多次下載,而高下載量也從側面反映了公眾的需求以及政務服務能夠滿足公眾需求的能力。二是地區外用戶因為跨省辦理、跨地區辦理等原因,也需要安裝本行政區域外的政務App。本研究中的滲透率將本行政區域內的常住人口界定為測量基數,但是隨著人口的頻繁流動,跨地區跨區域辦理需求旺盛,政務App的便捷性可以滿足這種需求。跨地區用戶也會帶來一定的下載量,說明本地區有比較高的移動政務服務能力。三是開發運營者組織的測試、研究者的測試等也會帶來一定下載量,導致滲透率的提高。
2.活躍度分析。
前述已說明,當評分數SDi,j<20 時,評分數、評分值兩項都將設置為缺失項。實際情況是有多個地區如黑龍江、陜西、青海等地的評分數都是個位數,所以描述性統計里的個案數較低。從各平臺的活躍度來看(如表2),iOS 平臺的活躍度均值為16.19,也即每萬次下載量中有16.19個評分數,明顯高于其他四個平臺,說明其用戶較愿意表達自己的態度和觀點。華為平臺的活躍度最低,均值為0.09,且標準差較小,也即各政務App在華為平臺的用戶參與度和活躍度不足。相較于其他三個平臺,VIVO 平臺的活躍度有一定優勢,體現出其用戶比較愿意參與政務App的評分評價。
需要說明的是,我們發現華為應用商店存在明顯的刪除評論現象,每日的評分數據波動較大。對被刪除的評論進行數據抓取發現,歷史評論數并不低,說明華為平臺的用戶參與也很積極活躍。至于應用商店刪除評論的原因,則有待未來探查。
3.客觀性分析。
因樣本量小于2000,采用Shapiro-Wilk 檢驗數據分布的正態性。結果顯示(如表2),iOS 平臺(p=0.156)、華為平臺(p=0.110)、小米平臺(p=0.168)評分均服從正態分布,而VIVO 平臺和OPPO 平臺評分不服從正態分布。從各平臺的均值上看,iOS 平臺、華為平臺、VIVO平臺均值相當。
對五組數據進行方差分析發現,僅有小米平臺與OPPO平臺(p=0.011)在5%的水平上存在顯著差異。從描述性分析中可以看到,小米平臺的評分均值為3.35 分,顯著高于其他平臺。OPPO 平臺均值則顯著低于其他平臺。其他平臺間不存在顯著組間差異。
此外,研究發現“隨申辦”“愛山東”“粵商通”在小米平臺上收獲了滿分5.0 分的贊譽,但同時三個省份的政務App 在其他平臺的評分趨勢卻不甚相同。尤其是“愛山東”在其他四個平臺的評分分別為2.7分、1.9分、2.9分和2.7分,其標準差達1.16,與小米平臺的評分顯著不同。因此,本研究希望探求小米平臺為什么給予滿分的評價,是否存在其他因素。
對三個政務App 小米平臺上的評論文本做內容分析,將評論文本清洗后輸入ROST CM6,通過社會網絡分析提取高頻詞,通過情感分析生成情感極性和得分(如表3)。結果發現,三個政務App 評價內容均跨越了多個版本,“隨申辦”的372個評論數就跨越了24個版本,評論數相對均衡;但“愛山東”僅2.3.7 版本就有1986 條評論,而且時間段相對集中,出現一定程度的失衡。三個政務App情感得分均為正面積極,高頻詞多聚焦于“實用”“體驗”“功能”等,缺乏對每個政務App特征點的具體描述,評論的豐富性和有用性略顯不足。

表3 小米平臺滿分政務App內容分析
4.極端性分析。
五個平臺均存在極端評分情況(如表2),極端占比均高于80%,并且標準差較小,說明各個政務App 在極端評分上的表現趨同;VIVO 平臺和OPPO平臺的極端評分占比為92%和93%,說明用戶在給政務App打分時很少選擇中立評分,一般選擇極端評分來表達自己的態度。其中,“全省事”在華為、VIVO、OPPO 平臺上的評分量不太充足,卻全部都給予“極好”和“極差”評分,未見中立評分。用戶都希望通過極端評分來表達態度,希望引起App開發運營者的關注和反饋。
5.有用性分析。
五個平臺的有用性存在顯著區別(如表2),iOS平臺文本長度均值為35.28詞,高于其他四個平臺,最大的文本長度為92.34 詞低于閾值144 詞。閾值范圍內文本長度越長,文本的有用性就越高,說明iOS平臺評論的有用性最好。華為平臺文本長度適中,標準差較小,說明文本長度分布比較均衡。VI?VO平臺的評論文本長度最短,僅有15個左右的詞,很難表達有特征性的觀點和看法,說明其評論的有用性較差。
6.可持續性分析。
五個平臺的可持續性存在顯著差異(如表2),iOS 平臺可持續性最好,僅有一個為負值,其余全為正值,均值為0.51,說明評分數與評論數之間的差距較小,較少存在刪除評分情況,標準差為0.3,說明整體比較均勻,iOS 應用商店中用戶的評分和評論數據存活性好,可持續利用狀態好。華為平臺的可持續性最差,僅有一個樣本是評分數與評論數持平,其他均是評分數少于評論數,最高的達到-40.81。查看原始數據發現,該政務App 當前僅有26個評分數,但歷史數據中有1087個評論數,均值也為負值,這說明華為平臺存在普遍的刪除評分情況,用戶評分評論被大量刪除會帶來數據的不穩定,也帶來信息來源的不可靠。此外,小米平臺、OPPO平臺也存在不同程度的刪除評分情況,而VI?VO 平臺的情況則要好一些,均值為正值且標準差較小。查看原始數據發現,VIVO 平臺僅有一個政務App的存活占比為負值,其他均為正值。
綜上所述(如表4),我們認為在這5 個主流平臺中,“好差評”制度應主要使用iOS 平臺的評分和評論數據,可以參考運用部分Android 平臺的評論數據。
手機應用商店中積累了大量的用戶評分評論數據,用戶評論大量指向了政務App 運維問題,是移動政務服務供給能力、技術服務能力的重要表現,可以進行數據挖掘分析,用于完善移動政務績效評估體系。但是,目前這方面的研究還比較稀缺。本研究以5 個主流手機平臺上的32 個省級政務App為研究對象,收集和分析不同平臺用戶的評分評論情況。
首先,研究發現用戶評論是衡量政務App服務質量的有益補充。研究發現,只有對政務App使用有比較深刻感悟的用戶才參與政務App評價,通過打分來表達自己使用的(不)滿意;更進一步,公眾是在自主空間內根據自己的切身感受給出的分值,沒有外界因素的干擾,打分更具真實性和客觀性。用戶評論也不是簡單的褒獎或發泄,特別是一些看似負面的評論信息,實際是將用戶的需求和痛點展現出來。
有研究發現,用戶評論強烈的負面消極情緒會降低評論的有效性,而中等程度的負面消極情緒則可以提高評論的有用性。[43](p79-86)部分負面情緒的評論文本包含使用體驗、功能需求、錯誤反饋和優化建議等信息,而部分語氣溫和的評論則缺少具體的評價特征點,具體的問題和優勢指向都不明確。也就是說,適度表達情感極性的用戶評論更有助于運營者發現問題。政務服務的開發運營者應該包容這種情緒的存在,積極挖掘和吸納用戶建設性的意見建議。
其次,研究發現用戶評論的信息來源質量表現出一定差異(如表4)。本文構建了政務App用戶評論信息來源質量評價模型,在滲透性、活躍度、客觀性、極端性、有用性和可持續性六個維度進行了數據比較分析。結果顯示,iOS 平臺的活躍性表現極好,在客觀性、極端性、有用性、可持續性上表現最好,但是其滲透性還比較低,用戶群的覆蓋面還不足。這表明iOS 平臺上的評分評論數據有用、管用且易用,但是iOS平臺的用戶群代表性略顯不足。

表4 各平臺在政務App評論可靠性維度的表現
華為平臺在滲透性、客觀性、極端性上表現較好,在有用性上表現適中,但是華為平臺的活躍性與可持續性不足(與應用商店刪除評分評論有關)。這表明其評分評論數據客觀、有用,需要達到一定規模才能發揮作用。但是,其對評分評論的管控機制又限制了其長效發展。
小米平臺的總體評分偏高,因其只有“好評”和“差評”的打分機制使得其客觀性減弱,也使得最低分和最高分并存。總體來看,小米平臺在滲透性、可持續性方面表現還不足,活躍性、客觀性、有用性表現中規中矩。
VIVO和OPPO平臺在極端性方面表現突出,表明用戶群希望通過極端表達引發關注。但是,二者在滲透性、活躍性、客觀性、有用性等方面表現較差,說明評分和評論數據很難說明真實問題。最后,VIVO平臺相較于OPPO平臺在可持續性方面表現較好。
我們認為,不同手機平臺的表現可能與用戶群有關。Bertrand 的研究發現,iPhone 是最常見的財富象征,“擁有一部iPhone”給了研究者68.1%的概率可以正確地推斷其擁有者屬于“高收入”群體。[44]然而,國內第三方數據服務平臺Mob Data 發布的《2018 年第三季度中國智能手機市場調研報告》顯示,一部分iPhone用戶的月收入低于3000元;華為手機的用戶群收入較高,以中老年用戶為主;小米手機用戶群主要是中產階層和年輕群體,OP?PO和VIVO的用戶畫像偏重更為年輕群體。[45]
iPhone 群體受到手機開放生態和應用習慣的影響,更愿意發表自己的觀點。但是,受價格、經濟貿易等多重因素的影響,iPhone 在用戶普及率和滲透性方面很難有大的提升;華為手機用戶由于年齡、工作以及應用習慣等影響,較多默默接受和使用,而不善于去發表自己的意見建議。小米、VI?VO、OPPO 等年輕群體相對活躍,但是表達的客觀性和有用性還有待提高。因此,從政務App服務質量評價的角度來看,iOS 平臺的評分數據更具客觀性,可以考慮引入,或者引入政務App 總評分作為評價服務情況的一個側面;從用戶評論挖掘的角度來看,在對政務APP 進行評價時應重點挖掘iOS 平臺和華為平臺的用戶評論,同時兼顧考察其他平臺上的用戶反饋。
最后,研究發現政務App可得性問題是影響用戶評論的重要因素。用戶要使用App,首先要順暢便捷地登錄到App中,但是研究發現大量用戶評論指向了登錄問題,特別是在1 星評論中“注冊”“認證”“登錄”等成為高頻詞,而評論原內容顯示“注冊不上”“認證通不過”“人臉識別沒用”等是反饋較多的問題。
政務App可得性是首先應該得到保證,也是較容易得到保證的。但是,總體來說省級政務App可得性做得還不夠,這可能涉及運營者的測試范圍、測試機型、測試網絡等局限。規模以上的用戶群提供了天然的測試環境,用戶在政務App評論中提出的這些訴求是App改進和完善的方向。但是,部分App 并沒有很好吸納用戶反饋,即使經過了長時間的迭代更新,問題依然沒有徹底解決。
從組織角度出發,政務App可得性還有一個推廣問題,而這是公共部門不太擅長的事情。1 星評論中大量出現“推廣”“強制”等高頻詞,說明App管理運營與公眾間存在認知偏差,強制使用的做法拉開了公眾與政府間的距離。公眾認為好的政務App 不需要推廣,這也賦予了政務App“不好用”的刻板印象。但是,App 運營者重視用戶評論就容易得到用戶的肯定。“云上貴州多彩寶”對iOS 平臺上的負面評論(1 星)進行了“開發者回復”,開發者回復會發送到用戶的郵箱。這種一對一的跟蹤回復,是把用戶的感受和評價擺在至關重要的位置,也必然提升用戶對于政務App的好感和滿意度。
本文還存在一些不足,未來研究需要予以深化和發展。首先,我們構建了用戶評論信息來源質量的評價維度,這些維度僅是從能夠抓取到的用戶評分、評價、下載量角度,是否就能夠全面刻畫App用戶評論的質量,能否用于App 服務績效的評價,甚至輔助“好差評”制度的實踐,還需要深入研究和探討。其次,我們對采集到的政務App評價數據進行了初步的描述性統計,但是還缺乏深度利用。比如,利用一段時間的用戶評論數據去探求用戶評論與軟件版本升級之間有沒有關系,或者對用戶評論數據進行挖掘,分析滿意和不滿意背后的因素,發現究竟哪些因素真正能提升政務App 績效,等等。最后,我們構建了政務App 總評分的計算方法,目前是將用戶滲透率作為系數,與政務App評分加權而得。本研究發現,五個平臺的可靠性是有區別的,僅僅用滲透率作為加權系數是否科學,是不是可以考慮適當提高iOS 和華為平臺的權重,適當降低其他平臺的權重,這些問題都需要在未來進一步探索。