張曉東,朱永凱,彭 超,陳明生
(1.上海市水務局行政服務中心(上海市海洋局行政服務中心),上海 200050;2.上海開瀾軟件有限公司,上海 201900)
上海市水務局積極響應推廣電子政務應用的號召,從2006年起,逐步推進網上審批建設[1],將水務事項審批加入網上行政審批流程,到2009年又將海洋審批事項納入網上行政審批范疇。2016年5月中旬,上海市水務局、上海市海洋局已經將全部46項行政審批事項接入市網上政務大廳,2018年9月所有行政審批事項全部接入市“一網通辦”平臺,實現了行政審批“全部上網、全程上網”的目標,為進一步提高行政審批的質量和效率提供了技術支撐和平臺保證[2]。
同時,隨著“一網通辦”工作的不斷推進,行政審批數據逐漸累積,如何利用行政審批數據來更好地指導“一網通辦”成為市水務局、市海洋局工作的重點之一[3- 4]。目前,“一網通辦”還存在一些顯著問題,例如:網上審批材料精簡不夠,審批材料復雜、較多;網上審批事項授權不到位,窗口僅限于申報材料的收發、許可文件的發放,真正的審批步驟則需要由具體的部門進行審批,所以會出現辦理者部門、窗口兩頭跑,沒有真正實現“網上預約辦理”“只跑一次”的整體目標[5];網上行政審批時間雖有法定限制,但辦理環節和流程仍可優化,提高審批效率;數據安全是最需要被重視的問題,網上行政審批所產生的數據都保存在服務器的數據庫中,一旦服務器崩潰或是服務器被攻擊,就會導致審批資料的消失或泄露,因此安全性的提高至關重要[6]。
為了更好地解決當前存在的問題,本文利用MongoDB對行政審批數據進行分布式存儲來提升數據的安全性[7],然后對數據進行整體分析、專項分析,得到開展“一網通辦”工作建議[8],給上海市水務局提出了改進建議。
本文分析的數據來源于上海市水務、海洋局的46項行政審批事項,其中水利事項19項,供水事項8項,排水事項5項,海洋事項14項。
面對海量的上海市水務海洋行政審批數據,我們利用MongoDB(NoSQL數據庫)進行原始數據、結果數據的存儲,使用Hadoop的MapReduce(并行計算框架)進行數據分析[9- 10]。接下來分別介紹一下Hadoop的MapReduce和MongoDB。
Hadoop是由Apache Software Fundation公司開發的分布式系統基礎框架,它的核心是HDFS(分布式文件系統)和MapReduce(分布式計算框架)[11]。HDFS是一種運行在商用硬件上的分布式文件系統,由于Hadoop是主/從(Master/Slave)框架,只需要一臺主服務器和多臺廉價計算機就可構成并進行數據分析和文件存儲,所以它具有高可靠性、高擴展性、高效性、高容錯性等優點[12]。
通俗來說,MapReduce是一套從海量源數據中提取分析元素,最后返回結果集的編程模型。MapReduce的基本原理就是將大量數據分成小塊進行逐個分析(Mapper過程),然后再將提取出來的數據匯總分析(Reducer過程),最終獲得我們想要的結果。當然怎么分塊分析,怎么做Reduce操作非常復雜,Hadoop已經實現了數據分析,在實際的應用中,在搭建完成Hadoop分布式框架之后,我們只需要編寫并實現Hadoop的Mapper和Reducer接口,在接口中實現自己需要的代碼,即可利用Hadoop完成對海量數據的具體計算和分析[13]。
MongoDB是基于分布式文件存儲的數據庫,由C++語言編寫,是一種典型的非關系型數據庫(NoSQL)。作為一種特殊的非關系型數據庫,MongoDB還保留著大部分關系型數據庫特有的操作如查詢、建立索引等[14]。當然它也有自己的特性,如MongoDB釆用了面向對象的思想,將每條記錄作為一個文檔對象(Document),其數據格式為BSON,類似于JSON[15]。MongoDB數據庫中也可以存儲不同結構的文件,在同一集合中存儲的數據鍵值對可部分相同、部分不同。在現實生活中,由于其支持查詢、支持索引、面向集合存儲、支持高效的二進制數據存儲、支持自動分片以適應擴展性、支持多語種等特性,受到了廣泛的應用和重視[16]。
本文的總體分析思路如圖1所示。首先是數據的清理和整合,其次是數據的轉存,搭建數據分析網站系統,接著利用Hadoop的MapReduce對行政審批數據完成整體分析、專項分析以及效率分析。

圖1 行政審批數據分析整體規劃
2.2.1辦理數量分析
首先我們利用MapReduce按事項名稱統計辦理數量,并將結果降序排列,表1是辦理總量排名前十的事項名稱及其辦理數量,表2是辦理量為0的事項統計表。

表1 總辦理數量排名前十的事項名稱及辦理數量

表2 辦理數量為0的事項名稱
由表1—2可以發現辦理數量最多的是核發《排水許可證》事項,其次是核發《取水許可證》、填堵河道的審批等,可對這些事項進一步專項分析。但是無居民海島開發利用活動的審批、臨時用海項目備案等事項辦理量為0,可以考慮將這些發生數量較少的事項進行事項的合并。
2.2.2辦理量行業分析
分別統計水利、供水、排水、海洋歷年的辦理數量和總共辦理數量,得到的結果如圖2所示。從圖2中可以明顯看出排水辦理量最多,其次是水利、供水,最后是海洋。同理,可分別統計每年每月各行業的辦理量,如圖3所示。
從圖2—3中可以看出,不管是按年統計,還是按月統計,排水行業的辦理數量都是最多的,因此,可以加大對排水行業的人員投入、流程優化。
2.2.3辦理量區縣分析
最后分析各個區縣4大行業的辦理數量,各區縣4大行業的總體辦理量如圖4所示。同理可統計每年4大行業在各區縣的辦理數量,圖5是2015年各區縣4大行業的辦理量結果圖。分析圖4—5可以得出,閔行區排水行業的辦理量是最多的,其次是寶山區和嘉定區。
通過整體分析,可以發現排水行業是每年辦理數量最多的一個行業,并且閔行區申請辦理的數量是最多的,而在排水行業中,核發《排水許可證》事項是最多的,因此,該事項是最值得開啟網上“一站式”辦理的,這將大大提高水務局行政審批效率。

圖2 各行業總體辦理數量

圖3 2015年各行業總體辦理數量

圖4 各行業在各個區縣的辦理數量

圖5 2015年各行業在各個區縣的辦理數量
專項分析是從4大方面中挑選典型事項進行分析。
2.3.1核發《排水許可證》專項分析
經過分析可以發現,到目前為止,核發《排水許可證》的保有量為20877條,其中有4792張排水許可證已經出現過續辦、變更等操作。
從許可證到期角度來說,以2016年為基準,2016年到期的核發《排水許可證》數量總共有1217張,未到期有6678張,到期比率為21.02%。同時在到期的1217張取水許可證中,2016年已完成到期換證的有85張,主動換證比率為6.98%。同時分析得到各區縣到期數量和未到期數量及其到期比率結果統計見表3。從到期數量角度出發,由于閔行區《排水許可證》辦理數量是最多的,因此到期的許可證數量也是最多的。從到期比率來看,浦東新區、黃浦區、徐匯區到期百分比排名前3位。
接著,統計2016年有效期內,不同項目類型的總排水量、總用水量,結果見表4。得到的折線圖如圖6所示,可以發現居民小區、商辦樓、其他等項目的總排水量處于前3名,種植業、漁業、自來水業的排水量是最少的。

表3 2016年核發《排水許可證》到期數量、未到期數量統計

表4 2016不同項目性質排水量、用水量統計

圖6 2016年有效期內不同項目性質的排水量
然后對2007—2017年各個外排系統每天的排水量進行分析,圖7是各個外排系統每年排水量的堆疊柱狀圖,圖8是外排水量變化折線圖。

圖7 2007—2017年各個外排系統排水量堆疊柱狀圖

圖8 2007—2017年各個外排系統排水量折線圖
結合外排系統排水量的分析結果圖,可以看出排水量呈現波動上升趨勢,并且白龍港的排水量是每年最多的,其次是石洞口和竹園,其中,石洞口和竹園的排水量呈現逐漸增長趨勢,而且石洞口的增長速度大于竹園。
可以根據外排系統所在區縣的不同,統計有效期內每年區縣排水量,得到結果如圖9所示,可以看出大部分區縣的辦理量隨著時間的增長,排水量都在增加,閔行區、寶山區排水量遠遠大于其幾個區縣。

圖9 2007—2017年各個區縣排水量折線圖
最后,通過核發《排水許可證》的專項分析,可以發現,目前閔行區排水許可證有效數量最多,且每年到期數量也是最多的,但是到期比率不是最高的,且目前自動換證比率較低,需要加強到期提醒功能。上海市的排水量呈現波動增長態勢,外排系統的排水量也呈現波動增長態勢,閔行區的排水量是歷年排水量最多的。因此,核發《排水許可證》可優先開啟網上預約。
2.3.2核發《取水許可證》專項分析
首先統計分析2009—2017年歷年有效的取水許可證數據量,得到如圖10所示的柱狀分布圖。根據2017年數據的不完全統計,取水許可證數量處于先增長,后平穩波動的趨勢。

圖10 2009—2017年有效期內的取水許可證數量統計柱狀圖
根據不同的取水用途,獲取取水許可證數量,得到如圖11所示的餅狀圖,應急備用的取水證數量最多,其次是生活用水、采灌井。

圖11 不同取水用途的取水許可證數量
在數據分析中,還發現優水優用只有2家公司,分別是上海靜安寺、上海馳明食品有限公司。接著對取水口位置[17]進行經緯度變換分析,取水口集中分布于靜安區、長寧區、虹口區、普陀區。
最后,根據取水許可證的辦理類型新擴改、變更、延續,計算對應的辦理數量,結果如圖12所示,可以看出基本上每年延續的取水許可證數量都大于新擴改和變更,每年變更的取水許可證數量基本上都是個位數。

圖12 2009—2017年各取水類型的辦理數量
總體來講,通過對核發《取水許可證》的專項分析,對取水許可證事項的整體情況有了了解,對取水口的分析,可用于指導取水口的下一步規劃。
2.3.3填堵河道事項的審批專項分析
由于數據有限,我們只分析2014年的填堵河道事項。首先分析2014年每月的規劃開填河面積、實際開填河面積,部分結果見表5。可發現2014年每月規劃的面積大于實際面積,開河面積大于填河面積。
根據區縣分析,統計每年各個區縣,開、填河面積的分布,2014年各區縣規劃開河面積和區縣的關系如圖13所示,顏色越深,表示規劃開河面積越大,同時2014年各區縣規劃開河面積和規劃填河面積的對比折線如圖14所示,看出區縣規劃開河面積大于規劃填河面積,實際開河面積和實際填河面積的對比如圖15所示。

表5 2014年每月規劃填河面積、規劃開河面積、實際填河面積、實際開發面積對比結果 單位:m2

圖13 2014年各區縣規劃開河面積分布

圖14 2014年規劃開河面積與規劃填河面積折線

圖15 2014年實際開河面積與實際填河面積對比
綜合上述分析,發現對填堵河道事項的審批來說,每年的規劃開、填河面積大于實際開、填河面積,規劃、實際開河面積大于規劃、實際的填河面積,并且浦東新區開、填河面積最大。
2.3.4海域使用權的審批專項分析
我們對2013—2017年海域使用權的審批事項,根據用海面積、占用岸線長度進行分析,得到圖16—17,可以發現用海面積呈現波動趨勢,占用岸線長度處于增長形態,在2017年占用岸線長度為5946m。

圖16 2013—2017年用海面積結果

圖17 2013—2017年占用岸線長度結果

圖18 2013—2017年不同項目性質用海面積分析結果

圖19 2013—2017年不同項目性質占用岸線長度分析結果
同時根據不同的項目性質,分析2013—2017年的用海面積和占用岸線長度,如圖18—19所示。可以看出,經營性的用海面積、占用岸線長度都大于公益性,但是公益性的用海面積、岸線長度有明顯的增長態勢,說明,目前公益性投入在增加。
本文將水務、海洋行政審批數據整合到MongoDB數據庫中,搭建分布式存儲系統,解決政務大數據分布存儲、安全性問題。對行政審批數據進行整體和專項分析,指導“一網通辦”建設,提升行政服務水平,同時優化未來水務發展規劃,促進上海市水務行業的發展。但是使用Hadoop分析現有數據還不能對未來事務辦理量進行較為準確地預測,接下來可以利用機器學習建立模型,既可以預測典型事項在各區縣、每年每月的辦理數量,為政府部門資源的合理化配置提供技術支撐,也可以提高文中事項分析的準確度。