劉燕 閆利華 張繼來 等
摘要:針對赤峰市居民在生活困難或遇到惡性事件、災情等突發性事件時,辦理低保申請、臨時救助和“救急難”等業務時的頻繁、重復的材料遞交現狀和民政部門在核查、審批中遇到的問題,運用大數據、在線簽批、面部與指紋識別等技術,為百姓提供多渠道、快捷的申請服務,打造精準、陽光、高效、法制化的審批環境,探索大數據技術在公共服務平臺開發過程中的應用.
關鍵詞:民生服務;大數據;數據挖掘
中圖分類號:TP391.9? 文獻標識碼:A? 文章編號:1673-260X(2019)02-0001-04
2015年,在國務院印發的《國務院關于積極推進“互聯網+”行動的指導意見》和《國務院關于印發促進大數據發展行動綱要的通知》中分別提道:“充分發揮互聯網的高效、便捷優勢,提高資源利用效率,降低服務消費成本.創新政府服務模式,提升政府科學決策能力和管理水平.”[1]“深入發掘公共服務數據,在社會救助、養老服務等領域開展大數據應用示范,推動傳統公共服務數據與互聯網、移動互聯網、可穿戴設備等數據的匯聚整合.”[2]
2017年12月8日,習近平總書記在中共中央政治局第二次集體學習時強調:“要運用大數據促進保障和改善民生.要堅持以人民為中心的發展思想,推進“互聯網+教育”“互聯網+醫療”“互聯網+文化”等,讓百姓少跑腿、數據多跑路,不斷提升公共服務均等化、普惠化、便捷化水平”[3].同年,內蒙古自治區人民政府在《內蒙古自治區大數據發展總體規劃(2017-2020年)》中也提出,“加快政務數據資源整合、開放共享、創新應用,推動政府決策科學化、社會治理精準化、公共服務高效化,運用大數據促進政府管理和社會治理模式創新、促進保障和改善民生”[4].本課題正是在這一歷史背景下,深入分析傳統的民生信息管理系統在使用過程中存在的不足,積極探索基于大數據開發技術的實時數據采集、數據傳輸、數據存儲、數據標識、數據處理技術,開發動態的大數據應用服務平臺.項目的實施可為居民提供多渠道、快捷的民政救助申請渠道,使特殊群體能夠及時享受到政府的惠民政策,體會到社會主義的優越性.
1 目前赤峰市民生服務平臺存在的問題
1.1 重業務,輕服務
大部分民政信息平臺的功能是對服務對象信息的錄入和存儲,現場數據采集方式陳舊,信息傳輸渠道單一,對于一些特殊的群體(比如長期抱病臥床的病人)非常不方便,沒有與服務對象真正建立安全、有效、實時的信息交流渠道.
1.2 民生政策信息邏輯性不強,關聯度不高
民政信息化平臺在實際運作的過程中,發布的部分信息缺乏嚴格的邏輯性和嚴謹性,信息的內容、質量、數據呈現出離散無序的狀態,信息內容與服務對象的關聯度不高.
1.3 存在信息孤島
系統的數據來源于多個部門,存在多個信息孤島,來自不同部門的數據由于各種原因會出現數據結構或數據值不一致的現象,需要利用互聯網+大數據信息化技術及時整合與維護,確保數據的一致性、正確性、有效性和安全性.
2 民生服務平臺系統簡介
2.1 民生服務平臺的設計目標
基于“互聯網+”大數據的民生服務平臺按照統一入口、集中辦理、數據跑路的總體思路,實現無紙化“一號受理、一窗申請、一網通辦”的辦公目標,利用“不見面審批”模式,通過對民政局、醫保局、稅務局、財政局、衛計局、慈善總會等多家單位的數據共享和審批流程的標準化,打造可復制推廣的“互聯網+”大數據民生服務平臺,切實為百姓提供方便、快捷、有效的社會救助申請途徑.
2.2 民生服務平臺的系統設計
民生服務平臺整體由用戶申報APP端、臨時救助審批系統、生存狀態核查系統,低保無紙化審批系統、低保測算系統、移動審批APP、統計系統等組成.將運用大數據分析、在線簽批、數據比對、面部與聲紋識別、工作流等技術實現民政對于社會救助相關業務的無紙化辦公需求.
2.2.1 用戶申報APP:社會救助申報入口,申請人除在APP端進行政策等資訊閱讀外,同時可以進行臨時救助申請、低保申請、人員簽到,并將申請提交至后臺審批系統,實現一站式的申辦服務.
2.2.2 臨時救助審批系統:包括臨時救助業務全流程的審批和流程流轉,主要分為申請、材料審核、信息核查、簽批流轉、資金發放和提醒預警幾個部分,各部分根據具體要求進行流程細化并開發相應的功能.
2.2.3 低保無紙化審批系統:以規范化、法制化、無紙化為核心,實現低保申請審批業務的線上全流程審批工作.包括申請、材料審核、自動測算、信息核查、公示、二次核查、兩級簽批等幾部分.
2.2.4 移動審批APP:為民政系統的無紙化辦公提供移動端的服務支撐,包括用戶管理、權限管理、電子簽批相關設備對接、數據接口通信、流程管理、統計系統及展示等主要功能.
2.2.5 生存狀態核查系統:為需要固定簽到人群提供核心支撐,同時在申請人申報APP、PC端提供簽到入口,并配置相關功能,如簽到業務管理、簽到人員管理、簽到配置管理、簽到數據統計等相關功能.
2.2.6 統計系統:根據具體需要對民政業務總體開展情況、平臺相關信息等進行多維度的統計展示.
2.2.7 民政大數據庫:為所有民政業務提供基礎數據支撐,主要包括基礎數據管理(導入、更新、修改)、信息比對核查、接口管理平臺等.
民生服務平臺總體架構如圖2-1所示.
3 基于大數據的民生服務平臺主要實現技術的研究
大數據服務平臺在數據獲取、集成和存儲管理以及數據處理方式上都區別于傳統的信息管理系統,主要表現在以下三個方面:第一、大數據讓人們脫離了對算法和模型的依賴,數據本身可以讓用戶了解事實的真相,所以數據的準確性和有效性非常重要.第二、與傳統的數據庫相關技術相比,大數據可以處理不同數據結構和不同數據類型的數據,這使計算機能夠分析的數據范圍迅速擴大.第三、大數據弱化了因果關系,大數據分析可以輕松的挖掘出不同要素之間的相關關系,這將大大提高數據應用的效率,使用戶快速獲得有價值信息.大數據應用的主要任務包括準備數據源;進行數據采集;數據預處理與集成;數據分析;數據解釋;用戶支持等[5].
3.1 數據源
基于“互聯網+”大數據的民生服務平臺將從多個社會救助相關部門的多個系統獲得數據,如民政救助多項相關數據、財務供養人員數據、稅務繳納數據、死亡數據、醫保報銷數據等,多系統數據獲取不可避免會存在多源異構的問題,如何進行多源異構數據有效存儲和利用,是本系統要解決的主要技術問題.同時,不同來源的數據,其組織形式可分為結構化數據,半結構化數據和非結構化數據三種[6],結構化數據使用關系數據庫方式存儲,非結構化數據多使用文件方式存儲.而隨著計算機處理數據類型的豐富,非結構化數據的占比越來越大,已經成為數據科學研究的主要內容.數據本身不僅存在巨大的使用價值,經過處理之后還會生成信息、知識與智慧,可以使其反應的事實更為直觀.在大數據的驅動下,數據處理的流程如圖3-1所示.
3.2 大數據特征的4V[7]
3.2.1 Volume(數據量大):當數據量達到PB級以上一般稱為大數據.
3.2.2 Variety(類型多):大數據系統存在多種數據類型,同時存在結構化、非結構化、半結構化數據.
3.2.3 Value(價值密度低):非結構化、半結構化數據的價值密度低,有價值的數據往往被淹沒在海量無用數據之中.
3.2.4 Velocity(速度快):速度包括數據增長速度和處理速度,一是源于數據獲取方式的進步,二是由于計算機處理能力的提高,數據實時分析成為研究熱點.
3.3 數據的獲取
3.3.1 傳統的數據獲取方法:該方法是通過手工的方式,從各種文檔、模版、業務流程,模型等獲取數據,并將數據輸入到計算機中.
3.3.2 利用工具獲取數據:一是從各種監測的設備上直接獲取數據;二是使用軟件工具在網上獲取數據.
3.3.3 利用數據獲取數據:在大數據時代,可以通過對已有數據的處理獲得新的數據,這種方式比較簡單方便.
3.4 數據預處理
3.4.1 數據清洗[8]
數據清洗是在對數據審計活動的基礎上發現的問題數據如錯誤數據、虛假數據、無效數據、數據缺失和重復數據等進行刪除、更正、插值處理.有下面幾種方式.
①識別缺失值:分析缺失數據的特征,估計后續對數據分析的影響.
②缺失數據的處理:根據缺失數據對分析結果的影響及導致數據缺失的影響因素,選擇具體的缺失數據處理策略,如忽略、刪除或插值.比如在低保和臨時救助的資金發放中,發現未提供某申請人的“銀行賬號.”
③異常數據校驗:異常數據校驗,例如在低保和臨時救助申請人信息中,某申請人的“出生年份”為“0000”;申請人手機號碼數據位數不夠,需要合法性校驗等.填寫數據時輸入了特殊字符“~!@#$a%*&()”或其他特殊字符組合,需要給出輸入錯誤提示等.
3.4.2 數據變換
數據變換主要用于處理數據中存在類型、計量單位不一致等問題,例如數據需要從字符串型轉換為數值型.數據變換主要用于合并處理多個原始數據的內容,例如將多個關系表的內容合并入同一個關系表.
3.5 數據集成
數據集成是指常常需要對于來自不同數據源的數據進行整合,并在合成后得到的數據集之上進行數據處理.數據集成的基本方法有兩種:
3.5.1 同構數據的內容集成
內容集成是指當目標數據集的結構與來源數據集的結構相同時,集成過程是對來源數據集中的內容進行合并,數據的結構不變.
3.5.2 異構數據的結構集成
結構集成是指當目標數據集的結構與來源數據集的結構不同時,集成過程是目標數據集的結構為對所有來源數據集的結構進行合并處理后的結果.目標表的結構是對來源表的結構進行了自然連接操作后得到的結果.
數據集成涉及的主要問題有:如何使來自多個數據源的現實世界的實體相互匹配.例如如何確定兩個名字均為“張三”的記錄是否代表同一個實體.其次是數據冗余,是指屬性值可以從其他屬性中推演出來,那么這個屬性就是冗余屬性,比如“平均月收入”屬性.第三就是沖突檢測與消除,對于一個客觀世界的實體來講,可能存在來自不同數據源的屬性值不同.比如“職業”屬性,一個數據源為“其它”,另外一個數據源可能為“自由職業人”.如何解決這些問題是大數據應用首要研究任務.
3.6 大數據分析[9]
大數據統計分析是大數據應用的重要組成部分,也是數據簡單加工的重要手段,其方法分為描述統計和推斷統計.其中描述統計主要是采用圖表或者數學方法描述數據的特征;推斷統計主要是通過分析樣本數據推斷總體.主要的大數據統計分析方法有:
3.6.1 概率分布:概率分布用于描述性統計,可以幫助我們理解數據的分布特征及選擇恰當數據處理方法.實現概率分布的主要方法有正態分布、卡方分布、t分布,F分布.
3.6.2 參數估計:該方法可以實現推斷統計.常用的推斷方法有兩種,即參數估計和假設驗證.其中參數估計是根據樣本的統計量來估計總體的參數.例如利用樣本均值估計總體的均值;假設驗證是指先對總體的某個參數進行假設,然后利用樣本統計量去檢驗這個假設是否成立.
3.6.3 大數據挖掘:隨著數據科學的發展,傳統的數據統計方法已經逐漸與現代的數據挖掘[10]技術相互融合,主要的應用有回歸分析、方差分析、分類分析、聚類分析、序列模式分析等.數據經過上述方法的處理后,其生成的結果將由簡單的信息變為相互關聯的應用模式,能夠解釋數據之間的隱藏規律,幫助用戶洞見數據的發展走向,做出智慧合理的決策.在本項目中,將重點探索民生大數據系統中離散數據的關聯分析,為相關的使用部門提供數據支持.
4 結束語
在本項目建設過程中,一方面將摒棄傳統的信息平臺開發技術,針對民生政策信息屬于非結構化信息,邏輯性不強,數據內容離散、無序的特點,探索各類信息整合、共享的實現技術與方法,包括查找相關信息、提取和標識結構化信息、組合和重用信息等,基于新一代人工智能關鍵技術問題,優化知識計算引擎與知識服務技術,重點突破數據加工的深度搜索和可視交互核心技術,實現對知識持續增量的自動獲取,最終能夠得到直接的和可操作的知識性信息,供決策者使用,實現從信息服務到知識服務的躍遷.同時運用大數據應用技術有效提升政府管理與服務水平,促進保障和改善民生服務.另一方面,將依托赤峰學院和蒙東云計算中心共建的產學研示范基地,通過校企聯合研發大數據應用技術,推動蒙東地區大數據產業發展,最終帶動蒙東地區大數據產業快速發展.
參考文獻:
〔1〕國務院.國務院關于積極推進“互聯網+”行動的指導意見.2015-07-04.
〔2〕國務院.國務院關于印發促進大數據發展行動綱要的通知.2015-08-31.
〔3〕張顯龍.運用大數據保障和改善民生.光明網,2017-12-15.
〔4〕內蒙古自治區人民政府辦公廳.內蒙古自治區大數據發展總體規劃(2017-2020年).2017-12-28.
〔5〕〔7〕朝樂蒙.數據科學[M].北京:清華大學出版社,2016.16-25.
〔6〕王曉波.非結構化數據采集和檢索技術的研究與實現[J].中國內部審計,2014(7):73-75.
〔8〕譚暉,廖振松,周小翠,賀凡.大數據的數據清洗方法研究[J].信息通信,2017(1):238-239.
〔9〕高志鵬,牛琨,劉杰.面向大數據的分析技術[J].北京郵電大學學報,2015,38(3):1-12.
〔10〕范明,孟曉峰.數據挖掘概念與技術[M].北京:機械工業出版社,2001.