999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘技術在民生領域中的應用

2017-11-02 02:27:03上海市民政局信息研究中心上海200093
微型電腦應用 2017年10期
關鍵詞:數據挖掘養老老年人

沈 儉(上海市民政局 信息研究中心,上海 200093)

數據挖掘技術在民生領域中的應用

沈 儉
(上海市民政局 信息研究中心,上海 200093)

近年來,科學研究、電子商務、民生保障等諸多互聯網應用領域飛速發展,數據規模、數據種類正在以極快的速度增長,大數據時代已悄然來臨。如何管理好、利用好、分析好這些海量數據來促進相關領域的發展,是我們當下需要亟待思索的問題。但由于行業壁壘的局限性、數據挖掘不夠、數據“孤島”、數據鴻溝等制約著大數據支撐解決民生領域問題能力的提升。因此,需要我們打破行業壁壘、突破數據“孤島”現象、不斷的探索新的數據挖掘技術,從而提高大數據支撐解決民生領域問題的能力。概述了數據挖掘技術發展現狀,介紹了數據挖掘的一般過程及方法論,結合實際,以數據挖掘在養老服務領域中的應用為例,對數據挖掘應用解決扶貧幫困、救助保障、養老服務、基層治理等民生問題進行簡要闡述。

民生保障; 大數據; 數據挖掘

0 引言

隨著物聯網、云計算等信息技術的飛速發展,許多行業如商業、企業、科研機構和政府部門等都積累了海量的、不同形式存儲的數據資料。單獨依靠數據庫進行相關查詢難以對海量數據進行分析及統計,為了探尋信息間隱藏的更深層次的關系,大數據分析應運而生。大數據指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產[1]。目前,由于各行業、各部門之間的數據壁壘,導致數據“孤島”現象的頻現、數據利用效率低下、數據分析和數據挖掘的廣度和深度不夠;同時,由于人們對大數據的理解還不夠全面、對數據挖掘技術的了解和運用還不夠深入、數據分析模型的不夠科學,使得大數據支撐解決民生領域問題能力難以得到提升。

數據分析可以分為廣義數據分析和狹義數據分析。目前,我們在對數據處理上往往都停留在狹義的數據分析上,在實現方式上只是對數據進行簡單的查詢統計和匯總。然而,這種方式在大數據時代很難發揮數據的價值,以及促進相關應用領域的發展[2]。

數據分析是指用統計分析方法及工具,對收集來的數據進行處理與分析,對數據有目的性的進行現狀、原因、預測等定量分析提取有價值的信息,發揮數據的作用[3]。數據分析先做假設,然后通過數據回歸分析、對比分析等常用分析方法來驗證假設是否正確,從而得到相應的結論。所謂結論一般是一個統計結果,這些指標對應相應的業務中進行分析,發揮其價值。

數據挖掘是指使用統計學、人工智能、機器學習等方法從海量數據中挖掘出未知的、且有價值的信息和知識的過程[4]。數據挖掘通過神經網絡、關聯規則、決策樹、聚類分析等方法對數據進行分類、聚類、關聯和預測,得到如流失概率值、相似度等模型得分或如高中低價值用戶、信用等標簽,以此挖掘未知的模式與規律[5]。

綜上,數據分析與數據挖掘的本質都是從數據里面挖掘、分析有價值的信息,從而更好的在生產運營中進行改進。

1 數據挖掘的前提

1、海量的數據積累,尤其是超大規模數據庫的出現更加速數據的自動積累。但質量有待提高,數據規模有待進一步擴大,尤其是跨行業、跨部門之間的數據共享,促進數據挖掘的力度不斷深入,這個需要突破相關行業和相關部門之間的數據壁壘,打破傳統的本位主義思想,多層次采集數據,多維度分析數據。

2、隨著計算機技術的發展,硬件軟件都有日新月異的提高,但人類的需求不斷增多,計算機技術只有跟上其發展才能持續為人類服務,融入社會發展的大環境。人類需求與計算機技術發展不離不棄,相互共存。所以,作為政府部門在硬件的基礎上也完全可以實現。

3、政府部門不具備數據挖掘高端技術和精深的統計方法計算能力。政府業務人員不具備數據挖掘包含的集統計學、神經元學等學科技術。因此業務人員應積極學習專業的數據挖掘相關理論,為更好的掌控數據挖掘技術、更好的服務民眾做鋪墊[6]。

2 數據挖掘的層級

數據挖掘的層級主要包括:數據清洗、數據報表、臨時數據需求、數據挖掘、數據產品。其中,數據清洗、數據報表和臨時數據需求是基礎環節,也是最重要的環節,一般占整個數據挖掘過程的80%左右的工作量[7]。如圖1所示。

圖1 視頻信號與傳輸頻率范圍關系圖

3 數據挖掘的方法論

數據挖掘方法論是各行業低成本、高質量地開展數據挖掘應用的行動指南。數據挖掘方法論主要包括跨行業數據標準CRISP-DM及SEMMA數據挖掘標準等不同版本。即使對數據挖掘的定義不統一,但數據挖掘的其核心觀點是一致的,即數據挖掘是一個過程,是一個以數據為中心的循序漸進的螺旋式數據探索過程。具體過程,如圖2所示。

圖2 螺旋式數據探索過程

1、商業理解

商業理解是數據挖掘的初始階段,主要目的是:明確本次數據挖掘要解決什么問題,評估是否具備數據挖掘的主觀和客觀條件。數據挖掘是服務于應用的,脫離現實問題的數據挖掘是沒有意義的,不具備行業知識的數據挖掘是不可能成功的。

2、數據理解

數據理解的目的是:在業務(商業)理解的基礎上,圍繞業務(商業)問題收集原始數據,明確數據含義,明晰數據的各種差異,并通過技術手段實現數據的一致化和集成化。數據集成看似簡單,但實現難度卻極高,通常要借助現成的計算機軟件或自行編寫程序。另外,數據理解還包括數據質量的評估和調整、數據的多維度匯總瀏覽等。其目的是把握數據的總體質量,了解變量取值的大致范圍[8]。

3、數據準備

在充分理解數據后,利用計算機和統計方法對數據進行預處理,數據準備步驟不可或缺,數據準備工作為后續的數據挖掘建模奠定數據基礎。

4、建立模型

為得到合理的,適合于目標的數據模型、數據預測模型、評價指標及評價函數,利用各種數據分析方法對數據進行探索性分析。

5、模型評估

在模型評估過程中,確定數據挖掘的最終分析模型至關重要。總結并回顧模型評估全過程,從數據模型的合理性、實際應用的角度,而非模型理論評價的角度,對所得數據模型的實用性進行評價。

6、方案實施

數據挖掘的最后一個環節是方案實施,通過制定實施和監管計劃確保數據挖掘結論的合理運用范圍。數據挖掘在經驗學習的過程不斷積累循環往復,每一次挖掘都會受益于上一次的挖掘,每一次挖掘都將給下一次挖掘提供寶貴的經驗。一個簡單的機器學習系統,如圖3所示。

圖3 一個簡單的機器學習系統

4 數據挖掘在民生領域中的應用

目前數據挖掘技術已成為解決民生問題的重要技術支撐,被應用于支撐解決扶貧幫困、救助保障、養老服務、基層治理等民生問題。下面就以數據挖掘在養老服務領域中的應用為例進行簡要闡述。

據上海市民政部門統計,截至2015年12月31日,全市60歲及以上老年人口435.95萬人,占戶籍總人口的30.2%,占比增加了1.4個百分點。100歲及以上老人1 751人,增長7.4%,上海老年人口的高齡化趨勢同樣明顯。據預測,上海人口老齡化在“十三五”期間將進一步深化[9]。到2018年上海戶籍60歲及以上老年人口總數突破500萬,2020年總數將超過540萬人,且隨著時間推移規模將持續擴大。與之相對應,據上海民政部門統計:全市養老機構共計699家,床位數共計12.6萬張;全市老年人日間服務機構共計442家,服務人數共計1.5萬人;居家養老服務中心共計163家,社區助老服務社共計202家,服務人數共計30.55萬人[10]。

現有的養老服務設施已經無法滿足不斷增長的老年人口養老服務的需求。如何才能隨著老年人口的增長,提前布局和規劃相應的養老服務設施,減少社會矛盾的產生、提升政府和社會的養老服務能力,值得我們認真思考和亟待解決的首要問題。現利用數據挖掘的方法論來討論這一問題的解決。主要是根據目前已經選擇養老服務老年人的數據情況進行規律性研判,通過IBM SPSS Modeler建模工具來進行建模分析,從而分析出隨著老年人口的增長需要新增養老服務或養老設施的數量。為了使選取的樣本數據更加科學、合理,根據區域分布的不同(內環內、內中環之間、外環外)選擇六個區(黃浦、徐匯、長寧、寶山、金山、奉賢)的60周歲以上老年人口數據,養老服務設施數據,養老服務人員數據以及目前存量老年人選擇養老服務類別的數據信息作為樣本分析數據。

根據現有6個區2005年至2015年的老年人口數量,以及目前存量老年人的基本信息和所選擇養老服務類別的信息來提前預判來五年老年人口增長情況,以及隨著老年人口的增長需要新增的養老機構床位數;根據老人的基本情況預判老人會選擇哪類養老服務。

目前現有的數據主要是6個區十年來的老年人口總數(2005年至2015年),當前在享受相應養老服務老年人的年齡、工資(收入)水平、文化程度、婚姻狀況、身體狀況、子女情況、居住情況(獨居、與子女居住等)、分布區域、選擇的養老服務類別等。

對現有的數據進行清洗、轉化、合并等操作,剔除不合規的垃圾數據和不完整的數據,使其符合建模需求。主要涉及的數據信息:當前在享受相應養老服務的60周歲以上老年人基本情況表;抽樣老年人選擇的養老服務情況表;歷年的老年人口數據表。

根據民政部門統計,6個區2005年至2015年期間的老年人口數量,如表1所示(單位:萬人)。

表1 2005年至2015年期間六區老年人口數量

對現有60周歲以上老年人基本情況和存量老年人選擇的養老服務情況進行分析。本次樣本數據量為4216個,涉及養老服務主要有:養老機構、居家養老、高齡醫療護理、護理院。主要分析的指標:未來5年老年人口增長情況,以及隨著老年人口的增長需要新增的養老機構床位數;根據老人的基本情況預判老人會選擇哪類養老服務。2016年度6個區中的存量老年人的基本信息和選擇養老服務設施的情況,如表2所示。

4.1 模型建立

統計未來5年老年人口增長情況,以及隨著老年人口的增長需要新增的養老機構床位數。

1、數據源選擇,選擇2006年至2015年歷史老年人口數據文件,如圖4所示。

表2 2016六區存量老年人基本信息及選擇養老服務設施的情況

2、時間區間設定,起始年份:2006年,預估未來5年的老年人口數據,如圖5所示。

圖4 數據源選擇

圖5 時間區間設定

3、添加“類型”字段選項,讀取值并設置輸入、輸出字段。本示例中,將黃浦、徐匯、長寧、寶山、金山、奉賢既作為歷史數據的輸入又作為未來預測數據的輸出,如圖6所示。

圖6 添加“類型”字段選項

4、在模型中選擇“時間序列建模器”模型進行預判,如圖7所示。

5、預測數據的生成。根據時間序列預測模型,預測出了6個區未來5年的老年人口數據(單位:萬人),如圖8所示。

圖7 選擇“時間序列建模器”模型進行預判

圖8 生成預測數據

6、根據上海市“9073”養老服務格局,養老機構的床位數在老年人口中的占比為3%,因此,未來五年這六個區需要新增的老年床位數,如圖9所示。

圖9 未來五年六區需要新增的老年床位數

7、最終建立的時間序列SPSS Modeler模型流,如圖10所示。

圖10 SPSS Modeler模型流

接著,根據老人的基本情況預判老人會選擇哪類養老服務。

1、數據源選擇。導入選取的已經享受某類養老服務老年人的基本情況數據(樣本數據4216條),包含老年人的姓名、身份證、性別、年齡、工資、文化程度、婚姻狀況、子女情況、居住情況等字段信息,如圖11所示。

圖11 數據源選擇

2、添加“類型”字段選項,讀取值并設置輸入和目標字段。將老年人的文化程度、婚姻狀況等字段信息作為輸入,預測的服務類別作為目標。也就是,根據老年人的基本信息預測出某類老年人會選擇哪類養老服務,如圖12所示。

圖12 添加“類型”字段

3、模型選擇。上述預測目標主要是預測某類老年人會選擇哪類養老服務,所以應該采用分類預測模型,但由于分類預測模型眾多,目前無法確定本次樣本數據采用哪種模型更加合理。因此,我們可以先使用自動分類器來幫助我們對模型進行選擇。選擇:建模——>自動——>自動分類器,如圖13所示。

圖13 生成預測數據

4、執行自動分類后,可以看到系統自動篩選出三個準確性較高的分類預測模型。它們分別是:C5,準確率72.53%;貝葉斯網絡,準確率66.72%;Logistic回歸,準確率60.1。因此,選取準確率最高的C5來作為下一步分類預測的預測模型,如圖14所示。

圖14 分類預測模型

5、添加C5分類預測模型。勾選“使用分區數據”、“為每個分割構建模型”,輸出類型選擇“決策樹”,模式選擇“簡單”,如圖15所示。

圖15 添加C5分類預測模型

6、執行C5分類預測模型。如圖所示,系統生成了決策樹,并且預測出了老年人基本信息中各個信息字段的重要性。不難看出,在樣本數據中對老年人選擇相應養老服務類別起到關鍵作用的信息字段主要有:年齡、所在區、性別、居住情況等,如圖16所示。

圖16 執行C5分類預測模型

當然,這只是目前樣本數據的一個預測情況。一個好的大數據分析模型不是一蹴而就的,而是一個不斷學習、不斷完善的過程。如果選取的樣本數據盡可能多,涵蓋的基本信息字段盡可能全面,那么生成的預測模型準確性就會更加高。

7、最終建立的分類預測SPSS Modeler模型流,如圖17所示。

圖17 分類預測SPSS Modeler模型流

根據上述模型預測的結果如下圖所示,在最后兩列列出了預測的服務類別以及某類老年人會選擇這類服務類別的概率,如圖18所示。

圖18 模型預測結果

4.2 模型評估

模型的好壞在于模型預測的準確性,因此在模型建立好后,通過一定的方法來評判或者驗證這個模型的預測準確性。使用“輸出”中的“分析”工具,來生成預測模型精準度的報告。經過運行后,得出如下圖所示的分析報告,該模型的準確度為:72.53%,如圖19所示。

圖19 服務類別分析結果

4.3 政府大數據應用的發展策略

數據挖掘在民生領域的應用中,將以整體性、透明性、服務性為主要發展策略。為了避免因政府內部矛盾而造成的沖突及矛盾,政府應實現各個部門機構、專業、領導層級之間的整合,這樣不僅可以使業務辦理更高效,同時可以更好地解決公眾需求。透明化一直是政府竭力突破實現的目標,大數據應用以政府開房數據為基礎,海量數據為前提,通過數據分析、數據挖掘,電子政務的效率和結果可以逐步被提升,進而實現政府日常工作的全面透明化。政府的監管方式也隨著大數據的推進而不斷創新,更加透明。公共服務是政府重要的工作之一,大數據的加入,可以使政府公共服務水平提升,也可以讓民眾更好的監督、融入政府工作,時刻關注政府信息,與政府共同決策相關政策。

4.4 政府大數據應用的誤區

誤區一,將大數據等同于開放數據。由于目前沒有世界公認的“大數據”的定義,一些包括政府部門在內的民眾對大數據的認識有不同的理解方式,簡單的將大數據錯誤的理解為開放數據;同時開放式的數據集格式具有多樣性的特點,因此難以單方向性的操作。

誤區二,將大數據等同于共享數據。大數據平臺不是簡單的共享數據平臺,目前很多地方政府在建設的大數據平臺的過程中,還在僅僅翻新共享平臺而不是建設多樣化的大數據應用。政府大數據不僅僅是政府自身的業務數據,應逐步整合政府外部數據資源,形成更加完善的治理決策支持體系,以在數據整合的基礎上實現服務整合。

誤區三,將大數據等同于海量數據。目前政府的大數據中心建設,更多地還停留在“建機房、上設備、堆數據”的階段,忽視了大數據強調的是對數據的分析和應用,要有精通數據挖掘和業務建模的專業人才隊伍,從政務應用需求出發,做好潛在數據價值的挖掘和應用。

4.5 政府大數據應用的潛在問題

警惕數據權的惡意使用或過度濫用。涉及到政府大數據,難免會引發一些敏感的權利、政治利益紛爭,數據所有權即權利源泉,哪一方掌握數據所有權即掌握了主動權,而掌握主動權的一方應時刻保持客觀性,不能產生具有偏向性的決策意見。因此應時刻警惕圍繞原始數據的占有權和發布權而產生的的斗爭,并在決策過程中保持客觀公正的態度。

警惕大數據帶來的信息歧視。大數據技術具有預測未來事件發展趨勢的特點,在數據挖掘的過程中,可能遇到比如公民隱私相關的公平性、隱私性問題。因此在信息處理過程中,應時刻保障數據的保密性,使信息不被竊取、盜取、亂用,對公民權益造成侵害。

警惕互聯網公司侵害國家數據主權。中國數據產權的立法滯后,相關數據資源缺乏統一采集規劃,因此要警惕大型互聯網企業對政府大數據的掌控及決策影響。

5 總結

隨著互聯網日新月異更新迭代,數據規模、數據種類在科學研究、電子商務、民生保障等諸多應用領域飛速發展,大數據時代已悄然來臨。如何管理好、利用好、分析好這些海量數據來促進相關領域的發展,是我們當下需要亟待思索的問題。但由于行業壁壘的局限性、數據挖掘不夠、數據“孤島”、數據鴻溝等制約著大數據支撐解決民生領域問題能力的提升。因此,需要我們打破行業壁壘、突破數據“孤島”現象、不斷的探索新的數據挖掘技術,從而提高大數據支撐解決民生領域問題的能力。本文介紹了數據挖掘的一般過程及方法論,結合實際,以數據挖掘在養老服務領域中的應用為例,對數據挖掘應用解決扶貧幫困、救助保障、養老服務、基層治理等民生問題進行簡要闡述。

[1] 程學旗, 靳小龍, 王元卓,等. 大數據系統和分析技術綜述[J]. 軟件學報, 2014(9):1889-1908.

[2] 郭理橋. 數據挖掘在政府信息系統設計中的應用研究[J]. 中國建設信息, 2010(4):6-11.

[3] 盛宇, 劉俊熙. 數據挖掘在政府電子化公共服務中的應用[J]. 情報雜志, 2007, 26(7):88-90.

[4] 楊越. 數據挖掘在政府部門決策管理系統中的數據與應用[D]. 北京:解放軍信息工程大學, 2012.

[5] 徐棟. 數據挖掘在政府部門決策管理系統的設計與實現[D]. 成都:電子科技大學, 2012.

[6] 趙慧. 淺析數據挖掘在政府統計中的應用[J]. 教育:文摘版, 2016(8):97-98.

[7] 丁偉, 李政, 于昕. 數據挖掘在政府采購中的應用研究[J]. 中國政府采購, 2014(7):72-73.

[8] Cohen E, Datar M, Fujiwara S, et al. Finding interesting associations without support pruning[J]. IEEE Transactions on Knowledge & Data Engineering, 2001, 13(1):64-78.

[9] Han J, Chee S, Chiang J Y. Issues for On-Line Analytical Mining of Data Warehouses[C]// Sigmod'98 Workshop on Research Issues on Data Mining and Knowledge Discovery. 1998.

[10] Goil S, Choudhary A. High Performance OLAP and Data Mining on Parallel Computers[J]. Data Mining and Knowledge Discovery, 1997, 1(4):391-417.

TheBigDataApplicationforLivelihoodAreas

Shen Jian
(Information Research Center, Shanghai Municipal Bureau of Civil Affairs, Shanghai 200093)

In recent years, the application of the Internet technology develops rapidly in scientific research, e-commerce, livelihood security and many other fields. Data size, data types are growing with a rapid rate, big data era has quietly come. How to manage and make good use of these massive data to promote the development of related fields, is the problem we need to think about now. However, due to the limitations of industry barriers, data mining is not enough, the data island, data gap and other constraints do not support large data to solve the problem of improving the people's livelihood. Therefore, we need to break the barriers, break the data island phenomenon, and constantly explore new data mining technology, so as to improve the ability of solving the problem of people's livelihood by uzing big data. This paper summarizes the current situation of data mining technoloies, introduces the general process and methodology of data mining. According to actual application of data mining in the pension service, the author discusses the application of data mining to solve the poverty relief, rescue protection, pension services, grassroots governance and other livelihood issues.

Livelihood security; Big data; Date mining

TP311

A

2017.07.11)

沈 儉(1979-),男,本科,工程師,研究方向:數據挖掘。

1007-757X(2017)10-0071-07

猜你喜歡
數據挖掘養老老年人
認識老年人跌倒
保健醫苑(2022年1期)2022-08-30 08:40:44
老年人再婚也要“談情說愛”
保健醫苑(2022年6期)2022-07-08 01:25:16
老年人睡眠少怎么辦
保健醫苑(2022年4期)2022-05-05 06:11:20
探討人工智能與數據挖掘發展趨勢
養生不是養老
基層中醫藥(2018年2期)2018-05-31 08:45:06
越來越多老年人愛上網購
海峽姐妹(2018年1期)2018-04-12 06:44:24
養老更無憂了
民生周刊(2017年19期)2017-10-25 15:47:39
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
以房養老為何會“水土不服”?
華人時刊(2017年19期)2017-02-03 02:51:37
養老之要在于“安”
大社會(2016年5期)2016-05-04 03:41:44
主站蜘蛛池模板: 沈阳少妇高潮在线| 国产成人高清精品免费| 日本人真淫视频一区二区三区| www.狠狠| 亚洲伊人电影| 国产啪在线| 玖玖精品视频在线观看| 国产精品自拍合集| 国产在线观看成人91| 亚洲区欧美区| 国内自拍久第一页| 亚洲一区无码在线| 中文字幕在线欧美| 久久www视频| 国产在线自乱拍播放| 亚洲成人播放| 免费国产高清视频| 精品欧美日韩国产日漫一区不卡| 亚洲无限乱码| 欧美在线免费| 国模私拍一区二区| 天堂va亚洲va欧美va国产| 男女性午夜福利网站| 亚洲 成人国产| 久久久久中文字幕精品视频| 国产成人做受免费视频| 日韩欧美国产另类| 国产精品成人不卡在线观看| 国产91丝袜| 国产69精品久久| 日本在线免费网站| 国产女人水多毛片18| 午夜高清国产拍精品| 2021最新国产精品网站| 亚洲V日韩V无码一区二区| 亚洲欧洲日韩久久狠狠爱| 色亚洲成人| 中文字幕在线播放不卡| 狠狠综合久久| 亚洲一区波多野结衣二区三区| 热re99久久精品国99热| 91精品国产丝袜| av无码久久精品| 亚洲青涩在线| 国产亚洲精品yxsp| 免费不卡在线观看av| 日韩无码视频专区| 日韩无码真实干出血视频| 国产三级视频网站| 无码区日韩专区免费系列| 69精品在线观看| 国产xx在线观看| 亚洲αv毛片| 亚洲自拍另类| 91在线无码精品秘九色APP| 精品久久综合1区2区3区激情| 欧美成在线视频| 重口调教一区二区视频| 亚洲国产成人精品一二区| 国产一级毛片高清完整视频版| 久久伊人操| 宅男噜噜噜66国产在线观看| 国产91精品最新在线播放| 不卡午夜视频| 99国产精品免费观看视频| 国产美女无遮挡免费视频| 国产激情影院| 亚洲午夜片| 伊人久久精品无码麻豆精品| 极品国产一区二区三区| 亚洲人成网站观看在线观看| 一区二区三区毛片无码| 国产一区二区三区精品欧美日韩| 色哟哟精品无码网站在线播放视频| www欧美在线观看| 国产国模一区二区三区四区| 国产真实乱子伦精品视手机观看| 54pao国产成人免费视频 | 国产伦片中文免费观看| 污网站免费在线观看| 亚洲人在线| 欧美在线一二区|