999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

歐洲統計數據科學模型與統計專業教育*

2022-02-15 02:44:06楊貴軍向琳彭影
統計科學與實踐 2022年12期
關鍵詞:統計數據科學方法

□楊貴軍 向琳 彭影

隨著互聯網、云存儲、5G 和人工智能等信息技術的蓬勃發展,數據生成呈爆發式增長,數據應用已經滲透進社會日常工作和生活的各領域,發揮著越來越大的作用,社會對大數據重視程度達到前所未有的高度。積極推動大數據與政府治理現代化的深度融合成為官方統計工作的重要內容。Ashofteh 和Bravo 提出歐洲官方統計數據科學模型,是大數據與現代統計深度融合的模型,探究數據科學在生成官方統計產品中的影響,以說明數智時代產生的新興技術如何更好地應用于社會生產和實踐中的統計業務流程[1]。本文對歐洲官方統計數據科學模型進行解讀,闡述在官方統計數據服務和統計數據產品中新數據源和新技術的應用,以及對統計專業人才的技能及知識的新需求,探討適應數智時代的統計專業人才培養。

|歐洲官方統計數據科學模型解讀

Ashofteh 和Bravo 提出的歐洲官方統計數據科學模型是基于歐洲官方統計業務流程,從指定需求階段、設計階段、構建階段、收集階段、過程階段、分析階段、傳播階段和評估階段展開的。歐洲統計數據科學模型包括六個部分,分別是官方統計方法論、統計工程、數據分析、數據科學、可信智能統計和推廣應用,六個部分緊密聯系,并不完全獨立,如圖1 所示。圖1 借鑒了Afshin 和Jorge 的結構,并進行了修訂。其中虛線框表示每個部分的覆蓋范圍。

圖1 歐洲官方統計數據科學模型

(一)歐洲官方統計數據科學模型組成

歐洲官方統計數據科學模型由兩大部分構成,分別是可信智能統計和推廣應用。其中,可信智能統計包含官方統計方法論和數據科學,數據科學包含統計工程和數據分析。下文分別介紹這六個組成部分。

1.可信智能統計。可信智能統計是指國家統計局與私人部門在共享計算設施、代碼、日志和最終統計數據等領域合作的安全體系結構,且無需共享原始輸入數據。可信智能統計是官方統計在數智時代的自然演變。它并不是要替代現有的數據源和統計流程,而是要進行擴充,建立一個與原系統兼容的新系統[2]。

可信智能統計由國家統計系統進行確認,在該部分有兩個途徑,一是通過統計工程進行自動化得到智能系統,二是通過統計工程進行工業化得到智能系統。可信智能統計需要使用其他的技術和方法來對其進行呈現,如自然語言處理、專家系統、可對話人工智能、機器人學和工業4.0。

(1)官方統計方法論。官方統計方法論即為與統計相關的科學和與官方統計相關的標準構建而成的方法論。官方統計方法論部分從業務流程角度看為模型的起點,在指定需求階段,根據社會和政府的需求以及國際標準,檢查輸出目標、范圍和概念是否正確,商業價值是否合理,當前數據是否具有可用性,如果上述要求均得到確認,則準備產生新的官方統計產品。隨后進入設計階段,在該階段統計人員運用統計專業知識進行變量描述、搭建框架和選擇樣本。之后進入構建階段,該階段以方法論為基礎來構建統計方案及模型,包括統計學、經濟學和數據科學等,在必要時可發展新的理論和方法。

(2)數據科學。數據科學是一門跨學科的科學,其核心是從數據中提取信息以對問題作出決策,包含收集、管理、分析、展示大數據的理論和技術。數據科學涵蓋了處理數據的新方法,包括應用傳統統計技術和新的數據挖掘方法對數據進行描述、說明和評估。為了實現數據科學的應用價值,需要開發和維護軟件來編制官方統計數據,當前用于歐洲官方統計的熱門軟件有SAS、R、Python 等,開源編程語言將逐漸在官方統計中普及。

在數據科學部分,應用將進行面向對象的程序設計。之后進行原型試驗,依據官方統計框架,統計人員利用編程軟件構建基于應用程序的智能調查。智能調查還可通過程序控制面向對象的程序設計。其中,面向對象的程序設計和智能調查被稱為軟件工程。對于軟件工程部分,除了要使用和維護統計軟件外,還要注意代碼可復制性和可重用性以及數據的輸入、存儲、交換和共享。構建智能調查后,進入傳播階段,統計素養和數據可視化是影響官方統計產品傳播的最重要因素。利用最新技術實現數據可視化是數據傳播的必要途徑,將大量復雜的數據壓縮,通過圖形或動態的方式展示有助于更好地接受和理解官方統計產品。除此之外,統計素養是在作出決策時提供統計考量的能力,在統計人員編制統計數據以及公民理解統計產品方面都不可或缺。

①統計工程。統計工程是為了研究如何充分運用統計理論、統計方法和統計工具,以及如何將它們與其他相關學科集成以實現更好的結果[3]。統計工程將統計學與工程學相結合進行數據分析。統計工程基于聯系上下文和分析問題結構的多步驟策略,使用統計的方法、技術和工具,為復雜問題找到新的解決方案。統計工程融入了工程學的思想,更注重解決問題的策略和能力,并要求解決問題的較好思維邏輯。同時要求統計人員不僅掌握統計專業知識,還要對其他一些相關領域的知識有所了解,以便官方統計產品能夠更好地服務于社會各領域。

在統計工程部分,應在各步驟中應用統計思維。首先進入收集階段,包括對數據的復雜測量和規模開發,收集不同來源的有效數據。之后進入過程階段,通過數據倉庫或湖倉一體進行匿名原始數據傳輸,根據官方統計標準進行檢驗,最終在該階段得到優良數據,以用來提取可持續算法。這個過程階段也稱數據工程,數據工程被認為是統計工程的一個子集,用來管理微觀數據和納米數據。在數據工程部分,對收集到的數據進行提取和融合,生成可用于后續步驟的數據集,例如進行預處理、數據清洗、數據去重等工作,在此階段需要統計人員有良好的數據基礎,能夠處理不同類型的數據。最后統計人員通過方法集成和得到的數據進行數據分析。

②數據分析。在數據分析部分,即進入到分析階段,利用上個階段得到的優良數據,分析其數據結構以提取可持續算法,使用機器學習、自然語言處理、時空模型等方法和分析工具以構造合理的應用算法。其中機器學習算法和分析工具不僅用于生成應用,還用于分析數據結構,以改進數據結構和應用新的缺失值插補方法。在未來的官方統計中,機器學習等方法的使用將會大幅增加以適應大數據的處理需要,特別是在對不同種類的數據進行分析時,機器學習等方法可實現對文本的情感分析和圖像的理解,適合對復雜的數據進行深層分析。

2.推廣應用。推廣應用是整個模型的第二大部分,也是產生官方統計產品的最后步驟。統計產品進入評估階段,用官方統計中的質量管理標準進行檢測。同時還要考慮官方統計中的倫理和道德問題,例如關于數據的公平、隱私、安全和包容性。如果通過檢測,則該產品準備為社會進行服務,形成最終的官方統計產品。官方統計產品用來解決問題和創造價值。如果國內和國際終端用戶有了新的需求,則再次檢查其輸出目標、范圍、商業價值、概念和數據可用性,進入模型的循環,生成新的官方統計產品。

(二)歐洲官方統計數據科學基礎

Ashofteh 和Bravo 給出數據科學模型,也歸納了影響模型中各階段的科學因素及指標,本文對原文中的因素及指標進行分析。

在專業知識方面,包括歐洲官方統計碩士課程、統計學、信息技術、人工智能、數據科學、經濟學、數學、歐洲統計培訓課程和社會科學。當前官方統計培訓的三大學科為統計學、經濟學和數據科學。統計學是官方統計人員必須掌握的知識,是一切官方統計業務的基礎。而官方統計業務有很大一部分與經濟領域息息相關,經濟學也成為統計人員必備的素養,數據科學則是統計人員為適應數智時代統計需求而不可或缺的知識和技術。統計人員對這些知識的掌握是建立官方統計數據科學模型的基礎。

在數據工程方面,體現了統計業務中如何收集數據。涉及到的數據源有數據湖、大數據(如公民數據)、流動數據(如旅行數據)、高頻數據(如掃描數據)、空間數據(如網格數據)、開源數據(如衛星數據)、電信數據(如人口統計)、視覺數據(如衛星圖像)、微觀數據和納米數據、數據重用與共享。特別是數據重用與共享,能夠讓很多有相同需求的人獲取有價值的數據,同時避免了收集數據的復雜繁瑣工作,使現有的數據資源得到充分的利用。

在統計工程方面,需要的知識有領域知識與學科理論、解決問題的策略、數據譜系、順序方法、問題上下文或請求上下文的分析。其中,數據譜系也稱數據血緣,指數據在產生、處理、流轉和消亡中形成的關系。根據數據譜系,可以對來源不同的數據進行溯源,數據發生異常時可用來分析其原因;還可以通過數據譜系從數據的受眾、更新量級和更新頻率來評價該數據的價值。

在數據分析方面,涉及到機器學習、深度學習、自然語言處理和時空模型等方法。在統計中對文本的轉換需要應用自然語言處理技術,在統計方面常用的是基于傳統機器學習的自然語言處理,利用支持向量機等方法對自然語言進行處理以提高精度。基于深度學習的自然語言處理后來逐漸登上舞臺,深度學習為機器學習的一個分支,應用神經網絡等模型完成語言的分類和理解。

在官方統計的軟件和工具方面,選用的有R軟件、Python 軟件、SAS 軟件、共享統計服務、統計數據和元數據交換、代碼可復制性和可重用性、遙感和衛星圖像軟件、時間序列工具、統計披露工具。R、Python 和SAS 軟件已成為數智時代統計過程中使用最多的軟件,共享統計服務、統計數據和元數據交換、代碼可復制性和可重用性、遙感和衛星圖像軟件可以使統計數據的獲取和統計過程的重復更為便利和快捷。時間序列工具對于分析時間序列數據十分重要,而統計披露工具可用于官方統計數據發布與推廣。

在官方統計的傳播方面,利用最新技術的數據可視化和復雜可視化的虛擬現實技術尤為重要。數據可視化是將統計數據呈現給用戶的最常用手段,能夠將大量繁雜的數據及結果簡化并變得通俗易懂。為了迎合技術的變化,可視化的手段也在不斷更新,復雜可視化甚至可與虛擬現實技術相融合,給用戶帶來沉浸性和交互性的體驗。

在官方統計的素養方面,需要具備數據讀寫能力、統計素養、計算機素養、公民科學和統計思維。計算機素養是數智時代統計人員必須具備的,新的數據來源及新的技術方法促使統計從業者要不停更新自己的計算機能力,利用最新的手段更好地進行統計工作。

在官方統計中的道德規范方面,包含隱私和保密、種族平等、公平性和公平數據、安全性、包容性、透明度和問責制。提高統計透明度是官方統計很重要的一項工作,透露數據的來源、覆蓋面和流程等不為大眾所知的方面,能夠減少很多混淆和不必要的質疑。

在可信智能官方統計方面,需要應用物聯網、可信智能調查、手機應用與操作系統、官方統計的新數據方法、官方統計的新數據質量、官方統計的網頁抓取應用和機器學習等技術和方法來實現。隨著數智時代需要分析的數據種類不斷增加,如文本情感分析、圖像理解和網絡數據分析等,使得機器學習技術成為對大數據處理分析的重要動力。

|未來的統計專業教育

大數據技術極大改變了數據的收集、處理和分析的方法和過程,對統計專業教育提出了挑戰。《國務院關于印發促進大數據發展行動綱要的通知》 提到要創新人才培養模式,建立健全多層次、多類型的大數據人才培養體系。明確人才培養的新要求,即培養具有社會經濟學背景知識、掌握數據科學和計算機科學的方法、能夠熟練地運用計算機處理和分析數據的復合型人才。基于歐洲官方統計數據科學模型的解讀以及數據科學基礎知識結構,未來統計專業教育應加強如下三方面能力。

(一)加強計算機操作學習,提升數據分析方法應用能力

現有統計專業教育的計算機操作要求在大數據技術應用方面存在局限性。常用的統計軟件在數據分析方面有所欠缺,需要借助其他工具對大數據進行數據挖掘,計算機操作的重要性更加突出。在處理一些問題時,除了統計方法之外,還可應用算法,如在回歸分析中可引入回歸樹、Boosting 回歸、Bagging回歸、隨機森林回歸、LASSO 回歸等處理大數據。在數據分析軟件方面,除了Excel、SPSS 和SAS 等,開源編程語言成為應用領域的熱點。R 語言軟件功能強大,在國內外統計工作上被廣泛使用。Python語言是當前最受歡迎的程序設計語言之一,簡單易讀易維護。Hadoop可用于處理多元異構的數據。SQL語言是數據庫建立、數據存儲和數據查詢的最廣泛應用的數據庫語言。數據可視化是官方統計傳播的最重要手段,通過計算機算法處理海量數據進行圖像化、動態化后展示給用戶,將大量復雜數據的信息簡單化,數據變得通俗直觀。上述數據分析方法的應用都需要借助計算機軟件的幫助,計算機操作成為數智時代的統計專業教育必須強化的技能之一。

(二)夯實統計理論知識基礎,提升數據認知和數據思維

統計專業教育需要覆蓋統計學、信息技術、數據科學、經濟學、數學和社會科學等。順應官方統計的未來發展趨勢,數據科學的基礎性作用顯著提高。統計理論和統計知識在官方統計應用中仍然發揮主導作用。統計領域專業素養是統計專業教育的核心競爭力,需要堅實的統計理論知識基礎。統計領域人才對數據、數據內容和相關背景有深入了解,才能選擇最合理的知識和方法,挖掘和分析大數據、流動數據、空間數據、開源數據、電信數據、視覺數據、微觀數據和納米數據等。同時,還要跟蹤統計前沿發展趨勢,關注統計與其他學科或領域融合形成的新理論和新技術。數據分析方法的合理應用依賴于數據認知,數據思維成為數智時代統計專業教育必須提升的重要能力。

(三)重視和豐富領域知識,提升統計素養和實踐能力

鑒于統計應用的復雜性,傳統的統計專業培訓主要是課堂講授,案例分析與實踐操作主要是針對課堂中統計理論的演示。在現實應用中,統計人才需要分析實際問題,需要經過實踐活動的鍛煉,具備解決實際問題的能力。各領域知識是解決實際問題的策略基礎。在實際問題中,領域知識與解決問題的能力和技巧同樣重要。實際應用中,數據分析能力和數據應用技巧都離不開對問題的深入理解和領域知識的掌握,更多的數據分析技巧的產生也是領域知識和理論發展的結果。政府部門和企業等單位的統計工作是領域知識的實踐場景,是數據分析的新技能和數據科學方法的重點應用平臺。例如聯合國全球大數據平臺 (UNBigData) 的聯合國官方統計大數據全球工作組 (GWG)活動。統計素養是基于領域知識,運用統計方法,進行數據收集、處理和分析,做出決策并解決實際問題的觀點和邏輯。統計實踐能力是在處理統計工作的過程中,提出問題、選擇統計方法、解決問題,并克服其中困難的能力。

綜上所述,本文介紹的歐洲官方統計數據科學模型和歐洲官方統計數據科學基礎提供了統計專業教育未來發展的方向。隨著數據科學在社會生活各方面的不斷融合和深入,未來統計專業教育要加強傳授統計學知識和其他學科領域知識的力度;夯實數學、英語、計算機基礎,以及提升處理和分析數據的方法的應用能力;培養應用數據科學知識的數據思維和解決現實問題的實踐能力。

猜你喜歡
統計數據科學方法
創新視角下統計數據的提取與使用
科學大爆炸
小小藝術家(2019年6期)2019-06-24 17:39:44
國際統計數據
全球化(2018年6期)2018-09-10 21:29:09
2017年居民消費統計數據資料
科學
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
科學拔牙
統計數據
主站蜘蛛池模板: 999国产精品| 国产成人AV综合久久| 亚洲中文字幕在线观看| 中文字幕在线一区二区在线| 孕妇高潮太爽了在线观看免费| 亚洲欧美成人在线视频| 国产在线无码av完整版在线观看| 最新日韩AV网址在线观看| 黄色成年视频| 韩日免费小视频| 四虎在线高清无码| 天天爽免费视频| 区国产精品搜索视频| 亚洲成人精品久久| 国产精品无码AV中文| 亚洲中文字幕97久久精品少妇| 日本尹人综合香蕉在线观看| 在线欧美日韩| 色网站在线视频| 国产视频入口| 波多野结衣AV无码久久一区| 国产精品专区第一页在线观看| 97se亚洲综合在线天天| 国产精品思思热在线| 亚洲第一中文字幕| 91色爱欧美精品www| 爆乳熟妇一区二区三区| 呦视频在线一区二区三区| 黄色片中文字幕| 伊人天堂网| 无码免费试看| 国产欧美又粗又猛又爽老| 色噜噜在线观看| 国产免费网址| 青青操视频免费观看| 999国内精品久久免费视频| 国内毛片视频| 欧美精品啪啪| 九色在线视频导航91| 任我操在线视频| 婷婷中文在线| 成人在线观看一区| 国产精品女人呻吟在线观看| 91成人免费观看| 成人免费一区二区三区| 夜色爽爽影院18禁妓女影院| 蜜桃视频一区| 欧洲成人免费视频| 国产一级做美女做受视频| 伊人久久大香线蕉影院| 国产91无码福利在线| 午夜在线不卡| 九色视频最新网址 | 精品国产免费观看一区| 国产黑人在线| 在线五月婷婷| av在线5g无码天天| 国产亚洲美日韩AV中文字幕无码成人 | 免费激情网址| 99热这里只有精品在线观看| 亚洲一级毛片在线播放| 免费午夜无码18禁无码影院| 国产成人亚洲欧美激情| 精品无码国产自产野外拍在线| a网站在线观看| 国产精品永久久久久| 亚洲IV视频免费在线光看| 亚洲精品国产成人7777| 国产一区二区福利| 欧美精品黑人粗大| 日韩AV手机在线观看蜜芽| 日韩欧美色综合| 国产亚洲精品91| 国产激情影院| 色综合天天综合| 一级成人a毛片免费播放| 国产男人的天堂| 伊人91在线| 999国产精品| 欧美一区日韩一区中文字幕页| 国产激爽爽爽大片在线观看| 亚洲国产中文精品va在线播放|