摘 要:元數據作為一種較為先進的數據管理手段,在國際上已經得到了廣泛的應用。隨著統計信息化的逐步推進,統計元數據建設也逐步提上日程。本文通過梳理元數據的概念,立足于江西統計工作實際,應用現代的信息化技術,提出了建設本省元數據系統的設想,以更好地服務于江西統計工作。
關鍵詞:元數據;統計信息化;行業標準
中圖分類號:TP311.13 文獻標識碼:A 文章編號:2096-4706(2018)08-0025-03
Abstract:As a relatively advanced data management method,metadata has been widely used in the world. With the gradual advancement of statistical informatization,the construction of statistical metadata is gradually on the agenda. This article through the concept of combing metadata,based on the actual situation of statistical work in Jiangxi,the application of modern information technology,put forward the idea of building the provinces metadata system,to better serve the statistical work in Jiangxi.
Keywords:metadata;statistical informatization;industry standard
0 引 言
元數據是定義和描述其他數據的數據。依據《國家統計調查元數據標準》(國統辦設管字[2016]29號),通過建立統計元數據庫系統,使所有的基層數據和宏觀數據都能夠被正確地描述和存儲,避免在數據流轉過程中出現信息丟失或轉義等錯誤。這對于增強統計數據的可解釋性、準確性和一致性,提高統計工作的標準化水平,以及推進統計信息化具有重要的意義。
1 目前國內外已經建立的元數據規范
(1)DDI(Data Documentation Initiative):針對社會科學領域,較貼近統計,國際住戶調查案例較成熟,對統計抽樣調查規范具有很好的啟示作用;
(2)ISO/IEC 11179:針對社會組織,適合描述微觀數據,并跟蹤其變動情況;
(3)SDMX(ISO 17369:2013):主要由國際金融機構發起,人民銀行發布的行業標準(JR/T 0107.1~7-2014);
(4)GSIM(Generic Statistical Information Model):屬于概念模型,適于描述政府統計產品全過程;
(5)GSBPM(The Generic Statistical Business Process Model):用于描述統計業務流程模型;
(6)GILS(Global Information Locator Service):針對政府/組織,適合描述信息資源定位與檢索;
(7)Dublin Core:針對數字圖書館,對描述我們的統計文檔有借鑒意義;
(8)FGDC、CEN/TC287、ISO/TC211:空間元數據標準的三個組織和規范;
(9)CWM(Common Warehouse Metamodel):用于數據倉庫構建和應用的元數據建模;
(10)RDF(Resource Description Framework):使用XML語法和RDF Schema(RDFS),將元數據描述成為數據模型。
2 統計元數據庫的設計思路
按照國際標準,元數據大致可分為3種類型:描述性元數據、結構性元數據和管理性元數據。
(1)描述性元數據:用以描述和識別數字對象的特征、分析信息體知識內容的數據;
(2)結構性元數據:用于確保數字化對象正常發揮功能的技術性信息;
(3)管理型元數據:提供有關數字對象的存儲條件和轉換過程相關的信息。
3 統計元數據庫的設計原則
(1)一致性原則。在元數據設計過程中,應保持與現有的國家標準、行業標準或者其他國際標準相一致;
(2)準確性原則。在元數據設計過程中,應盡可能全面細致地描述數字對象,滿足統計業務人員的專業需求,避免元數據描述與實際出現歧義;
(3)簡單性原則。在滿足準確性原則的基礎上,設計的元數據在實際應用時應易于掌握,方便理解,這將有助于專業技術人員在編寫制度、基層表和匯總表時,更好更快地完成任務;
(4)可擴展性原則。統計業務在不斷地發展,統計標準的更新以及指標概念的重新定義將導致原有的元數據在描述上變得不準確,所以在元數據設計過程中,應允許在原來的元數據定義上擴充一些屬性值,以滿足新的統計標準;
(5)可遷移性原則。建立的統計元數據庫,應當可以在不同的統計業務系統中應用,具備一定的可遷移性。
4 統計元數據庫的標準技術框架
統計元數據庫標準技術框架包括元素定義、核心元素集、描述規范、語法機構和擴展規則。
(1)元素是統計元數據體系中的業務對象,可以小到單位名稱,可以是指標,也可以是制度等。元素之間具有關聯關系,比如制度包含報表,報表包含指標等。元素定義是對元素進行各種屬性的約定。元素的屬性具有可擴展性,根據業務需要進行擴展。比如,“單位名稱”的屬性除了字段類型、長度等外,可以擴展編碼屬性等;
(2)核心元素集是針對統計業務實際形成的基礎的、穩定的和關鍵的元素集合。比如制度、報表、指標、分組、目錄和方法等涉及的元素集合都是統計業務中的核心元素集;
(3)描述規范保證統計元數據體系形式上的統一和規范,通常采用XML或Json等格式進行內容描述,采用DTD、XML Schemas等文件進行規范描述;
(4)語法結構是利用某些技術手段形成的元數據定義和關聯關系等的統一、規范、一致的語法結構,保證元數據體系能夠適應業務變化的需求,而不會造成混亂。例如:
(5)元數據體系需要建立擴展機制和規則,靈活適應統計業務的變化需求。例如:
(6)技術框架。借鑒國內外現有元數據規范,結合國內統計數據及應用的實際特點制定。針對統計調查對象、基層數據、宏觀數據、文檔資料和空間數據等信息制定元數據規范。建立調查對象、統計制度、統計報表、統計指標、分組/目錄、空間數據等統計要素之間的關聯關系,形成統一、規范、可自解釋的統計數據資源視圖;建立元數據頂層管理規范,包括元數據注冊、審批和發布等;開發元數據編輯、管理和發布等軟件工具;為統計信息交換、存儲、處理、分析和發布等環節奠定堅實的數據基礎,統計元數據技術框架如圖1所示。
5 統計元數據庫的標準體系設計
面對數據資源來源廣泛、數據類型復雜、數據標準不一致等問題和挑戰,需要設計面向數據資源處理的元數據規范。具體數據資源處理元數據規范涉及制度、報表、指標、目錄、分組和方法等內容。下面以制度元數據規范為例,制度元數據定義規范如表1所示。
參考文獻:
[1] 胡帆.中國統計元數據的構成及初步詮釋 [J].中國統計,2008(11):6-8.
[2] 上海市統計局課題組.建設上海統計元數據研究 [J].統計科學與實踐,2014(5):36-38.
[3] 馮甲策.博物館元數據規范建設與應用 [J].現代信息科技,2017,1(3):17-19.
[4] 朱榮.基于信息組織技術的數字圖書館服務 [J].現代信息科技,2018,2(3):124-125+127.
作者簡介:鄧帥(1983-),男,漢族,江西南昌人,工程師,學士。研究方向:元數據。