孟慶昕
(中國電子科技集團公司電子科學研究院,北京100041)
全國一體化國家大數據中心頂層設計和應用示范工作,基于系統形態的創新,連接政府和社會現有數據中心,整合數據資源,通過“數據即服務、平臺即服務、應用即服務”等服務形式,構建“跨層級縱向匯集、跨部門橫向共享”的數據集中共享環境,推動全國數據資源在國家安全和社會治理等方面的深度開發和綜合運用,形成“全網一體、全域覆蓋、全維應用”的大數據服務體系,實現從“有形”的國家大數據中心實體到“無形”的國家大數據中心體系的轉變。解決全國層面數據統籌管理和數據資源共享問題,突破異地多源數據一致性查詢、異地多中心間資源共享調度等關鍵技術,研制數據中心準入驗證環境和數據交換平臺,建設國家大數據共享調度節點,集成接入電子政務、智慧城市、、空管、電磁等業務域大數據中心,其中電子政務數據體系研究涉及了從各政府部門獲取的格式化數據和非格式化數據,包括文本、圖片、視頻等多類數據。目前已模擬形成了政務服務事項目錄(1400 多條)、證照數據(200 多條)、企業基本信息(200 多條);智慧城市有6 大基礎數據標準和5 大業務領域標準的267348條城市數據的數據目錄,龐大的數據量,急需實現對全國層面的數據統籌管理、一致性智能查詢等功能。
數據倉庫技術是一個面向主題的、集成的、相對穩定的和反映歷史變化的數據集合組織技術。建立大數據存儲模型,建立全網統一編碼規則及數據之間的關聯關系描述,支持有效對數據進行存儲、索引及追溯,以及面向大數據分析應用主題的數據組織。數據倉庫系統是一個信息提供平臺,它從各個業務處理系統獲得數據,主要采取星型模型和雪花模型進行數據組織,并為用戶提供各種手段從數據中獲取信息和知識。數據倉庫的關鍵是數據的存儲和管理,數據倉庫的組織管理方式決定了它有別于傳統數據庫。針對現有各業務系統的數據,進行抽取、清理、并有效的集成,按照主題進行組織。
通過采用“Hadoop+關系型數據庫“混合架構,實現了大數據存儲模型,建立了全平臺統一編碼規則及數據之間的關聯關系描述,抽取了原始監測數據,預處理監測數據,設備狀態數據,環境監控數據,業務應用數據。支持對數據有效存儲、索引及追溯,以及面向大數據分析應用主題的數據組織。解決了多格式、多種類、多來源的數據標準化問題,實現數據存儲架構。
對于海量數據清洗過程中需要強大的計算能力,特別是在一致性查詢,更是提出了更高的要求,該技術充分利用集群強大的計算、存儲能力,采用分層的設計思想,在底層將集群作為數據格式統一的存儲平臺,將各種異構數據源統一到集群的存儲系統中,并采用集群來分析處理巨大的待清洗數據,在集群層之上則為相應的并行核心清洗模塊,包括數據加載模塊、分布式孤立點挖掘模塊、結果分析及存儲模塊,透明的調用集群底層的計算和存儲能力。通過研究空值、數值型、日期型、字符串型等多種異構數據清洗技術,對多種類型的異構數據都能完成清洗工作,為后期的一致性查詢做好基礎準備,同時在數據清洗中引入數據挖掘方法,如用于檢驗異常記錄的聚類方法、用于發現不符合現有模式的異常記錄的模型方法、用于發現數據集中不符合具有支持度規則和高置信度的異常數據的關聯規則方法。
元數據索引加速在大數據的應用過程中,用于解決關系型數據庫百億級數據量級全文檢索及數據計算時效問題,實現快速定位及數據集抽象。通過倒排算法,完成“單詞-文檔矩陣”的存儲形式,目標是為了可以根據單詞快速獲取包含這個單詞的文檔列表,并進行比對。倒排索引包括單詞字典、倒排文件列表和倒排文件物理實體。
單詞詞典:索引單位是單詞,單詞詞典是由文檔集合中出現過的所有單詞構成的字符串集合,單詞詞典內每條索引項記載單詞本身的一些信息以及指向“倒排列表”的指針。
倒排文件列表:記載出現過得某個單詞的所有文檔的文檔列表及單詞在該文檔中出現的位置信息,每條記錄成為一個倒排項(Posting)。根據倒排列表,即可獲知哪些文檔包含某個單詞。
倒排文件物理實體:所有單詞的倒排列表往往順序地存儲在磁盤的某個文件里,這個文件即被稱之為倒排文件,倒排文件是存儲倒排索引的物理文件。經過測試驗證,元數據索引加速技術可以加速響應bolt計算組元的查詢命中,例如用戶輸入查詢詞“114.067222,87.234543”,搜索系統查找倒排索引,從中可以讀出包含這個單詞的文檔,這些文檔就是提供給Bolt 的搜索結果,而利用單詞頻率信息、文檔頻率信息即可以對這些候選搜索結果進行排序,計算文檔和查詢相似性,按照相似性得分由高到低排序輸出,從而替代到傳統關系型數據庫全文檢查,提升數據快速檢索的命中率
并行計算機引擎技術是大數據中心運行計算的核心,實現將大數據級處理任務拆解成批量子計算組集合的計算框架,將一次一百億數據集合計算任務拆分為百十子進程計算,對子計算進程進行過程狀態監管,最終子進程全集完成計算后由統一局和計算進行統計結果,并進行調度。
結合全國一體化國家大數據中心能力需求,通過原型系統建設和示范應用建設,搭建形成南京空管大數據中心、深圳智慧城市大數據中心、貴陽電子政務大數據中心、北京電子政務大數據中心。其中,深圳智慧城市大數據中心已匯集公安局、發改委、地稅局、民政局等24 種數據資源,接入120 張數據表1650 個數據項,共計262 億條記錄,同時還匯聚10 余萬路視頻數據,支撐公共服務、城市運營管理等業務,有效提升數據處理效率15%左右。貴陽電子政務大數據中心服務器規模已達到50 臺,成功匯集貴陽市政府各委辦局共享交換數據,這其中多源一致性智能查詢技術起到了關鍵作用。
基于大數據的精準與主題服務分析實現了政務服務業務分析系統,精準推送和辦事人相關的服務和信息,優化辦事體驗。主要包括政務數據采集、精準搜索、服務檔案、精準服務推送和主題服務分析。基于對經信委、統計局、稅務局、財政局、工商局等部門的經濟運行相關數據采集,通過對區域經濟、企業經營數據、投資、財政等重點主題分析和消費、能源運行形勢等常規主題分析實現了經濟運行業務分析系統,及時發現區域經濟運行的異常,給宏觀調整產業發展政策提供數據依據,為工業經濟運行監測預警奠定基礎,使對工業經濟發展的趨勢判斷和預測更加科學、更加準確,為宏觀決策提供可靠依據,保持和促進工業經濟的健康、持續發展。
數據目錄訂閱系統&審批系統基于配置文件形式進行數據交互,完成數據解析入庫,提供數據目錄展示、數據目錄檢索、數據目錄訂閱功能以及數據操作審批流程,其中審批系統能夠提供服務接口供其他系統調用,審批系統功能涵蓋數據接入審批、數據使用審批以及數據刪除審批,實現了智慧城市敏感數據保護。同時正在結合脫敏設備,對敏感字段加工處理。
建設全市統一的通訊庫,實現跨行業、跨區域、跨業務、跨機構的基礎通訊方式的整合及互聯互通。以全市統一通訊庫為核心,關聯人口、法人、房屋部件、事件等業務庫,將業務及能力封裝成服務,統一調度,供上層業務應用使用。
貴陽電子政務大數據中心典型應用是數據融合在民生領域的綜合應用,應用基于自有數據和仿真模擬數據匯聚融合了全國不同地區、不同行業和不同系統的數據。全景式立體化展現了民生領域,特別是旅游行業的綜合態勢,數據來源包括貴陽本地電子政務中心、南京空管大數據中心、智慧城市大數據中心、電磁大數據中心,完成共計3 大類,18 小類的數據融合分析應用。
本文介紹了以基于數據倉庫技術,大數據清洗技術、元數據索引加速技術和并行計算機引擎技術為核心的異地多源數據一致性智能查詢的實現方法,并成功運用在全國一體化國家大數據中心項目中,在實際的電子政務場景中得到了檢驗,從綜合性能來考慮,是目前實現異地多源數據一致性檢驗技術的有效方法。