顏家遠 宋彥棠 劉峻



摘要:數據治理使政府治理更智能,本文分析政府數據治理的現狀和存在問題,提出政府數據治理體系,包含體系框架、治理機制、治理標準和治理技術等內容。針對政府數據共享開放難的問題,提出政府數據共享開放的治理機制;針對“有數無治”,提出綜合人口數據庫設計規范和數據質量評價規范;針對“有數難治”,提出LSTM-XGBoost融合模型的治理技術模型。通過實踐,政府數據治理體系在實踐中是可行的。
關鍵詞:數據治理;治理機制;治理標準;治理技術;LSTM-XGBoost模型
一、引言
目前,政府數據治理主要集中在技術治理,文獻[1]對政府數據治理和區塊鏈技術的相關性進行深度分析,探討如何通過區塊鏈技術提高政府數據治理需求,并提出基于區塊鏈的政府數據治理架構;文獻[2]指出要大力推進數據治理技術;文獻[3]研究了人工智能技術在政府數據模型、數據安全和數據治理等方面的應用,提出人工智能技術可提高政府數據治理水平;文獻[4]提出基于SSM的政府數據治理聯盟鏈框架,表明在數據安全、數據確權等方面發揮聯盟作用,可促進政府數據治理。文獻[5]通過在WSR視域下研究政府數據治理的影響因素,表明物理-事理-人理緯度可影響政府數據治理的成效。以上方法均從技術角度研究政府數據治理,但當政府數據不一、標準不一、機制不一時,最終的政府數據治理效果往往達不到預期目標。因此,政府數據治理亟須豐富治理手段。
政府數據治理面臨“數據共享難”“有數無治、有數難治”的問題,為破解這些問題,需從“制防、人防、技防”多維度解決[6]。本文首次提出了政府數據治理的框架體系。
二、政府數據治理體系
(一)體系框架
政府數據治理,關鍵要點就在于挖掘政府數據隱藏的潛在價值,并應用于社會經濟各方面,進而為社會經濟賦能。結合不同層級、不同地域和不同部門在數據共享開放存在的痛點和難點,提出政府數據治理體系框架,包含數據層、治理層、應用層三個層次,如圖1所示。
1.數據層
數據層是數據的來源,政府數據按部門分為公安數據、民政數據、人社數據、環保數據、教育數據、國土數據等,按可機讀性分為非結構化數據、半結構化數據、結構化數據等,按人的生命周期分為出生數據、戶籍數據、社保數據、病歷數據、教育數據、就業數據、不動產數據、征信數據、死亡數據等。
2.治理層
治理層是政府數據治理體系的核心,由“二個導向”“三項治理”“四個防范”組成。
“二個導向”是指目標導向、問題導向。政府數據治理應堅持目標導向,設定政府數據治理的短期、中期和長期目標,并通過行動逐步達到目標;政府數據治理應堅持問題導向,針對治理過程中存在的痛點和難點,要“奮勇向前”“知不足而后進”“防患于未然”,不斷解決問題、彌補不足,不斷在新形勢下創新發展。
“三項治理”是指治理機制、治理標準、治理技術,是政府數據治理的核心內容。通過建立政府數據共享開放治理機制,從機制層面解決數據共享難的問題。通過健全治理標準,規范數據庫設計、數據質量評價等標準規范,確保政府數據治理“有規可依,有規可循”。
“四個防范”是指防范決策風險、防范管理風險、防范技術風險、防范數據風險。由于主觀和客觀、宏觀和微觀、規劃與實際等多種不確定因素的影響造成決策不能達到預期目標,甚至與預期目標大相徑庭的決策風險;由于政府數據治理過程中因信息不對稱、管理不善等因素造成管理風險;由于技術不成熟、技術不配套、技術保障不足、技術創新性和適應性無法適應新形勢的發展等因素造成的技術風險;由于數據采集、傳輸、存儲、使用等不當造成數據截取、篡改甚至數據泄露或暴露的數據風險,都需要提前加以防范。
3. 應用層
應用層是政府數據治理的目標,政府部門可通過應用層開展數據交易、數據應用、數據服務等,大型數據應用開發宜采用瀑布型軟件生命周期模型[7]。
圖1 政府數據治理體系架構
(二)治理核心內容
本文重點就治理機制、治理標準和治理技術進行探討。
1.治理機制探討
政府數據治理的治理機制中,重點和難點是政府數據共享開放治理機制,提出政府數據共享開放治理機制。
政府數據按照共享屬性分為無條件共享、有條件共享和不予共享三種類型;政府數據按照開放屬性分為無條件開放、有條件開放和不予開放三種類型,政府數據調度體系如下所示:
(1)共享數據調度
無條件共享的政府數據,數據使用部門通過政府數據共享平臺直接獲取[8];有條件共享的政府數據,數據使用部門在政府數據共享平臺上提交申請后,按照以下流程調度:
數據提供部門為本級行政主管部門的,本級大數據主管部門在規定時間內完成初審。初審未通過的,駁回申請;初審通過的,轉至數據提供部門在規定時間內審核和授權。
數據提供部門為上級(或下級)行政主管部門的,由數據使用部門所在層級的大數據主管部門在規定時間內完成初審。初審未通過的,駁回申請;初審通過的,逐級轉至數據提供部門所在層級大數據主管部門進行復審。復審未通過的,駁回申請;復審通過的,轉至數據提供部門在規定時間內審核和授權。
數據提供部門審核不通過的,數據使用部門有權提起申訴;數據使用部門提起申訴的,由數據提供部門和數據使用部門共有的上級大數據主管部門協調處理。數據提供部門授權給數據使用部門使用政府數據后,數據使用部門應在規定時間內將政府數據應用成效報大數據主管部門備案登記。
(2)開放數據調度
無條件開放的政府數據,申請人(自然人、法人和非法人組織)通過政府數據開放平臺直接獲取[9]。依申請開放數據,按照以下流程進行調度:
依申請開放的政府數據,申請人通過政府數據開放平臺提交數據開放申請,并填寫數據名稱、數據需求類型、數據描述、所屬領域、數據格式、數據用途及其他相關信息。
申請人在政府數據開放平臺上提交申請后,數據提供部門應在規定時間內完成審核。審核通過的,數據提供部門在規定時間內開放所需數據;審核未通過的,數據提供部門必須提供不予開放的依據或理由。
政府數據開放應當遵守《保守國家秘密法》《政府信息公開條例》等有關規定。數據提供部門不同意提供依申請開放的政府數據,申請人確需使用的,由數據提供部門所在層級的大數據主管部門協調處理。數據提供部門同意提供依申請開放的政府數據后,數據提供部門應將開放的數據情況提交同級大數據主管部門備案登記。
(3)調度保障機制
健全運轉機制。建立覆蓋國家、省級、市級、縣級的統一政府數據共享和開放平臺;形成“數據使用部門提需求、數據歸集部門做響應、大數據主管部門保流轉”的運轉機制。
健全歸集權機制。加快推進政府部門內部業務系統整合,形成“大系統、大平臺、大數據”,實現一個部門一個系統,一個部門一套數據。同時,按照“誰歸集、誰維護”的原則,各級政府部門依法履職所獲取和產生的政府數據擁有歸集管理的權利和義務,強化數據維護,使得數據更加準確、更加完整、更加有效、更加可用。
健全使用權機制。各級政府部門對數據擁有使用權,按照“誰使用,誰負責”的原則,各級政府部門依法依規對政府數據享有使用權利和確保安全的義務。
健全管理機制。政府數據歸政府所有,可委托大數據主管部門管理。按照“誰管理、誰統籌”的原則,各級大數據主管部門擁有對該區域各部門數據的統籌管理權,確保數據共享和開放高效進行。
建立仲裁機制。數據提供部門不同意提供有條件共享(或依申請開放)的數據時,可由數據使用部門和數據提供部門共有的上級大數據主管部門協調處理,協調處理無法解決問題時,可通過建立解決爭議的仲裁機制,解決數據共享開放過程中的爭議問題。
2.治理標準探討
政府數據治理過程中,由于政府的部門不同、服務廠商不一,導致承載政府數據的業務系統數據庫設計不規范、字段命名不一,造成數據質量參差不齊,但是各行各業為了破解這一問題,亟需統一標準,實現口徑統一。
(1)綜合人口庫設計規范探討。
提出綜合人口數據庫設計規范,在已出臺標準的基礎上,對人的全生命周期各項活動及產生的數據進行綜合分析和整合利用的數據標準,將各個政府部門的人口相關的數據進行梳理、分析、融合,形成人從出生到死亡全生命周期的信息分類,為匯聚、融合各行業、各領域涉及人口相關數據提供一套切實可行、符合實際的綜合人口數據庫標準,助推數據資源“聚”“通”“用”。規范涵蓋了人從出生到死亡的數據集,設計出具備數據關聯的業務表模型,數據關聯分析比較容易,工作量少,便于開展政府數據治理。綜合人口數據庫由21類數據共107個數據庫表組成,包括身份識別信息、基本信息、生育信息、教育信息、就業信息、職業資格信息、醫療健康信息、社會保險信息、公積金信息、納稅信息、消費收入信息,社會關系信息、資產信息等,記錄了人從出生到死亡的主要信息,數據庫表設計由字段名稱、字段編碼、數據類型、長度、精度、是否主鍵、是否可空、值域、備注共9項組成。
(2)數據質量評價規范。
政府數據一般來源于各個政府部門的應用系統,但因系統建設的標準不統一,或者數據采集規則存在缺陷,導致產生了大量的問題數據,嚴重影響數據的使用。國家和一些地方出臺了數據質量的評價標準,如,國家2018年出臺了《GB/T 36344-2018信息技術數據質量評價指標》,明確了規范性、完整性、準確性、一致性、時效性、可訪問性共6個數據評價指標,但針對每個表、每個部門的數據質量,未提出評價方法。又如,貴州2021年出臺了《DB52/T 1540.4-2021政務數據—第4部分:數據質量評估規范》,該規范較為宏觀,通過該規范難以對每個部門、每個表的數據質量進行精細化評估,難以精準識別問題數據,難以輸出數據質量評價報告。
提出數據質量評價規范,可對每個部門、每個表的數據質量進行精細化評估,輸出可執行的質量評價報告,有利于部門整改問題數據。數據質量評價流程包括確定業務目標和要求、剖析評價數據、明確數據評價指標、設計質量校驗規則、配置質量校驗規則、評價數據質量并輸出報告、整改問題數據,設計完整性、一致性、準確性、合理性、唯一性、及時性共6項評價指標和字段完整性校驗、空值校驗、記錄數據校驗、參照校驗-雙向校驗、一致性校驗、值域校驗、格式校驗、參照校驗-單向校驗、邏輯校驗、波動性校驗、關系校驗、重復校驗、記錄數校驗共12項質量校驗規則。
數據質量評價包括規則級得分、表級得分和部門級得分。其中:
(1)表級得分均遵循下列計算公式進行計算得出:
(1)
式中:X為表級得分,Si、Wi分別第i個規則的得分和權重,Wsum為總權重,n為規則總數。
(2)部門級得分均遵循下列計算公式進行計算得出:
(2)
式中:Y為部門級得分,Xi為第i個表的得分,n為表的總數。
3.治理技術探討
以技術提升政府數據治理能力應堅持“四變”,即變“模糊治理”為“精準治理”,變“線下治理”為“線上線下融合治理”,變“一元主導”為“多元共治”,變“碎片化治理”為“整體性治理”,為更好地實現“四變”,提升政府數據治理能力,人工智能的相關算法模型在政府數據治理的過程中發揮著舉足輕重的作用。
在政府數據治理過程中,一些政府數據對時間的預測性要求較高,比如,通過氣溫的歷史數據,結合相對濕度、風速風向、日照等歷史數據,預測某一地區的最高氣溫,分析最高氣溫變化趨勢,進而分析城市是否宜居,為招商引資和政府決策提供參考。
文章以某地最高氣溫預測為例,通過LSTM-XGBoost融合模型為切入點,探討政府數據治理技術。
(1)基于LSTM-XGBoost融合模型的政府數據治理
LSTM模型。長短時記憶網絡(Long Short Term Memory Network, LSTM)內部結構包含遺忘門、輸入門和輸出門,在訓練過程中,LSTM根據其內部結構,可以有效避免梯度爆炸、梯度消失等問題[10]。
每個Sigmoid 層產生的數字在0 和1 的范圍內。每個LSTM 通過3 種類型的門來控制每個單元的狀態:遺忘門決定了上一時刻的單元狀態有多少保存到當前時刻,輸入門決定了當前時刻網絡的輸入有多少保存到單元狀態,輸出門控制單元狀態有多少輸出到LSTM 的當前輸出值,每一步的狀態更新滿足以下的步驟[11]:
ft=Sigmod(Wxfxt+Whfxt-1+bf) ? ? ? ? ? ? ? ? ? ? ? (1)
it=Sigmod(Wxixt+Whixt-1+bi) ? ? ? ? ? ? ? ? ? ? ?(2)
ot=Sigmod(Wxoxt+Whoxt-1+bo) ? ? ? ? ? ? ? ? ? ? ? (3)
ct~=Sigmod(Wxoxt+Whoxt-1+bo) ? ? ? ? ? ? ? ? ? ? ? (4)
ct=ft·ct-1+it·ct~ ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (5)
ht=tan(ot·ct) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(6)
其中,bi、f、c和Wi、f、c分別是偏置和權重。
XGBoost模型。極限梯度提升樹(eXtreme Gradient Boosting,XGBoost)是一個優化算法,該算法基于Boosting框架,XGBoost是梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)的優化和拓展。在政府數據治理過程中,XGBoost模型通過不斷迭代,生成一棵樹擬合前一棵樹的殘差,隨著迭代次數的增多,精度不斷提高[12]。
LSTM-XGBoost融合模型。LSTM模型和XGBoost模型的原理相差很大,其任意一種方法都適用于政府數據治理中的最高氣溫預測,本文使用LSTM-XGBoost融合模型進行社保資金支出金額的預測,模型結構如圖2。
經氣象部門授權后,得到近10年的歷史氣象數據,按照6:2:2的比例將樣本分為訓練數據(Train Data)、驗證數據(Validation Data)、測試數據(Test Data);首先進行數據預處理與特征選擇,得到一些關鍵特征參數(如氣溫、風速、風向、日照等)作為LSTM-XGBoost融合模型的輸入特征集,特征參數對應時刻的下一時刻最高氣溫作為輸出;重要性排前的特征中分別隨機選取60% 的特征輸入XGBoost1與LSTM 進行訓練,得到氣溫預測值Z1與Z2(由于特征選取的隨機性,且模型結構存在差異,兩個模型預測結果相關性較低,從而提升了最終的融合結果精度);再將Z1和Z2輸入XGBoost2 得到不同氣溫預測值情況下的權重W1、W2,最后計算社保金預測結果Z[13]。
(2)基于LSTM-XGBoost模型的氣溫預測流程。首先將構建好的訓練集輸入 LSTM-XGBoost模型進行訓練,然后通過同樣的特征選擇方式將氣溫測試數據(Test Data)輸入模型對下一時刻的氣溫進行預測,預測流程如圖3。
三、政府數據治理分析
政府數據治理的成效主要取決于共享數據量級、數據授權時間、完整準確數據集占比、數據質量評分等方面,數據共享集越多、完整準確數據集占比越大、數據質量評分越高、數據授權時間越少,在實踐中表明數據治理成效越好[14-15]。
以A市2018年和2021年的25個市級黨政部門的政府數據共享情況進行分析:A市2018年的數據共享方式主要靠傳遞申請函、授權函、拷貝數據等方式,也未構建政府數據整理體系,2019年建立治理機制后,數據治理成效大幅提升。從共享數據集的數量來看,2018年可共享的政府數據集有100項,2021年為280項,平均每年(2019-2021年)提高了90%。從共享數據集授權時間來看,2018年成功共享數據集的平均授權時間為360小時,2021年為168小時,平均每年(2019-2021年)降低了26.7%。從數據質量上來看,2018年可共享的100項數據集中,相對完整、準確的數據集僅有40項,占比40%;2021年可共享的280項數據集中,相對完整、準確的數據集有265項,占比95%,較2018年平均每年(2019-2021年)提高27.5個百分點。從數據質量評分來看,按照數據質量評價規范,2018年的數據質量評價得分為65分,2021年的數據質量評價得分為83分,數據質量評分平均每年(2019-2021年)提高了14%。
影響政府數據治理成效因素中,共享數據量、完整準確數據集占比、數據質量評分均逐年上升,數據授權時間逐年減少,分析出政府數據治理成效逐年提升。
四、結束語
為提高政府數據治理效能,提出治理機制、治理標準和治理技術為核心的政府數據治理體系,實踐表明,通過治理機制、治理標準和治理技術,提高了政府數據治理水平,可破解政府數據互聯互通難、信息共享難、業務協同難和數據治理不高等問題。
顏家遠 廣西大學 計算機與電子信息學院 ? 黔南州大數據發展管理局
宋彥棠 黔南州氣象局
劉峻廣西大學 計算機與電子信息學院
參 ?考 ?文 ?獻
[1] 段月嵐. 基于區塊鏈技術的政府數據治理研究[D].中國礦業大學,2021.
[2] 邢春曉.大力推進數據治理技術與系統的學術研究[J].計算機科學,2021,48(09):3-4.
[3] 江錫強.人工智能技術在政府數據治理中的應用[J].計算機產品與流通,2020(06):128.
[4] 王常玨,段堯清,朱澤.基于SSM的政府數據治理聯盟鏈框架構建[J/OL].情報科學:1-18[2022-09-05].
[5] 李鋒,柳浩.WSR視域下政府數據治理影響因素與路徑研究[J].河海大學學報(哲學社會科學版),2021,23(06):44-53+110.
[6] 顏家遠.“一平臺一基地一學院”網絡安全監管體系研究[J].數字通信世界,2021(08):34-35+43.
7[] 顏家遠,劉峻.瀑布型軟件生命周期模型的案例實踐研究[J].數字通信世界,2022(01):26-28+31.
[8] 王淼.“大數據+網格化”模式中的公共數據治理問題研究—以突發公共衛生事件防控為視角[J].電子政務,2021(01):101-109.
[9] 張珺.政府數據開放的法制路徑[J].研究生法學,2019(02).
[10] Luo Junling,Zhang Zhongliang,Fu Yao,Rao Feng. Time series prediction of COVID-19 transmission in America using LSTM and XGBoost algorithms.[J]. Results in physics,2021,27.
[11] 馮晨,陳志德.基于XGBoost和LSTM加權組合模型在銷售預測的應用[J].計算機系統應用,2019,28(10):226-232.
[12] 陳振宇,劉金波,等.基于LSTM與XGBoost組合模型的超短期電力負荷預測[J].電網技術,2020,44(02):614-620.
[13] 滕偉,黃乙珂,等.基于XGBoost與LSTM的風力發電機繞組溫度預測[J].中國電力,2021,54(06):95-103.
[14] 郭少青,謝明. 以數據治理為中心推進數字政府建設[N]. 中國社會科學報,2022-06-15(007).
[15] 高志華.數據治理背景下政府數據開放共享研究[J].行政科學論壇,2021,8(07):29-33.