巫思敏?孫鑒?劉凇佐?武曉曉



摘? 要:為了改善政府大數據質量,提高政府公共服務能力,文章從數據生命周期模型出發,分析了數據結構質量、數據規模質量、數據時效質量、數據源質量和數據價值密度質量五個維度及十七個評價指標,構建一種基于數據生命周期的政府大數據質量評價體系,然后使用熵權法實證分析用戶對體系的滿意度,最后結合大數據真實性、復雜性、時效性、數量級、增值性等特征,提出了改善政府大數據質量的策略。
關鍵詞:政府大數據;大數據質量;評價體系
中圖分類號:TP391? ? ? ? ? 文獻標識碼:A文章編號:2096-4706(2022)06-0136-05
Construction and Research of Government Big Data Quality Evaluation System
WU Simin1,2, SUN Jian1, LIU Songzuo1, WU Xiaoxiao1
(1.School of Computer Science and Engineering, North Minzu University, Yinchuan? 750021, China; 2.Guangzhou Huali College, Guangzhou? 510006, China)
Abstract: In order to improve the quality of government big data and improve the government public service ability, this paper starts from the data life cycle model, analyzes five dimensions such as data structure quality, data scale quality, data timeliness quality, data source quality and data value density quality, and seventeen evaluation indexes. It constructs a government big data quality evaluation system based on data life cycle, then the entropy weight method is used to empirically analyze users degree of satisfaction with the system. Finally, combined with the authenticity, complexity, timeliness, order of magnitude, value-added and other characteristics of big data, the strategies to improve the quality of government big data are put forward.
Keywords: government big data; big data quality; evaluation system
0? 引? 言
政府大數據涉及各個領域,國內外都從各個方面對其進行研究。目前在大數據治理[1]中,大數據質量評價體系從大數據質量的屬性和大數據五個特征兩個方面進行研究,結合實際應用目標和合適的情境,建立一種與常規數據質量在理論性、復雜性、多維度上存在差異的理論體系。政府大數據構建質量評價體系[2]的構建能夠推動大數據產業的快速發展,會直接影響經濟發展和社會發展,尤其是高質量的政府大數據發揮著極其重要的作用。目前,隨著大數據技術的應用,很多政府都開設了政府數據開放平臺對數據進行管理[3],但是缺乏相對完善的評價體系對大數據質量進行評價,造成了很多巨大的損失。因此,構建一種完善的政府大數據質量評價體系迫在眉睫。
1? 政府大數據質量評價體系建立
1.1 評價指標的確定
本文參考蔡莉[4]等人提出了大數據質量標準,對如何建立相對完善的政府大質量評價系進行研究,參考馬一鳴提出的政府大數據質量評價體系,將融合性歸納到數據結構質量指標中。本文結合數據生命周期模型[5],分析影響大數據質量的因素[6],從以下多級的政府大數據質量評價指標表1進行研究。
1.2實證研究
本文實證研究過程是先構建政府大數據質量評價體系,然后設計一份共58題的調查問卷,合理發放問卷并收集調查數據,進行描述性統計分析和信度分析,使用熵權法進行計算評價指標的權重,為了綜合全面地分析各個指標對政府大數據質量的影響,并未剔除指標,最后并計算所有指標的滿意度。
1.2.1? 問卷描述性分析
經過計算,本文共發了130份問卷,其中有效問卷為123份,問卷的有效回收率較高,參數值為94.6%。被調查者情況如表2所示。
從回收數據可知,問卷的發放對象學歷分為碩士學歷、博士學歷和其他,比例分布是81.03%,8.94%,9.76%,這是因為本文的研究主題大數據是新興技術,碩士學歷以上的被調查者能夠提供更加準確的數據。而職稱比例中教授的比例最小,為1.63%,說明研究此政府大數據質量的高學歷資深人事較少。其次,從受訪用戶的年齡來看,21~30歲共占了76.42%,這也符合了問卷的調查對象,這個群體的用戶是政府大數據使用頻率較高的人群。從學科分布來看,理工科占比較大,共79.57%,占63.41%,而文科占比不大。6F3FB6A2-CC88-490B-9492-C65D053B8738
1.2.2? 信度分析
信度分析是指分析設計問卷所用的指標,然后判斷測驗結果的可靠程度。本文采用“克朗巴哈系數”來測量問卷的可靠性。計算公式為:
(1)
公式中,k為問卷中項目的總數:為第i個指標滿意度得分的內房差,為測評指標總得分的方差,一般認為α為測評指標總得分的方差,一般認為α在0.7以上,問卷值得信賴。本文用SPSS統計分析軟件對調查收集到的123份問卷數據進行信度分析處理,結果顯示如表4所示。從表4可見,本問卷的α都超過0.7,這就表示本文中問卷的指標均是政府大數據質量評價的重要因素。本文的17個指標根據題目計算過程,如圖1所示。
1.2.3正負指標處理
在進行熵權法之前,需要對評價指標進行正負指標處理[7],如政府部門操作造成數據誤差對政府大數據質量的影響,應該是越小越好,因此該指標處理為負指標,以此類推,對所有指標進行分析處理,最終得到結果如圖2所示。質量評價體系指標及屬性如表5所示。
1.2.4? 熵權法計算各級指標權重
熵權法的思路是根據指標提供的信息量來給指標賦權[8]。指標的熵值與離散程度成反比,也就是說這個評價指標能夠造成更大的影響和提供更多的信息,反之亦然。若指標之間的值一樣那就說明這兩個指標不會造成影響。本文使用SPSS軟件過程如圖3所示。
本文使用熵權法的計算過程,得到每一個評價指標的具體權重值,得到三級指標的權重,通過計算得到的一級二級權重情況如表6所示。
1.2.5? 政府大數據質量評價結果分析
使用公式計算綜合得分。式中:F為所測量對象的綜合得分,Wj為第j個變量的權重,Yj為第j個變量的測度值總和的算術平均數。得出該數據的綜合得分為3.296,因此本體系總體滿意度屬于一般,還需要對問卷進行調整和收集更多的問卷數據進行分析。
2? 提出大數據技術改善政府大數據質量策略
2.1基于大數據特性-真實性評價指標的策略
根據前文實證研究結果可知,數據準確性即真實性權重達到40.857%的數據源質量維度,是政府大數據質量的重中之重,可見數據源質量是一切的開端,影響后面每一個階段。與其他領域大數據相比,政府大數據是權威性數據,極其容易受制度因素干擾,因此建立數據管理部門,引進大數據技術高學歷人才,不斷制定和完善垂直管理體系和數據核算信用體系,將用戶提供數據的真實性與個人征信記錄掛鉤,并促進數據質量監測預警平臺智能化,一旦發現異常虛假數據及時反饋和預警,可以第一時間從源頭上減少一切低劣的數據源發生[9]。
從政府部門、數據用戶和第三方服務商三個主體考慮,政府部門是國家政府職能部門,所有政府業務都有其固定的流程規范,因而政府應制定全面、完善的補充文件解說數據源,指導用戶生成和使用數據,使得數據源的管理規范化[10]。在處理虛假數據時,常規操作都是最簡單的方法就是直接刪除,而這些虛假數據也存在著其價值,可以對其進行分析,挖掘虛假數據出現的原因,從而提高數據質量。政府部門需要制定一份相對完善的數據采集標準,從數據生成初期進行管理,提高政府開放數據質量。這需要政府注重數據的采集方式,尤其是手工錄入數據,才能從源頭管控數據的質量。而第三方服務商在完成數據任務時,切勿為了利益而偽造數據,造成不可估量的損失[11]。
2.2? 基于大數據特性-時效性評價指標的策略
從表6中的時效性權重4.4%,可知當前用戶對于政府大數據時效性質量較為滿意。政府部門需要與時俱進,不斷地完善管理規則從而完成數據管理工作[12]。政府部門應該對高校、企業及數據用戶的數據工程項目給予支持和立項,加大數據項目的資金投入和政策支持。各個政府部門應該利用云服務器和云計算的技術搭建大數據平臺實現數據共享,實現分布式計算,如Spark、FLink,在分布式存儲支持的條件下,能夠實現對數據的實時處理,而不是離線下載數據后處理,實現了計算移動而不是往常的數據移動。而政府部門簡政政策為政府大數據時效性提供了基礎,刪除了很多不必要的流程,極大地提高了時效性。
第三方服務商應該致力于研發更多適用于云計算、物聯網技術的設備和軟件,使得政府數據更加智能化,從而提高政府服務質量。而數據倉庫(Hive)的出現提高了數據查詢的速度和實時處理能力。政府部門制定權威性的政府大數據存儲策略,選擇合適的存儲介質,從根本提高數據的時效性。一般存儲策略是長久不使用的政府歷史數據屬于冷凍數據,應該存儲在性能較低的服務器或者價格便宜的機械硬盤,間斷性使用的政府數據屬于暖數據應該存儲在數據庫中,而頻繁訪問的數據即熱數據應該存儲在實時處理能力較強的HBase。除了存儲策略,政府部分應該鼓勵存儲研發企業和半導體企業大力研發更優質的存儲介質,比如紫晶存儲指出的光存儲也有著得天獨厚的優勢,一次寫入之后就可以保證數據不可篡改。
2.3? 基于大數據特性-數量級評價指標的策略
數量級指標占重5.8%,在所有指標中排名較前,可見用戶對于政府大數據的數據有較大的需求,因此政府部門提高政府大數據質量的方法可以是對大數據生態系統分布式文件系統的副本機制統一化,讓各個數據都設置合適的副本數目,一般而言副本機制一般設置為3(包括它本身)。假如副本數目越大,那么其帶來的數量也進行了翻倍,這不是政府部門想要看到的。副本機制是指在一個從節點中的政府數據使用過程中無法訪問,分布式文件系統會通過主節點得到副本存儲在那個從節點上,能夠及時從另外一個從節點拷貝數據。政府部門可以通過搭建各自的政府數據開放平臺,為用戶提供更高質量更多數據時,也在一定的程度上增加了政府大數據質量的管理運作成本,但是能為大數據質量提供大容量存儲保障。
2.4? 基于大數據特性-復雜性評價指標的策略6F3FB6A2-CC88-490B-9492-C65D053B8738
數據復雜性即多樣性,占重5.6%,反映著目前政府大數據的結構較為復雜,需要注重數據融合過程。政府必須認真理解指導要求,使得多種結構數據規范化處理,形成明文規定并將其傳送到每一個政府部門,允許相關政府單位因地制宜地執行規定。而在大數據生態系中應該加強各個算法的研究,便于提高數據轉換ETL的性能。數據融合的另一個難題是采集的數據類型較復雜,包括圖片、音頻、視頻、數字,在短時間內融合這幾個數據類型的數據存在一定的難度。政府應該明確數據融合的需要和要求,通過軟硬件提出具體的目標和實現途徑,如無人駕駛應用中,多個傳感器和攝像頭、雷達、GPS等同時傳回數據,必須快速識別并提供決策方案[13]。
2.5? 基于大數據特性-增值性評價指標的策略
數據增值性主要涉及數據挖掘、數據可視化和數據使用。增值性無論對于政府部門、數據用戶還是第三方服務商來說,都是最清晰的概念,即數據價值。關于數據增值性的制度因素是評價滿意度得分較低的指標0.046為,充分證明越來越多的人重視了數據的價值,而不是數據的容量和讀寫速度,因此數據增值性也會影響大數據質量。但是單個政府數據的價值是很小的并且難以直接獲得,需要通過數據挖掘算法計算相似度將其聚類、分類或者其他操作,從而能夠將隱藏的價值挖掘出來,比如啤酒和面包經典案例。政府部門應該建立規則,將多個地方政府數據進行整合成全國政府大數據,確保數據質量高質量,進行數據挖掘,應與企業加強產學研合作,通過產業的方式實現其價值,促進政府數據的價值最大化[14]。政府部門對于數據的分析與發布操作,能夠讓更多的市民了解政府大數據,使用政府大數據,發揮政府大數據的價值。其次政府部門應該全面綜合考慮各地的情況,建立適合本地的大數據質量管理平臺[15],使得當地經濟可持續發展。
3? 結? 論
政府部門不僅掌握著人力、物力、財力等資源,還是為人民服務的主體。隨著物聯網技術的加入,對數據的每一個生命周期過程提出了更高的要求,可視化技術如知識圖譜也使得數據與數據之間的關系更加明確,發現了更多的新知識。部分高校開設了大數據專業,主要開設的課程有大數據技術、大數據分析、數據挖掘,沒有專門開設大數據質量相關課程,注重了大數據環境的搭建而忽略了大數據質量的作用,因此應該在培養相關專業技術人才時,應該以大數據質量為根本,學習相應的大數據技術、進而系統地培養更多優質的大數據專業人才。
參考文獻:
[1] 王蕾.國內外政府大數據治理的對比研究 [D].哈爾濱:黑龍江大學,2020.
[2] 賽迪顧問大數據產業研究中心.“十四五”時期我國大數據產業發展特征 [J].軟件和集成電路,2021(4):16-17.
[3] 侯征.我國政府開放數據質量評價模型構建研究 [D].鄭州:鄭州航空工業管理學院,2021.
[4] 蔡莉,朱楊勇.大數據質量 [M].上海:上海科學技術出版社,2017.
[5] 張楠.基于生命周期的政府開放數據質量管理研究 [D].鄭州:鄭州航空工業管理學院,2020.
[6] 莫祖英,侯征,賀雅文.管理者視角下政府開放數據質量影響因素扎根研究 [J].圖書館學研究,2021(13):18-26.
[7] 馬一鳴.政府大數據質量評價體系構建研究 [D].長春:吉林大學,2016.
[8] 胡千代,王芳.政府數據質量評價指標體系構建研究 [J].科技情報研究,2021,3(03):17-34.
[9] 阮霽陽.地方政府數據開放平臺服務質量評價研究——基于群AHP-熵權法組合權重的TOPSIS實證分析 [J].云南行政學院學報,2021,23(6):43-52.
[10] 莫祖英,鄺苗苗.基于用戶視角的政府開放數據質量評價模型及實證研究 [J].大學圖書情報學刊,2020,38(4):84-89.
[11] 陳灝.提高政府統計數據質量路徑研究 [D].太原:太原理工大學,2021.
[12] 王娟.國內外政府開放數據質量研究述評 [J].圖書館理論與實踐,2019(12):27-31.
[13] 李卓雅.大數據使用影響政府決策質量的實證研究 [D].成都:電子科技大學,2022.
[14] 朱涵鈺.探析政府大數據治理有效性提升策略 [J].中國管理信息化,2022,25(1):194-198.
[15] 陳麗金.廣東省地級市政府數據開放平臺的數據質量管理研究 [D].貴陽:貴州財經大學,2022.
作者簡介:巫思敏(1993—),女,漢族,廣東信宜人,助教,高級工程師,碩士研究生在讀,研究方向:數據挖掘與知識發現;通訊作者:孫鑒(1982—),男,漢族,山東煙臺人,講師,工學博士,研究方向:大數據存儲與管理;劉凇佐(1994—),男,回族,黑龍江雙鴨山人,碩士研究生在讀,研究方向:高性能存儲系統與信息存儲技術;武曉曉(1996—),女,漢族,山西汾陽人,碩士,研究方向:數據挖掘與知識發現。
收稿日期:2022-01-02
基金項目:國家自然科學基金資助項目(62062002);寧夏自然科學基金項目(2020AAC03221,2021A0966);北方民族大學中央高校基本科研業務費專項資金(FWNX09);北方民族大學校級一般項目(2018JY1202,2021XYZJK01)。6F3FB6A2-CC88-490B-9492-C65D053B8738