999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

法人和其他組織統一社會信用代碼數據國民經濟行業數據質量提升方法研究

2024-06-03 10:39:14趙捷袁輝鄧祥武宮政司琳華金江
中國標準化 2024年5期

趙捷 袁輝 鄧祥武 宮政 司琳華 金江

摘 要:在國民經濟行業分析過程中,法人和其他組織的統一社會信用代碼數據起著至關重要的作用,其不僅是產業和統計分析工作的基礎,數據質量的優劣更會直接影響到分析結果的準確性。本文以提升數據質量為出發點,首先對數據質量問題進行精準鑒別,其次構建混合型自動化行業分類模型,并提出了數據質量持續提升的常態化標準化流程機制。這種策略在提供持續、迭代的改進機制的同時,也為國民經濟行業的數據分析提供了更為堅實和可靠的數據保障。

關鍵詞:統一社會信用代碼,國民經濟,自動化行業分類模型,數據質量提升

DOI編碼:10.3969/j.issn.1002-5944.2024.05.009

0 引 言

法人和其他組織統一社會信用代碼數據是以統一社會信用代碼為唯一標識,整理校核各登記管理部門回傳的各類法人和其他組織信息后形成的基礎數據集,涵蓋機構標識、名稱、成立日期、經濟行業等數據字段。截至2023年10月,統一社會信用代碼庫中共有法人和其他組織約1.8億,其中法人機構共6002萬,包括營利法人5267萬,非營利法人545萬,特別法人190萬;非法人組織818萬,個體工商戶約1.1億。

法人和其他組織統一社會信用代碼數據能有效避免業務庫面臨數據孤島問題[1],在支撐政務管理[2]、信用監管[3]、數字經濟[4]、身份認證[5]等社會管理和經濟活動各領域發揮了實名管理、分析決策的重要作用,其中國民經濟行業數據是重要的統計維度數據,其質量直接關系到產業分析等統計分析工作的準確性[6]。國民經濟行業數據質量提升方法的研究,對提高行業分類準確度,支撐我國經濟普查等涉產業分類分析工作具有重要意義。隨著近幾年技術的快速發展以及國民經濟行業標準[7]的新舊更替,研究國民經濟行業數據質量提升新理論新方法,促進統一社會信用代碼數據質量更加完整[8],進而引導國民經濟行業分類質量全面提升,支撐國家統計分析工作迫在眉睫。

1 國民經濟行業數據質量提升方法概述

國民經濟行業數據質量提升方法聚焦三個方面:第一準確識別數據質量問題并進行原因鑒別;第二優化自動化行業分類模型和算法;第三建立標準化工作機制與工作流程,將國民經濟行業數據質量提升作為一個常態化工作,動態無縫融合到每日的數據接收與處理過程中持續改進。

準確識別數據質量問題、定位問題并進行問題分類是聚焦質量提升關注重點以及確定優質樣本集、評估提升效果首要的一步,需要以專家經驗視角建立和維護相關方法模型。自動化行業分類模型是經濟行業數據質量提升的技術內核,隨著人工智能技術的發展,相關模型方法需要進行優化升級。標準化的工作機制與工作流程是確保數據質量持續提升的核心關鍵,建立形成融合技術、方法與團隊的工作程序體現了數據質量管理的綜合能力。

2 數據質量問題識別與分析方法

數據質量問題識別與分析方法研究旨在發現影響數據質量的各類問題,并分析原因,進而找到解決方法。

2.1 問題分類

從20年工作經驗中總結規律并查閱相關文獻[9],建立經濟行業數據質量問題識別與分析模型,用以輔助人工對大體量數據實現自動問題發現與分析工作,模型包括對五個大類問題的識別:

(1)數據完整性問題識別:主要是對字段項內容中的空值、亂值問題進行識別標記。

(2)數據標準不一致問題識別:主要是對經濟行業版本不一致的數據進行識別標記。國民經濟行業數據基本已經完成了2011向2017版本的過渡,但由于全國各地情況多樣,少數地區、領域數據仍存在使用舊版情況。

(3)數據原始上報不準確問題識別:經濟行業數據在注冊端由機構辦理注冊人員填報,因此摻雜人為主觀因素造成不準確情況。需要借助自動化行業分類模型實現對此類問題的識別標注。

(4)行業分類細分不足問題識別:國民經濟行業分類分為四個層次,即門類、大類、中類、小類。其中小類代表經濟活動可供觀察和度量的最小類別,分到小類意義最大。對僅分到門類、大類、中類數據進行識別標記。

(5)跨行業情況問題識別:目前企業跨行業、跨產業、橫向發展的情況日益突出,較大規模企業很少有聚焦在垂直細分一個行業的情況。需要借助自動化行業分類模型實現對此類問題的識別標注。

2.2 原因分析

近2億組織機構國民經濟行業數據經過數據質量問題識別與分析模型的計算甄別,形成無問題以及各類問題標記的聚類集合。針對每個集合再人工抽樣分析原因確定具體的處理邏輯,主要包括三種情況:

(1)經原因分析,由標準不一致、機構名稱規則識別缺陷導致,可通過規則處理對應到準確行業分類,進入規則處理過程,進行經濟行業數據糾偏完善。

(2)經原因分析,由完整性、上報不準、細分不足、缺乏跨行業分類導致,可通過自動化行業分類模型細化或糾正行業分類,進入自動化行業分類模型處理過程,進行經濟行業數據糾偏完善。

(3)經原因分析,由機構名稱、經營范圍等字段質量問題引起行業分類錯誤,進入人工應急補充處理過程,先進行整體數據質量提升,再重新進入國民經濟行業數據質量提升工作流程。

數據質量問題識別與分析方法過程如圖1所示,通過方法可以形成相對無問題的數據集合,作為優質樣本集合用于訓練分類模型。存在問題的數據將多次通過模型去進行反復的問題識別與分析,直到進入無問題數據集合。模型產生的標記可以宏觀分析監控到數據問題解決程度與質量提升情況。

3 構建混合型自動化行業分類模型

人工智能深度學習科學的進步,打破傳統基于自然語言處理技術與規則匹配的行業分類方法,通過神經網絡的應用能更加快速地進行文本特征分析與學習[10],消除關鍵詞相似度匹配造成的語義歧義,從而進一步提高分類的效率和精確度。本文融合規則匹配模型與神經網絡的優勢,構建混合型自動化行業分類模型,針對機構名稱和經營范圍文本各自的特點,綜合使用不同分類算法,得到最佳的分類結果。

3.1 數據樣本準備

剔除經濟行業數據質量問題識別與分析模型標記的部分問題數據并通過人工選擇確立包含幾十萬數據的樣本庫,數據應符合以下要求:

(1)涵蓋全部經濟行業分類。

(2)數據機構名稱完整,符合構成結構:[行政區劃][機構標識][機構行業][機構類型],不包含錯別字、縮略語。

(3)數據經營范圍完整,內容描述完整,不包括大量錯別字或僅包括單字、單詞。

(4)經濟行業分類準確。

高質量數據樣本決定了訓練模型的效果,機構名稱和經營范圍字段內容是分類經濟行業的基礎文本。同時需要準備標準特征樣本庫,將國民經濟行業標準文本轉成標準特征樣本。

3.2 基于機構名稱的規則匹配訓練方法

機構名稱的構成中包含有機構行業屬性,如果能準確地將其剝離,與標準特征樣本匹配一致,即可確定得到基于機構名稱規則識別的經濟行業分類。例如:北京美極鮮食品有限公司,其中“北京”是行政區劃關鍵字,“美極鮮”是機構標識,也是俗稱的商號,“有限公司”是機構類型,“食品”則能直接反映該機構所在經濟行業是食品行業。這里需要用到jieba、LTP等中文分詞技術實現對機構名稱的分詞。由于機構名稱是規則型文本,因此通過分詞解析出特征詞并匹配得到對應經濟行業的精準度非常高,但由于這種方法不一定能具體到經濟行業小類或者三產分類(比如是制造業還是零售業),因此需要與經營范圍分類識別算法共同使用。

3.3 基于經營范圍的卷積神經網絡訓練方法

經營范圍的構成包括多個文本描述語句,語句之前的間隔符號。文本描述語句中經常包括多個特征詞,指向多種經營活動,涉及多個行業甚至多個產業,因此通過經營范圍分類一般都會有多個分類結果,常規以第一個描述語句產出的分類結果作為主營經濟行業。

通過卷積神經網絡實現通過經營范圍識別經濟行業類別,首先要將經營范圍文本轉化為卷積神經網絡模型輸入層接收的自然語言序列向量,形成神經網絡可以理解的語言模式。文本中的句號、逗號、分號等可以作為文本的分隔符,形成單獨處理的文本語句,通過分詞技術對文本語句進行分詞處理與特征抽取。構造詞典映射表,將詞語映射為詞向量,再根據神經網絡要求對詞向量進行序列化、填充處理,最后形成向量數據并逐一輸入網絡模型。之后卷積神經網絡的卷積層通過卷積操作捕捉輸入向量中的局部特征,通過學習連接權重將學到的特征映射到多個不同的的經濟行業類別,并計算出最相關的經濟行業類別。在訓練過程中,模型通過與正確樣本的比較,利用損失函數來調整權重,以最小化分類錯誤。卷積神經網絡成功分類的關鍵在于模型通過學習權重和偏置來發現經營范圍文本中與經濟行業相關的抽象特征,通過學習大量已知的、準確的樣本數據,進而泛化到未知數據,對新輸入的經營范圍文本進行經濟行業分類。

3.4 合并形成混合型自動化行業分類結果

將基于機構名稱的規則匹配方法與基于經營范圍的卷積神經網絡訓練方法得到的經濟行業分類結果合并分析,可以發現,樣本準確度高的情況下一致性較高,如果出現不一致,由于經營范圍數據質量低于機構名稱數據質量可能性較大,可以優先使用機構名稱產生的分類。

4 數據質量持續提升標準化流程機制

國民經濟行業數據質量提升工作是一項常態化工作。在日常工作中建立促使數據質量持續提升的標準化流程機制,才能確保國民經濟行業數據質量實現長效優化。具體包括三個方面的工作流程機制:數據日常處理工作流程機制、數據質量監測工作流程機制以及數據模型優化工作流程機制,如圖2所示。

4.1 數據日常處理工作流程機制

統一社會信用代碼數據是由每日注冊業務產生的數據,從數據回傳到數據應用具有很高的時效性要求,因此經濟行業數據質量提升工作是一項內嵌于代碼數據工作流中的子任務,作為代碼數據整體質量提升工作中的一個并行分支,在數據應用前通過經濟行業質量提升子系統完成質量提升工作。

數據回傳進入中心統一社會信用代碼數據庫,經濟行業數據輸入進入經濟行業質量提升子系統,首先進入問題識別與分析模塊,針對每一條機構數據對經濟行業存在的問題進行標記,無問題標記數據進入后續數據加工處理環節,有問題數據進入質量修復模塊,針對質量問題進行修復,然后重復進入問題識別與分析模塊,查看問題修復情況,如果再次存在問題,拋出進入人工協同工作站,由數據人員對問題原因進行深層次分析與處理。

4.2 數據質量檢測流程機制

數據質量檢測流程機制用于人工監督數據整體質量情況,包括通過合理抽樣數據實施質量檢測、通過質量評價標準判斷整體數據質量以及挖掘發現質量問題三個方面。

(1)數據質量抽樣

數據質量抽樣需要選擇能夠代表整體數據集的樣本。這可能涉及到隨機抽樣、分層抽樣或者特定規則下的樣本選擇。樣本應該在各個維度上具有代表性,以確保抽樣結果對整體數據的反映具有可靠性和有效性。抽樣的規模很關鍵,要考慮到樣本數量對于數據集的代表性以及評估人工成本的可操作性。

經濟行業數據量級與機構量級相統一達到近2億條,因此在質量檢測工作中,需要選擇合理抽樣方法獲取小樣本的方式,集中評價發現質量問題。首先結合經濟行業數據特點確定抽樣方案,一般包括三種:

第一是按照經濟行業分類層級進行分層抽樣,按照經濟行業門類20個,大類97個,中類473個和小類1380個,每類抽取一定樣本,這樣可以實現各類經濟行業情況的全覆蓋,但由于分類較多,考慮人工成本,只能減少每個分類的抽樣數量,一般單個分類樣本數量只能在個位數。第二按照地域進行特定規則抽樣,全國各省、市、自治區(不包括港澳臺),每個抽取一定樣本,這樣可以看到各地上報數據質量情況,對質量狀況不好的地域集中發現問題、治理問題。第三個是按照機構類型進行特定規則抽樣,可以強化對某個類型機構的經濟行業數據關注與治理。

(2)質量評價標準

質量評價標準[11]是用于衡量數據質量的指標和標準,它們用于度量數據的各個方面,確保數據符合預期的質量標準。經濟行業數據質量評價標準包括以下三種:

第一完整性(Completeness):衡量數據的完整程度,即經濟行業數據是否缺失或者不可解讀。第二準確性(Accuracy):衡量數據的準確性,即經濟行業數據是否與機構名稱、經營范圍描述相符。第三有效性(Validity):衡量數據是否符合預定的規范和業務規則,即經濟行業數據是否符合標準的定義和具有完整的分類編碼。

評價可以針對全量數據產生宏觀評價,也可以對小樣本數據或單一數據進行評價。

(3)質量問題發現

質量問題發現是通過一系列的檢測和分析步驟,識別和定位數據質量問題的過程。經濟行業質量問題發現可以從宏觀分析、抽樣分析、用戶反饋和異常報告三個方面發現問題:

宏觀分析發現數據問題是指從經濟行業數據整體分類數據統計情況,發現數據量趨勢或分布存在異常,從而推導出經濟行業數據質量出現問題,例如金屬制造行業某個省占比達到10%,比上月占比高出20%,從這里可以推測出部分行業數據出現分類錯誤情況,可以著重分析問題原因進而糾正。抽樣分析發現數據問題是指從數據質量抽樣到的小樣本數據,通過逐一核實分析,發現錯誤、缺失等情況等,聚類找到共性問題原因進行質量糾正。用戶反饋和異常報告是指根據收集到的用戶反饋和異常報告,了解用戶在實際使用中遇到的問題數據,進而對問題數據進行逐條分析,發現潛在的數據質量問題。

4.3 數據模型優化工作流程機制

數據模型優化工作流程機制是指通過人工分析問題對模型涉及的語料、規則進行補充。該流程機制內嵌在人工協同工作站中,當在質量提升流程中遇到目前模型算法難以自動處理的難點,經濟行業數據會進入人工分析處理流程,確定是判定規則缺失、詞庫特征詞缺失還是標準語料庫缺失從而人工添加相應的規則、詞語或語料,促進模型的優化,提高日后判定的準確度。

5 結 語

法人和其他組織統一社會信用代碼數據國民經濟行業數據質量多年來不斷完善和提高,通過開放共享的數據提供更好的服務模式[12]。本文論述了在質量提升工作中應用到的具體方法機制,包括技術方法:數據質量問題識別與分析方法、自動化行業分類模型,以及日常處理、質量檢測和模型優化的工作流程機制。經濟行業數據質量提升工作需要保持不斷的總結和探索,精益求精,為國家宏觀分析決策工作筑起堅實的基礎底座。

參考文獻

[1]周燁.法人及其他組織統一社會信用代碼數據在大市場監管信息化工作中的應用研究[J].科技風,2019(26):265-266.

[2]劉吉洲,張永全,鄭偉,等.區域性統一社會信用代碼信息服務實踐與研究——以山東省濟寧市為例[J].中國標準化,2020(7):114-118.

[3]張根紅,安鴻志,吳建軍,等.統一社會信用代碼在衛生監督執法領域信用監管中的應用探討[J].中國衛生監督雜志,2021,28(3):266-270.

[4]周順驥.基于福建省法人和其他組織統一社會信用代碼的數字經濟發展狀況研究[J ].中國質量與標準導報,2022(6):75-79.

[5]黃潤飛,陳賢明,黃燕玲,等.基于身份標識和區塊鏈技術的粵港澳大灣區法人及其他組織跨境身份認證應用研究[J].標準科學,2023(8):53-57.

[6]周叢叢.以企業統計數據質量提升促政府經濟調控高效問題探討[J].中小企業管理與科技,2023(21):92-94.

[7]關于批準發布《國民經濟行業分類》國家標準的公告2017年第17號[J].中國標準化,2018(1):150.

[8]沈健威,朱峰.以共享應用為導向的統一社會信用代碼數據質量提升方法路徑研究[J].標準科學,2020(8):111-114.

[9]楊四娟.專利數據統計中《國民經濟行業分類》代碼的應用研究——以醫藥制造業為例的重點及典型調查法舉證分析[J].中國發明與專利,2021,18(10):12-20.

[10]陳鋼.基于混合神經網絡模型的企業行業分類[J].電子設計工程,2022,30(24):64-69.

[11]張寧,袁勤儉.數據質量評價述評[ J ] .情報理論與實踐,2017,40(10):135-139.

[12]田建華,賀玉峰,陳宇,等.基于專題數據庫的統一社會信用代碼創新應用研究[J].標準科學,2020(5):53-59.

作者簡介

趙捷,碩士,高級工程師,研究方向為大數據治理和信息技術標準化。

袁輝,碩士,高級工程師,研究方向為大數據分析和信息技術標準化。

鄧祥武,本科,高級工程師,研究方向為信息技術標準化。

宮政,碩士,高級工程師,研究方向為數據分析與數據治理。

司琳華,碩士,高級工程師,研究方向為信息技術標準化。

金江,本科,高級工程師,研究方向為數據庫技術和信息技術標準化。

(責任編輯:袁文靜)

主站蜘蛛池模板: 国产日韩欧美在线播放| 亚洲成a人片| 亚洲女同欧美在线| 日韩av电影一区二区三区四区| 亚洲综合精品香蕉久久网| 亚洲第七页| 国产一级二级三级毛片| 免费人成在线观看视频色| 亚洲毛片一级带毛片基地| 欧美午夜一区| 性做久久久久久久免费看| 萌白酱国产一区二区| 毛片国产精品完整版| 久久综合五月婷婷| 亚洲欧美日韩中文字幕在线| 精品一区二区三区水蜜桃| 久久99精品国产麻豆宅宅| 亚瑟天堂久久一区二区影院| 国产嫖妓91东北老熟女久久一| 人妻精品全国免费视频| 精品人妻系列无码专区久久| 无码aaa视频| 中文字幕不卡免费高清视频| 成人午夜视频免费看欧美| 久久免费观看视频| 亚洲第一中文字幕| 尤物亚洲最大AV无码网站| 91精品在线视频观看| 亚洲第一视频区| 一区二区自拍| 操美女免费网站| 免费aa毛片| 国产精品久久久久久久伊一| 国产网站免费| 婷婷色在线视频| 日韩a级毛片| 超碰91免费人妻| 99精品免费在线| 亚洲欧美自拍中文| 免费观看国产小粉嫩喷水| 亚洲第一区在线| 午夜一区二区三区| 国产成人精品18| 国产毛片高清一级国语| 午夜福利在线观看成人| 亚洲男人的天堂久久香蕉网| 成人福利一区二区视频在线| www成人国产在线观看网站| 97久久免费视频| 任我操在线视频| a欧美在线| 99国产精品免费观看视频| 无码福利视频| 国产成人艳妇AA视频在线| 澳门av无码| 黄色三级网站免费| 国产精品永久不卡免费视频 | 色久综合在线| 国产精品久久久久久久伊一| 久草视频精品| 亚洲不卡av中文在线| 色视频国产| 亚洲精品日产精品乱码不卡| 亚洲视屏在线观看| 成年人视频一区二区| 97se亚洲综合在线天天| 国产玖玖视频| 亚洲乱亚洲乱妇24p| 国模粉嫩小泬视频在线观看| 女人18毛片一级毛片在线| 色亚洲激情综合精品无码视频 | 国产成人精品在线1区| 人妻无码一区二区视频| 日本在线视频免费| 成人亚洲国产| 成人字幕网视频在线观看| 国产哺乳奶水91在线播放| 成年午夜精品久久精品| 精品成人免费自拍视频| 无码AV高清毛片中国一级毛片 | 欧美不卡二区| 精品综合久久久久久97超人|