999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

企業審計大數據可視化建模分析系統設計與實現

2023-09-07 15:02:02吳琛華
中國管理信息化 2023年13期
關鍵詞:可視化分析模型

吳琛華

[摘 要]當前,招標形式多樣,招標風險存在于各個環節。為有效防范招標風險,企業需要提前識別各個階段的風險因素,并采取有效的審計手段支持招標項目的開展。本文重點研究了企業審計大數據可視化建模分析系統,采用微服務容器化技術和大數據分析技術,通過將手寫SQL才能進行的數據分析任務遷移到簡單的可視化配置中,使得幾乎沒有任何開發經驗的業務人員也能快速地進行審計風險分析。這種基于技術創新的方法為提高審計效率、確保招標項目順利開展提供了有力支持。

[關鍵詞]審計;招標;大數據;可視化建模;系統;設計;實現;風險管理

doi:10.3969/j.issn.1673-0194.2023.13.013

[中圖分類號]F239;TP311 [文獻標識碼]A [文章編號]1673-0194(2023)13-0046-05

0? ? ?引 言

如今,我國招投標形式呈現多樣化、標準化、國際化的趨勢,招投標風險管理一直備受關注。由于招投標風險是客觀存在的,有一定的必然性和可變性。例如在招投標的計劃階段、立項階段、發標階段、投標階段、開標階段、評標階段、定標階段、合同階段等,存在著各式各樣的法律風險、人員風險、經濟風險與合同風險,這些風險隨著招標項目的進行而呈現不同的特性。企業需要提前識別各個階段的風險因子,然后采取行之有效的審計手段,如此才能確保招投標項目的順利進行。本文旨在利用大量的招投標數據構建風險模型,以提高風險識別的準確度。我們實現了一套企業審計大數據可視化建模分析系統,該系統結合招投標行業的專業知識,充分挖掘數據價值,提升審計人員的工作效率,實現招投標全流程的智能化分析。

1? ? ?研究現狀

傳統的招投標風險分析主要依賴審計人員的自身經驗或者他人提供的情報線索,對某個招標項目或者某個招標單位進行調查取證,缺乏風險審計的完整性、無法固化風險模型。目前大多數的招投標風險管理是基于某個階段或者某個時間點進行風險管控,而將招投標理論應用到全量歷史數據和項目全過程的研究卻不多。當招投標系統不斷更新迭代且數據量不斷膨脹時,現有的工具無法適應系統變化而導致的數據結構的變更。另一方面,在不同的招標項目、不同的環境、不同的階段,招投標風險因子并不是一成不變的。

為了應對上述動態且定制化的建模需求,本文基于領域知識的建模分析能力和可移植、可擴展的技術,旨在促進審計行業從傳統的人工風險識別向數字化和智能化的方向轉變,以實現企業資源的優化配置。

2? ? ?系統架構設計

下面我們將詳細闡述本系統的架構設計及實現,圖1展示了企業審計大數據可視化建模分析系統的總體架構設計,該架構分為三大功能:基礎組件體系、數據體系、安全體系。為了處理海量的數據,本架構設計之初便考慮了高擴展性、高可用性。將執行功能剝離為智能調度,基于動態負載均衡算法避免造成任務堆積、服務崩潰。安全體系是為了確保系統安全、數據安全不可或缺的一部分。

在對本系統的架構有了初步的了解后,我們將重點介紹可視化建模中的幾個關鍵步驟,即數據接入、數據探索、數據質量管理、數據標準化、交互界面設計、業務算子,他們是本系統的核心功能。

2.1? ?數據接入

數據接入,獲取數據是數據建模的基礎。不同的行業有著形式多樣的數據源,只有探查出數據源的存儲位置、結構信息、業務用途等信息,才能進行數據接入。通過對源數據進行全方位的探查來認識數據,根據探查的結果定義源數據到目標系統的讀取策略,采用畫板的形式動態讀取路徑。根據探查和讀取定義的結果,對各種異構數據進行必要的解壓、解密、字符集轉換等操作,實現從源系統讀取數據或接受讀取源系統推送的數據并檢查數據是否與數據定義一致,不一致則停止接入。對于RDBMS關系型數據庫數據源,利用通用接口DatabaseMetaData獲取數據庫的元數據信息;對于Kafka等消息隊列數據源,通過Consumer客戶端獲取隊列的元數據信息;對于Http接口數據源,通過Http請求Response獲取元數據信息。通過構造不同的數據源探查插件,動態高效地支撐大數據智能化的數據探查。

2.2? ?數據探索

由于原始數據是雜亂無章的,針對數據進行可視化的探索變得尤為重要。探索性的數據分析,側重于原始數據本身的展示,因此與數據可視化具有相當緊密的聯系,并且圖形展示更直觀且有利于發現有價值的信息。信息時代之下,數據爆發式增長,使得數據分析與可視化的需求不斷增長。通過圖形化的方式呈現數據,數據可視化可以幫助人們更快地理解數據中的模式、趨勢、異常,從而提升數據分析的效率、把握數據的價值和內涵[1]。簡而言之,描述趨勢使用折線圖,描述數量使用柱狀圖(且必須從 0 開始),描述關系使用散點圖,描述比例使用餅狀圖。

2.3? ?數據質量管理

數據質量是數據分析結論有效性和準確性的基礎也是最重要的前提和保障。然而數據卻是把雙刃劍,它能帶來巨大價值的同時也是各行業領域最大的風險來源。

數據質量問題包括:①數據的完整性和準確性。數據明顯缺失、空值和缺失值、關鍵字段或信息的缺失、多表字段統計值不一致。②數據的唯一性。不同來源的數據出現重復的情況、主鍵字段存在重復的情況。③數據的權威性。同一個指標出現多個來源的數據且數值不一樣。④數據的合法性。獲取的數據與常識不同、字段長度不滿足預期、字段的值不滿足正則校驗(手機號、郵箱、時間、稅號等)、字段的值不在枚舉值的范圍內。⑤數據一致性。所發生的數據格式或單位不一致。⑥數據的及時性。數據在預期時間內沒有處理完成。

數據質量分析方法:①業務知識判斷數據是否在合理范圍;②總記錄數;③0值數/0值占比;④唯一值的數量;⑤空值數/空值占比;⑥最小值、最大值、平均值、方差、中位數及各分位數(箱線圖)、偏度、峰度、眾數;⑦基本數據類型;⑧最小、最大和平均長度;⑨異常值分析;⑩數值的精度和范圍;頻次與直方圖分析;數據分布是否對稱、是否符合正態分布;3σ原則;重復記錄的數量/占比。

2.4? ?數據標準化

數據標準管理主要目的在于規范產業數據的標準,如果待治理的產業數據之間屬性信息一致,但定義與描述各不相同,那么將難以保障產業數據治理的準確性[2]。為了使用統一的規范來約束企業內外部的數據,數據標準用以描述企業的數據含義與業務規則。實現企業管理數據的規范性、完整性、共享性、有效性,為數據資產的管理提供參考依據。

標準元素:也稱數據源,是數據標準的最小粒度,由一組屬性規定其標識、名稱、定義、類型、長度、允許值、質量規則的數據單元。一般定義需要參考國家標準、行業標準、企業標準,并經審核才能進行使用。

標準數據集:由一系列標準元素共同組成的集合。用以描述不同業務的業務規則、邏輯。

數據對標:通過自動對標或人工對標,將數據接入的外部數據集映射到標準數據集。

數據接入的數據格式是五花八門的,必須要經過標準化處理才能形成平臺的標準數據。

2.5? ?交互界面設計

對于傳統的大數據建模方式,一般是基于SQL引擎進行SQL腳本的開發。

本系統用戶可實現全程可視化操作,通過簡單的拖拉拽即可完成數據模型的搭建。交互界面主要包括模型的創建過程,定義模型的規則、風險主體、運行周期等信息。基于交互界面,用戶只需要知道基礎的模型定義過程,即可一站式地完成數據模型創建、模型分析、模型運行、模型上線,屏蔽了底層的模型解析、模型數據流。

首先對接標準化之后的數據集,對各個標準數據集進行關聯映射。關聯方式包括LEFT JOIN、RIGHT JOIN、INNER JOIN、FULL JOIN、SEMI JOIN。關聯

的字段通過拖拉拽的方式進行左右關聯。

模型的具體配置包括風險等級的定義、條件的定義、分類的選擇、指標的確定、規則的設置。通過左側的標準元素和右側的各類算子控件進行各種自由組合以構建模型的業務邏輯。模型運行時將根據模型配置解析為一串工作流,方便對每一步模型運行進行調試。對于無法使用簡單的拖拉拽方式配置的數據模型,平臺提供了自定義SQL建模的方式。

預警配置支持對不同的風險主體設置自定義的預警推送。包括風險主體的選擇、積分方式的定義、風險管理組的分配。

調度配置支持模型按規則運行,支持次、年、月、

日、周、小時方式運行。包括調度名稱、預警選擇、調度狀態、調度周期。解決在大規模數據和大量工作流程下,對資源高效、合理利用的問題。

模型配置完成之后,可以通過測試、抽樣來最終確認配置的正確與否。

2.6? ?業務算子

企業大數據可視化建模分析系統提供了豐富的算子資源供用戶使用。根據用戶建模的習慣以及建模的常用流程,提供了九類算子,包括統計算子、字符算子、算術算子、基礎算子、日期算子、條件算子、邏輯算子、AI算子、文件算子,并支持動態增加算子類型。不同類型的算子可滿足各種模型在任意階段對數據處理、數據分析、數據挖掘的需求。類別可以按需進行自定義,自定義分類需要提供類別字段及訓練數據集。

3? ? ?系統實現與效果評價

按照本文提出的設計方案,我們進行了編碼實現。在開發運維一體化(DevOps)平臺的基礎上,搭建起K8S微服務環境、Hadoop大數據環境和知識圖譜構建環境,實現了快速構建和部署定制化的大數據處理分析微服務組件。這使得我們形成了一個可擴展、可移植的應用框架,適用于多系統、多平臺環境下進行可視化建模分析。

在微服務架構下,我們按照最佳實踐原則,以適當的力度對系統功能進行拆分,形成一系列可復用的可視化建模分析微服務組件庫。這些組件庫包括以下幾種組件,如基礎服務模塊,包括身份認證、權限管理、系統日志、用戶中心、多語言、日志審計等功能;數據接入模塊,包括數據源管理,數據文件,數據集市,任務配置,調度執行,資源中心;數據標準模塊,包括元素標準、字典標準、數據集標準;數據建模模塊,包括模型列表、預警列表、調度列表、風險管理組;預警分析模塊,包括風險預警統計、風險庫匯總、處置列表展示,主要分為風險地圖、風險庫、處置列表。

該系統數據模型基于Hadoop的數據倉庫工具Hive,方便用來查詢和分析大規模的分布式數據。通過可視化界面,初步建立了抽象的流程模型,底層經過進一步的算子解析、優化和精簡得到可執行的DAG業務鏈。然后,我們提取出業務鏈與數據鏈中的關鍵屬性,自動構建出HSQL語句,而無須編寫復 雜的MapReduce代碼。最后驅動程序將Stage發送到集群中執行,任務調度器負責資源協調并處理依賴關系,最終形成基于某類風險主體的全面數據。

下面我們根據數據建模的目標,選擇合適的分析方法或算法。

3.1? ?實驗1——數據離散度建模

在招投標過程中,專家評標分析階段可能會產生投標企業與評標專家串通投標的行為。通過利益輸送,評標專家對投標企業的評分遠遠高于標段內的評標平均分??梢酝ㄟ^專家傾向性和專家打分偏差度進行建模分析,對超過一定傾向性比例和偏差度的投標企業預警。

在招投標過程中,投標報價階段投標企業會串通其他投標企業以高價或者低價投標,使標段內的所有投標企業的投標均價與自身的投標報價相近,以此來提高中標概率。通過對投標報價數據離散度建模分析,對報價超過一定偏離度的投標企業進行預警。

3.2? ?實驗2——異常行為建模

投標企業中標率偏高或偏低都屬于異常行為。通過分析單個投標企業所有投標記錄和所有中標記錄,得出投標企業的中標率。中標率偏低可能存在陪標的風險,中標率偏高可能存在串標的風險。對接招投標公開數據,如果發現中標率偏低的單位在投標單位注冊地中標率偏高,則有很大的概率說明這些投標企業存在借殼投標的行為。

3.3? ?實驗3——技術指標雷同建模

通過提取投標企業電子標書的電子信息。例如電子文件創建用戶、文件創建/修改時間戳、電子文件制作機器碼、電子文件創建標識碼。對同一標段下電子標書的隱藏信息進行分析比對,找出異常數據。

3.4? ?實驗4——供應商同源建模

關系圖譜是在大量數據集合中,按照一定的規則或規律,通過特定的算法對數據進行分析,從而發現不同事物中蘊含的關系,并將事物進行關聯,最終形成的數據網絡[3]。借助關系圖譜對招投標數據進行建模分析及可視化展示,從不同的維度,挖掘出隱含在不同數據中的關聯關系。我們要構建的關系圖譜包含的企業名稱、地址等信息通常不是精確的值。比如:北京市西直門外大街112號和北京市西城區西直門外大街112號,如果將這兩個地址映射為兩個實體的話,這兩個實體是沒有任何關聯關系的。為了消除實體歧義,就需要對歧義實體進行相似度計算,利用TF-IDF算法進行處理。

投標企業法人、投標企業負責人、投標企業負責人聯系電話、投標企業注冊地址、投標企業統一社會信用代碼等一般歸屬于某家投標企業,如果出現在不同的投標企業中,很大程度上反映出企業之間的關聯密切,同時結合企業歷史投標記錄,分析投標企業在不同項目或者不同標段下的投標信息,挖掘出兩兩企業的潛在聯系,即投標企業存在同源關系或者說存在圍串標風險。

綜合以上的實驗來看,該企業審計大數據可視化建模分析系統憑借其多元需求場景考慮、強大的功能以及易用性,足以滿足大多數場景下的建模需求。

4? ? ?結束語

本文基于大數據技術,設計并實現了一套企業審計大數據可視化建模分析系統,包括了數據接入、數據清洗、數據轉換、數值質量檢查、數據標準、數據建模、數據可視化等模塊。自該系統上線以來,已成功建設了上百個模型,節省了大量的開發人力成本。同時,業務專家直接參與算法和指標定義,使得模型的開發迭代周期大大縮短。該系統有效解決了招投標過程中各類違規風險的識別問題,大大節省了審計人員的時間成本。系統采用多維的數據處理與分析技術,構建了全方位的審計防護,確保招投標項目工作順利執行。未來我們將聚焦于優化系統的可擴展性、易用性,擴展跨行業應用,提升建模效率,實現更廣泛、更高效、更安全的應用,從而成為數據建模和可視化數據分析的首選工具。

主要參考文獻

[1]藍星宇,王嘉喆.數據可視化設計的類型學實踐[J].美術大觀,2022(3):149-152.

[2]安平.數據中臺視角下產業數據治理系統的設計研究[J].網格安全和信息化,2023(6):94-96.

[3]張寒爍,楊冬菊.基于關系圖譜的科技數據分析算法[J].計算機科學,2021,48(3):174-179.

猜你喜歡
可視化分析模型
一半模型
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
基于CGAL和OpenGL的海底地形三維可視化
重尾非線性自回歸模型自加權M-估計的漸近分布
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
主站蜘蛛池模板: 国产福利大秀91| 女人18一级毛片免费观看| 国产在线观看一区二区三区| 国产情侣一区| 欧美特级AAAAAA视频免费观看| 国产精品免费入口视频| 看国产毛片| 国产日韩精品一区在线不卡| 青青操国产视频| 精品三级在线| 国产大片黄在线观看| 欧美 国产 人人视频| 综合亚洲网| 国产永久在线观看| 午夜精品久久久久久久无码软件| 人妻无码中文字幕第一区| 久久综合色视频| 亚洲综合色婷婷中文字幕| 国产精品私拍99pans大尺度 | 成AV人片一区二区三区久久| 国产经典免费播放视频| 色综合手机在线| 午夜国产大片免费观看| 日韩欧美中文字幕在线精品| 亚洲午夜国产片在线观看| 久久天天躁狠狠躁夜夜躁| 波多野结衣AV无码久久一区| 国产丝袜啪啪| 国产精品美乳| 国产毛片久久国产| 免费a在线观看播放| 色妞永久免费视频| 99成人在线观看| 99久久精品免费看国产电影| 亚洲天堂久久| 日韩a在线观看免费观看| 日韩欧美国产中文| 国产产在线精品亚洲aavv| 波多野吉衣一区二区三区av| 国产系列在线| 欧美第九页| 精品福利网| 伊人久久久大香线蕉综合直播| 国产日韩欧美黄色片免费观看| 日韩第九页| 在线播放真实国产乱子伦| 无码AV高清毛片中国一级毛片| 91亚洲免费视频| 国产在线日本| 成色7777精品在线| 久久国产热| AV不卡在线永久免费观看| 国产精品精品视频| 亚洲天堂.com| 波多野结衣一级毛片| 国产极品嫩模在线观看91| 91精品在线视频观看| 国产福利小视频高清在线观看| 日韩福利视频导航| 国产又大又粗又猛又爽的视频| 中文字幕乱码中文乱码51精品| 成年人免费国产视频| 日本午夜视频在线观看| 99久久精品无码专区免费| 久久黄色一级片| 中文字幕亚洲综久久2021| 亚洲人成网站色7799在线播放| 综合五月天网| 永久免费无码日韩视频| 精品国产香蕉伊思人在线| 在线观看亚洲精品福利片| 亚洲欧美成人综合| 国产黄在线免费观看| 香蕉综合在线视频91| 亚洲综合久久一本伊一区| 在线中文字幕网| 日本五区在线不卡精品| 国产精品自在拍首页视频8| 成人福利在线免费观看| 92午夜福利影院一区二区三区| 国产激情在线视频| 国产手机在线ΑⅤ片无码观看|