999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于熵減和馬爾科夫鏈的中小企業(yè)客戶數(shù)據(jù)治理技術(shù)

2025-03-20 00:00:00劉敏黃倚霄陳智揚(yáng)張湛梅
現(xiàn)代信息科技 2025年3期

摘" 要:針對(duì)傳統(tǒng)中小企業(yè)客戶數(shù)據(jù)呈現(xiàn)雜亂無(wú)序狀態(tài)且缺乏標(biāo)準(zhǔn)化的現(xiàn)狀,提出一種創(chuàng)新的數(shù)據(jù)治理技術(shù)。該技術(shù)整合多源異構(gòu)數(shù)據(jù),該技術(shù)匯聚多源異構(gòu)數(shù)據(jù),融合光學(xué)字符識(shí)別(Optical Character Recognition, OCR)等多種方法,構(gòu)建標(biāo)準(zhǔn)化的中小企業(yè)基礎(chǔ)信息數(shù)據(jù)湖,從源頭提升數(shù)據(jù)質(zhì)量。引入“熵減”理念,利用智能算法對(duì)數(shù)據(jù)質(zhì)量進(jìn)行量化評(píng)估,能夠及時(shí)定位并解決數(shù)據(jù)質(zhì)量問(wèn)題。同時(shí),搭建時(shí)序數(shù)據(jù)庫(kù)并構(gòu)建基于熵減的馬爾科夫鏈模型,以此預(yù)測(cè)未來(lái)數(shù)據(jù)質(zhì)量趨勢(shì),精準(zhǔn)治理潛在問(wèn)題區(qū)域。該技術(shù)不僅實(shí)現(xiàn)了數(shù)據(jù)價(jià)值的最大化,還顯著降低了治理成本,提高了數(shù)據(jù)治理的效率與準(zhǔn)確性,為企業(yè)降本增效提供了有力支撐。

關(guān)鍵詞:熵減;數(shù)據(jù)治理;馬爾科夫鏈;中小企數(shù)據(jù)湖;時(shí)序數(shù)據(jù)庫(kù)

中圖分類號(hào):TP311.1" " 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):2096-4706(2025)03-0140-07

Customer Data Governance Technology of Small and Medium Enterprises Based on Entropy Decrease and Markov Chain

LIU Min, HUANG Yixiao, CHEN Zhiyang, ZHANG Zhanmei

(China Mobile Communications Group Guangdong Co., Ltd., Guangzhou" 510623, China)

Abstract: Aiming at the current situation that the customer data of traditional small and medium enterprises is disorderly and lacks standardization, an innovative data governance technology is proposed. This technology integrates multi-source heterogeneous data, fuses Optical Character Recognition (OCR) and other methods, and constructs a standardized basic information data lake of small and medium enterprises, to improve data quality from the source. By introducing the concept of “entropy decrease” and using intelligent algorithms to quantitatively evaluate data quality, data quality problems can be located and solved in time. At the same time, a time series database is built and a Markov Chain model based on entropy decrease is constructed to predict future data quality trends and accurately govern potential problem areas. This technology not only maximizes the value of data, but also significantly reduces the cost of governance. It improves the efficiency and accuracy of data governance and provides strong support for enterprises to decrease costs and increase efficiency.

Keywords: entropy decrease; data governance; Markov Chain; data lake of small and medium enterprises; time series database

0" 引" 言

中小企業(yè)作為數(shù)量最為龐大、最具活力的企業(yè)群體,貢獻(xiàn)了50%以上的稅收、60%以上的國(guó)內(nèi)生產(chǎn)總值(GDP)、70%以上的技術(shù)創(chuàng)新成果、80%以上的城鎮(zhèn)勞動(dòng)就業(yè)崗位以及90%以上的企業(yè)數(shù)量。在“發(fā)揮運(yùn)營(yíng)商的數(shù)智化優(yōu)勢(shì),以創(chuàng)新驅(qū)動(dòng)向各產(chǎn)業(yè)賦能,提升社會(huì)數(shù)智化水平”的發(fā)展新要求下,如何有效地管理和治理運(yùn)營(yíng)商大數(shù)據(jù)中的中小企業(yè)客戶數(shù)據(jù),成為亟待解決的關(guān)鍵問(wèn)題。

傳統(tǒng)的中小企業(yè)大數(shù)據(jù)存在諸多問(wèn)題。數(shù)據(jù)源雜亂無(wú)章,人工錄入的數(shù)據(jù)缺乏有效的數(shù)據(jù)問(wèn)題檢測(cè)手段,導(dǎo)致錯(cuò)誤數(shù)據(jù)較多;同時(shí),對(duì)數(shù)據(jù)質(zhì)量缺乏客觀評(píng)估和量化分析;針對(duì)數(shù)據(jù)問(wèn)題,也缺乏有效的治理方案和修復(fù)方案。此外,數(shù)據(jù)治理過(guò)程中投入的人力成本大,方法復(fù)雜,手動(dòng)維護(hù)成本高,處理時(shí)間長(zhǎng)且效率低下,這些問(wèn)題嚴(yán)重阻礙了中小企業(yè)大數(shù)據(jù)價(jià)值的發(fā)揮。

1" 現(xiàn)有中小企業(yè)客戶數(shù)據(jù)治理問(wèn)題

在現(xiàn)有的中小企業(yè)客戶數(shù)據(jù)治理工作中,主要面臨以下幾方面問(wèn)題:中小企業(yè)數(shù)據(jù)采集雜亂繁多,數(shù)據(jù)治理難度大;數(shù)據(jù)治理缺乏量化的計(jì)算和評(píng)估;缺乏中小企業(yè)數(shù)據(jù)治理監(jiān)控預(yù)測(cè)機(jī)制;缺少中小企業(yè)數(shù)據(jù)治理的閉環(huán)機(jī)制。具體分析如下:

1)中小企業(yè)數(shù)據(jù)采集雜亂多,數(shù)據(jù)治理難:現(xiàn)有技術(shù)方案中,中小企業(yè)數(shù)據(jù)采集雜亂繁多,人工錄入的數(shù)據(jù)錯(cuò)誤率高,標(biāo)準(zhǔn)化程度低,難以清晰地獲取中小企業(yè)的數(shù)量、公司名稱、地址分布等基礎(chǔ)信息。

2)中小企業(yè)數(shù)據(jù)質(zhì)量缺乏量化的計(jì)算和評(píng)估:目前主流的中小企業(yè)數(shù)據(jù)質(zhì)量管理,對(duì)系統(tǒng)數(shù)據(jù)質(zhì)量情況缺乏量化的計(jì)算和評(píng)估。僅能知曉系統(tǒng)存在數(shù)據(jù)質(zhì)量問(wèn)題,但缺乏客觀的評(píng)估標(biāo)準(zhǔn),只能大概了解某個(gè)模塊存在較大數(shù)據(jù)質(zhì)量問(wèn)題,卻無(wú)法準(zhǔn)確掌握各個(gè)模塊的數(shù)據(jù)質(zhì)量問(wèn)題詳情。

3)缺乏中小企業(yè)數(shù)據(jù)質(zhì)量監(jiān)控預(yù)測(cè)機(jī)制:現(xiàn)有技術(shù)方案缺少數(shù)據(jù)質(zhì)量預(yù)測(cè)機(jī)制,無(wú)法得知哪個(gè)模塊在未來(lái)幾個(gè)月數(shù)據(jù)質(zhì)量會(huì)變差,不能及時(shí)排查和解決數(shù)據(jù)質(zhì)量問(wèn)題,從而引發(fā)數(shù)據(jù)使用過(guò)程中的各種投訴,影響數(shù)據(jù)的使用價(jià)值。

4)缺少中小企業(yè)數(shù)據(jù)治理的閉環(huán)機(jī)制:現(xiàn)有技術(shù)方案缺乏數(shù)據(jù)治理的閉環(huán)機(jī)制,沒有建立數(shù)據(jù)質(zhì)量調(diào)整知識(shí)庫(kù),無(wú)法智能設(shè)置數(shù)據(jù)質(zhì)量調(diào)整策略,也不能針對(duì)外部原因和業(yè)務(wù)原因進(jìn)行智能的數(shù)據(jù)質(zhì)量監(jiān)控調(diào)整。

2" 基于熵減和馬爾科夫鏈的數(shù)據(jù)治理

為解決上述技術(shù)問(wèn)題,在當(dāng)前主流的中小企業(yè)客戶數(shù)據(jù)治理基礎(chǔ)上,結(jié)合運(yùn)營(yíng)商大數(shù)據(jù)的特性,創(chuàng)新性地融合熵減理論與馬爾科夫鏈,構(gòu)建數(shù)據(jù)湖并對(duì)數(shù)據(jù)質(zhì)量進(jìn)行智能評(píng)估[1-5]。通過(guò)量化評(píng)估與監(jiān)控、優(yōu)化時(shí)序數(shù)據(jù)庫(kù)查詢、預(yù)測(cè)數(shù)據(jù)質(zhì)量趨勢(shì),形成了高效、精準(zhǔn)的數(shù)據(jù)治理體系,降低了數(shù)據(jù)治理成本,提升了治理效率與數(shù)據(jù)質(zhì)量,確保實(shí)現(xiàn)數(shù)據(jù)價(jià)值的最大化。具體技術(shù)方案如下:

1)多源異構(gòu)的中小企業(yè)運(yùn)營(yíng)商大數(shù)據(jù)獲取和融合。通過(guò)匯聚互聯(lián)網(wǎng)信息、運(yùn)營(yíng)商門戶網(wǎng)站、運(yùn)營(yíng)商APP、運(yùn)營(yíng)商總部下發(fā)信息、市場(chǎng)調(diào)研數(shù)據(jù)以及第三方采購(gòu)數(shù)據(jù)等,運(yùn)用基于OCR識(shí)別、水牌掃描、門頭照識(shí)別等多源異構(gòu)數(shù)據(jù)匯集和融合處理技術(shù),智能構(gòu)建運(yùn)營(yíng)商中小企業(yè)基礎(chǔ)信息數(shù)據(jù)湖。

2)創(chuàng)建基于熵函數(shù)的智能算法。引入“熵減”理念構(gòu)建中小企業(yè)數(shù)據(jù)治理模式,創(chuàng)建基于熵函數(shù)、最大熵、均熵的智能算法,對(duì)中小企業(yè)數(shù)據(jù)信息進(jìn)行動(dòng)態(tài)智能化數(shù)據(jù)質(zhì)量監(jiān)控,查找數(shù)據(jù)質(zhì)量失衡的問(wèn)題原因并加以解決。

3)構(gòu)建中小企業(yè)數(shù)據(jù)質(zhì)量時(shí)序數(shù)據(jù)庫(kù)。根據(jù)熵值和均熵的時(shí)序排列,構(gòu)建中小企業(yè)數(shù)據(jù)質(zhì)量時(shí)序數(shù)據(jù)庫(kù)。采用標(biāo)簽+時(shí)間戳分區(qū)檢索方式、TSM樹存儲(chǔ)技術(shù),數(shù)據(jù)導(dǎo)入時(shí)間縮短了31.87%,占用空間減少了46.74%;運(yùn)用預(yù)聚合和多維分組聚合查詢技術(shù)、保留刪除策略,查詢速度提升了一倍。

4)形成基于熵減的馬爾科夫鏈。根據(jù)歷史數(shù)據(jù)質(zhì)量熵值和對(duì)應(yīng)的數(shù)據(jù)質(zhì)量狀態(tài),利用數(shù)據(jù)質(zhì)量狀態(tài)向量和數(shù)據(jù)質(zhì)量狀態(tài)轉(zhuǎn)移矩陣,形成基于熵減的馬爾科夫鏈,預(yù)測(cè)未來(lái)幾個(gè)月的數(shù)據(jù)質(zhì)量情況,并對(duì)大概率存在數(shù)據(jù)質(zhì)量問(wèn)題的模塊進(jìn)行數(shù)據(jù)治理。

通過(guò)打造一套完備的中小企業(yè)數(shù)據(jù)治理技術(shù)和體系,有效降低了數(shù)據(jù)治理的人力成本,解決了數(shù)據(jù)治理效率低、數(shù)據(jù)質(zhì)量問(wèn)題定位不準(zhǔn)確、解決不及時(shí)等問(wèn)題,實(shí)現(xiàn)了數(shù)據(jù)價(jià)值的最大化。

3" 基于熵減和馬爾科夫鏈治理實(shí)現(xiàn)

3.1" 多源異構(gòu)的大數(shù)據(jù)獲取和融合

我國(guó)中小企業(yè)數(shù)量龐大,在城市中分布廣泛且分散。“清晰獲取中小企業(yè)的數(shù)量、公司名稱、地址分布等基礎(chǔ)信息”是運(yùn)營(yíng)商拓展中小企業(yè)市場(chǎng)的重要手段。如何獲得一份全面且高質(zhì)量的“中小企業(yè)”名單,是業(yè)務(wù)發(fā)展的重要問(wèn)題。

本系統(tǒng)基于“熵減”理念,匯集多源異構(gòu)的中小企業(yè)數(shù)據(jù)來(lái)源。通過(guò)匯聚互聯(lián)網(wǎng)信息、運(yùn)營(yíng)商門戶網(wǎng)站、運(yùn)營(yíng)商APP、運(yùn)營(yíng)商總部下發(fā)信息、市場(chǎng)調(diào)研數(shù)據(jù)以及第三方采購(gòu)等商機(jī)線索,運(yùn)用基于OCR識(shí)別、水牌掃描、門頭照識(shí)別等多源異構(gòu)數(shù)據(jù)匯集和融合處理技術(shù),智能構(gòu)建運(yùn)營(yíng)商中小企業(yè)基礎(chǔ)信息數(shù)據(jù)湖,降低人工收集及整理的成本,提高運(yùn)營(yíng)商在中小企業(yè)市場(chǎng)上的商機(jī)獲取效率[6-10]。

獲取的數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),經(jīng)過(guò)識(shí)別、解釋、歸一化處理后生成標(biāo)準(zhǔn)化的中小企業(yè)基礎(chǔ)數(shù)據(jù)。

基于多源異構(gòu)數(shù)據(jù)匯集和融合處理的中小企業(yè)運(yùn)營(yíng)數(shù)據(jù)采集處理的主要流程如圖1所示。由于每個(gè)外部系統(tǒng)采集來(lái)的原始數(shù)據(jù)格式各異,所以需要對(duì)接口協(xié)議進(jìn)行解析,以獲取中小企業(yè)的基本信息,這些信息涵蓋企業(yè)名稱、企業(yè)網(wǎng)址、創(chuàng)建日期、員工數(shù)量、行業(yè)分類、注冊(cè)資金、年?duì)I業(yè)額、信用信息等關(guān)鍵數(shù)據(jù)。部分信息借助OCR識(shí)別、水牌掃描、門頭照識(shí)別等技術(shù)進(jìn)行處理,以提升數(shù)據(jù)的精確度。對(duì)于無(wú)法直接通過(guò)系統(tǒng)解釋處理的原始數(shù)據(jù),則通過(guò)人工介入處理后再生成標(biāo)準(zhǔn)化數(shù)據(jù)。最終形成統(tǒng)一的中小企業(yè)基礎(chǔ)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖。

3.2" 創(chuàng)建基于熵函數(shù)的智能算法

在大數(shù)據(jù)管理中,通常用熵的大小來(lái)表示數(shù)據(jù)質(zhì)量偏離其平衡態(tài)或穩(wěn)態(tài)的程度。由于大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)來(lái)源于外部系統(tǒng),若不加以控制,熵會(huì)逐漸增大,數(shù)據(jù)質(zhì)量也會(huì)隨之變差。因此,我們需要定義熵來(lái)衡量大數(shù)據(jù)系統(tǒng)的整體數(shù)據(jù)質(zhì)量狀況,并依據(jù)熵的情況對(duì)系統(tǒng)的數(shù)據(jù)質(zhì)量進(jìn)行控制,以確保數(shù)據(jù)的準(zhǔn)確性。

在理想狀態(tài)下,數(shù)據(jù)質(zhì)量控制點(diǎn)應(yīng)處于預(yù)警線內(nèi),且排列無(wú)異常現(xiàn)象,如圖2所示。中控制線(Control Line, CL)代表數(shù)據(jù)質(zhì)量穩(wěn)定狀態(tài)下的預(yù)期表現(xiàn);控制上限(Upper Control Line, UCL)代表數(shù)據(jù)質(zhì)量可能波動(dòng)的上限,若超過(guò)該上限,則表明數(shù)據(jù)質(zhì)量出現(xiàn)問(wèn)題;控制下限(Lower Control Line, LCL)代表數(shù)據(jù)質(zhì)量可能波動(dòng)的下限,若低于該下限,同樣表明數(shù)據(jù)質(zhì)量出現(xiàn)問(wèn)題。

數(shù)據(jù)質(zhì)量控制點(diǎn)X =實(shí)際指標(biāo)值A(chǔ)i-標(biāo)準(zhǔn)指標(biāo)值Si,其中Si可根據(jù)業(yè)務(wù)情況進(jìn)行設(shè)置和調(diào)整。例如,對(duì)于運(yùn)營(yíng)商用戶通信時(shí)長(zhǎng)指標(biāo),工作日的通信時(shí)長(zhǎng)通常偏大,休息日的通信時(shí)長(zhǎng)通常偏小,因此通信時(shí)長(zhǎng)的標(biāo)準(zhǔn)指標(biāo)數(shù)值,在休息日會(huì)比工作日少約20%。

而數(shù)據(jù)質(zhì)量不理想的狀態(tài)主要有以下幾種情況,針對(duì)這些情況構(gòu)建相應(yīng)的熵函數(shù),以進(jìn)行數(shù)據(jù)質(zhì)量監(jiān)控和調(diào)整,從而達(dá)到熵減的目的:

1)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)超出控制線范圍,如圖3所示。若有若干數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)超出了控制線界限,超出的點(diǎn)越多,數(shù)據(jù)質(zhì)量問(wèn)題就越嚴(yán)重,此時(shí)需要進(jìn)行數(shù)據(jù)質(zhì)量問(wèn)題的查找和解決。

針對(duì)數(shù)據(jù)質(zhì)量超出控制線情況,我們構(gòu)建熵函數(shù)S1,用于表示當(dāng)n個(gè)數(shù)據(jù)點(diǎn)超出控制線時(shí),出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題的概率。

2)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)在控制界限內(nèi),但在單側(cè)連續(xù)出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,如圖4所示。當(dāng)若干個(gè)連續(xù)的數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)出現(xiàn)在中心線同一側(cè)時(shí),就出現(xiàn)了單側(cè)連續(xù)數(shù)據(jù)質(zhì)量問(wèn)題。

針對(duì)單側(cè)連續(xù)數(shù)據(jù)質(zhì)量問(wèn)題情況,我們構(gòu)建熵函數(shù)S2,用于表示當(dāng)連續(xù)n個(gè)數(shù)據(jù)點(diǎn)處于中心線同一側(cè)時(shí),出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題的概率。

3)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)在控制界限內(nèi),但在單側(cè)多數(shù)點(diǎn)出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,如圖5所示。若多數(shù)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)出現(xiàn)在中心線同一側(cè),則出現(xiàn)單側(cè)多數(shù)點(diǎn)數(shù)據(jù)質(zhì)量問(wèn)題。

針對(duì)單側(cè)多數(shù)點(diǎn)存在數(shù)據(jù)質(zhì)量問(wèn)題情況,我們構(gòu)建熵函數(shù)S3,用于表示連續(xù)n個(gè)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)中,至少有t個(gè)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)處于中心線同一側(cè)時(shí),出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題的概率。

4)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)在控制界限內(nèi),但出現(xiàn)持續(xù)單調(diào)數(shù)據(jù)質(zhì)量問(wèn)題,如圖6所示。當(dāng)若干個(gè)連續(xù)的數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)出現(xiàn)持續(xù)上升或下降現(xiàn)象時(shí),就出現(xiàn)了持續(xù)單調(diào)數(shù)據(jù)質(zhì)量問(wèn)題。

針對(duì)持續(xù)單調(diào)數(shù)據(jù)質(zhì)量問(wèn)題情況,我們構(gòu)建熵函數(shù)S4,用于表示連續(xù)n個(gè)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)連續(xù)上升或下降時(shí),出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題的概率。

5)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)在控制界限內(nèi),但連續(xù)遠(yuǎn)離中心線,如圖7所示。當(dāng)連續(xù)若干個(gè)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)遠(yuǎn)離中心線,接近控制界限時(shí),就出現(xiàn)了遠(yuǎn)離中心線數(shù)據(jù)質(zhì)量問(wèn)題現(xiàn)象。

針對(duì)連續(xù)遠(yuǎn)離中心線情況,我們構(gòu)建熵函數(shù)S5,用于表示連續(xù)若干個(gè)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)接近控制線限制時(shí),出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題的概率。

在以上五個(gè)熵函數(shù)的基礎(chǔ)上,再定義最大熵和均熵,以此表示系統(tǒng)的數(shù)據(jù)質(zhì)量情況。

(1)

(2)

通過(guò)計(jì)算這些熵和均熵,能夠判斷系統(tǒng)的數(shù)據(jù)質(zhì)量情況,及時(shí)查找數(shù)據(jù)質(zhì)量失衡的原因并加以解決。此外,根據(jù)這些熵和均熵的時(shí)序排列,結(jié)合時(shí)序數(shù)據(jù)庫(kù)和馬爾科夫鏈方法,還可以提供數(shù)據(jù)質(zhì)量問(wèn)題預(yù)警,及時(shí)解決數(shù)據(jù)質(zhì)量問(wèn)題。

3.3" 構(gòu)建中小企業(yè)數(shù)據(jù)質(zhì)量時(shí)序數(shù)據(jù)庫(kù)

基于前面步驟得到的五個(gè)熵、最大熵和均熵,以及這些熵函數(shù)隨時(shí)間變化而得到的時(shí)序數(shù)據(jù)序列,可以構(gòu)建數(shù)據(jù)質(zhì)量時(shí)序數(shù)據(jù)庫(kù)。

時(shí)序數(shù)據(jù)即時(shí)間序列數(shù)據(jù),是指某個(gè)指標(biāo)按照時(shí)間順序記載的數(shù)據(jù)序列。在以時(shí)間為橫軸的坐標(biāo)系中將時(shí)序數(shù)據(jù)值連成線,并將歷史時(shí)序數(shù)據(jù)制作成多維度數(shù)據(jù)表,有助于發(fā)現(xiàn)其中的規(guī)律和異常。因此,在時(shí)序數(shù)據(jù)庫(kù)中對(duì)數(shù)據(jù)質(zhì)量熵函數(shù)進(jìn)行大數(shù)據(jù)分析,能夠更精確地進(jìn)行數(shù)據(jù)質(zhì)量異常預(yù)警。

首先設(shè)計(jì)基于熵函數(shù)的時(shí)序數(shù)據(jù)模型,該模型應(yīng)包含時(shí)間戳、熵函數(shù)所屬系統(tǒng)、維度分類、指標(biāo)名稱、五個(gè)熵函數(shù)、均熵等信息。具體舉例見表1。

接下來(lái),構(gòu)建基于熵函數(shù)的數(shù)據(jù)質(zhì)量時(shí)序數(shù)據(jù)庫(kù)。在該時(shí)序數(shù)據(jù)庫(kù)中,存儲(chǔ)離線歷史數(shù)據(jù)質(zhì)量監(jiān)控?cái)?shù)據(jù)以及實(shí)時(shí)數(shù)據(jù)質(zhì)量監(jiān)控?cái)?shù)據(jù)。此外,申告平臺(tái)投訴數(shù)據(jù)和外部投訴數(shù)據(jù),經(jīng)實(shí)時(shí)流式數(shù)據(jù)處理引擎處理后,也被標(biāo)準(zhǔn)化為數(shù)據(jù)質(zhì)量監(jiān)控?cái)?shù)據(jù),并存入時(shí)序數(shù)據(jù)庫(kù)。這些數(shù)據(jù)在前端進(jìn)行可視化展示,并根據(jù)客戶的使用情況對(duì)報(bào)警規(guī)則進(jìn)行配置調(diào)整,如圖8所示。

3.4" 形成基于熵減的馬爾科夫鏈

馬爾科夫鏈?zhǔn)且环N用于描述數(shù)據(jù)相關(guān)性的數(shù)學(xué)模型,能夠精確計(jì)算出一系列觀測(cè)結(jié)果之間的相關(guān)程度。我們可以依據(jù)現(xiàn)有的數(shù)據(jù)質(zhì)量報(bào)告和熵函數(shù),估算系統(tǒng)數(shù)據(jù)質(zhì)量情況(即數(shù)據(jù)質(zhì)量熵)。這些帶有時(shí)間戳的數(shù)據(jù)質(zhì)量熵,構(gòu)成了馬爾科夫鏈。借助馬爾科夫鏈模型,我們能夠預(yù)測(cè)系統(tǒng)數(shù)據(jù)質(zhì)量情況,并對(duì)大概率存在數(shù)據(jù)質(zhì)量問(wèn)題的模塊進(jìn)行數(shù)據(jù)治理,以達(dá)到 “熵減”效果。

具體設(shè)計(jì)步驟如下:

1)根據(jù)前面計(jì)算得到的數(shù)據(jù)質(zhì)量熵函數(shù)和均熵Savr進(jìn)行數(shù)據(jù)質(zhì)量等級(jí)劃分,并設(shè)置馬爾科夫鏈狀態(tài):

E1:數(shù)據(jù)質(zhì)量?jī)?yōu)秀,基本無(wú)數(shù)據(jù)問(wèn)題,Savr<0.001

E2:數(shù)據(jù)質(zhì)量良好,偶爾有小數(shù)據(jù)問(wèn)題,0.001≤Savr<0.005

E3:數(shù)據(jù)質(zhì)量一般,時(shí)常有數(shù)據(jù)問(wèn)題但仍可接受,0.005≤Savr<0.020

E4:數(shù)據(jù)質(zhì)量不好,偶爾有較大數(shù)據(jù)問(wèn)題,需要整改。0.020≤Savr<0.100

E5:數(shù)據(jù)質(zhì)量糟糕,無(wú)法忍受,亟須整改。Savr≥0.100

2)獲取歷史數(shù)據(jù)質(zhì)量熵值和對(duì)應(yīng)的數(shù)據(jù)質(zhì)量狀態(tài),形成帶時(shí)間戳的狀態(tài)向量A =(E1、E2、E3、E4、E5)。

3)根據(jù)歷史不同時(shí)間的數(shù)據(jù)質(zhì)量變動(dòng)情況,計(jì)算狀態(tài)轉(zhuǎn)移概率矩陣B,矩陣中的各行元素之和為1,即對(duì)于某一時(shí)間的數(shù)據(jù)質(zhì)量狀態(tài),將來(lái)轉(zhuǎn)換為本狀態(tài)和其他各種狀態(tài)的概率之和為1。

(3)

4)利用已知某時(shí)間的數(shù)據(jù)質(zhì)量狀態(tài)向量A,以及根據(jù)歷史數(shù)據(jù)計(jì)算得到的數(shù)據(jù)質(zhì)量狀態(tài)轉(zhuǎn)移矩陣B,通過(guò)A乘以B可以得到未來(lái)時(shí)間的數(shù)據(jù)質(zhì)量情況。

(4)

以中小企業(yè)的運(yùn)營(yíng)商數(shù)據(jù)質(zhì)量預(yù)測(cè)為例,過(guò)去三年中小企業(yè)的運(yùn)營(yíng)商數(shù)據(jù)質(zhì)量情況如表2所示。

由表2可知,在5個(gè)從E1出發(fā)的狀態(tài)中,有3個(gè)轉(zhuǎn)移到E1,2個(gè)轉(zhuǎn)移到E2。同樣也可以得出從E2到E4出發(fā)的狀態(tài)轉(zhuǎn)移情況,如表3轉(zhuǎn)移矩陣和表4轉(zhuǎn)移概率矩陣所示,其中Tij表示從Ei狀態(tài)轉(zhuǎn)移到Ej狀態(tài)的次數(shù),例如T12 = 2,表示E1狀態(tài)轉(zhuǎn)移到E2狀態(tài)的次數(shù)為2;Pij表示從Ei狀態(tài)轉(zhuǎn)移到Ej狀態(tài)的概率,例如P12 = 40%,表示E1的5次狀態(tài)轉(zhuǎn)移中,有2次,即40%的概率轉(zhuǎn)移到E2狀態(tài)。

根據(jù)轉(zhuǎn)移概率矩陣,可以預(yù)測(cè)下個(gè)月乃至后面幾個(gè)月的數(shù)據(jù)質(zhì)量情況。比如根據(jù)2023年12月數(shù)據(jù)質(zhì)量為E1的狀態(tài),可以預(yù)測(cè)2024年2月,數(shù)據(jù)質(zhì)量保持E1的概率為76.33%,數(shù)據(jù)質(zhì)量降低為E2的概率為19%,數(shù)據(jù)質(zhì)量降低為E3的概率為0%,如表5所示。

而系統(tǒng)檢測(cè)到2024年數(shù)據(jù)質(zhì)量實(shí)際情況如表6所示,2024年數(shù)據(jù)質(zhì)量預(yù)測(cè)和實(shí)際的擬合曲線圖如圖9所示。

第M月的數(shù)據(jù)質(zhì)量預(yù)測(cè)準(zhǔn)確率計(jì)算方法如下:

(5)

由此可以得到2024年數(shù)據(jù)質(zhì)量預(yù)測(cè)準(zhǔn)確率如圖10所示。由于2月份是春節(jié)期間,2、3月數(shù)據(jù)波動(dòng)比較大,所以2、3月的實(shí)際數(shù)據(jù)質(zhì)量看上去比預(yù)測(cè)要差一點(diǎn),后續(xù)將增加業(yè)務(wù)波動(dòng)因子來(lái)提升預(yù)測(cè)準(zhǔn)確性。

4" 結(jié)" 論

傳統(tǒng)的中小企業(yè)數(shù)據(jù)雜亂繁多,標(biāo)準(zhǔn)化程度低。本文提出的中小企業(yè)客戶數(shù)據(jù)治理技術(shù),匯聚多源異構(gòu)數(shù)據(jù),融合多途徑識(shí)別數(shù)據(jù)(如OCR識(shí)別、水牌掃描、門頭照識(shí)別),通過(guò)標(biāo)準(zhǔn)化處理,智能構(gòu)建運(yùn)營(yíng)商中小企業(yè)基礎(chǔ)信息數(shù)據(jù)湖,從源頭提升數(shù)據(jù)質(zhì)量。

通過(guò)引入“熵減”理念,構(gòu)建基于熵、最大熵、均熵的智能算法,量化評(píng)估中小企業(yè)數(shù)據(jù)質(zhì)量,及時(shí)查找低質(zhì)量數(shù)據(jù)的問(wèn)題原因并加以解決。同時(shí),構(gòu)建了中小企業(yè)數(shù)據(jù)質(zhì)量時(shí)序數(shù)據(jù)庫(kù),并在此基礎(chǔ)上創(chuàng)建基于熵減的馬爾科夫鏈,建立數(shù)據(jù)質(zhì)量狀態(tài)向量和數(shù)據(jù)質(zhì)量狀態(tài)轉(zhuǎn)移矩陣,用以預(yù)測(cè)未來(lái)幾個(gè)月的數(shù)據(jù)質(zhì)量情況,并對(duì)大概率存在數(shù)據(jù)質(zhì)量問(wèn)題的模塊進(jìn)行數(shù)據(jù)治理。

基于熵減和馬爾科夫鏈的中小企業(yè)客戶數(shù)據(jù)治理技術(shù),能夠有效地發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題、查找原因并解決問(wèn)題,還能有效預(yù)測(cè)未來(lái)的數(shù)據(jù)質(zhì)量情況,切實(shí)實(shí)現(xiàn)了中小企業(yè)大數(shù)據(jù)價(jià)值的最大化,降低了數(shù)據(jù)治理人力成本,解決了數(shù)據(jù)治理效率低、數(shù)據(jù)質(zhì)量問(wèn)題定位不準(zhǔn)確、解決不及時(shí)等問(wèn)題,助力企業(yè)實(shí)現(xiàn)降本增效。

參考文獻(xiàn):

[1] 李維剛,鐘正,王永強(qiáng),等.基于時(shí)間距離-熵減策略的同步定位與地圖構(gòu)建算法 [J].信息與控制,2023,52(5):660-668+688.

[2] 閆佳和,李紅輝,馬英,等. 多源異構(gòu)數(shù)據(jù)融合關(guān)鍵技術(shù)與政務(wù)大數(shù)據(jù)治理體系 [J].計(jì)算機(jī)科學(xué),2024,51(2):1-14.

[3]黃俊峰,葉滂俊,王敏.基于大數(shù)據(jù)基礎(chǔ)平臺(tái)的數(shù)據(jù)治理實(shí)踐 [J].信息技術(shù)與標(biāo)準(zhǔn)化,2022(6):19-23.

[4] 陳璐,郭宇翔,葛叢叢,等. 基于聯(lián)邦學(xué)習(xí)的跨源數(shù)據(jù)錯(cuò)誤檢測(cè)方法 [J].軟件學(xué)報(bào),2023,34(3):1126-1147.

[5] 于起超,韓旭,馬丹璇,等.流式大數(shù)據(jù)數(shù)據(jù)清洗系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [J].計(jì)算機(jī)時(shí)代,2021(9):1-5.

[6] 劉魯文,陳興榮,何濤.基于馬爾科夫鏈的教學(xué)效果評(píng)估方法 [J].統(tǒng)計(jì)與決策,2014(3):93-94.

[7] 廖普明.基于馬爾科夫鏈狀態(tài)轉(zhuǎn)移概率矩陣的商品市場(chǎng)狀態(tài)預(yù)測(cè) [J].統(tǒng)計(jì)與決策,2015(2):97-99.

[8] 楊海民,潘志松,白瑋.時(shí)間序列預(yù)測(cè)方法綜述 [J].計(jì)算機(jī)科學(xué),2019,46(1):21-28.

[9] 張建晉,王韞博,龍明盛,等.面向季節(jié)性時(shí)空數(shù)據(jù)的預(yù)測(cè)式循環(huán)網(wǎng)絡(luò)及其在城市計(jì)算中的應(yīng)用 [J].計(jì)算機(jī)學(xué)報(bào),2020,43(2):286-302.

[10] 鄭月彬,朱國(guó)魂.基于Twitter數(shù)據(jù)的時(shí)間序列模型在流行性感冒預(yù)測(cè)中的應(yīng)用 [J].中國(guó)預(yù)防醫(yī)學(xué)雜志,2019,20(9):793-798.

作者簡(jiǎn)介:劉敏(1975—),女,漢族,浙江臺(tái)州人,工程師,碩士,研究方向:大數(shù)據(jù)、人工智能;黃倚霄(1978—),男,漢族,廣東龍川人,高級(jí)工程師,碩士,研究方向:大數(shù)據(jù)、人工智能;陳智揚(yáng)(1971—),男,漢族,廣東深圳人,高級(jí)工程師,碩士,研究方向:大數(shù)據(jù)、人工智能、網(wǎng)絡(luò)信息安全;張湛梅(1979—),女,漢族,廣東陽(yáng)春人,正高級(jí)工程師,碩士,研究方向:大數(shù)據(jù)、人工智能。

主站蜘蛛池模板: 欧美特级AAAAAA视频免费观看| 伊大人香蕉久久网欧美| 自慰网址在线观看| 久久亚洲高清国产| 亚洲综合狠狠| 三上悠亚一区二区| 在线视频亚洲色图| 国产午夜小视频| 丰满的熟女一区二区三区l| 午夜高清国产拍精品| 欧美日韩在线成人| 国产在线观看精品| 亚洲国语自产一区第二页| 91免费观看视频| 国产免费黄| 成人在线第一页| 黄色网在线| 免费视频在线2021入口| 国产99久久亚洲综合精品西瓜tv| 色婷婷国产精品视频| 国产在线自乱拍播放| 日韩在线观看网站| 国产在线自乱拍播放| 乱人伦视频中文字幕在线| av一区二区三区高清久久| 国产精品网址你懂的| 国产91视频免费观看| 国产精品无码翘臀在线看纯欲| 高清欧美性猛交XXXX黑人猛交| 亚洲一级毛片在线观播放| 亚洲欧美日韩成人高清在线一区| 国产浮力第一页永久地址| 久久夜色撩人精品国产| 永久免费无码成人网站| 日韩色图在线观看| 国产精品女熟高潮视频| 国产极品粉嫩小泬免费看| 麻豆国产在线观看一区二区| AV在线天堂进入| 无码在线激情片| 欧美精品在线免费| 亚洲中文字幕国产av| 久久青草免费91观看| 波多野结衣中文字幕一区二区| 呦系列视频一区二区三区| 国产精品短篇二区| 亚洲高清国产拍精品26u| 国产成人超碰无码| 伊人成人在线| 成人一区在线| 国产精品白浆无码流出在线看| 美女潮喷出白浆在线观看视频| 亚洲色无码专线精品观看| 亚洲国产av无码综合原创国产| 中文天堂在线视频| 天天色综网| 亚洲av无码成人专区| 国产成人乱无码视频| 五月六月伊人狠狠丁香网| 国产主播喷水| 久久综合干| 欧美国产在线精品17p| 亚洲精品无码不卡在线播放| 日韩小视频在线播放| 91小视频在线观看| 久草国产在线观看| 国产福利免费在线观看| 97超爽成人免费视频在线播放| AV不卡无码免费一区二区三区| 孕妇高潮太爽了在线观看免费| 日本欧美一二三区色视频| 国产精品第| 99久久亚洲精品影院| 自慰高潮喷白浆在线观看| 久久精品这里只有国产中文精品| 五月天久久综合国产一区二区| 国产欧美日韩免费| 国产成人精品一区二区不卡| 99在线观看视频免费| 日韩视频精品在线| hezyo加勒比一区二区三区| 91成人在线免费观看|