


















摘" 要:針對(duì)傳統(tǒng)中小企業(yè)客戶數(shù)據(jù)呈現(xiàn)雜亂無(wú)序狀態(tài)且缺乏標(biāo)準(zhǔn)化的現(xiàn)狀,提出一種創(chuàng)新的數(shù)據(jù)治理技術(shù)。該技術(shù)整合多源異構(gòu)數(shù)據(jù),該技術(shù)匯聚多源異構(gòu)數(shù)據(jù),融合光學(xué)字符識(shí)別(Optical Character Recognition, OCR)等多種方法,構(gòu)建標(biāo)準(zhǔn)化的中小企業(yè)基礎(chǔ)信息數(shù)據(jù)湖,從源頭提升數(shù)據(jù)質(zhì)量。引入“熵減”理念,利用智能算法對(duì)數(shù)據(jù)質(zhì)量進(jìn)行量化評(píng)估,能夠及時(shí)定位并解決數(shù)據(jù)質(zhì)量問(wèn)題。同時(shí),搭建時(shí)序數(shù)據(jù)庫(kù)并構(gòu)建基于熵減的馬爾科夫鏈模型,以此預(yù)測(cè)未來(lái)數(shù)據(jù)質(zhì)量趨勢(shì),精準(zhǔn)治理潛在問(wèn)題區(qū)域。該技術(shù)不僅實(shí)現(xiàn)了數(shù)據(jù)價(jià)值的最大化,還顯著降低了治理成本,提高了數(shù)據(jù)治理的效率與準(zhǔn)確性,為企業(yè)降本增效提供了有力支撐。
關(guān)鍵詞:熵減;數(shù)據(jù)治理;馬爾科夫鏈;中小企數(shù)據(jù)湖;時(shí)序數(shù)據(jù)庫(kù)
中圖分類號(hào):TP311.1" " 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):2096-4706(2025)03-0140-07
Customer Data Governance Technology of Small and Medium Enterprises Based on Entropy Decrease and Markov Chain
LIU Min, HUANG Yixiao, CHEN Zhiyang, ZHANG Zhanmei
(China Mobile Communications Group Guangdong Co., Ltd., Guangzhou" 510623, China)
Abstract: Aiming at the current situation that the customer data of traditional small and medium enterprises is disorderly and lacks standardization, an innovative data governance technology is proposed. This technology integrates multi-source heterogeneous data, fuses Optical Character Recognition (OCR) and other methods, and constructs a standardized basic information data lake of small and medium enterprises, to improve data quality from the source. By introducing the concept of “entropy decrease” and using intelligent algorithms to quantitatively evaluate data quality, data quality problems can be located and solved in time. At the same time, a time series database is built and a Markov Chain model based on entropy decrease is constructed to predict future data quality trends and accurately govern potential problem areas. This technology not only maximizes the value of data, but also significantly reduces the cost of governance. It improves the efficiency and accuracy of data governance and provides strong support for enterprises to decrease costs and increase efficiency.
Keywords: entropy decrease; data governance; Markov Chain; data lake of small and medium enterprises; time series database
0" 引" 言
中小企業(yè)作為數(shù)量最為龐大、最具活力的企業(yè)群體,貢獻(xiàn)了50%以上的稅收、60%以上的國(guó)內(nèi)生產(chǎn)總值(GDP)、70%以上的技術(shù)創(chuàng)新成果、80%以上的城鎮(zhèn)勞動(dòng)就業(yè)崗位以及90%以上的企業(yè)數(shù)量。在“發(fā)揮運(yùn)營(yíng)商的數(shù)智化優(yōu)勢(shì),以創(chuàng)新驅(qū)動(dòng)向各產(chǎn)業(yè)賦能,提升社會(huì)數(shù)智化水平”的發(fā)展新要求下,如何有效地管理和治理運(yùn)營(yíng)商大數(shù)據(jù)中的中小企業(yè)客戶數(shù)據(jù),成為亟待解決的關(guān)鍵問(wèn)題。
傳統(tǒng)的中小企業(yè)大數(shù)據(jù)存在諸多問(wèn)題。數(shù)據(jù)源雜亂無(wú)章,人工錄入的數(shù)據(jù)缺乏有效的數(shù)據(jù)問(wèn)題檢測(cè)手段,導(dǎo)致錯(cuò)誤數(shù)據(jù)較多;同時(shí),對(duì)數(shù)據(jù)質(zhì)量缺乏客觀評(píng)估和量化分析;針對(duì)數(shù)據(jù)問(wèn)題,也缺乏有效的治理方案和修復(fù)方案。此外,數(shù)據(jù)治理過(guò)程中投入的人力成本大,方法復(fù)雜,手動(dòng)維護(hù)成本高,處理時(shí)間長(zhǎng)且效率低下,這些問(wèn)題嚴(yán)重阻礙了中小企業(yè)大數(shù)據(jù)價(jià)值的發(fā)揮。
1" 現(xiàn)有中小企業(yè)客戶數(shù)據(jù)治理問(wèn)題
在現(xiàn)有的中小企業(yè)客戶數(shù)據(jù)治理工作中,主要面臨以下幾方面問(wèn)題:中小企業(yè)數(shù)據(jù)采集雜亂繁多,數(shù)據(jù)治理難度大;數(shù)據(jù)治理缺乏量化的計(jì)算和評(píng)估;缺乏中小企業(yè)數(shù)據(jù)治理監(jiān)控預(yù)測(cè)機(jī)制;缺少中小企業(yè)數(shù)據(jù)治理的閉環(huán)機(jī)制。具體分析如下:
1)中小企業(yè)數(shù)據(jù)采集雜亂多,數(shù)據(jù)治理難:現(xiàn)有技術(shù)方案中,中小企業(yè)數(shù)據(jù)采集雜亂繁多,人工錄入的數(shù)據(jù)錯(cuò)誤率高,標(biāo)準(zhǔn)化程度低,難以清晰地獲取中小企業(yè)的數(shù)量、公司名稱、地址分布等基礎(chǔ)信息。
2)中小企業(yè)數(shù)據(jù)質(zhì)量缺乏量化的計(jì)算和評(píng)估:目前主流的中小企業(yè)數(shù)據(jù)質(zhì)量管理,對(duì)系統(tǒng)數(shù)據(jù)質(zhì)量情況缺乏量化的計(jì)算和評(píng)估。僅能知曉系統(tǒng)存在數(shù)據(jù)質(zhì)量問(wèn)題,但缺乏客觀的評(píng)估標(biāo)準(zhǔn),只能大概了解某個(gè)模塊存在較大數(shù)據(jù)質(zhì)量問(wèn)題,卻無(wú)法準(zhǔn)確掌握各個(gè)模塊的數(shù)據(jù)質(zhì)量問(wèn)題詳情。
3)缺乏中小企業(yè)數(shù)據(jù)質(zhì)量監(jiān)控預(yù)測(cè)機(jī)制:現(xiàn)有技術(shù)方案缺少數(shù)據(jù)質(zhì)量預(yù)測(cè)機(jī)制,無(wú)法得知哪個(gè)模塊在未來(lái)幾個(gè)月數(shù)據(jù)質(zhì)量會(huì)變差,不能及時(shí)排查和解決數(shù)據(jù)質(zhì)量問(wèn)題,從而引發(fā)數(shù)據(jù)使用過(guò)程中的各種投訴,影響數(shù)據(jù)的使用價(jià)值。
4)缺少中小企業(yè)數(shù)據(jù)治理的閉環(huán)機(jī)制:現(xiàn)有技術(shù)方案缺乏數(shù)據(jù)治理的閉環(huán)機(jī)制,沒有建立數(shù)據(jù)質(zhì)量調(diào)整知識(shí)庫(kù),無(wú)法智能設(shè)置數(shù)據(jù)質(zhì)量調(diào)整策略,也不能針對(duì)外部原因和業(yè)務(wù)原因進(jìn)行智能的數(shù)據(jù)質(zhì)量監(jiān)控調(diào)整。
2" 基于熵減和馬爾科夫鏈的數(shù)據(jù)治理
為解決上述技術(shù)問(wèn)題,在當(dāng)前主流的中小企業(yè)客戶數(shù)據(jù)治理基礎(chǔ)上,結(jié)合運(yùn)營(yíng)商大數(shù)據(jù)的特性,創(chuàng)新性地融合熵減理論與馬爾科夫鏈,構(gòu)建數(shù)據(jù)湖并對(duì)數(shù)據(jù)質(zhì)量進(jìn)行智能評(píng)估[1-5]。通過(guò)量化評(píng)估與監(jiān)控、優(yōu)化時(shí)序數(shù)據(jù)庫(kù)查詢、預(yù)測(cè)數(shù)據(jù)質(zhì)量趨勢(shì),形成了高效、精準(zhǔn)的數(shù)據(jù)治理體系,降低了數(shù)據(jù)治理成本,提升了治理效率與數(shù)據(jù)質(zhì)量,確保實(shí)現(xiàn)數(shù)據(jù)價(jià)值的最大化。具體技術(shù)方案如下:
1)多源異構(gòu)的中小企業(yè)運(yùn)營(yíng)商大數(shù)據(jù)獲取和融合。通過(guò)匯聚互聯(lián)網(wǎng)信息、運(yùn)營(yíng)商門戶網(wǎng)站、運(yùn)營(yíng)商APP、運(yùn)營(yíng)商總部下發(fā)信息、市場(chǎng)調(diào)研數(shù)據(jù)以及第三方采購(gòu)數(shù)據(jù)等,運(yùn)用基于OCR識(shí)別、水牌掃描、門頭照識(shí)別等多源異構(gòu)數(shù)據(jù)匯集和融合處理技術(shù),智能構(gòu)建運(yùn)營(yíng)商中小企業(yè)基礎(chǔ)信息數(shù)據(jù)湖。
2)創(chuàng)建基于熵函數(shù)的智能算法。引入“熵減”理念構(gòu)建中小企業(yè)數(shù)據(jù)治理模式,創(chuàng)建基于熵函數(shù)、最大熵、均熵的智能算法,對(duì)中小企業(yè)數(shù)據(jù)信息進(jìn)行動(dòng)態(tài)智能化數(shù)據(jù)質(zhì)量監(jiān)控,查找數(shù)據(jù)質(zhì)量失衡的問(wèn)題原因并加以解決。
3)構(gòu)建中小企業(yè)數(shù)據(jù)質(zhì)量時(shí)序數(shù)據(jù)庫(kù)。根據(jù)熵值和均熵的時(shí)序排列,構(gòu)建中小企業(yè)數(shù)據(jù)質(zhì)量時(shí)序數(shù)據(jù)庫(kù)。采用標(biāo)簽+時(shí)間戳分區(qū)檢索方式、TSM樹存儲(chǔ)技術(shù),數(shù)據(jù)導(dǎo)入時(shí)間縮短了31.87%,占用空間減少了46.74%;運(yùn)用預(yù)聚合和多維分組聚合查詢技術(shù)、保留刪除策略,查詢速度提升了一倍。
4)形成基于熵減的馬爾科夫鏈。根據(jù)歷史數(shù)據(jù)質(zhì)量熵值和對(duì)應(yīng)的數(shù)據(jù)質(zhì)量狀態(tài),利用數(shù)據(jù)質(zhì)量狀態(tài)向量和數(shù)據(jù)質(zhì)量狀態(tài)轉(zhuǎn)移矩陣,形成基于熵減的馬爾科夫鏈,預(yù)測(cè)未來(lái)幾個(gè)月的數(shù)據(jù)質(zhì)量情況,并對(duì)大概率存在數(shù)據(jù)質(zhì)量問(wèn)題的模塊進(jìn)行數(shù)據(jù)治理。
通過(guò)打造一套完備的中小企業(yè)數(shù)據(jù)治理技術(shù)和體系,有效降低了數(shù)據(jù)治理的人力成本,解決了數(shù)據(jù)治理效率低、數(shù)據(jù)質(zhì)量問(wèn)題定位不準(zhǔn)確、解決不及時(shí)等問(wèn)題,實(shí)現(xiàn)了數(shù)據(jù)價(jià)值的最大化。
3" 基于熵減和馬爾科夫鏈治理實(shí)現(xiàn)
3.1" 多源異構(gòu)的大數(shù)據(jù)獲取和融合
我國(guó)中小企業(yè)數(shù)量龐大,在城市中分布廣泛且分散。“清晰獲取中小企業(yè)的數(shù)量、公司名稱、地址分布等基礎(chǔ)信息”是運(yùn)營(yíng)商拓展中小企業(yè)市場(chǎng)的重要手段。如何獲得一份全面且高質(zhì)量的“中小企業(yè)”名單,是業(yè)務(wù)發(fā)展的重要問(wèn)題。
本系統(tǒng)基于“熵減”理念,匯集多源異構(gòu)的中小企業(yè)數(shù)據(jù)來(lái)源。通過(guò)匯聚互聯(lián)網(wǎng)信息、運(yùn)營(yíng)商門戶網(wǎng)站、運(yùn)營(yíng)商APP、運(yùn)營(yíng)商總部下發(fā)信息、市場(chǎng)調(diào)研數(shù)據(jù)以及第三方采購(gòu)等商機(jī)線索,運(yùn)用基于OCR識(shí)別、水牌掃描、門頭照識(shí)別等多源異構(gòu)數(shù)據(jù)匯集和融合處理技術(shù),智能構(gòu)建運(yùn)營(yíng)商中小企業(yè)基礎(chǔ)信息數(shù)據(jù)湖,降低人工收集及整理的成本,提高運(yùn)營(yíng)商在中小企業(yè)市場(chǎng)上的商機(jī)獲取效率[6-10]。
獲取的數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),經(jīng)過(guò)識(shí)別、解釋、歸一化處理后生成標(biāo)準(zhǔn)化的中小企業(yè)基礎(chǔ)數(shù)據(jù)。
基于多源異構(gòu)數(shù)據(jù)匯集和融合處理的中小企業(yè)運(yùn)營(yíng)數(shù)據(jù)采集處理的主要流程如圖1所示。由于每個(gè)外部系統(tǒng)采集來(lái)的原始數(shù)據(jù)格式各異,所以需要對(duì)接口協(xié)議進(jìn)行解析,以獲取中小企業(yè)的基本信息,這些信息涵蓋企業(yè)名稱、企業(yè)網(wǎng)址、創(chuàng)建日期、員工數(shù)量、行業(yè)分類、注冊(cè)資金、年?duì)I業(yè)額、信用信息等關(guān)鍵數(shù)據(jù)。部分信息借助OCR識(shí)別、水牌掃描、門頭照識(shí)別等技術(shù)進(jìn)行處理,以提升數(shù)據(jù)的精確度。對(duì)于無(wú)法直接通過(guò)系統(tǒng)解釋處理的原始數(shù)據(jù),則通過(guò)人工介入處理后再生成標(biāo)準(zhǔn)化數(shù)據(jù)。最終形成統(tǒng)一的中小企業(yè)基礎(chǔ)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖。
3.2" 創(chuàng)建基于熵函數(shù)的智能算法
在大數(shù)據(jù)管理中,通常用熵的大小來(lái)表示數(shù)據(jù)質(zhì)量偏離其平衡態(tài)或穩(wěn)態(tài)的程度。由于大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)來(lái)源于外部系統(tǒng),若不加以控制,熵會(huì)逐漸增大,數(shù)據(jù)質(zhì)量也會(huì)隨之變差。因此,我們需要定義熵來(lái)衡量大數(shù)據(jù)系統(tǒng)的整體數(shù)據(jù)質(zhì)量狀況,并依據(jù)熵的情況對(duì)系統(tǒng)的數(shù)據(jù)質(zhì)量進(jìn)行控制,以確保數(shù)據(jù)的準(zhǔn)確性。
在理想狀態(tài)下,數(shù)據(jù)質(zhì)量控制點(diǎn)應(yīng)處于預(yù)警線內(nèi),且排列無(wú)異常現(xiàn)象,如圖2所示。中控制線(Control Line, CL)代表數(shù)據(jù)質(zhì)量穩(wěn)定狀態(tài)下的預(yù)期表現(xiàn);控制上限(Upper Control Line, UCL)代表數(shù)據(jù)質(zhì)量可能波動(dòng)的上限,若超過(guò)該上限,則表明數(shù)據(jù)質(zhì)量出現(xiàn)問(wèn)題;控制下限(Lower Control Line, LCL)代表數(shù)據(jù)質(zhì)量可能波動(dòng)的下限,若低于該下限,同樣表明數(shù)據(jù)質(zhì)量出現(xiàn)問(wèn)題。
數(shù)據(jù)質(zhì)量控制點(diǎn)X =實(shí)際指標(biāo)值A(chǔ)i-標(biāo)準(zhǔn)指標(biāo)值Si,其中Si可根據(jù)業(yè)務(wù)情況進(jìn)行設(shè)置和調(diào)整。例如,對(duì)于運(yùn)營(yíng)商用戶通信時(shí)長(zhǎng)指標(biāo),工作日的通信時(shí)長(zhǎng)通常偏大,休息日的通信時(shí)長(zhǎng)通常偏小,因此通信時(shí)長(zhǎng)的標(biāo)準(zhǔn)指標(biāo)數(shù)值,在休息日會(huì)比工作日少約20%。
而數(shù)據(jù)質(zhì)量不理想的狀態(tài)主要有以下幾種情況,針對(duì)這些情況構(gòu)建相應(yīng)的熵函數(shù),以進(jìn)行數(shù)據(jù)質(zhì)量監(jiān)控和調(diào)整,從而達(dá)到熵減的目的:
1)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)超出控制線范圍,如圖3所示。若有若干數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)超出了控制線界限,超出的點(diǎn)越多,數(shù)據(jù)質(zhì)量問(wèn)題就越嚴(yán)重,此時(shí)需要進(jìn)行數(shù)據(jù)質(zhì)量問(wèn)題的查找和解決。
針對(duì)數(shù)據(jù)質(zhì)量超出控制線情況,我們構(gòu)建熵函數(shù)S1,用于表示當(dāng)n個(gè)數(shù)據(jù)點(diǎn)超出控制線時(shí),出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題的概率。
2)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)在控制界限內(nèi),但在單側(cè)連續(xù)出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,如圖4所示。當(dāng)若干個(gè)連續(xù)的數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)出現(xiàn)在中心線同一側(cè)時(shí),就出現(xiàn)了單側(cè)連續(xù)數(shù)據(jù)質(zhì)量問(wèn)題。
針對(duì)單側(cè)連續(xù)數(shù)據(jù)質(zhì)量問(wèn)題情況,我們構(gòu)建熵函數(shù)S2,用于表示當(dāng)連續(xù)n個(gè)數(shù)據(jù)點(diǎn)處于中心線同一側(cè)時(shí),出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題的概率。
3)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)在控制界限內(nèi),但在單側(cè)多數(shù)點(diǎn)出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,如圖5所示。若多數(shù)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)出現(xiàn)在中心線同一側(cè),則出現(xiàn)單側(cè)多數(shù)點(diǎn)數(shù)據(jù)質(zhì)量問(wèn)題。
針對(duì)單側(cè)多數(shù)點(diǎn)存在數(shù)據(jù)質(zhì)量問(wèn)題情況,我們構(gòu)建熵函數(shù)S3,用于表示連續(xù)n個(gè)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)中,至少有t個(gè)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)處于中心線同一側(cè)時(shí),出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題的概率。
4)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)在控制界限內(nèi),但出現(xiàn)持續(xù)單調(diào)數(shù)據(jù)質(zhì)量問(wèn)題,如圖6所示。當(dāng)若干個(gè)連續(xù)的數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)出現(xiàn)持續(xù)上升或下降現(xiàn)象時(shí),就出現(xiàn)了持續(xù)單調(diào)數(shù)據(jù)質(zhì)量問(wèn)題。
針對(duì)持續(xù)單調(diào)數(shù)據(jù)質(zhì)量問(wèn)題情況,我們構(gòu)建熵函數(shù)S4,用于表示連續(xù)n個(gè)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)連續(xù)上升或下降時(shí),出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題的概率。
5)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)在控制界限內(nèi),但連續(xù)遠(yuǎn)離中心線,如圖7所示。當(dāng)連續(xù)若干個(gè)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)遠(yuǎn)離中心線,接近控制界限時(shí),就出現(xiàn)了遠(yuǎn)離中心線數(shù)據(jù)質(zhì)量問(wèn)題現(xiàn)象。
針對(duì)連續(xù)遠(yuǎn)離中心線情況,我們構(gòu)建熵函數(shù)S5,用于表示連續(xù)若干個(gè)數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)接近控制線限制時(shí),出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題的概率。
在以上五個(gè)熵函數(shù)的基礎(chǔ)上,再定義最大熵和均熵,以此表示系統(tǒng)的數(shù)據(jù)質(zhì)量情況。
(1)
(2)
通過(guò)計(jì)算這些熵和均熵,能夠判斷系統(tǒng)的數(shù)據(jù)質(zhì)量情況,及時(shí)查找數(shù)據(jù)質(zhì)量失衡的原因并加以解決。此外,根據(jù)這些熵和均熵的時(shí)序排列,結(jié)合時(shí)序數(shù)據(jù)庫(kù)和馬爾科夫鏈方法,還可以提供數(shù)據(jù)質(zhì)量問(wèn)題預(yù)警,及時(shí)解決數(shù)據(jù)質(zhì)量問(wèn)題。
3.3" 構(gòu)建中小企業(yè)數(shù)據(jù)質(zhì)量時(shí)序數(shù)據(jù)庫(kù)
基于前面步驟得到的五個(gè)熵、最大熵和均熵,以及這些熵函數(shù)隨時(shí)間變化而得到的時(shí)序數(shù)據(jù)序列,可以構(gòu)建數(shù)據(jù)質(zhì)量時(shí)序數(shù)據(jù)庫(kù)。
時(shí)序數(shù)據(jù)即時(shí)間序列數(shù)據(jù),是指某個(gè)指標(biāo)按照時(shí)間順序記載的數(shù)據(jù)序列。在以時(shí)間為橫軸的坐標(biāo)系中將時(shí)序數(shù)據(jù)值連成線,并將歷史時(shí)序數(shù)據(jù)制作成多維度數(shù)據(jù)表,有助于發(fā)現(xiàn)其中的規(guī)律和異常。因此,在時(shí)序數(shù)據(jù)庫(kù)中對(duì)數(shù)據(jù)質(zhì)量熵函數(shù)進(jìn)行大數(shù)據(jù)分析,能夠更精確地進(jìn)行數(shù)據(jù)質(zhì)量異常預(yù)警。
首先設(shè)計(jì)基于熵函數(shù)的時(shí)序數(shù)據(jù)模型,該模型應(yīng)包含時(shí)間戳、熵函數(shù)所屬系統(tǒng)、維度分類、指標(biāo)名稱、五個(gè)熵函數(shù)、均熵等信息。具體舉例見表1。
接下來(lái),構(gòu)建基于熵函數(shù)的數(shù)據(jù)質(zhì)量時(shí)序數(shù)據(jù)庫(kù)。在該時(shí)序數(shù)據(jù)庫(kù)中,存儲(chǔ)離線歷史數(shù)據(jù)質(zhì)量監(jiān)控?cái)?shù)據(jù)以及實(shí)時(shí)數(shù)據(jù)質(zhì)量監(jiān)控?cái)?shù)據(jù)。此外,申告平臺(tái)投訴數(shù)據(jù)和外部投訴數(shù)據(jù),經(jīng)實(shí)時(shí)流式數(shù)據(jù)處理引擎處理后,也被標(biāo)準(zhǔn)化為數(shù)據(jù)質(zhì)量監(jiān)控?cái)?shù)據(jù),并存入時(shí)序數(shù)據(jù)庫(kù)。這些數(shù)據(jù)在前端進(jìn)行可視化展示,并根據(jù)客戶的使用情況對(duì)報(bào)警規(guī)則進(jìn)行配置調(diào)整,如圖8所示。
3.4" 形成基于熵減的馬爾科夫鏈
馬爾科夫鏈?zhǔn)且环N用于描述數(shù)據(jù)相關(guān)性的數(shù)學(xué)模型,能夠精確計(jì)算出一系列觀測(cè)結(jié)果之間的相關(guān)程度。我們可以依據(jù)現(xiàn)有的數(shù)據(jù)質(zhì)量報(bào)告和熵函數(shù),估算系統(tǒng)數(shù)據(jù)質(zhì)量情況(即數(shù)據(jù)質(zhì)量熵)。這些帶有時(shí)間戳的數(shù)據(jù)質(zhì)量熵,構(gòu)成了馬爾科夫鏈。借助馬爾科夫鏈模型,我們能夠預(yù)測(cè)系統(tǒng)數(shù)據(jù)質(zhì)量情況,并對(duì)大概率存在數(shù)據(jù)質(zhì)量問(wèn)題的模塊進(jìn)行數(shù)據(jù)治理,以達(dá)到 “熵減”效果。
具體設(shè)計(jì)步驟如下:
1)根據(jù)前面計(jì)算得到的數(shù)據(jù)質(zhì)量熵函數(shù)和均熵Savr進(jìn)行數(shù)據(jù)質(zhì)量等級(jí)劃分,并設(shè)置馬爾科夫鏈狀態(tài):
E1:數(shù)據(jù)質(zhì)量?jī)?yōu)秀,基本無(wú)數(shù)據(jù)問(wèn)題,Savr<0.001
E2:數(shù)據(jù)質(zhì)量良好,偶爾有小數(shù)據(jù)問(wèn)題,0.001≤Savr<0.005
E3:數(shù)據(jù)質(zhì)量一般,時(shí)常有數(shù)據(jù)問(wèn)題但仍可接受,0.005≤Savr<0.020
E4:數(shù)據(jù)質(zhì)量不好,偶爾有較大數(shù)據(jù)問(wèn)題,需要整改。0.020≤Savr<0.100
E5:數(shù)據(jù)質(zhì)量糟糕,無(wú)法忍受,亟須整改。Savr≥0.100
2)獲取歷史數(shù)據(jù)質(zhì)量熵值和對(duì)應(yīng)的數(shù)據(jù)質(zhì)量狀態(tài),形成帶時(shí)間戳的狀態(tài)向量A =(E1、E2、E3、E4、E5)。
3)根據(jù)歷史不同時(shí)間的數(shù)據(jù)質(zhì)量變動(dòng)情況,計(jì)算狀態(tài)轉(zhuǎn)移概率矩陣B,矩陣中的各行元素之和為1,即對(duì)于某一時(shí)間的數(shù)據(jù)質(zhì)量狀態(tài),將來(lái)轉(zhuǎn)換為本狀態(tài)和其他各種狀態(tài)的概率之和為1。
(3)
4)利用已知某時(shí)間的數(shù)據(jù)質(zhì)量狀態(tài)向量A,以及根據(jù)歷史數(shù)據(jù)計(jì)算得到的數(shù)據(jù)質(zhì)量狀態(tài)轉(zhuǎn)移矩陣B,通過(guò)A乘以B可以得到未來(lái)時(shí)間的數(shù)據(jù)質(zhì)量情況。
(4)
以中小企業(yè)的運(yùn)營(yíng)商數(shù)據(jù)質(zhì)量預(yù)測(cè)為例,過(guò)去三年中小企業(yè)的運(yùn)營(yíng)商數(shù)據(jù)質(zhì)量情況如表2所示。
由表2可知,在5個(gè)從E1出發(fā)的狀態(tài)中,有3個(gè)轉(zhuǎn)移到E1,2個(gè)轉(zhuǎn)移到E2。同樣也可以得出從E2到E4出發(fā)的狀態(tài)轉(zhuǎn)移情況,如表3轉(zhuǎn)移矩陣和表4轉(zhuǎn)移概率矩陣所示,其中Tij表示從Ei狀態(tài)轉(zhuǎn)移到Ej狀態(tài)的次數(shù),例如T12 = 2,表示E1狀態(tài)轉(zhuǎn)移到E2狀態(tài)的次數(shù)為2;Pij表示從Ei狀態(tài)轉(zhuǎn)移到Ej狀態(tài)的概率,例如P12 = 40%,表示E1的5次狀態(tài)轉(zhuǎn)移中,有2次,即40%的概率轉(zhuǎn)移到E2狀態(tài)。
根據(jù)轉(zhuǎn)移概率矩陣,可以預(yù)測(cè)下個(gè)月乃至后面幾個(gè)月的數(shù)據(jù)質(zhì)量情況。比如根據(jù)2023年12月數(shù)據(jù)質(zhì)量為E1的狀態(tài),可以預(yù)測(cè)2024年2月,數(shù)據(jù)質(zhì)量保持E1的概率為76.33%,數(shù)據(jù)質(zhì)量降低為E2的概率為19%,數(shù)據(jù)質(zhì)量降低為E3的概率為0%,如表5所示。
而系統(tǒng)檢測(cè)到2024年數(shù)據(jù)質(zhì)量實(shí)際情況如表6所示,2024年數(shù)據(jù)質(zhì)量預(yù)測(cè)和實(shí)際的擬合曲線圖如圖9所示。
第M月的數(shù)據(jù)質(zhì)量預(yù)測(cè)準(zhǔn)確率計(jì)算方法如下:
(5)
由此可以得到2024年數(shù)據(jù)質(zhì)量預(yù)測(cè)準(zhǔn)確率如圖10所示。由于2月份是春節(jié)期間,2、3月數(shù)據(jù)波動(dòng)比較大,所以2、3月的實(shí)際數(shù)據(jù)質(zhì)量看上去比預(yù)測(cè)要差一點(diǎn),后續(xù)將增加業(yè)務(wù)波動(dòng)因子來(lái)提升預(yù)測(cè)準(zhǔn)確性。
4" 結(jié)" 論
傳統(tǒng)的中小企業(yè)數(shù)據(jù)雜亂繁多,標(biāo)準(zhǔn)化程度低。本文提出的中小企業(yè)客戶數(shù)據(jù)治理技術(shù),匯聚多源異構(gòu)數(shù)據(jù),融合多途徑識(shí)別數(shù)據(jù)(如OCR識(shí)別、水牌掃描、門頭照識(shí)別),通過(guò)標(biāo)準(zhǔn)化處理,智能構(gòu)建運(yùn)營(yíng)商中小企業(yè)基礎(chǔ)信息數(shù)據(jù)湖,從源頭提升數(shù)據(jù)質(zhì)量。
通過(guò)引入“熵減”理念,構(gòu)建基于熵、最大熵、均熵的智能算法,量化評(píng)估中小企業(yè)數(shù)據(jù)質(zhì)量,及時(shí)查找低質(zhì)量數(shù)據(jù)的問(wèn)題原因并加以解決。同時(shí),構(gòu)建了中小企業(yè)數(shù)據(jù)質(zhì)量時(shí)序數(shù)據(jù)庫(kù),并在此基礎(chǔ)上創(chuàng)建基于熵減的馬爾科夫鏈,建立數(shù)據(jù)質(zhì)量狀態(tài)向量和數(shù)據(jù)質(zhì)量狀態(tài)轉(zhuǎn)移矩陣,用以預(yù)測(cè)未來(lái)幾個(gè)月的數(shù)據(jù)質(zhì)量情況,并對(duì)大概率存在數(shù)據(jù)質(zhì)量問(wèn)題的模塊進(jìn)行數(shù)據(jù)治理。
基于熵減和馬爾科夫鏈的中小企業(yè)客戶數(shù)據(jù)治理技術(shù),能夠有效地發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題、查找原因并解決問(wèn)題,還能有效預(yù)測(cè)未來(lái)的數(shù)據(jù)質(zhì)量情況,切實(shí)實(shí)現(xiàn)了中小企業(yè)大數(shù)據(jù)價(jià)值的最大化,降低了數(shù)據(jù)治理人力成本,解決了數(shù)據(jù)治理效率低、數(shù)據(jù)質(zhì)量問(wèn)題定位不準(zhǔn)確、解決不及時(shí)等問(wèn)題,助力企業(yè)實(shí)現(xiàn)降本增效。
參考文獻(xiàn):
[1] 李維剛,鐘正,王永強(qiáng),等.基于時(shí)間距離-熵減策略的同步定位與地圖構(gòu)建算法 [J].信息與控制,2023,52(5):660-668+688.
[2] 閆佳和,李紅輝,馬英,等. 多源異構(gòu)數(shù)據(jù)融合關(guān)鍵技術(shù)與政務(wù)大數(shù)據(jù)治理體系 [J].計(jì)算機(jī)科學(xué),2024,51(2):1-14.
[3]黃俊峰,葉滂俊,王敏.基于大數(shù)據(jù)基礎(chǔ)平臺(tái)的數(shù)據(jù)治理實(shí)踐 [J].信息技術(shù)與標(biāo)準(zhǔn)化,2022(6):19-23.
[4] 陳璐,郭宇翔,葛叢叢,等. 基于聯(lián)邦學(xué)習(xí)的跨源數(shù)據(jù)錯(cuò)誤檢測(cè)方法 [J].軟件學(xué)報(bào),2023,34(3):1126-1147.
[5] 于起超,韓旭,馬丹璇,等.流式大數(shù)據(jù)數(shù)據(jù)清洗系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [J].計(jì)算機(jī)時(shí)代,2021(9):1-5.
[6] 劉魯文,陳興榮,何濤.基于馬爾科夫鏈的教學(xué)效果評(píng)估方法 [J].統(tǒng)計(jì)與決策,2014(3):93-94.
[7] 廖普明.基于馬爾科夫鏈狀態(tài)轉(zhuǎn)移概率矩陣的商品市場(chǎng)狀態(tài)預(yù)測(cè) [J].統(tǒng)計(jì)與決策,2015(2):97-99.
[8] 楊海民,潘志松,白瑋.時(shí)間序列預(yù)測(cè)方法綜述 [J].計(jì)算機(jī)科學(xué),2019,46(1):21-28.
[9] 張建晉,王韞博,龍明盛,等.面向季節(jié)性時(shí)空數(shù)據(jù)的預(yù)測(cè)式循環(huán)網(wǎng)絡(luò)及其在城市計(jì)算中的應(yīng)用 [J].計(jì)算機(jī)學(xué)報(bào),2020,43(2):286-302.
[10] 鄭月彬,朱國(guó)魂.基于Twitter數(shù)據(jù)的時(shí)間序列模型在流行性感冒預(yù)測(cè)中的應(yīng)用 [J].中國(guó)預(yù)防醫(yī)學(xué)雜志,2019,20(9):793-798.
作者簡(jiǎn)介:劉敏(1975—),女,漢族,浙江臺(tái)州人,工程師,碩士,研究方向:大數(shù)據(jù)、人工智能;黃倚霄(1978—),男,漢族,廣東龍川人,高級(jí)工程師,碩士,研究方向:大數(shù)據(jù)、人工智能;陳智揚(yáng)(1971—),男,漢族,廣東深圳人,高級(jí)工程師,碩士,研究方向:大數(shù)據(jù)、人工智能、網(wǎng)絡(luò)信息安全;張湛梅(1979—),女,漢族,廣東陽(yáng)春人,正高級(jí)工程師,碩士,研究方向:大數(shù)據(jù)、人工智能。