999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關聯規則的作戰數據質量校驗方法研究

2022-02-17 12:11:24姚鵬飛
電子設計工程 2022年3期
關鍵詞:關聯規則數據庫

姚鵬飛

(92493 部隊,遼寧 葫蘆島 125000)

作戰數據是維系作戰指揮信息系統的“血液”,作戰數據質量的高低直接影響系統的發揮效率[1]。作戰數據根據屬性劃分,主要包括作戰基礎數據、動態數據和指揮決策數據,近年來,隨著作戰相關任務量的持續增加和信息化手段的不斷提升,基于這3種數據類型上設計的各類作戰數據信息系統也日益增多,這些數據對于首長機關指揮決策、部隊遂行各類軍事任務、信息化裝備效能發揮起著重要的支撐作用[2],數據的正確性、一致性、完整性、可靠性要求越來越高。目前,各類信息系統數據的數據質量檢查主要依靠人工判查和內置的數據檢驗規則來完成,能夠實現對系統中單個數據項完整性、正確性的約束檢查,但對于存在關聯關系的數據項之間的一致性約束檢查還不夠完善。

針對現有作戰數據信息系統有關聯關系數據項所存在的問題特點,在梳理分析影響數據質量因素和現有方法不足的基礎上,通過引入關聯規則挖掘方法,使用FP-tree 挖掘數據庫中的2-頻繁數據項,獲取數據項之間的有效關聯關系,以此來檢測人工填報數據可能出現的錯誤。通過與信息系統中現有的審核規則相結合,可以彌補人工判查存在的不足,有效提高了數據質量。

1 數據質量

1.1 數據質量維度

數據作為信息系統產生的產品,像產品一樣進行管理,需要質量保證[3]。通常,數據質量問題可分為4 類,即單數據源模式層問題、單數據源實例層問題、多數據源模式層問題以及多數據源實例層問題[4]。在基于人工錄入的信息系統中,數據質量的主要問題可以歸結為單數據源實例層問題,典型的表現形式是拼寫錯誤、相似重復記錄和互相矛盾的字段。數據質量維度通常采用4 個指標進行衡量,即數據一致性、數據正確性、數據完整性和數據可靠性[5-6]。

數據一致性:主要是指數據或數據項之間的邏輯關系是否正確,是否存在前后矛盾。

數據正確性:準確性是對數據內容正確性的測量標準,如數據的取值是否有意義,是否在合理范圍內。

數據完整性:完整性是對數據的存在性、有效性、結構、內容和其他基本特征的測量標準,如填充率、有效性、范圍、最大值和最小值等。

數據可靠性:數據內容是否能夠正確反映客觀事實。

1.2 目前常用檢查方法

在作戰數據信息系統中,目前常用的數據質量檢查主要包括人工檢查法、基于規則庫的檢查方法兩種。人工檢查方法主要是通過人工逐項分析比對數據項,或通過生成各類數據報表、數據圖展示等數據可視化方式,查找數據填報過程中存在的明顯錯誤。基于規則庫的檢查方法主要是通過基于SQL 語言,制定一系列數據校驗規則,篩選錯誤項。人工檢查方式在數據量較大時效率低下,不滿足數據實時性處理要求,基于規則庫的檢查方法可以快速完成數據質量檢查,但主要針對的是單個數據項的完整性檢查,對于數據項之間的關聯關系檢查力度不夠。

2 關聯規則挖掘

2.1 基本概念

關聯規則是數據挖掘領域廣泛使用的方法之一,關聯規則挖掘通常指的是從大量的數據集中挖掘到有價值的、可描述數據項之間關聯關系的數據挖掘方法,對于存在關聯關系的兩個或多個數據項,可通過其中一項屬性的值預測另一項或多個項屬性的值[7-11]。關聯規則挖掘主要包含兩步,第一步設定最小支持度,找出關系數據庫中所有大于等于最小支持度的數據項集,第二步是設定最小置信度,利用頻繁項集生成關聯規則,根據最小置信度進行關聯規則選取,最后得到強關聯規則[12-13]。

將數據庫中不可再分割的數據單元稱為項,用符號i表示,把i的集合記為I,稱為項集,即I={i1,i2,i3,…,in},設T為事物數據庫,T={t1,t2,t3,…,tn},每個事物ti(i=1,2,3,4,5,…,n) 包含的項集都是I的子集,記為ti?I,一個關聯規則可表示為X→Y的蘊涵式,X?I,Y?I,并且X∩Y=Φ[14]。關聯規則的支持度support和置信度confidence是度量關聯規則的兩個重要特征量。關聯規則X→Y的支持度是指事物數據庫中同時包含X和Y的交易數和所有交易數之比,記為support(X→Y)=support(X∪Y)=P(XY),置信度是指交易包含X和Y的交易數與包含X的交易數之比,記為confidence=滿足最小支持度閾值和最小置信度閾值的規則稱為強規則[15-16]。

2.2 常用算法

關聯規則挖掘主要是挖掘數據內部繁項集,獲取數據之間關聯關系,在關聯規則挖掘領域,常用的數據關聯規則算法主要包括Apriori 算法、FP-Tree 算法等。Apriori 算法為數據關聯規則挖掘經典算法,由R.Agrawal 等人在1993 年提出,其基本思想是通過對事物數據庫的多次掃描來完成數據項集支持度的計算,發現頻繁項集從而生成關聯規則,采取一個層次順序搜索的循環方法來實現頻繁項集的挖掘[17]。第一次掃描數據庫,得到頻繁1-項集的集合L1,第K(K>1)次掃描首先利用第K-1 次掃描的結果LK-1來產生候選集K-項集的集合CK,然后在掃描的過程中確定CK的支持度。最后,在每次掃描結束時計算頻繁K-項集的集合LK,算法在候選集K-項集CK為空時結束。存在的主要問題是需要多次對數據進行掃描,I/O 開銷很大,運行效率較低[18-19]。FP-Tree算法是對傳統Apriori 算法的改進,可以滿足不同數據量的使用需求,采取將提供頻繁項集的數據庫數據壓縮成一棵頻繁模式樹,但仍保留其中項集關聯信息的分治策略,只需要對數據庫進行兩次掃描,算法運行效率較高,是當前應用最為廣泛的關聯關系挖掘算法。

3 基于關聯規則挖掘的錯誤數據檢測過程

考慮到目前作戰數據的量級、規模以及數據處理速度的要求,文中采用FP-Tree 算法實現對作戰數據信息系統中關聯數據項的挖掘,FP-Tree 算法是通過引入數據結構來臨時存儲數據,主要包括原始數據、FP-tree和節點鏈表,以此來減少I/O 開銷,以表1 所示的關系型數據庫為例,完成FP-Tree 構建。

表1 數據庫示例

3.1 建立項頭表

通過掃描數據庫建立項頭表,刪除支持度小于10%的數據,并對數據進行排序,項頭表建立過程如圖1 所示。

3.2 建立FP-tree

根據項頭表和排序后的數據庫數據進行FP-tree的建立。第一步是為FP-tree 建立根節點,記為null,第二步是將排序后的數據依次插入FP-tree的樹結構中。若添加的節點已經在FP-tree 中出現,則更新該節點的支持度數值,對于新節點,項頭表對應的節點會通過節點鏈表引入新節點,直至所有數據插入完成,從而完成樹的建立。樹的建立過程如圖1所示。

圖1 項頭表建立過程

3.3 挖掘FP-tree頻繁項集

建立FP-tree和項頭表后,從項頭表底部依次向上挖掘,構造條件模式基,把挖掘的節點作為葉子節點所對應的FP-tree 子樹,將子樹中每個節點的的計數設置為葉子節點的計數,并刪除計數低于支持度的節點,通過遞歸算法完成挖掘過程。

對于兩數據項之間的關聯關系,找到只包含兩數據項的集合,即2-頻繁項,對圖2 所示的FP-tree進行挖掘,以T6-f1 節點為例,挖掘到的部分2-頻繁項集為{T2-b2:1,T6-f1:1},{T4-d2:1,T6-f1:1},{T5-e1:1,T6-f1:1}。同樣以T6-f1 節點為例,挖掘到的部分關聯關系如表2 所示。

圖2 FP-tree建立過程

表2 挖掘到的2-頻繁項集

3.4 數據錯誤檢測

在作戰數據信息系統中,數據經過各單位初審以及系統自帶的校驗工具審核后,數據的錯誤并非是大概率發生的,且一些數據項之間存在著本質關聯。通過FP-tree 構建及關聯規則挖掘后,若存在關聯關系的數據項相應指標之間置信度低于設定閾值,可視為數據填報錯誤。

例如關鍵崗位人員信息表中,職務級別和軍銜之間的關聯程度較高,若計算后置信度低于閾值,可視為填報錯誤。

4 實例驗證

4.1 數據準備

以某單位關鍵崗位人員信息表為例,共涉及552條數據記錄,5 個數據指標,相應字段的編碼、范圍、含義如表3 所示。

表3 關鍵崗位人員信息表各字段含義及編碼含義

4.2 有效關聯規則挖掘

基于關聯規則實現錯誤檢測的算法步驟:

1)讀入數據,篩選存在一定關聯關系的數據項,并將其轉換為二維數組類型;

2)通過FP-tree 算法,產生2-頻繁項集合;

3)對于每一個頻繁項集,構造所有可能的關聯規則,然后計算每一個關聯規則置信度,輸出置信度小于閾值的有效關聯規則;

4)對生成的有效關聯規則進行人工判別,剔除明顯錯誤的關聯規則;

5)根據關聯規則,篩選出可能填報錯誤的數據項。

4.3 實驗結果

表4 中包含的規則如下:

表4 有效關聯(閾值=0.07)

規則1:存在軍銜為大校、職務級別為正團職的人員,對生成的4 條數據記錄進行檢查,得到結果:1)兩名軍銜為大校的人員,職務級別誤填為正團職,屬于填報錯誤;2)另外兩名軍銜為大校的人員,職務級別填為正團職,經過核實,這兩名人員兼有技術職務,屬于正確填報。

規則2:存在職務為處長但軍銜為少校的人員,對生成的兩條數據記錄進行檢查,得到結果:兩名處長軍銜填報錯誤,屬錯誤填報。

規則3:存在職務級別為副團、職務為處長的人員,對生成的一條數據記錄進行檢查,得到結果:一名職務級別為副團職人員的職務信息誤填為處長,屬錯誤填報。

規則4:存在第一學歷為博士研究生但文化程度為碩士研究生的人員,對生成的兩條數據記錄進行檢查,得到結果:兩名第一學歷為博士研究生的人員,文化程度誤填為碩士研究生。

5 結論

通過選取存在關聯關系的數據項,設置置信度小于閾值的篩選條件,可生成能夠有效檢測錯誤的關聯規則,從而能夠篩選出可能出錯的數據項。但是針對生成的關聯規則,還需要結合實際情況進行篩選,而不能直接進行應用。后續的工作中還需要考慮不同閾值下的關聯規則生成情況和實驗驗證結果,使其閾值取值更為合理,從而使該方法具備更強的通用性和可操作性。綜合理論分析和實驗結果可知,該方法在設定的閾值條件下可以篩選出可能填報錯誤的數據項,一定程度上能夠提高數據審核效率,彌補現階段人工逐項核對和基于規則庫進行數據審查方法所存在的不足,可作為作戰數據信息系統質量審查的一個補充方法。

猜你喜歡
關聯規則數據庫
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
數據庫
財經(2017年2期)2017-03-10 14:35:35
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 理论片一区| 老色鬼欧美精品| 2022国产91精品久久久久久| 国产福利拍拍拍| 女人天堂av免费| 日韩天堂在线观看| 欧美无专区| 91小视频在线| 91亚洲视频下载| 亚洲Av激情网五月天| 久久不卡精品| 亚洲第一黄片大全| 狠狠综合久久| 色综合中文字幕| 国产18在线| 丰满少妇αⅴ无码区| 福利在线不卡一区| 国产尤物在线播放| 一本色道久久88综合日韩精品| 亚洲色图欧美一区| 久久久噜噜噜| 亚洲五月激情网| 免费国产高清视频| 91区国产福利在线观看午夜 | 亚洲中文在线看视频一区| 亚洲人妖在线| 国产一区二区色淫影院| 国产成人精品男人的天堂下载 | 国产一在线| 狠狠综合久久久久综| 一本大道香蕉久中文在线播放| 自拍亚洲欧美精品| 乱人伦中文视频在线观看免费| 国产成人一区| 国语少妇高潮| 国产一区在线观看无码| 91视频日本| 在线观看国产黄色| 精品亚洲麻豆1区2区3区| 波多野结衣一区二区三区AV| 夜夜拍夜夜爽| 精品视频第一页| 亚洲日韩精品伊甸| 五月婷婷综合在线视频| 国产精品99久久久| 亚洲日韩精品无码专区97| 97se亚洲综合在线| 国产又大又粗又猛又爽的视频| lhav亚洲精品| 色久综合在线| 国产中文一区a级毛片视频| 国产精品美乳| 91成人在线观看视频| 色屁屁一区二区三区视频国产| 国产成人一区二区| 五月天福利视频| 成人在线不卡| 少妇被粗大的猛烈进出免费视频| 免费看一级毛片波多结衣| 国产96在线 | 欧美日韩国产综合视频在线观看 | 日日碰狠狠添天天爽| 国产99欧美精品久久精品久久| 一本大道视频精品人妻 | 国产精品美女网站| 乱人伦中文视频在线观看免费| 强奷白丝美女在线观看| 久久男人资源站| 找国产毛片看| h视频在线观看网站| 亚洲男人的天堂网| 夜夜拍夜夜爽| 一级不卡毛片| 久久久久久久97| 国产欧美日韩一区二区视频在线| 久久综合九九亚洲一区| 亚洲成人精品| 国产精鲁鲁网在线视频| 日韩视频精品在线| 国产精品制服| 国产精品欧美激情| 久久久亚洲色|