999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

試論大數據庫的相似記錄檢測方法

2019-03-30 04:01:30王艷喜
中國新通信 2019年21期

王艷喜

【摘要】? ? 在現階段的大數據庫相似記錄檢測中,存在著誤差相對較大的問題。基于此,本文對二次模糊評判進行了改進,并提出了一種優化后的大數據庫相似記錄檢測方法。經過與基于決定屬性值聚類算法的大數據庫相似記錄檢測方法的實驗對比,證實了該檢測方法的優越性。

【關鍵詞】? ? 大數據庫? ? 相似記錄檢測方法? ? 二次模糊評判

引言:

現階段,大數據庫被廣泛應用于各個行業領域匯中,在決策型形成、總結與分析等方面發發揮著重要作用。但是,在大數據庫的實際使用中,常存在相似或重復記錄,造成數據冗余,導致了數據存儲空間的浪費。基于這樣的情況,開發一種大數據庫相似記錄檢測方法極為重要。

一、大數據庫相似記錄檢測方法的原理分析

在進行大數據庫相似記錄檢測時,需要完成部分記錄對的采集,并提取記錄字段相似的特征函數,形成訓練樣本集,最終構建起該大數據庫的相似記錄檢測模型。在該模型的支持下,能夠完成數據庫中記錄相似度的計算,并確定一個閾值。通過比較記錄相似度數值與閾值,實現了該大數據庫相似記錄的檢測[1]。

但是,在該方法中,難以消除大數據庫中的非常重要數,導致相似記錄檢測的實際效率降低。基于這樣的情況,筆者對二次模糊評判進行改進,提出了一種優化后的大數據庫相似記錄檢測方法。

二、大數據庫相似記錄檢測方法的優化探究

2.1數據屬性的二次模糊評判

在大數據庫中,不同的記錄均對應著一個重要程度存在差異的實體屬性。這就需要利用用戶對記錄中不同屬性展開模糊的綜合評價,對部分非重要屬性記性消除,確定重要屬性向量集,并搭建起屬性評價因素表。同時,結合用戶的自身經驗,完成該屬性評價因素表的二次評價,形成用戶屬性因素評價表,完成大數據庫中不同記錄重要屬性權值的確定[2]。

此時,利用公式能夠完成屬性因素最終重要等級值的確定,其中,N為用戶數量、k為大數據庫中數據集的屬性數量、G為屬性等級集合。此時,主要從屬性類型、語義、寬度、排列位置完成數據庫中數據屬性的評價,利用公式能夠完成比重向量的計算,其中,p為所有屬性中重要屬性的占比、F`為依照Ti形成的重要屬性向量集。需要多個用戶完成保留重要屬性的二次評價,利用公式能夠完成用戶對重要屬性中某因素的評判結果計算,其中,(1~m)為各個屬性等級;1為評價重要性最低;m為評價重要性最高、pij為某用戶(j)對重要屬性的第i個評價因素的評價等級。

利用表達式能夠完成某屬性的用戶評價等級的計算,其中,f為屬性因素類型、p為用戶對屬性x的評價等級。使用公式能夠完數據屬性評價結果的均衡,其中,Pj為客觀屬性取值種類數的向量。

完成上述計算后,需要將該數據庫中的所有數據集內部的各個屬性重要性等級展開統一的轉換,完成權值確定。

此時,使用公式能夠權值的計算。使用公式可以實現記錄屬性權值的重新賦值。使用公式能夠實現對數據庫中所有數據記錄屬性的分組。其中,ξ為最終生成屬性取值種類數的向量、θ`為所有數據的主觀等級向量。

總體來說,在大數據庫相似記錄優化檢測的過程中,需要先完成數據庫中所有數據屬性的一次評判,對數據庫中的非重要數據屬性展開消除,并落實其余數據的二次模糊評判,獲取數據屬性的評判結果。同時,以此為基礎,完成所有數據屬性的分組,為相似檢測提供支持。

2.2特征向量指導下的數據庫相似記錄檢測

對于大數據庫中的相似記錄來說,其差異主要是由字符串造成的。所以,在進行大數據庫相似記錄檢測的過程中,需要重點完成記錄字段的相似度計算。在這一過程中,可以將完成分組后的數據記錄屬性作為基礎,結合隨意兩個記錄之間的共有字符順序、數量,完成兩個記錄之間的字符相似度計算,實現對相似度特征向量的提取。

在這一過程中,可以使用公式完成記錄之間字符相似度的計算;完成權值V(w,s`)的確定后,可以使用完成字符間匹配窗口的計算,其中,當字符相似度小于等于該數值,則能夠說明兩記錄字符相似。利用公式以及,能夠實現全部記錄字段相似度特征向量的確定。以此為基礎,能夠構建起大數據庫中相似記錄的檢測模型,并完成相似記錄分析。

2.3仿真結果分析

為了保證本研究的科學性以及該模型的合理性,筆者進一步展開了仿真分析。在這一過程中,主要使用了基于決定屬性值聚類算法的大數據庫相似記錄檢測方法與該方法進行實驗對比。主要依照結果的查全率、查準率、運行時間完成判定。實驗結果顯示,本文提出的相似記錄檢測方法查全率、查準率明顯高于對比方法,運行時間約為對比方法的二分之一。由此能夠證實,該方法整體有效,具備較高的使用價值與科學性。

三、總結

綜上所述,本文對二次模糊評判進行改進,提出了一種優化后的大數據庫相似記錄檢測方法。經過仿真對比實驗顯示,優化后的檢測方法在查全率、查準率方面明顯優于傳統方法,且運行時間更短,具備實用性與科學性。

參? 考? 文? 獻

[1]李莉,張曉雯.基于劃分的海量數據相似重復記錄檢測[J].計算機系統應用, 2019, 28(03):172-178.

[2]涂靜文.大數據庫的相似記錄檢測方法研究[J].計算機仿真, 2017,34(03):410-413.

主站蜘蛛池模板: 又大又硬又爽免费视频| 九色视频最新网址 | 国产一区二区三区免费观看| 久久国产亚洲欧美日韩精品| 91无码视频在线观看| 在线欧美日韩| 91系列在线观看| 欧美亚洲日韩中文| 国产乱人激情H在线观看| 99热这里只有精品免费| 亚洲国产综合精品一区| 久久国产黑丝袜视频| a级毛片免费看| 又猛又黄又爽无遮挡的视频网站| 亚洲三级成人| 日韩AV无码一区| 超薄丝袜足j国产在线视频| 国产高清又黄又嫩的免费视频网站| 国产理论精品| jizz国产在线| 亚洲无码视频一区二区三区| 日本三级黄在线观看| 久久国产热| 免费精品一区二区h| 伊人久久精品亚洲午夜| 69综合网| 中文字幕亚洲另类天堂| 国产综合在线观看视频| 亚洲国产精品成人久久综合影院| 精品国产99久久| 亚洲性视频网站| 国产欧美日韩资源在线观看| 欧美日本在线| 亚洲无码视频图片| 亚洲欧美自拍中文| 爽爽影院十八禁在线观看| 国产97公开成人免费视频| 日日噜噜夜夜狠狠视频| 超碰91免费人妻| 黄色网页在线播放| 免费人成在线观看成人片| 日本三区视频| 狠狠干欧美| 中文无码伦av中文字幕| 久久永久免费人妻精品| 国产高清精品在线91| 亚洲手机在线| 国产高清精品在线91| 久久亚洲综合伊人| 国产乱子伦一区二区=| 波多野结衣亚洲一区| 亚洲欧美国产五月天综合| 国产自在线播放| 国产91色| 国禁国产you女视频网站| 性做久久久久久久免费看| 少妇露出福利视频| 国产麻豆91网在线看| 日韩专区第一页| 欧美日韩导航| 国产在线观看91精品| 小说区 亚洲 自拍 另类| 成人日韩视频| 91久久夜色精品| 国产成人调教在线视频| 99re热精品视频国产免费| 999国产精品永久免费视频精品久久| 亚洲精品制服丝袜二区| a毛片免费在线观看| 国产精品蜜芽在线观看| 曰韩人妻一区二区三区| 不卡视频国产| 国产91精品调教在线播放| 国产精品人人做人人爽人人添| 国产精品成人免费综合| 人妻丰满熟妇AV无码区| 国产精品毛片一区视频播 | 亚洲v日韩v欧美在线观看| 色综合国产| 中文字幕伦视频| 亚洲欧美成人在线视频| 国产一二三区视频|