999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

試論大數據庫的相似記錄檢測方法

2019-03-30 04:01:30王艷喜
中國新通信 2019年21期

王艷喜

【摘要】? ? 在現階段的大數據庫相似記錄檢測中,存在著誤差相對較大的問題。基于此,本文對二次模糊評判進行了改進,并提出了一種優化后的大數據庫相似記錄檢測方法。經過與基于決定屬性值聚類算法的大數據庫相似記錄檢測方法的實驗對比,證實了該檢測方法的優越性。

【關鍵詞】? ? 大數據庫? ? 相似記錄檢測方法? ? 二次模糊評判

引言:

現階段,大數據庫被廣泛應用于各個行業領域匯中,在決策型形成、總結與分析等方面發發揮著重要作用。但是,在大數據庫的實際使用中,常存在相似或重復記錄,造成數據冗余,導致了數據存儲空間的浪費。基于這樣的情況,開發一種大數據庫相似記錄檢測方法極為重要。

一、大數據庫相似記錄檢測方法的原理分析

在進行大數據庫相似記錄檢測時,需要完成部分記錄對的采集,并提取記錄字段相似的特征函數,形成訓練樣本集,最終構建起該大數據庫的相似記錄檢測模型。在該模型的支持下,能夠完成數據庫中記錄相似度的計算,并確定一個閾值。通過比較記錄相似度數值與閾值,實現了該大數據庫相似記錄的檢測[1]。

但是,在該方法中,難以消除大數據庫中的非常重要數,導致相似記錄檢測的實際效率降低。基于這樣的情況,筆者對二次模糊評判進行改進,提出了一種優化后的大數據庫相似記錄檢測方法。

二、大數據庫相似記錄檢測方法的優化探究

2.1數據屬性的二次模糊評判

在大數據庫中,不同的記錄均對應著一個重要程度存在差異的實體屬性。這就需要利用用戶對記錄中不同屬性展開模糊的綜合評價,對部分非重要屬性記性消除,確定重要屬性向量集,并搭建起屬性評價因素表。同時,結合用戶的自身經驗,完成該屬性評價因素表的二次評價,形成用戶屬性因素評價表,完成大數據庫中不同記錄重要屬性權值的確定[2]。

此時,利用公式能夠完成屬性因素最終重要等級值的確定,其中,N為用戶數量、k為大數據庫中數據集的屬性數量、G為屬性等級集合。此時,主要從屬性類型、語義、寬度、排列位置完成數據庫中數據屬性的評價,利用公式能夠完成比重向量的計算,其中,p為所有屬性中重要屬性的占比、F`為依照Ti形成的重要屬性向量集。需要多個用戶完成保留重要屬性的二次評價,利用公式能夠完成用戶對重要屬性中某因素的評判結果計算,其中,(1~m)為各個屬性等級;1為評價重要性最低;m為評價重要性最高、pij為某用戶(j)對重要屬性的第i個評價因素的評價等級。

利用表達式能夠完成某屬性的用戶評價等級的計算,其中,f為屬性因素類型、p為用戶對屬性x的評價等級。使用公式能夠完數據屬性評價結果的均衡,其中,Pj為客觀屬性取值種類數的向量。

完成上述計算后,需要將該數據庫中的所有數據集內部的各個屬性重要性等級展開統一的轉換,完成權值確定。

此時,使用公式能夠權值的計算。使用公式可以實現記錄屬性權值的重新賦值。使用公式能夠實現對數據庫中所有數據記錄屬性的分組。其中,ξ為最終生成屬性取值種類數的向量、θ`為所有數據的主觀等級向量。

總體來說,在大數據庫相似記錄優化檢測的過程中,需要先完成數據庫中所有數據屬性的一次評判,對數據庫中的非重要數據屬性展開消除,并落實其余數據的二次模糊評判,獲取數據屬性的評判結果。同時,以此為基礎,完成所有數據屬性的分組,為相似檢測提供支持。

2.2特征向量指導下的數據庫相似記錄檢測

對于大數據庫中的相似記錄來說,其差異主要是由字符串造成的。所以,在進行大數據庫相似記錄檢測的過程中,需要重點完成記錄字段的相似度計算。在這一過程中,可以將完成分組后的數據記錄屬性作為基礎,結合隨意兩個記錄之間的共有字符順序、數量,完成兩個記錄之間的字符相似度計算,實現對相似度特征向量的提取。

在這一過程中,可以使用公式完成記錄之間字符相似度的計算;完成權值V(w,s`)的確定后,可以使用完成字符間匹配窗口的計算,其中,當字符相似度小于等于該數值,則能夠說明兩記錄字符相似。利用公式以及,能夠實現全部記錄字段相似度特征向量的確定。以此為基礎,能夠構建起大數據庫中相似記錄的檢測模型,并完成相似記錄分析。

2.3仿真結果分析

為了保證本研究的科學性以及該模型的合理性,筆者進一步展開了仿真分析。在這一過程中,主要使用了基于決定屬性值聚類算法的大數據庫相似記錄檢測方法與該方法進行實驗對比。主要依照結果的查全率、查準率、運行時間完成判定。實驗結果顯示,本文提出的相似記錄檢測方法查全率、查準率明顯高于對比方法,運行時間約為對比方法的二分之一。由此能夠證實,該方法整體有效,具備較高的使用價值與科學性。

三、總結

綜上所述,本文對二次模糊評判進行改進,提出了一種優化后的大數據庫相似記錄檢測方法。經過仿真對比實驗顯示,優化后的檢測方法在查全率、查準率方面明顯優于傳統方法,且運行時間更短,具備實用性與科學性。

參? 考? 文? 獻

[1]李莉,張曉雯.基于劃分的海量數據相似重復記錄檢測[J].計算機系統應用, 2019, 28(03):172-178.

[2]涂靜文.大數據庫的相似記錄檢測方法研究[J].計算機仿真, 2017,34(03):410-413.

主站蜘蛛池模板: 亚洲欧美另类久久久精品播放的| 欧美日韩中文国产| 激情乱人伦| 麻豆国产精品视频| 国产精品毛片一区视频播| 成人福利视频网| 国产女人综合久久精品视| 日本成人不卡视频| 国产精鲁鲁网在线视频| 亚洲bt欧美bt精品| 国产夜色视频| 国产日本一区二区三区| 久久伊人色| 亚洲免费福利视频| 国产丝袜91| 伊人久久大线影院首页| 免费aa毛片| 亚洲天堂日本| 国产精品美女免费视频大全| 狠狠亚洲五月天| 亚洲狠狠婷婷综合久久久久| 国产第一页免费浮力影院| 9999在线视频| 亚洲无码视频图片| 日本人妻丰满熟妇区| 中文国产成人精品久久一| 国产杨幂丝袜av在线播放| 亚洲黄色激情网站| 野花国产精品入口| 亚洲美女久久| 国产乱子伦精品视频| 欧美高清国产| 国产亚洲视频播放9000| 国产丝袜精品| 久久中文无码精品| 日韩经典精品无码一区二区| 亚洲欧美人成人让影院| 国产91特黄特色A级毛片| 精品黑人一区二区三区| 国产精品亚洲专区一区| 毛片免费视频| 中文无码精品a∨在线观看| 高清免费毛片| 国产成人欧美| 成人午夜视频网站| 69综合网| 亚洲精品国产精品乱码不卞| 嫩草在线视频| 精品无码专区亚洲| 福利视频99| 婷婷综合在线观看丁香| 久青草免费在线视频| 免费AV在线播放观看18禁强制| lhav亚洲精品| 精品伊人久久久香线蕉 | 2021天堂在线亚洲精品专区| 亚洲av综合网| 色丁丁毛片在线观看| 欧美天堂久久| 欧美亚洲日韩中文| 午夜免费视频网站| 波多野结衣的av一区二区三区| 久久综合伊人 六十路| 狼友视频一区二区三区| 国内99精品激情视频精品| 伊人中文网| 亚洲欧洲日韩综合色天使| 日本三区视频| 日本免费精品| 国产成人调教在线视频| 高清不卡一区二区三区香蕉| 久久精品无码中文字幕| 欧美亚洲第一页| 69av免费视频| 国产理论一区| a级毛片毛片免费观看久潮| 色老二精品视频在线观看| 亚洲AV人人澡人人双人| 亚洲天堂2014| 天天躁夜夜躁狠狠躁躁88| 欧美日韩一区二区三| av天堂最新版在线|