999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)的數(shù)據(jù)預(yù)處理框架研究

2023-08-14 03:34:40李小聰
中國(guó)信息化 2023年7期
關(guān)鍵詞:數(shù)據(jù)挖掘方法

李小聰

一、引言

隨著信息技術(shù)的快速發(fā)展,社會(huì)各個(gè)領(lǐng)域出現(xiàn)了海量的應(yīng)用級(jí)數(shù)據(jù),如何從這些數(shù)據(jù)中提煉出有用的知識(shí)和信息,并將其運(yùn)用到現(xiàn)實(shí)生活中,就成了整個(gè)數(shù)據(jù)挖掘領(lǐng)域的一個(gè)熱門話題。本文以一卡通消費(fèi)流水?dāng)?shù)據(jù)為例,將K-Means聚類算法與數(shù)據(jù)預(yù)處理技術(shù)相結(jié)合,建立了一個(gè)基于K-Means聚類的數(shù)據(jù)預(yù)處理方法,對(duì)數(shù)據(jù)進(jìn)行了進(jìn)一步的整合和優(yōu)化,得到可用于下游任務(wù)使用的數(shù)據(jù),并通過實(shí)驗(yàn)證明了本文所提出的一卡通數(shù)據(jù)預(yù)處理模型的實(shí)用意義和應(yīng)用價(jià)值。

在數(shù)據(jù)挖掘中,數(shù)據(jù)的預(yù)處理是一個(gè)非常重要的環(huán)節(jié),它能把直接收集到的非標(biāo)準(zhǔn)數(shù)據(jù)變成高質(zhì)量的可以直接進(jìn)行分析和處理的數(shù)據(jù)。然而數(shù)據(jù)預(yù)處理所需的步驟較多,處理流程非常復(fù)雜,需占用較大的計(jì)算機(jī)計(jì)算資源。聚類分析是數(shù)據(jù)挖掘的一種常用技術(shù),它是根據(jù)數(shù)據(jù)本身固有的屬性,對(duì)數(shù)據(jù)進(jìn)行分組,使數(shù)據(jù)有一定的可分性和獨(dú)立性,從而提高數(shù)據(jù)挖掘分析的效率和準(zhǔn)確性。聚類算法中最常用的是K-Means算法,該算法采用迭代方式對(duì)聚類中心進(jìn)行搜索,得到簇中心。而初始聚類中心選擇直接影響到聚類結(jié)果的好壞。因此本文以一卡通消費(fèi)流水?dāng)?shù)據(jù)為例,基于K-Means算法對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理,并使用機(jī)器學(xué)習(xí)相關(guān)算法對(duì)其進(jìn)行分析,實(shí)現(xiàn)對(duì)數(shù)據(jù)的進(jìn)一步整合和優(yōu)化。

二、校園一卡通數(shù)據(jù)預(yù)處理功能分析

隨著校園消費(fèi)場(chǎng)景和數(shù)量的日益增多,目前迫切需要建立一套統(tǒng)一的、靈活的預(yù)處理方法,以應(yīng)對(duì)海量、高維的數(shù)據(jù)特點(diǎn)。本文針對(duì)一卡通消費(fèi)流水?dāng)?shù)據(jù)特點(diǎn),提出了一個(gè)基于K-Means聚類算法與數(shù)據(jù)預(yù)處理技術(shù)相結(jié)合的數(shù)據(jù)預(yù)處理系統(tǒng)。本文的數(shù)據(jù)預(yù)處理系統(tǒng)由數(shù)據(jù)脫敏、數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約和數(shù)據(jù)集合四大模塊組成。

三、數(shù)據(jù)預(yù)處理框架的數(shù)據(jù)脫敏功能

因?yàn)槭褂谜呦胍_(dá)成的分析目標(biāo)不同,所采取的脫敏方式也不同,常見的脫敏方式有以下幾種。首先是替換方式,即將需要保密的數(shù)據(jù)替換為一個(gè)隨機(jī)數(shù)據(jù)。比如,把一個(gè)或一串字母改成另一個(gè)字母或者一串?dāng)?shù)字,或者把數(shù)字改成另一個(gè)數(shù)字或者字母。在本文中使用了一種利用散列映射代替敏感數(shù)據(jù)的方法。這種方式的優(yōu)點(diǎn)是保持了原來的數(shù)據(jù)格式,這樣替代后的數(shù)據(jù)在保密的前提下非常接近原來的數(shù)據(jù)。其次是置亂方法,即用一種隨機(jī)的方式,把每一欄中的真值都給打亂,從而使原來的數(shù)據(jù)與不同的屬性間的關(guān)系變得不確定。此外還有平均數(shù)方法,對(duì)于數(shù)值類型的數(shù)據(jù),可以首先求出數(shù)據(jù)的平均數(shù),再利用隨機(jī)分布使得去敏化后的數(shù)值接近于平均數(shù),從而實(shí)現(xiàn)數(shù)據(jù)之和的一致性。本文提出的數(shù)據(jù)脫敏技術(shù)的實(shí)現(xiàn)包括脫敏數(shù)據(jù)發(fā)現(xiàn)、脫敏策略制定、脫敏任務(wù)執(zhí)行三個(gè)步驟,圖1為本文對(duì)數(shù)據(jù)進(jìn)行脫敏處理的方法。

四、數(shù)據(jù)預(yù)處理框架的數(shù)據(jù)清洗功能

本文提出了一種可用于一卡通消費(fèi)流水?dāng)?shù)據(jù)的預(yù)處理方法。數(shù)據(jù)清洗模塊是其中的核心組件,也是其中工作量最大的一環(huán)。本文提出數(shù)據(jù)清洗模塊主要包含三個(gè)方面的工作:去除重復(fù)值,填補(bǔ)缺失值,發(fā)現(xiàn)異常值。

在使用一卡通的時(shí)候,因?yàn)槟承┨厥獾脑颍缇W(wǎng)絡(luò)原因,有可能會(huì)產(chǎn)生重復(fù)的數(shù)據(jù),但是這一情況是小概率事件,所以,就整體而言,直接刪除重復(fù)值,并不會(huì)對(duì)整個(gè)數(shù)據(jù)分布和數(shù)據(jù)挖掘過程造成任何影響。所以在本文中把具有相同數(shù)值的兩個(gè)數(shù)據(jù)流看成是一份數(shù)據(jù),并把它們合并成一個(gè)數(shù)據(jù),這就是所謂的去重。

在數(shù)據(jù)分析過程中,數(shù)據(jù)缺失經(jīng)常發(fā)生,重要數(shù)據(jù)或是沒有價(jià)值的數(shù)據(jù),都會(huì)使數(shù)據(jù)的分析處理結(jié)果發(fā)生偏差。針對(duì)缺失數(shù)據(jù),本文提出了以下預(yù)處理方法。需要對(duì)數(shù)據(jù)的缺失值做出一個(gè)簡(jiǎn)單的判斷和分析,最好的辦法,就是用其他的數(shù)值來填補(bǔ)缺失,盡可能地恢復(fù)原始數(shù)據(jù)的實(shí)際內(nèi)容。替換數(shù)值可以通過插值來獲得,插值方法分為兩類,其中一類為傳統(tǒng)方法,如平均值,中間值等。另一類是基于算法,如回歸插值、抽樣插值等,運(yùn)用常見的技術(shù)手段,比如聚類技術(shù),分類技術(shù)。在本文使用的是后者。

離群值也被稱為異常值,在對(duì)離群值進(jìn)行預(yù)處理時(shí),可以根據(jù)機(jī)器學(xué)習(xí)中的聚類方法,選擇一個(gè)規(guī)模較小的簇作為異常數(shù)據(jù),將其剔除。由于雜亂的數(shù)據(jù)會(huì)影響總體的協(xié)調(diào)性和數(shù)據(jù)分布,所以數(shù)據(jù)中的離群值指的就是那些跟大部分?jǐn)?shù)據(jù)相距甚遠(yuǎn)的資料。其中,最常見的一種異常現(xiàn)象是基于統(tǒng)計(jì)學(xué)的異常現(xiàn)象發(fā)現(xiàn)方法,它把異常現(xiàn)象所對(duì)應(yīng)的概率密度小于某一閾值的樣本看作異常現(xiàn)象,并根據(jù)樣本的均值和標(biāo)準(zhǔn)差估計(jì)出其參數(shù)。此外,箱形圖是另外一種以統(tǒng)計(jì)方法為基礎(chǔ)的離群值檢測(cè)技術(shù),它能直觀的反映出數(shù)據(jù)的原始分布情況,能更好的對(duì)異常值進(jìn)行分析。基于箱形圖的異常值區(qū)分的辦法是以箱形圖中的四個(gè)點(diǎn)和四個(gè)點(diǎn)之間的間隔作為判據(jù),在不打破判據(jù)的情況下,具有較好的穩(wěn)健性。

本文選擇K-means算法作為本文所設(shè)計(jì)的框架中的機(jī)器學(xué)習(xí)算法,本文提出的基于機(jī)器學(xué)習(xí)的數(shù)據(jù)預(yù)處理框架如圖2所示。

五、結(jié)論

本文提出了一種新的數(shù)據(jù)預(yù)處理方法,并將該方法應(yīng)用到校園一卡通數(shù)據(jù)的預(yù)處理中。本文以K-Means為基礎(chǔ),建立一個(gè)新的數(shù)據(jù)預(yù)處理模型,對(duì)抽取出的數(shù)據(jù)和特征進(jìn)行聚類。對(duì)于缺失的數(shù)據(jù),本文采用KNN算法對(duì)其進(jìn)行補(bǔ)全;對(duì)于異常值,本文采用了一種基于聚類的異常值檢測(cè)方法,該方法把較小規(guī)模的簇看作是異常的,然后將其清除,從而得到干凈的數(shù)據(jù)集。

作者單位:中國(guó)電信股份有限公司北京分公司

猜你喜歡
數(shù)據(jù)挖掘方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
學(xué)習(xí)方法
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 中文字幕人成人乱码亚洲电影| 亚洲国产精品一区二区第一页免| 久久久久国色AV免费观看性色| 亚洲清纯自偷自拍另类专区| 国产一级片网址| 精品亚洲麻豆1区2区3区| 一级爱做片免费观看久久| 精品久久国产综合精麻豆| 99精品在线看| 国产内射在线观看| 91成人精品视频| 亚洲AⅤ永久无码精品毛片| 日韩欧美中文字幕在线精品| 玖玖精品视频在线观看| 亚洲精品777| 久久久久人妻一区精品色奶水| 大香网伊人久久综合网2020| 一本久道热中字伊人| 欧美性久久久久| 久久国产精品麻豆系列| аⅴ资源中文在线天堂| 老司机午夜精品网站在线观看 | 1024国产在线| 国产免费精彩视频| 精品久久香蕉国产线看观看gif| 97久久精品人人做人人爽| 麻豆精品在线视频| 40岁成熟女人牲交片免费| 亚洲国产中文精品va在线播放| 久久久精品无码一区二区三区| 欧美怡红院视频一区二区三区| 国产拍在线| 国产精品高清国产三级囯产AV| 2021无码专区人妻系列日韩| 草草影院国产第一页| 久久这里只有精品66| 国产成人啪视频一区二区三区| 中文字幕啪啪| 中文字幕无码av专区久久| 狠狠v日韩v欧美v| 精品久久综合1区2区3区激情| 一级毛片免费高清视频| 伊人久久久大香线蕉综合直播| 亚洲精品成人福利在线电影| 亚洲第一区欧美国产综合| 91亚洲视频下载| 亚洲Av激情网五月天| 亚洲视频影院| 欧美精品在线看| 91精品啪在线观看国产91九色| 婷婷丁香在线观看| 国产菊爆视频在线观看| 国产swag在线观看| 亚洲天堂精品在线| 嫩草国产在线| 国产91在线|日本| 日韩亚洲高清一区二区| 国产成人综合亚洲网址| 国产精品偷伦视频免费观看国产 | 尤物成AV人片在线观看| 高清亚洲欧美在线看| 精品久久综合1区2区3区激情| 欧美精品黑人粗大| 最新亚洲人成无码网站欣赏网| 日韩性网站| 中文字幕无码av专区久久| 91成人在线观看| 成年午夜精品久久精品| 国产99视频精品免费视频7| 亚洲欧洲日韩综合| 国产欧美日韩免费| 欧美成人怡春院在线激情| 亚洲精品男人天堂| 日韩人妻精品一区| 久久伊伊香蕉综合精品| 五月婷婷综合在线视频| 日韩天堂视频| 国内精品久久人妻无码大片高| 精品国产www| 园内精品自拍视频在线播放| 尤物亚洲最大AV无码网站| 亚洲成人手机在线|