999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)相關(guān)性挖掘技術(shù)研究

2021-09-24 06:05:28賀怡
電腦知識與技術(shù) 2021年23期
關(guān)鍵詞:挖掘大數(shù)據(jù)

賀怡

摘要:在信息技術(shù)飛速發(fā)展的時代,信息正以數(shù)字化方式進(jìn)行存儲、交互,人們通過各種電子設(shè)備連入互聯(lián)網(wǎng),并使得信息交互和存儲變得越發(fā)快捷。當(dāng)數(shù)據(jù)呈爆炸式增長后,從海量數(shù)據(jù)中獲取人們需要的信息變得十分困難,在人工智能等技術(shù)的發(fā)展過程中,通過對大數(shù)據(jù)進(jìn)行分析和計算,可以快速得到目標(biāo)信息,極大地推動了大數(shù)據(jù)發(fā)展。本文通過對數(shù)據(jù)特征相關(guān)性分析,提出基于特征相關(guān)性進(jìn)行統(tǒng)計和排序,完成對大數(shù)據(jù)相關(guān)性分析,可以通過該方法對大數(shù)據(jù)中有用數(shù)據(jù)提取,并實現(xiàn)對網(wǎng)絡(luò)中數(shù)字化信息的挖掘。

關(guān)鍵詞:大數(shù)據(jù);相關(guān)性分析;數(shù)據(jù)特征;挖掘

中圖分類號:TP311? ? ? 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2021)23-0023-02

在數(shù)據(jù)分析使用上,大數(shù)據(jù)采用部分樣本相關(guān)性作為研究重點。相關(guān)性是指數(shù)據(jù)變量之間的量化值之間具有一定規(guī)律。一般而言,數(shù)據(jù)變量并不會直接表現(xiàn)出相關(guān)性,而是數(shù)據(jù)變量的某些特征之間具備一定線性或非線性交互關(guān)系。從大數(shù)據(jù)中挖掘數(shù)據(jù)特征之間的隱含關(guān)系是數(shù)據(jù)挖掘的主要價值。當(dāng)前常用的數(shù)據(jù)挖掘技術(shù)主要是從數(shù)據(jù)量、數(shù)據(jù)類型和數(shù)據(jù)增長角度對信息進(jìn)行挖掘,由于數(shù)據(jù)量大,為獲取完整且針對性強(qiáng)的信息需要對樣本進(jìn)行平衡和去噪[1]。數(shù)據(jù)相關(guān)性最主要的運(yùn)用在推薦系統(tǒng),人們通過對大數(shù)據(jù)相關(guān)性分析,獲得用戶偏好和用戶畫像,可以精準(zhǔn)推送可用信息[2]。本文提出一種基于數(shù)據(jù)特征排序的數(shù)據(jù)挖掘算法,可以在面對高維度數(shù)據(jù)時有效講冗余信息排除,且最大程度保證信息完整性。在對大數(shù)據(jù)進(jìn)行相關(guān)性分析時,需顯式給出數(shù)據(jù)特征相關(guān)性,可以得到最優(yōu)的信息解。

1數(shù)據(jù)特征選擇方法

在特征提取方面,最初假定某特征的特征值僅為0和1,且在所有輸入樣本中,大部分?jǐn)?shù)據(jù)的特征取值均為1,可認(rèn)為該特征作用不大。僅當(dāng)特征值為離散型變量時,該方法可用于特征判斷。選擇單變量特征,將其依次進(jìn)行測試,并衡量該特征和相應(yīng)變量之間的關(guān)系,根據(jù)得分去除不好的特征,可以對數(shù)據(jù)進(jìn)行較好解析,但在特征優(yōu)化和泛化能力上并不占優(yōu)勢。因此可以在數(shù)據(jù)特征選擇上采用析因設(shè)計,該方法是一種結(jié)構(gòu)化分析法,將數(shù)據(jù)的每個要素相互組合,進(jìn)行兩個和多個評價,是多因素的交叉分組設(shè)計分析[3]。其統(tǒng)計模型如下:

式中,數(shù)據(jù)樣本的特征為[x1、x2、x3]等,特征相互作用為乘積[x1x2]、[x1x3]、[x1x2x3]等,[ε]是隨機(jī)產(chǎn)生誤差。當(dāng)系數(shù)[β]代表特征之間的相關(guān)性時,則根據(jù)[β]進(jìn)行排序,當(dāng)值越大時代表該特征與數(shù)據(jù)樣本的相關(guān)性最大。基于數(shù)據(jù)樣本的析因方法過程是:(1)采用對稱不確定性對特征進(jìn)行排序。其優(yōu)化方程如下:

其中,[xk]屬于數(shù)據(jù)樣本的待選特征,其余兩者為選定的特征。該方法能保留特征之間的相互作用。通過排序得到的順序[k]個特征進(jìn)行測試,減小搜索空間的范圍。(2)將數(shù)據(jù)樣本所有特征進(jìn)行二值化,當(dāng)樣本特征屬于高范圍時,設(shè)定為1;屬于低范圍時,設(shè)定為負(fù)1。(3)計算峰值,使數(shù)據(jù)樣本能獲得足夠多的特征集合,完成矩陣,對單個特征、二階特征及N階特征進(jìn)行構(gòu)造,完成二值化。(4)計算特征。首先初始化實驗的理想數(shù)據(jù)樣本值,通常記作R,根據(jù)實驗得到結(jié)果r,將其取均值,能有效減少隨機(jī)誤差產(chǎn)生。(5)計算復(fù)雜度,完成最終排序。在最大樣本特征判定時,首先將輸入的數(shù)據(jù)樣本按照矩陣中第一個特征(選定特征集)進(jìn)行歸類,分為高范圍和低范圍區(qū)間;第二次遍歷則按照第二個特征進(jìn)行歸類,依次類推到選定的順序[k]個特征。

基于特征的選擇算法將數(shù)據(jù)樣本記錄為輸入特征和輸出目標(biāo)值的集合。其中每一列特征對應(yīng)一行數(shù)據(jù),令K階相互作用為向量,則每一向量組成特定的特征內(nèi)積。如采用下列三個樣本數(shù)據(jù)相互正交:

將樣本目標(biāo)值令為上述樣本數(shù)據(jù)的異或組合:

在將四階交互[Ix1;x2;x3;y=1] ,其余項交互為0,即單獨項與目標(biāo)值,兩兩組合項與交互值,則得到三樣本相交為:

由此可見,三者交互恰好與樣本目標(biāo)值相等,說明在高階作用比低階組作用更大,采用降維既可以減少運(yùn)算,又保證了相關(guān)性。

2數(shù)據(jù)挖掘參數(shù)選擇

在進(jìn)行數(shù)據(jù)挖掘時,常常會對算法進(jìn)行一些參數(shù)調(diào)整。比如在使用深度學(xué)習(xí)時,模型錯誤率、匹配程度、數(shù)據(jù)集構(gòu)造等。在具體的運(yùn)用中,要將模型參數(shù)調(diào)整到適合的值,才可以獲得最佳的挖掘性能,而當(dāng)前的參數(shù)調(diào)整已成為數(shù)據(jù)挖掘的瓶頸之一,通過特征篩選可以直接獲得相關(guān)性較好的模型。設(shè)挖掘的模型參數(shù)集為[U=x1,x2,...,xM] ,這些集合等價于特征選擇的特征。其性能以y表示,相當(dāng)于整個模型的響應(yīng)。在調(diào)整參數(shù)時,首先將其完全遍歷,并采用特征排序同樣方法進(jìn)行數(shù)據(jù)二值化,使特征參數(shù)均分布在高范圍1和低范圍負(fù)1之間。然后根據(jù)特征集合的數(shù)量,設(shè)計適合的表格,將其參數(shù)分布在表格中。最后根據(jù)表格進(jìn)行測試,對每一個參數(shù)組合進(jìn)行訓(xùn)練,并得到性能y,重復(fù)測試訓(xùn)練多次,得到多個指標(biāo)y,最終形成指標(biāo)集合。單在一個參數(shù)的選擇上并不會直接影響結(jié)果,可以通過特征的不同組合進(jìn)行判斷。判斷的原則是將特征進(jìn)行一一組合,當(dāng)計算得到的特征表格和信噪比組成表格時,計算各組合目標(biāo)參數(shù),并將其排序,靠前的參數(shù)作為主要調(diào)整對象。

根據(jù)表格和測試結(jié)果,首先對各個組合的隨機(jī)誤差進(jìn)行信噪比對比。其中指標(biāo)響應(yīng)的均值、標(biāo)準(zhǔn)差、信噪比計算公式如下:

完成上述計算后,在對信噪比進(jìn)行排序。根據(jù)排序方法,可以獲得表格中取值為1的特征組合的信噪比:

同樣可以獲得表格中低范圍信噪比:

兩者的信噪比差值為:

其差值也等價于表格中首位兩列的內(nèi)積除6。最后根據(jù)排序選擇最優(yōu)的特征組合。根據(jù)信噪比差值可以快速完成特征組合排序,當(dāng)排序在前時,證明該特征與數(shù)據(jù)樣本的相關(guān)性較強(qiáng)。通過選擇目標(biāo)特征的排序最優(yōu),就能得到上述參數(shù)的目標(biāo)值,依次作為調(diào)整的閾值,對于信噪比低的參數(shù)則可以將其作為模型的不相關(guān)特征進(jìn)行處理,以此可以加快模型的運(yùn)行速度。

猜你喜歡
挖掘大數(shù)據(jù)
使德育開花結(jié)果
將“再也沒有”帶向更有深度的思考中
古詩詞教學(xué)中藝術(shù)內(nèi)涵的挖掘策略
挖掘檔案文化資源推進(jìn)檔案文化建設(shè)
資治文摘(2016年7期)2016-11-23 00:37:46
關(guān)注數(shù)學(xué)思考 提升數(shù)學(xué)本質(zhì)
大數(shù)據(jù)技術(shù)在商業(yè)銀行中的應(yīng)用分析
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 精品欧美一区二区三区久久久| 91精品国产无线乱码在线| 国产成人精品高清在线| 精品福利视频网| 欧美精品不卡| 久久黄色一级视频| 情侣午夜国产在线一区无码| 欧美成人影院亚洲综合图| 国产欧美中文字幕| 亚洲国产日韩在线成人蜜芽| 99久久99视频| 精品福利视频导航| 97视频免费看| 欧美精品另类| 久久久波多野结衣av一区二区| 国产精品9| 久久综合一个色综合网| 自拍偷拍欧美日韩| 日韩在线视频网| 久久毛片免费基地| 福利在线一区| 欧美一级大片在线观看| 日韩大乳视频中文字幕| 午夜啪啪网| 日韩中文字幕免费在线观看| 中文字幕人妻av一区二区| 亚洲日韩精品欧美中文字幕| 国产亚洲一区二区三区在线| 91久久国产热精品免费| 97se亚洲综合不卡 | 四虎影视8848永久精品| 免费一级无码在线网站| 欧美精品v| 黄片一区二区三区| 国产在线一二三区| 国产乱子伦视频在线播放| 成人欧美在线观看| 亚洲熟女偷拍| 精品精品国产高清A毛片| 午夜老司机永久免费看片| 鲁鲁鲁爽爽爽在线视频观看 | 亚洲人成在线免费观看| 国产午夜精品鲁丝片| 欧美不卡视频一区发布| 欧美一区二区三区国产精品| 毛片免费观看视频| 国产久草视频| 国产人人射| 亚洲综合狠狠| 99精品欧美一区| 澳门av无码| 亚洲欧洲日韩久久狠狠爱| 欧洲成人免费视频| 日韩最新中文字幕| 久久毛片网| 午夜不卡视频| 日韩一级毛一欧美一国产| 91久久国产热精品免费| 色悠久久综合| 日本三级欧美三级| 国产流白浆视频| 少妇被粗大的猛烈进出免费视频| 欧美性久久久久| 噜噜噜综合亚洲| 色九九视频| 国产视频a| 久久 午夜福利 张柏芝| 欧美日韩北条麻妃一区二区| 国产小视频免费| 欧美国产综合色视频| 曰韩人妻一区二区三区| 精品无码日韩国产不卡av | 国产又粗又猛又爽| 婷婷午夜天| 中日韩一区二区三区中文免费视频| 女人天堂av免费| 国产aaaaa一级毛片| 精品国产Av电影无码久久久| 狠狠色丁香婷婷综合| 亚洲一区二区无码视频| 国产专区综合另类日韩一区| h视频在线播放|