999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

海量大數據定向采樣有差別挖掘算法仿真

2024-09-14 00:00:00寧滔
現代電子技術 2024年9期
關鍵詞:數據挖掘

摘" 要: 在大數據中,不同類別之間可能存在數據分布不均衡的情況,即某些類別的數據樣本數量遠遠少于其他類別。這種情況下,傳統的采樣方法無法正確反映所有類別的特征和差異。為提升大數據信息的應用性,文中研究海量大數據定向采樣有差別挖掘算法。以網站統一資源定位器(URL)初始化為基礎,在網絡上抓取網頁,采集網頁的超文本標記語言(HTML)數據,提取定向數據的相關鏈接,并將其導入URL隊列。根據網絡搜索策略,實施相關的數據搜索和處理。完成數據搜索后,將自動進行下一網頁的URL,繼續進行海量大數據定向采樣。結合模糊特征匹配與檢測濾波方法實現大數據定向采樣過程中的抗干擾處理。采用粗糙集算法實施挖掘,利用擴展差別矩陣對大數據決策表內的值實施約簡,實現海量大數據的模式分類。實驗結果顯示,該算法數據采集過程中的丟包率基本控制在0.2%以下,具有較高的魯棒性。

關鍵詞: 海量大數據; 網頁抓取; 定向采樣; 濾波處理; 去冗余; 粗糙集; 擴展差別矩陣; 決策規則

中圖分類號: TN919?34; TP311"""""""""""""""""""""" 文獻標識碼: A""""""""""""""""" 文章編號: 1004?373X(2024)09?0164?05

0" 引" 言

海量大數據已經成為現代社會的重要資源[1]。其中蘊含著巨大的潛力和價值,但同時也面臨著數據量大、結構復雜、處理難度高等問題。面對海量數據,提取其中有價值的信息成為了至關重要的任務。然而,由于數據量巨大且難以直接處理,傳統的數據處理和分析方法面臨諸多困難。因此,如何從海量數據中提取有價值的信息[2],成為了一個亟待解決的問題。

文獻[3]在數據挖掘過程中引入最大均值差異算法,構建以遷移學習為基礎的數據挖掘模型。該算法對數據質量與分布具有較高要求,可能會影響挖掘結果。文獻[4]通過Spark基于內存計算的抽象對象存儲頻繁項集,在此基礎上實現數據挖掘目的。該算法對數據類型較為敏感,實際運行過程中需對數據實施離散化處理,降低挖掘效率。文獻[5]以數據維度設計的失效相關性為基礎進行數據挖掘,該算法數據挖掘精度較差。文獻[6]提出基于隨機森林序列建模的數據挖掘算法,該算法序列建模中,各序列均為獨立的,這使得并行化變得不那么有效,并且可能導致模型的不穩定性和過擬合。

因此,本文提出一種海量大數據定向采樣有差別挖掘算法,實驗結果表明,該算法能夠快速準確地從海量數據中提取有價值的信息,提高數據處理和分析的效率,并為各行業的決策提供有力支持。

1" 海量大數據定向采樣有差別挖掘算法

1.1" 海量大數據定向采樣

海量大數據帶來了巨大的挑戰,傳統的數據處理和分析方法無法處理這么大量的數據。為提高數據處理和分析效率,海量大數據定向采樣成為一種重要方法,從海量數據中提取有價值的信息并減少冗余與無效數據的處理。在海量大數據定向采樣過程中,需要進行網頁抓取處理來采集網頁的HTML(Hypertext Markup Language)數據。該過程需要注重并發線程控制,同時以網站URL(Uniform Resource Locator)初始化為基礎進行操作[7]。首先,在網頁內針對海量大數據進行定向采集,提取定向數據的相關鏈接,并將其導入URL隊列;其次,根據預設的網絡搜索策略,實施有關的數據搜索處理。完成大數據搜索后,自動獲取下一個網頁的URL,繼續進行海量大數據的定向采樣。

考慮網絡數據具有實時性特征,在網絡內的信息持續更新過程中,網頁抓取采集過程重復進行,直至海量大數據定向采集結束為止。海量大數據定向采樣流程如圖1所示。

通過上述過程能夠初步達到海量大數據定向采樣的目的。由于定向采集的海量大數據內包含一定的干擾信息,因此在對其進行有差別挖掘分析前,需選取模糊特征匹配與檢測濾波法對其實施濾波處理[8],具體過程如下:

經過初步的定向采樣,獲得了包含一定干擾信息的數據。為了進一步分析,采用模糊特征匹配與檢測濾波法對這些數據進行處理。首先,通過機器學習算法生成大數據的模糊加權聚類模型[ET],公式描述如下:

[ET=τik-lU,ci=1cv+i-v-i] (1)

式中:[τik]和[lU,c]分別表示加權系數與通過模糊特征匹配與檢測濾波進行抗干擾的處理結果[9];[v+i]和[v-i]分別表示定向采集的大數據正向信號與負向信號。

利用式(2)得到海量大數據定向采樣的模糊決策代價函數[Ht]:

[Ht=ETi=1cuik-τikJU,V] (2)

式中:[uik]和[JU,V]分別表示海量大數據定向采樣的信道增益和海量大數據定向采樣的信道均衡控制模型。

通過梯度信息特征分解過程獲取海量大數據噪聲信息的特征匹配濾波輸出[Pvi],公式描述如下:

[Pvi=Ht-v+i-v-iG] (3)

式中[G]表示海量大數據再生信息分布的隨機概率密度函數。

基于以上過程生成海量大數據噪聲信息的濾波模型,由此獲取大量大數據線性濾波輸出[Wt],公式描述如下:

[Wt=Pv+i-Pv-iN-M] (4)

式中:[N]和[M]分別表示海量大數據定向采樣節點數量和定向采集過程中的分支任務數量;[Pv+i]和[Pv-i]分別表示正向與負向時數據的濾波輸出。

為了進一步優化數據處理,通過空間匹配與線性均衡算法構建海量大數據噪聲信息的去冗余模型[10],獲取海量大數據去冗余濾波函數[Xij],公式描述如下:

[Xij=Wt-j=1mXjN-M] (5)

式中[Xj]表示第[j]個大數據的Hash融合向量。

基于以上所構建的海量大數據濾波檢測模型能夠實現定向采集的海量大數據噪聲信息濾除。濾除噪聲后的海量大數據將存儲在數據庫內,用于后續的有差別挖掘分析。數據庫構建過程中以邏輯概念為核心,包含若干具有分布式存儲結構的數據庫表,確保海量大數據的存儲效率。海量大數據定向信息數據庫表如表1所示,其中包含定向采集的海量大數據編號、位置、長度與類別等信息。

1.2" 基于粗糙集的挖掘算法

在經過濾波處理后,海量大數據已經去除了大部分噪聲信息,因此需要對這部分數據進行有差別的挖掘分析。基于粗糙集理論,提出了一種擴展差別矩陣的方法,這種算法的優勢在于,利用了差別矩陣的特點,將原本需要處理多張信息表的復雜問題簡化為一整個差別矩陣的處理,大大提高了處理效率。差別矩陣的主要優勢為其將粗糙集對于信息表所要求的全部信息匯總在一個差別矩陣內[11],其中第[i]行第[j]列元素構建過程如下:

[mij=a∈C:f(xi,a)≠f(xj,a)?:f(xi,a)=f(xj,a)] (6)

式中:[a]和[C]分別表示大數據屬性與條件屬性集;[xi]和[xj]分別表示第[i]個和第[j]個大數據。

利用式(7)可描述差別矩陣內的不同元素:

[mij=β1,β2,…,βm,""" a?C≤α∞,""" a?Cgt;α] (7)

式中:[α]表示兩個大數據對象之間的差異閾值;[βk=1," f(xi,ak)≠f(xj,ak)0," f(xi,ak)=f(xj,ak)],[ak∈C,k=1,2,…,m],優化后的差別矩陣即可定義為擴展差別矩陣。

利用擴展差別矩陣即可實現粗糙集挖掘算法內約簡,基于粗糙集的挖掘算法利用上述差別矩陣對決策表內的值實施約簡處理,實現海量大數據的模式分類[12?13]。

利用擴展差別矩陣對濾波處理后的海量大數據實施屬性約簡的具體過程描述如下:設定輸入與輸出分別為依照海量大數據構建擴展差別矩陣[M]下的三角形部分與海量大數據的簡約屬性集[Q]。

1) 令[Q]不為空集;

2) 掃描[M]的下三角形內不同元素[mij],若任意元素僅有一位為1,那么此位對應的屬性即為海量大數據的核屬性,加入至[Q]內,并清除[M]內全部對應位為1的元素;

3) 若[M]內還包含元素,則將最關鍵的位對應的屬性定義為海量大數據核屬性,將其引入[Q]內,并清除[M]內全部對應位為1的元素;

4) 若[M]內包含關鍵度一致的數據屬性,則分別引入至[Q]內,獲取多個數據屬性約簡集,并清除[M]內全部對應位為1的元素;

5) 循環步驟2)~步驟4)過程,直至[M]內部不存在任何元素;

6) 輸出[Q]即為所采集海量大數據的屬性約簡集。

2" 實驗結果

為驗證所提的差別挖掘算法在實際應用過程中的效果,選取某高校圖書館網頁為研究對象。實驗環境為:使用一臺具備較高計算能力和大容量存儲空間的服務器,并設置10個并發線程來控制數據采集的速率和效率。網絡搜索策略采用寬度優先搜索確保按層級遞歸進行數據采集。選取該高校圖書館網站,設定采集的網頁數量為1 000,每個網頁的HTML數據將作為采樣數據,用于后續差別挖掘算法的分析和結果驗證。

2.1" 海量大數據定向采集性能分析

采用所提算法對研究對象進行海量大數據定向采樣,在不同字節數據包條件下,以丟包率作為分析所提算法大數據定向采樣性能的主要指標,結果如表2所示。

表2" 海量大數據定向采集性能分析結果

[數據包字節數量/個"""" 成功數據包/個""""" 丟包率/%"""""" 20""" 2 109""""" 0.01 2 098""""" 0.12 2 108""""" 0.02 2 099""""" 0.11 2 107"""""" 0.03 30""" 2 109""""" 0.01 2 090""""" 0.20 2 089""""" 0.20 2 096""""" 0.14 2 100""""" 0.10 ]

分析表2可知,所提算法在研究對象定向數據采樣過程中,在不同數據包字節數量條件下,采集成功數據包的數量較多,丟包率基本控制在0.2%以下,由此說明所提算法能夠實現高質量的定向數據采樣。

2.2" 挖掘結果仿真

將定向采樣所得數據存儲在數據庫內,大數據屬性決策表如表3所示,其中包括論域和多個屬性。采用所提算法基于表3構造擴展差別矩陣,對海量大數據進行屬性約簡,實驗結果如表4所示。

分析表4數據,可以得出以下結論:在約簡過程中,論域[x7]被剔除,是由于該論域的屬性值對決策結果影響較小;其次,屬性a、屬性b和屬性d在約簡后的數據中仍然保留了所有原始論域的數據,說明它們對于決策結果具有較大的影響力;最后,約簡處理后的數據仍然保持了原始數據的分布和差異性。通過對大數據屬性決策表的約簡處理,成功減少了屬性的數量,并保留了對決策結果具有重要影響的屬性。

為驗證所提算法的數據去噪性能,實驗分析不同噪聲方差下,利用所提算法和文獻[3]中基于遷移學習算法和文獻[4]中基于改進Apriori算法分別對比所采集海量大數據去噪后的信噪比情況,實驗結果如圖2所示。

從圖2中可以看出,相對于其他兩種算法,所提算法去噪后數據始終具有較高的信噪比,算法魯棒性更高。由此說明,所提算法在不同噪聲方差下仍然能夠保持較高的信噪比,這證明了其對不同噪聲強度具有更好的適應能力。

分析所提算法挖掘不同數量數據時,在不同關鍵度情況下,挖掘時間的變化情況,結果如圖3所示。

分析圖3能夠看出,如果挖掘的大數據規模不變,則隨著關鍵度的逐漸增加,挖掘時間呈現逐漸降低的趨勢;而當關鍵度不變的情況下,隨著大數據量的不斷增加,挖掘時間也不斷提升。因此,在實際數據挖掘過程中,應分析數據挖掘時間同關鍵度的關系,對數據量以及關鍵度進行合理設置,才能獲取理想的挖掘結果。

采用平均絕對誤差作為評價所提算法挖掘性能的指標,得到不同數據特征數量情況下,隨著數據擴充比例的不斷提升,所提算法的挖掘平均絕對誤差情況,設定期望標準為0.21,結果如圖4所示。

分析圖4可得,采用所提算法挖掘海量大數據時,在不同數據特征數量下,以及數據擴充比例情況下,所提算法挖掘數據的平均絕對誤差始終低于0.21,所提算法具有較高的挖掘準確度。

3" 結" 語

本文研究海量大數據定向采樣有差別挖掘算法,所提算法研究的主要內容包括:針對以往數據采集精度較低的問題,通過定向采樣提升數據采集精度;針對所采集數據以粗糙集挖掘算法為基礎,引入擴展差別矩陣對數據屬性對應的決策進行約簡,由此提升數據挖掘效率。

參考文獻

[1] 楊河山,張世明,曹小朋,等.基于Hadoop分布式文件系統的地震勘探大數據樣本采集及存儲優化[J].油氣地質與采收率,2022,29(1):121?127.

[2] 王延,周凱,沈守楓.基于熵權法的教務大數據的挖掘和聚類分析[J].浙江工業大學學報,2023,51(1):84?87.

[3] 易庚,何琳,劉錦明,等.基于遷移學習算法的電力數據挖掘模型[J].沈陽工業大學學報,2023,45(5):510?515.

[4] 徐強,王仕佐.基于改進Apriori算法的大數據AR挖掘仿真[J].計算機仿真,2023,40(7):509?513.

[5] 田海江,黃江華.基于大數據的中文學術期刊傳播對象數據精準挖掘邏輯優化[J].中國科技期刊研究,2023,34(3):341?347.

[6] KIM E, AN J, CHO H C, et al. A sensor data mining process for identifying root causes associated with low yield in semiconductor manufacturing [J]. Data technologies and applications, 2023, 57(3): 397?417.

[7] 丁際文,孔曉旺,張巖峰,等.一種面向大數據的水塘采樣分布式算法[J].控制工程,2022,29(2):356?361.

[8] 李冬毅,覃方君,黃春福,等.基于自尋優小波降噪算法的海洋重力數據濾波[J].中國慣性技術學報,2023,31(9):883?889.

[9] 宋蕊,吳琛.基于改進DBSCAN和雙邊濾波算法的點云去噪[J].電子器件,2023,46(4):1083?1088.

[10] 商俊燕,丁輝,胡學龍.基于XGBoost的無線傳感器網絡冗余數據檢測算法[J].傳感技術學報,2022,35(11):1568?1572.

[11] 楊佳瑋,李歡康,林雨霏,等.新疆兩種亞麻籽轉錄組分析及籽油香氣差異基因挖掘[J].食品科學,2022,43(2):70?76.

[12] 左芝翠,莫智文.基于決策分類的分塊差別矩陣增量式求核算法[J].模糊系統與數學,2022,36(5):166?174.

[13] 吳靜,傅優杰,程朋根.基于粗糙集的局部同位模式挖掘算法[J].測繪通報,2022(10):80?85.

Simulation of differential mining algorithm for directional

sampling of massive big data

NING Tao

(School of Computer Engineering, Guilin University of Electronic Technology, Beihai 536000, China)

Abstract: In the big data, there may be imbalanced data distribution between different categories, where the number of data samples in certain categories is much smaller than that in others. In this case, the traditional sampling methods fail to accurately reflect the characteristics and differences of all categories. Therefore, the differential mining algorithm is studied for directional sampling of massive big data to broaden the application of big data information. On the basis of the initialization of the uniform resource locator (URL) on the website, web pages are crawled on the network, and hypertext markup language (HTML) data is collected from the web pages. The relevant connections of the directional data are extracted and imported into the URL queue. Relevant data search and processing are implemented according to network search strategies. After completing the data search, the URL of the next webpage will be automatically processed to continue with the directional sampling of massive big data. In combination with the fuzzy feature matching and detection filtering methods, the anti?interference processing in the directional sampling process of big data is achieved. Rough set algorithm is used for mining, and the extended difference matrix is used to reduce values in big data decision tables, so as to achieve the pattern classification of massive big data. The experimental results show that the packet loss rate of the algorithm during data collection is kept basically below 0.2%, and its robustness is strong.

Keywords: massive big data; web page crawling; directional sampling; filtering processing; redundancy removal; rough set; extended difference matrix; decision rule

DOI:10.16652/j.issn.1004?373x.2024.09.029

引用格式:寧滔.海量大數據定向采樣有差別挖掘算法仿真[J].現代電子技術,2024,47(9):164?168.

收稿日期:2024?01?22"""""""""" 修回日期:2024?02?19

基金項目:(2021—2024)廣西職業教育教學改革重點項目

(GXGZJG2021A035)

寧" 滔:海量大數據定向采樣有差別挖掘算法仿真

寧" 滔:海量大數據定向采樣有差別挖掘算法仿真

作者簡介:寧" 滔(1978—),男,廣西北流人,碩士,高級工程師,研究方向為云計算及大數據、數據挖掘、信息可視化和網絡安全等。

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 精品一区二区无码av| 毛片免费高清免费| 国产真实乱子伦精品视手机观看 | 亚洲日本在线免费观看| 亚洲愉拍一区二区精品| 秋霞午夜国产精品成人片| 99视频在线精品免费观看6| 国产亚洲精| 91在线播放国产| 99精品一区二区免费视频| 亚洲欧美自拍一区| 成人小视频在线观看免费| 青青草原国产av福利网站| 一本大道香蕉久中文在线播放 | 亚洲男人天堂久久| 精品国产aⅴ一区二区三区| 久久久亚洲色| 很黄的网站在线观看| 国产精品入口麻豆| 99视频在线免费观看| 国内精自视频品线一二区| 亚洲欧美在线看片AI| 欧洲亚洲一区| 91精品啪在线观看国产| 国产91精品久久| 国产成人喷潮在线观看| 欧美日本二区| 99re这里只有国产中文精品国产精品| 伊人久久大香线蕉综合影视| 日本免费精品| 视频二区欧美| AV天堂资源福利在线观看| 中文字幕欧美日韩| 最新亚洲人成网站在线观看| 六月婷婷激情综合| 毛片免费视频| 亚洲区第一页| 欧美日韩在线成人| 亚洲午夜天堂| 三级国产在线观看| 午夜人性色福利无码视频在线观看| 亚洲欧美精品一中文字幕| 国产精品污视频| 亚洲全网成人资源在线观看| 呦系列视频一区二区三区| 狠狠亚洲五月天| 精品一区二区三区四区五区| 亚洲国产无码有码| 亚洲无码高清一区| 手机在线看片不卡中文字幕| 成人午夜久久| 国产精品亚欧美一区二区三区 | 欧美另类第一页| 欧美激情成人网| 日韩国产无码一区| 黄色在线不卡| 亚洲无码不卡网| 欧美激情福利| 伊人色婷婷| 亚洲欧洲国产成人综合不卡| 高清乱码精品福利在线视频| 99激情网| 日韩AV无码一区| 97视频精品全国免费观看| 亚洲国产欧美自拍| 国产91丝袜在线播放动漫 | 欧美一级在线看| 色偷偷男人的天堂亚洲av| 欧美日本一区二区三区免费| 很黄的网站在线观看| 国产一级视频久久| 国产玖玖玖精品视频| 国产a在视频线精品视频下载| 欧美日韩激情在线| 国产黄色视频综合| 久久午夜夜伦鲁鲁片不卡| 久久精品中文字幕免费| 国产精品99久久久久久董美香 | 国产乱子伦无码精品小说| 91色爱欧美精品www| 狠狠色狠狠综合久久| 2022精品国偷自产免费观看|