999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

并行計算視域下大數據挖掘技術的實現

2021-04-04 10:22:42汪澤宇
信息記錄材料 2021年6期
關鍵詞:數據挖掘分類特征

汪澤宇

(三亞學院 海南 三亞 572022)

1 引言

隨著大數據等新興技術的出現,人們生活的各個方面都受到了影響。通過大數據技術可以輕松實現數據的特征分析,為個性化推薦服務提供技術支持。在目前的導航領域、人工智能領域、交通管理領域等多個不同領域中,大數據技術都發揮著出色的作用。比如通過大數據對比技術,交通管理部門就可以根據車主的駕駛行為分辨出哪些車主屬于飲酒駕駛,這種精準化的分辨方式可以很大程度上提高執行的有效率,減少因酒駕、醉駕而引發的交通意外情況,從而保護了人民的財產、人身安全。

隨著數據量的增長,大數據時代正式來臨,在大數據時代中最重要的資源就是數據,它已經由簡單的處理對象演化為了一種基礎性資源,而大數據計算就是對這種資源的有效利用。并行計算在大數據中技術優勢在于計算的并發性,高并發性使得數據處理更加快速,可同時處理的數據量也得到提高。

2 大數據的基本概念

2.1 大數據的定義

大數據其實包含很多概念,可以將達到一定數量級的數據體稱為大數據,也可以將數據處理方式稱為大數據,總之大數據在業界沒有形成統一的定義,人們日常所接觸到的大數據也是比較模糊的,是多類技術的組合。

大數據的特征十分明顯,首先,數據體量大,大數據是在數據爆炸時代提出的新理論,本身“大數據”三個字就說明了這一特點。其次,數據類型復雜、數據價值密度低,大數據的計算就是在許多類型復雜的數據中尋找有特征、有價值的數據,所以以上兩點也是大數據的基本特點。面對如此龐大的數據量,大數據必須有一個快速處理數據的解決方案,否則處理時的時間成本過高,數據便失去了原有的價值。大數據技術想要獲得更加準確的數據特征就必須要處理足夠多的數據量。數據類型復雜和價值密度低也是大數據的基本特征之一,由于大數據本身的數量級十分龐大,其中所包含的數據類型十分復雜,很多數據都是無理化的無用數據或者重復數據,想要在大量的數據中找到有用的信息,就需要進行數據處理和數據挖掘。

2.2 大數據挖掘

大數據挖掘有非常重要的應用價值,最常見的是在電商領域的應用。通過數據挖掘可以獲得商品的評價特征,從而確定商品的使用人群和目標客戶。另一方面,通過數據挖掘也可以實現商品廣告的精準化推送,實現定向廣告和智能推薦的宣傳模式[1]。在互聯網中,每一個網民都有獨特的用網特征,大數據挖掘就是發現這種特征數據并進行分析,使其變成一種可用資源。大數據處理的一般流程分為用戶使用、數據解釋、數據分析、數據抽取集成和數據準備五個步驟。

大數據挖掘的應用十分廣泛,可以為很多商業決策提供參考,但是在某個產品的市場分析領域,大數據挖掘技術可以比較準確地找出商品的潛在客戶,同時也可以分析商品宣傳的實際效果,相對于看廣告轉化率這一固定方法,大數據挖掘技術有更高的容錯率,可以發現更多的意向客戶和潛在客戶。

3 并行數據挖掘

3.1 并行計算技術

通過并行計算來實現并行數據處理,通常使用Hadoop平臺MapReduce工具。并行計算與普通計算最大的區別是允許一組數據同時執行計算,在非并行計算方式中,一組數據計算的執行是順序式的,而并行計算可以將一個計算任務拆分成多個子任務同時進行,并行計算適用于大型且復雜的計算問題。表面看起來并行計算和多線程差不多,但是兩者之間又存在區別,并行計算還與分布式計算有關聯,分布式計算可以在一臺計算機上進行也可以在多臺計算機上同步進行,這些計算機只需要通過一定的網絡協議進行連接即可[2]。

3.2 利用MapReduce進行并行數據挖掘

MapReduce是Hadoop計算平臺的核心部分,通過MapReduce可以方便地實現并行數據挖掘。MapReduce模型屬于一種簡化的分布式程序設計,在處理大量數據的時候非常有優勢,其基本的工作原理就是將要計算的數據集拆分之后自動分布到一個計算機集群中去進行并發運算,這些由普通計算機組成的計算機集群同時進行演算工作,最后將結果進行整理,并行計算模型可以節省大量的時間。MapReduce在執行操作時,會按照創建挖掘任務、設置數據頭文件和算法參數、啟動任務、結果展示這幾個步驟依次完成,其中設置數據頭文件和算法參數這一步驟中,Map操作將數據一對一的映射為另外的一組數據,Reduce則是對數據進行規約,通過函數完成規則的指定。

4 并行數據挖掘算法設計

通過并行計算來完成挖掘算法,最主要的目的是利用并行計算的特性來減少數據挖掘執行所花費的時間,當通過平臺下發一個數據挖掘任務時,平臺會分配給這個任務一些執行ID,得到ID的任務會進入到任務執行隊列中,在檢查了任務信息、計算作業的輸入分片、分局集群感知后,將任務交由JobTracker去執行。TaskTracker在接收到分配的任務之后,會采用對應的分類算法對任務進行特征分析,得出分類分析的模型之后就代表整個任務已經執行完畢,分類模型是由計算得出的,這一過程使用的是并行計算模式。客戶端在收到任務已經執行完畢的信息之后,就會將接收到的分類模型以可視化數據的形式展示給用戶。

4.1 并行分類算法

并行分類算法最常使用的解決方案是決策樹,決策樹是一個分類器,可以對數據進行劃分。決策樹實現所有的算法有很多種,這些算法各有各自的優勢,所以適用的場景也存在差異,實際的算法選擇要根據數據挖掘任務的特征來靈活選用。以SLIO算法為例,SLIO分類器是可以處理連續和離散特征決策樹,其主要特點是通過預排序技術來有效減少計算連續屬性所帶來的代價,這一過程發生在樹的構建環節[3]。

4.2 并行聚類算法

聚類算法具有自我學習功能,相當于一個無監督的環境中仍然可以實現自我學習。聚類自救的基本原理是尋找一個數據集中的特征,并根據特征將擁有相同特征的數據聚集在一起,通過聚類算法將數據庫中數據進行劃分,得到子數據集都是具有一定意義的,并且去除了無理化數據。子類的數據一般都有一種或多種共同特征,甚至是子類的數據都是相同、相近的,較為典型的聚類算法有并行K-均值算法和K-最近鄰算法。

4.3 K-均值算法

K-均值算法被認為是非常簡單而有效地統計算法,其基本實現步驟是選擇一個K值,用以確定簇的總數,總數確定好之后在中間任一位置選定K個樣本為中心點,所有的數據計算都是圍繞這些中心點進行,除去K個樣本中心點之外,其他樣本數據都使用簡單的歐式距離進行樣本賦予,直到新的平均值等于上次迭代的平均值時被終止。

4.4 K-最近鄰算法

K-最近鄰算法是基于類比學習的分類算法,在理論上這種方法比較成熟,且執行起來的可靠性也比較高,被看作是最簡單的機器學習算法。在數據特征空間中,當樣本附近的K個樣本滿足某個分類的歸屬關系,這個樣本就會被認為是屬于此分類的。在K-最近鄰算法中,K值的選擇是非常重要的,K值的選擇會直接影響到整個算法的結果,K值過小和過大都不可以,比如當K值過小的時候,就意味著只有非常相鄰的幾個樣本會被納入到結果計算之中,如果這幾個樣本恰好都不具備某一分類的特征,那么這個樣本就無法被認為是屬于這一分類,這顯然會導致計算結果的不確定性。但是如果當K值過大時,整個樣本區間也會被放大,所以通常會用交叉算法得出一個最優解作為K值[4]。

5 結語

在民用領域中,數據挖掘的實踐意義越來越被看重,不管是在科學研究領域還是在商業決策方面,數據挖掘技術都有著不可替代的價值。并行計算與數據挖掘結合而實現的并行數據挖掘技術,不僅能節約大量的計算時間成本,還能讓數據挖掘所能處理的數據量級得到提升,具有深遠的社會意義和經濟意義,本文正是基于數據挖掘和并行計算理論的研究,提出了并行分類算法和并行聚類算法,希望能為并行數據挖掘技術提供一定的參考價值。

猜你喜歡
數據挖掘分類特征
分類算一算
探討人工智能與數據挖掘發展趨勢
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 一区二区影院| 国产精品网曝门免费视频| 高h视频在线| 毛片免费视频| 欧美亚洲中文精品三区| 97人人模人人爽人人喊小说| 亚洲国产精品一区二区第一页免| 国产喷水视频| 国产哺乳奶水91在线播放| 欧美不卡视频一区发布| 永久免费无码成人网站| 国产91麻豆免费观看| 欧美日韩在线成人| 日本高清视频在线www色| 国产精品自在线拍国产电影| 成人看片欧美一区二区| 亚洲AⅤ综合在线欧美一区| 亚洲欧美精品一中文字幕| 人妻熟妇日韩AV在线播放| 在线观看免费国产| 国产第一页亚洲| Jizz国产色系免费| 好紧好深好大乳无码中文字幕| 亚洲综合久久成人AV| 欧美影院久久| 亚洲swag精品自拍一区| 在线综合亚洲欧美网站| 美女啪啪无遮挡| 日韩精品专区免费无码aⅴ| 欧美日韩资源| 久久精品66| 欧美不卡视频在线| 97青青青国产在线播放| 中美日韩在线网免费毛片视频| 99视频有精品视频免费观看| 欧美日本不卡| 91在线视频福利| 亚洲中文无码h在线观看 | 精品国产Av电影无码久久久| 国产激爽大片高清在线观看| 制服丝袜国产精品| 国产九九精品视频| 久久久久无码精品国产免费| 中文字幕免费播放| 国产成人亚洲精品无码电影| 精品综合久久久久久97超人该| 这里只有精品在线播放| 欧洲免费精品视频在线| 亚洲h视频在线| 国产高清免费午夜在线视频| 草逼视频国产| 在线观看视频一区二区| 国产高清无码麻豆精品| 国产av色站网站| 国产成人亚洲综合a∨婷婷| 国产成人麻豆精品| 国产噜噜在线视频观看| 伊人成人在线| 亚洲精品麻豆| 九色综合伊人久久富二代| 99re在线视频观看| 国产精品尤物在线| 男女精品视频| 免费一级α片在线观看| 色妞www精品视频一级下载| 国产美女主播一级成人毛片| 中文字幕资源站| 日韩中文无码av超清| 欧美午夜在线视频| 国产极品美女在线观看| 久久动漫精品| 91青青草视频在线观看的| 日韩精品毛片| 五月天丁香婷婷综合久久| 亚洲人成网18禁| 亚洲视频色图| 成人午夜网址| 亚洲福利片无码最新在线播放| 欧美激情网址| 精品自窥自偷在线看| 国产激情第一页| 99久久国产自偷自偷免费一区|