999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關于大數據挖掘中的數據分類算法技術的研究

2020-08-26 07:46:55張書月
電腦知識與技術 2020年20期
關鍵詞:大數據信息化

張書月

摘要:隨著全球信息化發展的加快與信息技術的不斷革新,信息化已滲透到社會的方方面面,由此也產生了大量的數據信息。如何有效挖掘出我們需要的信息數據,提高信息找尋速度與利用率是我們需要解決的問題。本文主要對大數據挖掘中的數據分類算法技術進行研究,介紹了大數據挖掘與數據分類算法,對數據分類算法相關技術進行分析,旨在通過本文為數據挖掘分類算法的有效運用提供一些借鑒和參考。

關鍵詞:大數據;信息化;分類算法

中圖分類號:TP311 文獻標識碼:A

文章編號:1009-3044(2020)20-0042-02

大數據時代,進行信息化建設,推行數字化辦公的行業也不斷增加,大數據挖掘也得到了廣泛的應用,這既是機遇,也是挑戰。面對社會以及人們產生的各類數據,準確對其進行分類處理,挖掘出有效信息,提高信息利用率勢在必行。鑒于此,強化大數據挖掘,高效運用數據分類算法技術處理數據是極具現實意義的。下文將就大數據挖掘中的數據分類算法技術展開研究,詳細分析幾種經典的數據分類算法技術。

1數據挖掘技術與數據分類算法概述

1.1數據挖掘技術概述

通俗地講,從海量數據信息中挖掘出有效信息就是數據挖掘。這種有用信息的發掘跟普通信息檢索有本質區別。數據挖掘是通過機器學習算法或關聯規則等形式發掘出間接、抽象的有效信息,而普通信息檢索是以查詢命令的形式獲取想要信息的,更為直接。例如,數據挖掘可從超市銷售記錄中獲取“買尿不濕多會買啤酒”間接信息,而信息檢索是無法獲取這一信息,超市可根據數據挖掘獲取的隱藏信息調整商品布局。數據挖掘也是一種從數據庫中發現知識的過程,主要包括三個步驟:(1)數據預處理:從大量數據中找抽取需要分析的數據,并以要求的格式整理出來;(2)尋找規律:利用數據挖掘技術找出數據間存在的規律;(3)知識表示:即通過可視化技術將找出的規律、知識呈現給用戶。數據挖掘是數據庫知識發現的一個關鍵步驟,可以說是信息時代的一項重大成果。

1.2數據分類算法技術分類

作為數據挖掘的重要技術,分類算法技術的作用不容忽視,主要是通過分析研究數據訓練集,從而找出分類規則以預測新數據類型,可將未知樣本分類到已存在類的技術。分類算法主要從兩個階段對數據進行處理:(1)模型構建:基于已知訓練數據集,對預定的概念集或者數據類集進行構建;(2)模型使用:基于構建的新模型,分類未知數據。分類算法技術可在文本、生物數據、多媒體以及社交網絡等多種問題領域應用,也是當前各界研究的熱點課題。需要注意的是,數據分類算法技術有多種算法,各有其適用情況,需要開發者根據實際情況靈活選擇,有效運用。

2大數據挖掘中的數據分類算法技術分析

2.1決策樹分類

決策樹分類算法是一種基于實例歸類處理相關數據,采用由上而下分治形式的分類算法,也叫作貪心算法。從雜亂的事例或數據中找出分類規律,并借助決策樹形式表現出來是該算法的最大特點。在實際運用過程中,決策樹算法處理噪聲數據的健壯性是非常好的,因而被廣泛應用于各個領域的數據分類處理中,也是當前使用最為普遍的數據分類算法之一。

決策樹算法構建是這樣的:屬性測試使用節點來表示,數據測試輸出則使用分制表示。如果分析未知數據樣本則將決策樹與樣本屬性值進行比較。以“買電腦預測”進行說明(見圖1),其中橢圓表示樹葉,而矩形則表示節點[1]。決策樹分類算法包括這幾個步驟:(1)選取某訓練集中最重要屬性作為決策樹的根,以屬性值為標準對訓練集進行分割,并從訓練數據節點中選擇出一個極具代表性的節點構建決策樹;(2)如果數據對象為同一類則使用該類類標號定義節點,也就是葉子節點;如果數據對象為不同類,則利用信息熵等策略衡量并選出一個屬性作為測試屬性,也就是測試節點;根據測試節點特點將訓練集分成諸多子集,從原始屬性開始將測試節點屬性幾種刪除;(3)周而復始重復上述步驟以生成完整分類訓練集的決策樹。需要注意的是,找出測試屬性是決策樹分類算法的關鍵。

此外,決策樹的C4.5算法是一種簡便易操作的傳統決策樹算法模式,決策樹上各個節點的被測試屬性是根據最大信息增益與最小熵來確定的,根據測試結果對對象集進行劃分。ID3則是一種操作簡單、分類快速的決策樹學習算法。總之,決策樹分類算法應用較多,具有較高的準確率與較好的可解釋性,并且對異常值、缺失值等分布敏感性較低,但也存在一定的不足,如容易過擬合,也就是訓練集可以正確分類,但是測試集表現較差,算法上會存在許多分支,必要時需要通過剪枝進行避免。

2.2神經網絡分類算法

20世紀40年代初,Me Culloch和Pitts提出了第一個神經元形式的數學模型。自此,各界對神經網絡的研究熱度有所增加,神經網絡在醫學、金融、地質學以及物理學等諸多領域都得到了一定程度的應用。但隨著對神經網絡功能與局限性分析的深入,該課題的研究也陷入了低潮,此階段,一些堅持研究的研究者取得了一些突破,如Grossberg提出了ART模型,Koho-nen提出了SOM模型。直到20世紀80年代,Hopf'ied的研究將神經網絡的研究再度推向高潮。Rumellhart、Me Cllel-Iand等人提卅的PDP理論已成為當前應用較為廠泛的數據分類算法之一[2]。神經網絡分類算法時基于人腦結構、功能的模仿以一定的連接方式將多個處理單元連接起來形成系統,以動態響應外部輸入信息的方式對數據進行處理。該分類算法可解決這幾方面的數據挖掘問題:(1)具有非線性與時序性特征且較為復雜、存在噪音的大量數據;(2)分析表述與處理都要涉及領域知識的具有多樣性目標的數據;(3)數據分析目標較為復雜,且需要分析海量數據集。神經網絡不僅在數據挖掘的分類方面有所應用,還在預測、特征挖掘以及聚類等方面有所應用。

2.3基于頻繁模式的分類算法

基于頻繁模式的分類算法也就是基于關聯規則以不同標準對數據進行分類。該算法主要有CBA分類算法、CPAR分類算法以及CMAR分類算法這三種。

2.3.1 CBA分類算法

CBA分類算法是基于關聯規則依托數據構造分類器的數據分類算法,運用的是Apriori技術。該算法可表面化潛在的數據關聯規則,為數據分類處理創造有利條件,在大數據集上的準確率是比較高的。同時CBA分類算法也存在一定的不足,如在數據分類時數據遺漏風險較高,而將最小支持度甚至為0能一定程度降低數據遺漏風險,但也削弱了該算法的優化作用,不利于運行效率的提高。

2.3.2 CPAR分類算法

基于預測關聯規則的分類算法就是CPAR分類算法,是基于FOLL形成的一種分類算法。該算法在處理數據時,通常都會形成一個標準化的規格,此時將正樣本刪除一直到正樣本覆蓋完數據集中的所有數據為止。同CBA、CMAR分類算法相較,CPAR在大數據庫的數據分類中應用效果更佳。

2.3.3 CMAR分類算法

CMAR是一種基于多關聯規則的分類算法,與CBA算法在找尋項集與構建分類器方面存在較大的差異。CBA算法是通過掃面數據庫以迭代的方式找出項集,從大到小排列白小支持度與最小置信度找出關聯規則,構建出分類模型,而CMAR算法是通過構建數的形式將項集找出并對分類器進行構造的。并且該算法的最小支持度與最小置信度的滿足集合是通過FP-growth算法轉換來實現的,通常一個步驟就能夠完成分類器構造與項集的挖掘。此外,同CBA分類算法相較,CMAR分類算法運行時間更短,內存使用率更高,可伸縮性也更強。

2.4 Bayes分類算法

Bayes分類算法是基于概率統計學而產生的一種分類算法。如樸素Bayes分類是基于訓練樣本對每個可能的類別來進行建模的,并且分為三個階段:(1)準備:對特征屬性進行確定,并依據屬性特征進行劃分,之后則分類待分類項,將待分類數據輸入,而將特征屬性與訓練樣本集合輸出;(2)分類器訓練:主要是生成分類器,將特征屬性、訓練樣本輸入,將分類器輸出;(3)應用:即借助分類器分類待分類項,是由程序完成的,將分類器與待分類項輸入,并將待分類型與類別之間的映射關系輸出。Bayes分類算法是一種應用較為廣泛的數據挖掘分類算法,但也存在一定的不足,比如實際應用中,類別總體概率與樣本概率分布通常是未知的,為了獲取這兩方面信息,樣本容量就不能太小。再比如Bayes分類算法表達文本的主題詞間應具有獨立性,然而實際上這樣的條件通常無法很好地滿足,這就一定程度降低了分類算法的應用效果,與理論值存在差異。

2.5 VSM分類算法

VSM分類算法也就是向量空間模型算法,在20世紀60年代末由Salton等人提出,是最早的關于信息檢索方面的分類算法。該算法是采用加權特征向量來表示文檔,之后再通過特征向量間的內積算出文本相似度,從而對分類樣本所屬類別進行確定。應用VSM分類算法時會先建立好相關的類別向量空間,分類時只需要計算出該樣本與各個類別向量的相似度并篩選出最大相似度作為該樣本的類別,需要注意的是,VSM分類算法是一種更適合于分類專業文獻的算法,對類別向量特征依賴度比較高,而類別每個特征項表達類別的能力會隨著該類別非零特征項的增多而減弱。

2.6其他分類算法

如遺傳算法是利用自然進化理念進行分類的。該算法下隨機產生樣本數據集進而產生規則,形成分類器。具體來說,樣本數據集用初始群體表示,每個規則使用二進制位串表示,初始群體根據一定的規則形成后代,而后代在根據一定的規則交叉產生后代,以此類推。噪聲數據處理、未經過學習模式分類中該算法應用效果較好,如實驗醫學、計算機朗讀英文課文等[3]。模糊集分類算法產生于20世紀60年代,是一種不準確處理數據的分類算法,可抽象化具有連續值屬性的數據,在衛生保健、市場調研以及環境工程等領域應用較多[4]。

3結束語

綜上所述,隨著大數據時代的到來,社會各行各業與我們日常工作學習中都充斥著海量數據,數據挖掘的重要性也越發突出。而數據分類算法作為數據挖掘的關鍵技術和重要步驟,也被各界所重視。本文對數據挖掘與數據分類算法進行簡單的闡述,并詳細分析了數據分類算法技術的決策樹算法、神經網絡算法、基于頻繁模式的分類算法、Bayes算法、VSM分類算法以及其他算法。由此可見,不同數據分類算法各有特點,我們應根據實際情況準確選用合適的算法技術,以確保數據分類處理的有效性與可靠性。

參考文獻:

[1]馮曉媛.大數據挖掘技術應用研究[J].數字技術與應用,2019(1):127-128.

[2]吳雅琴,王曉東.大數據挖掘中的混合差分進化K-Means無監督聚類算法[J].重慶理工大學學報(自然科學),2019,33(5):107-112.

[3]劉政宇.大數據分析挖掘技術及其決策應用研究[J].科學技術創新,2019(23):84-85.

[4]王茜,平金珍,班婭萌.基于云計算的大數據挖掘內涵及解決方案研究[J].數字通信世界,2019(5):169-170.

【通聯編輯:李雅琪】

收稿日期:2020-03-27

基金項目:2019年度廣州工商學院院級科研課題項目(項目編號:KA201929)

猜你喜歡
大數據信息化
月“睹”教育信息化
月“睹”教育信息化
幼兒教育信息化策略初探
甘肅教育(2020年18期)2020-10-28 09:06:02
“云會計”在中小企業會計信息化中的應用分析
活力(2019年21期)2019-04-01 12:16:40
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
信息化是醫改的重要支撐
中國衛生(2014年1期)2014-11-12 13:16:34
信息化
江蘇年鑒(2014年0期)2014-03-11 17:09:40
主站蜘蛛池模板: 国产精品成人久久| 免费人成网站在线观看欧美| 色精品视频| 黄色网址手机国内免费在线观看| 成人无码区免费视频网站蜜臀| 最新精品国偷自产在线| 久久福利网| 欧美曰批视频免费播放免费| 夜夜操狠狠操| 五月激激激综合网色播免费| 国产无码精品在线播放| 女人毛片a级大学毛片免费| 国产香蕉在线视频| 国产又粗又爽视频| 噜噜噜久久| 日本三级精品| 亚洲人成在线精品| 欧美日韩在线亚洲国产人| 高清久久精品亚洲日韩Av| 免费观看男人免费桶女人视频| 日韩毛片免费| 国产微拍一区二区三区四区| 99国产精品免费观看视频| 激情乱人伦| 欧美一区日韩一区中文字幕页| 亚洲美女一级毛片| 国产亚洲成AⅤ人片在线观看| 深夜福利视频一区二区| 国产精品内射视频| 国产毛片片精品天天看视频| 一区二区三区国产| 日韩资源站| 国产精品高清国产三级囯产AV| 欧美色视频在线| 亚洲最大情网站在线观看| 9cao视频精品| 日韩一级毛一欧美一国产| 精品国产免费观看一区| 欧美a网站| 亚洲欧美国产视频| 亚洲va视频| 亚洲天天更新| 成人一区在线| 欧美视频在线播放观看免费福利资源| 国产乱人伦AV在线A| 四虎成人精品| 欧美成人在线免费| 国产成人无码综合亚洲日韩不卡| 亚洲精品国产成人7777| 亚洲第一极品精品无码| 国产精品无码久久久久久| 成人在线综合| 欧美人与性动交a欧美精品| 午夜精品影院| 日本高清有码人妻| 久久综合色天堂av| a欧美在线| 久久精品免费看一| 狠狠久久综合伊人不卡| 国产人免费人成免费视频| 国产va在线| 国产精品无码一二三视频| 97se亚洲综合在线| 欧美中日韩在线| 国产乱码精品一区二区三区中文 | 毛片网站观看| 亚洲无码91视频| 欧洲日本亚洲中文字幕| 欧美精品v| 国产视频 第一页| 国产精品午夜福利麻豆| 国产第八页| 秘书高跟黑色丝袜国产91在线 | 一本综合久久| 中文字幕无码av专区久久| 欧美一区中文字幕| www亚洲精品| 久久成人免费| 国产精品乱偷免费视频| 4虎影视国产在线观看精品| 欧美激情网址| 人妻无码中文字幕第一区|