999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習的分類、聚類研究

2020-04-14 04:54:29李玥
電腦知識與技術 2020年4期
關鍵詞:機器學習

李玥

摘要:大數據時代帶來的數據爆炸,是機器學習發展的新機遇。本文將介紹機器學習的學習方式,機器學習的分類、聚類算法的異同和應用,并介紹樸素貝葉斯分類算法和k-means聚類算法兩種常用算法。同時思考機器學習為人們生活帶來便利的同時所產生的負面影響。

關鍵詞:機器學習;監督學習;無監督學習;樸素貝葉斯算法;k-means算法

中圖分類號:TP181

文獻標識碼:A

文章編號:1009-3044(2020)04-0161-02

收稿日期:2019-10-15

1 概述

大數據時代的來臨使得數據量迅速膨脹,也為機器學習提供了更廣闊的舞臺。本文將對機器學習中分類和聚類及其常見算法進行論述。相信機器學習未來必將大放異彩。

2 機器學習

2.1 機器學習的定義,

相較于依托專業公式進行純粹計算,機器學習通過模仿人類學習的過程,使計算機通過算法分析數據、從中學習、生成并優化模型,以此得到識別新數據、預測、自主決策等能力。

2.2 特征

特征是一類對象的某種本質特性的抽象表示,通常會使用特征的集合即特征向量來指代對象本身。機器學習中用于訓練和測試的數據通常源自各種系統,其格式、質量各不相同。為了方便算法使用這些數據訓練模型,需要根據要研究的問題選擇特征并將這些數據轉為特征向量的集合。因此,原始數據的質量,特征的選擇等對生成模型的好壞甚至比算法本身更重要。

2.3 機器學習的學習方式

機器學習有多種學習方式,而監督學習和無監督學習是最常見的。監督學習要求每個樣本除了特征值外還應包含特殊的標記,其通過特征值預測標記,再對比真實的標記計算誤差,根據誤差使用遞歸算法修正模型。監督學習最常見的任務便是分類與回歸。無監督學習則不需要標記,其按照特定的指標和方法探索實例之間的相似程度,或是研究特征之間的取值關系等。無監督學習最為重要的研究問題包括聚類、關聯分析、降維等。

其他的學習方式還包括通過在迭代過程中對不同選擇進行不同反饋來優化模型得到最優決策的強化學習。混合了監督和無監督學習的半監督學習。把模型作為經驗訓練的遷移學習等。

3 機器學習的分類和聚類

3.1 分類和聚類的異同

分類算法是根據一些事物的特征,將事物劃分至其對應類別。因此分類要滿足所有的類別都是已知的前提。分類在機器學習中要使用監督學習,讓標記為實例的類別。要評價分類模型的好壞時,可基于預測類別和正確類別進行比較來分析。而聚類算法最重要的是選擇合適的度量機制,用以度量任意兩個對象的相似程度,亦可以說是他們之間的距離。因為聚類的主旨便是認為事物越是相似,兩者越可能是同類。聚類屬于無監督學習,而因其不包含標記,類型本身是未知的。所以聚類的結果常會稱若干實例聚為一簇,而不是稱聚為一類。評價聚.類模型比較復雜,但通常基于如下原則:盡可能讓每個簇包含的樣本更加相似,同時保證不同簇之間的距離盡可能大。

3.2 樸素貝葉斯算法

樸素貝葉斯分類算法源自古典數學,依賴于條件獨立假設,其指的便是不同特征的取值相互獨立,對應公式為:

P(X;=x1,X,=x2)=P(X,=x)P(X,=x2)

另外還依賴于條件概率公式:

P(X,=x|C =c])= P(X,=x,C =c|)

P(C1 =c])

但實際情況中不同特征取值常常相互影響,存在依賴關系。且模型效果極為依賴于數據的好壞,一旦數據存在過大偏差,生成的模型將失去使用價值。因此樸素貝葉斯算法改進常集中于解決特征值之間的依賴關系,使用平滑技術等減少數據對模型的影響。

3.3 k-means算法

k-means的核心是為每個簇假定了 簇中心。首先通過隨機指定k個簇中心點,計算每個樣本點至各中心點的距離,取距離最近的作為其所屬簇,以此進行一次聚類。這時可以根據聚類結果重新計算簇中心點,與之前的簇中心點進行比較,將新的中心帶入算法繼續迭代以之修正模型直到兩者誤差小于某-常量。初期簇中心點的選取對算法的效果至關重要,它決定了迭代次數和最終聚類效果的好壞。算法的整個過程類似于最優化求解,初期中心點的隨機性使得結果常為局部最優解。因此k-means算法的改進通常集中于如何選取初期的簇中心點,使中心點之間距離盡可能遠,使中心點分布更加平均,或者使其更接近數據分布的疏密情況,這些措施都可以改進算法的執行速度和最終聚類的效果。

3.4 應用方向

分類算法在垃圾郵件識別等相關識別領域多有建樹。例如人們在使用銀行卡、支付寶消費的同時也產生了大量數據,銀行等金融機構可以對用戶的操作數據使用分類算法甄別出是否為本人行為,保護賬戶安全。也可以根據用戶的行為數據找出風險用戶,減小自身經營風險。同樣分類算法也在天氣預報產量預測和生產風險評估等領域得到廣泛應用。同樣在進行用戶畫像時,聚類算法也必不可少。而基于相似的人可能有相同的愛好,這樣推薦算法中協同過濾的核心思想,聚類算法得以在協同過濾中大展拳腳。

4 總結與反思

機器學習的前景廣闊,分類和聚類等算法各有千秋。分類和聚類結合使用可以互相驗證,互相完善,這也是一種半監督學習的思路。同時現階段最火的基于深度學習、神經網絡進行的模式識別,也可歸屬于監督學習的分類算法。但機器學習為我們的生活帶來便利的同時也存在一些負面影響。近期新聞提到,,部分酒店等商業機構利用大數據和機器學習等技術,甄別出對數字不敏感的用戶,悄悄提高對其服務的價格牟利。有關部門應加強查處力度,保障用戶信息安全,使技術不被濫用。參考文獻:

[1]李清霞,魏文紅,蔡昭權.混合用戶和項目協同過濾的電子商務個性化推薦算法[J].中山大學學報:自然科學版,2016,55(5):37-42.

[2]朱軍,胡文波.貝葉斯機器學習前沿進展綜述[J].計算機研究與發展,2015,52(1):16-26.

[3]何清,李寧,羅文娟,等.大數據下的機器學習算法綜述[J].模式識別與人工智能,2014,27(4):327-336.

[4]陳凱,朱鈺.機器學習及其相關算法綜述[J].統計與信息論壇,2007,22(5):105-112.

[通聯編輯:唐一東]

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 爆操波多野结衣| 亚洲一区二区在线无码| 99热国产在线精品99| 色噜噜狠狠色综合网图区| 国产成人无码AV在线播放动漫| 91精品啪在线观看国产91| 久久夜色精品| 国产制服丝袜91在线| 乱系列中文字幕在线视频| www精品久久| 永久在线播放| 欧美一区二区精品久久久| 国产亚洲视频中文字幕视频| 午夜视频www| 国产精品自在在线午夜区app| 九九热精品在线视频| 97亚洲色综久久精品| 少妇精品久久久一区二区三区| 91小视频在线观看免费版高清| 欧美色综合网站| 无码AV日韩一二三区| 99在线视频免费观看| 最新国语自产精品视频在| 国产小视频免费观看| 91国内外精品自在线播放| 亚洲福利一区二区三区| 久久亚洲综合伊人| 天天做天天爱夜夜爽毛片毛片| 色视频久久| 欧美午夜视频| 伊人色在线视频| 久草视频精品| 黄色a一级视频| 国产乱子伦视频三区| 亚洲伊人久久精品影院| 老司国产精品视频91| 亚洲国产亚洲综合在线尤物| 国产成人精品视频一区二区电影| 91久久国产综合精品女同我| 九九热这里只有国产精品| 欧美日韩导航| 精久久久久无码区中文字幕| 国产在线观看第二页| 欧美a√在线| 国产成人精品18| 国产情侣一区二区三区| 激情视频综合网| 日韩性网站| 大陆精大陆国产国语精品1024| 欧美激情视频一区二区三区免费| 欧美黄色网站在线看| 成人国产精品2021| 一区二区三区高清视频国产女人| 9啪在线视频| 999国内精品久久免费视频| 亚洲人成网站观看在线观看| 激情成人综合网| 日本欧美一二三区色视频| 欧美成人二区| 国产精品私拍99pans大尺度| 54pao国产成人免费视频| 中文字幕无线码一区| 美女亚洲一区| 亚洲人成网站18禁动漫无码| 亚洲欧美日韩中文字幕在线| a级毛片在线免费观看| 亚洲一区网站| 国产精品自拍合集| 国产主播福利在线观看| 欧美.成人.综合在线| 欧美三级不卡在线观看视频| 欧美性久久久久| 亚洲视频一区在线| 国产av一码二码三码无码| 成人va亚洲va欧美天堂| 亚洲男人的天堂久久精品| 亚洲第一天堂无码专区| 国产第八页| 精品夜恋影院亚洲欧洲| 国产精品人莉莉成在线播放| 91国内在线观看| 亚洲欧洲综合|