999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據背景下機器學習算法的綜述

2018-02-16 16:51:34李成錄
信息記錄材料 2018年5期
關鍵詞:數據處理效率

李成錄

(青海師范大學 青海 西寧 810008)

1 引言

大數據概念自1980年被托夫勒提出后,其發展前景不斷擴大,滲透到生活、工作、學習的方方面面。當下,在信息技術的推動下,某些零散、碎片化的數據被搜集起來,逐漸凝聚為紛繁錯亂的大數據。大數據的快速發展,給高新技術產業帶來豐厚的回報,引起一大批實力雄厚企業的追捧。在2017年阿里巴巴、騰訊、京東等IT公司斥巨資從事大數據研究,從中享受到大數據賦予的金融回報。例如,滴滴打車、ofo共享單車、淘寶等,它們企業運轉效率在大數據的推動下得到質的提升。因此,研究大數據背景下的機器學習算法對國家、企業、社會發展都有較大的促進作用,需要有適合的算法來滿足大數據時代的需求。本研究立足于當下社會發展新形勢,為促進社會更好發展做出重要推動力。

2 大數據基本內涵與特點

大數據(Big Data),是指在一定時間內無法用常規數據處理軟件進行分析管理的數據集合。它以超出用MB、GB的形式來存儲。在這種新型大數據背景下,需要有更好地數據處理模式進行數據運算,才能從數據中形成更為科學的決策系統。被稱為大數據它具有不同于傳統數據的特點,與其他數據有清晰的界限。首先,大數據最鮮明的特點為“大”,它凝聚著海量資料,從多個維度、多個方面、多類型進行歸納匯總,形成一批難以用普通數據處理方法來解決的數據;其次,傳輸速度快。大數據是由互聯的機器產生的,它們以秒、毫秒、微秒的形式瞬間形成,不斷去輸入、輸出來完成其基本功能;緊接著,數據類型多種多樣,數據分類難度較大。大數據已經不能用傳統的分類方式進行歸納,它們往往是非結構化的,造成存儲、分析、探勘難度提升;最后,大數據具有真實性。在處理大數據時,要從紛繁錯亂的數據中剔除錯誤數據、虛假數據,保證大數據系統的真實客觀性。這樣,不僅可以降低據處理的難度,同時便于得出正確的應對策略,讓大數據更好地為人服務。

3 機器學習在大數據背景下的必要性

機器學習是當下處理大數據的重要途徑,它可以將多種優勢凝聚起來,面對實際問題選擇最為合適的解決途徑。例如,在2017年AlphaGo對弈柯潔圍棋比賽中,以3比0的比分贏得了比賽,它正是機器學習的重要標志。機器學習克服人為因素的局限性,通過神經網絡、決策樹、深度學習,對數據進行科學有效地處理,全面提高數據的運算效率。當下,信息網絡、商業活動、調查統計都會產生海量數據,這些數據以超出傳統的處理手段,迫切需要機器學習進行解決。傳統機器學習面臨的問題為:首先,機器算法較為固定,讀取大數據困難突出;其次,自動學習推理能力較低,得到數據結論不夠科學;最后,機器自我學習能力不足,不能迎合大數據對機器學習的需求。因此,探究出適合大數據背景下的機器學習,對未來發展有著不可估量的社會效益。

4 機器學習算法在處理大數據的重要手段

4.1 運用分治算法對大數據進行篩選剔除

分治算法在處理大數據上具有較好的優勢,它可以被運用與分布式計算和并行運算。對大數據進行機器學習,樣本不同的數據對其影響比較顯著,不僅會徒增數據運算量,同時還會制約著學習效率,不利于更好地對數據進行分析判斷。而運用分治算法后,它對原始樣本進行預處理,將無效數據、冗余數據進行剔除,形成能夠很好表示原始樣本的數據集合。這樣,機器學習的目標更為明確,學習難度得到有效降低,有助于形成正確的判斷。在選擇代表性數據集合時,通常采用的方法為壓縮近鄰法、約減法等等。它的原理就是要找到大數據所對應的最小集合,通過一系列測試完成對子集的加工完善。此時,他們找到的集合是可以代表全體樣本的,具有較高的科學性,從而為大數據分析提供可能。運用分治算法首先要有符合要求的置信區間,在規定的區間內進行數據的篩選、剔除。例如,借助Bag ofLittle Bootstraps,它可以降低抽樣所帶來的數據錯誤,從而提高數據預處理的準確性。

4.2 引入聚類算法對大數據分布式計算

聚類算法在數據挖掘和數據處理中是最常用的方法,它在處理大型數據上有較好的應用效果。首先,聚類算法對大數據進行類型劃分,將數據分為若干個子數據節點。在這時,對各節點數據進行機器學習效率更高,更有針對性地完成數據處理。聚類算法在機器學習的具體方法可以歸納為三種。第一種,采用非迭代化數據擴展。它利用模糊集概念,對數據進行FCM均值聚類分析,快速準確地將數據分離開來;第二種為連續擴充子集合技術;第三種為抽樣估計均值算法。這三種可以有效解決大數據在時間上、空間上、處理速度、運轉效率的問題,達到對上至億萬的大數據分析。

4.3 數據并行算法優化數據處理效率

傳統的機器學習在處理大數據上捉襟見肘,主要是由于各機器學習方法沒有做到并行化處理。單一數據處理機器不能獨立完成大數據處理,而是需要聯動各個數據處理部分,將其并行化運轉,從而達到對大數據的整體處理。它的思想就是將大數據“碎片化”,分成機器可以單純處理的數據模塊,最終通過綜合各個數據來達到對整體的把握。比如,在圖像處理平臺上,它正是利用并行算法,大大降低各數據處理的壓力,有效提升數據的運算能力。并行算法需要與聚類算法、分治算法進行有機統一,將三者算法融合在一起,讓大數據處理變得更為簡潔、輕松,同時也較好地保證機器學習的準確性。

5 結語

大數據作為當下的熱門,需要有一套科學合理的機器學習算法來滿足社會需求,讓數據處理變得更具效率。針對大數據的各個特點,通過運用分布式計算、聚類算法、分治算法,讓數據變得更具條理,數據處理分析難度得到有效降低,大大提高機器學習的能力。因此,要想在大數據有所突破,就需要對傳統機器學習算法進行優化升級,讓其在大數據時代迸發出強勁活力。

[1]吳睿智,馬致遠,羅光春,劉貴松,秦科.大數據融合、分析與價值[J].信息通信技術,2016(06):123-130.

[2] Yang Y M,Wang X N,Yuan X F.Bidirectional Extreme Learning Machine for Regression Problem and Its Learning Effectiveness.IEEE Trans on Neural Networks and Learning Systems,2012,23(9):1498-1505.

猜你喜歡
數據處理效率
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
提升朗讀教學效率的幾點思考
甘肅教育(2020年14期)2020-09-11 07:57:42
注意實驗拓展,提高復習效率
效率的價值
商周刊(2017年9期)2017-08-22 02:57:49
MATLAB在化學工程與工藝實驗數據處理中的應用
跟蹤導練(一)2
Matlab在密立根油滴實驗數據處理中的應用
“錢”、“事”脫節效率低
中國衛生(2014年11期)2014-11-12 13:11:32
基于POS AV610與PPP的車輛導航數據處理
主站蜘蛛池模板: 国产精品视频猛进猛出| 波多野结衣一区二区三区88| 黄网站欧美内射| 美女免费黄网站| 91久久青青草原精品国产| 日韩无码真实干出血视频| 国产第八页| 亚洲成AV人手机在线观看网站| 国产小视频免费| 欧美日韩中文国产va另类| 欧美黄网在线| 婷婷午夜天| 国产在线观看高清不卡| 婷婷午夜天| 欧美日韩va| 毛片在线区| 久久免费视频6| 曰AV在线无码| 日本在线欧美在线| 曰AV在线无码| 一级成人a毛片免费播放| 在线国产91| 色偷偷综合网| 欧美日韩亚洲国产| 国产成人高清精品免费| 99er这里只有精品| 一级爱做片免费观看久久 | 美女无遮挡拍拍拍免费视频| 中文字幕佐山爱一区二区免费| 欧美亚洲激情| 婷婷综合色| 亚洲欧美一区二区三区蜜芽| 午夜免费视频网站| 国产欧美成人不卡视频| 国产精品密蕾丝视频| 亚洲激情99| 免费毛片全部不收费的| 亚洲精品片911| 亚洲综合二区| www.精品国产| 精品久久高清| 视频二区欧美| 色吊丝av中文字幕| 精品国产Av电影无码久久久| 免费不卡视频| 日韩欧美网址| 97人人模人人爽人人喊小说| 国产毛片基地| 免费女人18毛片a级毛片视频| 欧美成人午夜视频| 视频一区亚洲| 国产网站一区二区三区| 又大又硬又爽免费视频| 欧美日本激情| 这里只有精品在线播放| 天天干伊人| 青草视频免费在线观看| 亚洲福利片无码最新在线播放 | 国产成人精品一区二区三区| 国产噜噜在线视频观看| 本亚洲精品网站| 26uuu国产精品视频| 国内精品小视频福利网址| 自偷自拍三级全三级视频| 成人午夜视频免费看欧美| 超清人妻系列无码专区| 香蕉视频在线观看www| 国产在线观看一区二区三区| 永久毛片在线播| 国产成人AV男人的天堂| 视频在线观看一区二区| 成人日韩欧美| 亚洲精品国产综合99| 亚洲大尺码专区影院| 国产理论一区| 国产精品蜜臀| 欧美日韩国产在线人| 日本亚洲最大的色成网站www| 成人在线亚洲| 麻豆AV网站免费进入| 国产成人亚洲精品无码电影| 综合人妻久久一区二区精品 |