隨著科學(xué)技術(shù)的發(fā)展,大數(shù)據(jù)在人工智能領(lǐng)域起著越來越重要的作用,基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)分析與挖掘已經(jīng)成為各科研單位的研究熱點(diǎn)。本文通過對(duì)大數(shù)據(jù)的發(fā)展、算法分析以及平臺(tái)設(shè)計(jì)進(jìn)行探究,對(duì)大數(shù)據(jù)平臺(tái)的應(yīng)用進(jìn)行了展望,力求為智能化技術(shù)的發(fā)展提供創(chuàng)新的思路。
【關(guān)鍵詞】大數(shù)據(jù) 人工智能 算法設(shè)計(jì)
1 大數(shù)據(jù)的發(fā)展概述
大數(shù)據(jù)指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)包括海量的數(shù)據(jù)信息與高強(qiáng)度的數(shù)據(jù)處理能力,大數(shù)據(jù)是相對(duì)于傳統(tǒng)數(shù)據(jù)處理應(yīng)用程序來說,不足以處理大型、復(fù)雜的數(shù)據(jù)集的新型處理模式,包括分析、捕獲、數(shù)據(jù)整理、搜索、共享、存儲(chǔ)、傳輸、可視化查詢、更新和信息管理。大數(shù)據(jù)通常僅指使用預(yù)測(cè)分析、用戶行為分析或某些其他高級(jí)數(shù)據(jù)的分析方法,這些方法從數(shù)據(jù)中提取價(jià)值,很少涉及特定大小的數(shù)據(jù)集。數(shù)據(jù)集分析可以發(fā)現(xiàn)新的聯(lián)系與信息??茖W(xué)家、企業(yè)高管、醫(yī)學(xué)從業(yè)者、廣告和政府都定期在互聯(lián)網(wǎng)搜集大數(shù)據(jù),這些數(shù)據(jù)在金融、城市信息學(xué)和商業(yè)信息學(xué)等領(lǐng)域更為重要。科學(xué)家在電子科學(xué)工作中遇到了很多需要處理海量數(shù)據(jù)的問題,涉及氣象學(xué)、基因組學(xué)、復(fù)雜物理模擬、生物學(xué)和環(huán)境研究等。大數(shù)據(jù)包括文本、圖像、音頻、視頻,它通過數(shù)據(jù)融合可以完成未來數(shù)據(jù)的機(jī)器學(xué)習(xí),大數(shù)據(jù)通常是數(shù)字交互的無成本的產(chǎn)品。越來越成熟的概念更清楚地描述了大數(shù)據(jù)和人工智能之間的區(qū)別,人工智能使用具有高信息密度的數(shù)據(jù)的描述性統(tǒng)計(jì)來測(cè)量事物、檢測(cè)趨勢(shì)等。大數(shù)據(jù)使用歸納統(tǒng)計(jì)和來自非線性系統(tǒng)識(shí)別的概念,從具有低信息密度的大量數(shù)據(jù)集中推斷出法則,例如回歸、非線性關(guān)系和因果效應(yīng),以揭示關(guān)系和依賴性或者進(jìn)行結(jié)果和行為的預(yù)測(cè)。
2 大數(shù)據(jù)技術(shù)中的算法分析
2.1 神經(jīng)網(wǎng)絡(luò)算法
神經(jīng)網(wǎng)絡(luò)系統(tǒng)是由眾多的神經(jīng)元可調(diào)的連接權(quán)值連接而成,具有大規(guī)模并行處理、分布式信息存儲(chǔ)、良好的自組織自學(xué)習(xí)能力等特點(diǎn)。神經(jīng)網(wǎng)絡(luò)是一種計(jì)算方法,基于神經(jīng)單元的大集合,解決由軸突連接的生物神經(jīng)元的大群集的問題。 每個(gè)神經(jīng)單元與許多其他神經(jīng)單元連接,并且可以對(duì)所連接的神經(jīng)單元的激活狀態(tài)影響中實(shí)施抑制。每個(gè)單獨(dú)的神經(jīng)單元可以具有將所有其輸入的值組合在一起的求和功能。在每個(gè)連接和單元本身上可以存在閾值函數(shù)或限制函數(shù),使得信號(hào)在傳播到其他神經(jīng)元之前必須超過極限。這些系統(tǒng)是自學(xué)習(xí)和訓(xùn)練的,而不是明確編程的,并且在傳統(tǒng)計(jì)算機(jī)程序中難以表達(dá)的,這種方案在特征檢測(cè)領(lǐng)域中效果很好。神經(jīng)網(wǎng)絡(luò)的目標(biāo)是以與人類大腦相同的方式解決問題,現(xiàn)代神經(jīng)網(wǎng)絡(luò)項(xiàng)目通常使用幾千到幾百萬個(gè)神經(jīng)單元和數(shù)百萬的連接, 這比人類大腦的復(fù)雜性還要少幾個(gè)數(shù)量級(jí),更接近于蠕蟲的計(jì)算能力。 為了訓(xùn)練它們,通常發(fā)生幾千次交互循環(huán)。 神經(jīng)網(wǎng)絡(luò)已被用于解決使用普通的基于規(guī)則的編程難以解決的各種各樣的任務(wù),如智能化學(xué)習(xí)。歷史上,神經(jīng)網(wǎng)絡(luò)模型的使用向高級(jí)人工智能的方向移動(dòng),其特征在于包含在具有一些動(dòng)力系統(tǒng)的認(rèn)知模型的參數(shù)中的知識(shí)。
2.2 灰色關(guān)聯(lián)度分析
灰色關(guān)聯(lián)分析方法,是根據(jù)因素之間發(fā)展趨勢(shì)的相似或相異程度,來進(jìn)行歸納和評(píng)價(jià),作為衡量因素間關(guān)聯(lián)程度的一種方法。灰色關(guān)聯(lián)度分析使用特定的信息概念。它定義沒有信息為黑色的情況以及具有完美信息為白色的情況,這些理想化的情況都不會(huì)出現(xiàn)在現(xiàn)實(shí)世界的問題中。事實(shí)上,這些過渡階段的情況被描述為灰色。因此,灰色系統(tǒng)意味著其中部分信息是已知的并且部分信息是未知的系統(tǒng)。根據(jù)這個(gè)定義,信息質(zhì)量形成從信息的缺乏到完整信息的存在過渡過程。由于不確定性總是存在,灰色分析可以得出一系列關(guān)于解決方案的清晰陳述。在一個(gè)極端情況下,這種方案無解,在另一個(gè)極端情況下,具有完美信息的系統(tǒng)具有獨(dú)特的解決方案。在中間情況中,灰色系統(tǒng)將給出各種優(yōu)化的解決方案。灰色分析試圖找到最好的解決方案,提供了確定一個(gè)好的解決方案的技術(shù)來解決現(xiàn)實(shí)世界的問題。
3 大數(shù)據(jù)平臺(tái)的設(shè)計(jì)
3.1 平臺(tái)層
大數(shù)據(jù)分布式存儲(chǔ)系統(tǒng):研究大規(guī)模、非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)問題,突破大數(shù)據(jù)的存儲(chǔ)、管理和高效訪問關(guān)鍵技術(shù),當(dāng)前需要構(gòu)建至少 PB 級(jí)存儲(chǔ)能力的大數(shù)據(jù)平臺(tái)才能滿足一般的科研和應(yīng)用需求。
分布式數(shù)據(jù)挖掘運(yùn)行時(shí)系統(tǒng):突破 MapReduce 技術(shù)的局限,研究有效支持迭代、遞歸、層次及集成機(jī)制的海量數(shù)據(jù)挖掘編程模型和運(yùn)行時(shí)系統(tǒng),構(gòu)建大數(shù)據(jù)運(yùn)行時(shí)系統(tǒng)。
3.2 功能層
高可擴(kuò)展性大數(shù)據(jù)挖掘算法:基于云計(jì)算的分布式大數(shù)據(jù)處理與挖掘算法,構(gòu)建高可擴(kuò)展的大數(shù)據(jù)處理與挖掘算法庫(kù),實(shí)現(xiàn) TB 級(jí)數(shù)據(jù)的建模能力。
分布式工作流引擎:基于云計(jì)算的分布式工作流調(diào)度、負(fù)載均衡技術(shù),構(gòu)建高效分布式工作流執(zhí)行引擎。
交互式可視化分析技術(shù):?jiǎn)l(fā)式、人機(jī)交互、可視化數(shù)據(jù)挖掘新技術(shù),實(shí)現(xiàn)大數(shù)據(jù)挖掘的高度人機(jī)交互功能。
3.3 服務(wù)層
基于 Web 的大數(shù)據(jù)挖掘技術(shù):Web 的大數(shù)據(jù)挖掘方法和流程,實(shí)現(xiàn)易于使用的基于 Web 的大數(shù)據(jù)挖掘技術(shù),構(gòu)建基于 Web 的大數(shù)據(jù)分析環(huán)境。
基于Open API 的大數(shù)據(jù)挖掘技術(shù):Open API 的大數(shù)據(jù)挖掘方法,研究大數(shù)據(jù)挖掘開放接口、開放流程,構(gòu)建基于 Open API 的大數(shù)據(jù)分析模式。
4 大數(shù)據(jù)算法的應(yīng)用分析
4.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是發(fā)現(xiàn)大數(shù)據(jù)數(shù)據(jù)規(guī)律的計(jì)算過程,涉及人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)和數(shù)據(jù)庫(kù)系統(tǒng)結(jié)合的方法,它是一個(gè)跨學(xué)科的計(jì)算機(jī)科學(xué)子領(lǐng)域。數(shù)據(jù)挖掘過程的總體目標(biāo)是從數(shù)據(jù)集中提取信息并將其轉(zhuǎn)換為可以理解的結(jié)構(gòu)以供進(jìn)一步使用。除了原始數(shù)據(jù)分析外,它涉及數(shù)據(jù)庫(kù)和數(shù)據(jù)管理方面、數(shù)據(jù)預(yù)處理、模型和推理、復(fù)雜性考慮、結(jié)構(gòu)整合處理、可視化和在線更新。數(shù)據(jù)挖掘是一個(gè)熱門的領(lǐng)域,并且經(jīng)常應(yīng)用于各種形式的大規(guī)模數(shù)據(jù)或信息處理,主要包括收集、提取、存儲(chǔ)、分析和統(tǒng)計(jì)以及計(jì)算機(jī)決策支持系統(tǒng)的應(yīng)用,包括人工智能、機(jī)器學(xué)習(xí)和商業(yè)智能。實(shí)際的數(shù)據(jù)挖掘任務(wù)是大量數(shù)據(jù)的自動(dòng)或半自動(dòng)分析,從而提取先前未知的數(shù)據(jù)存在模式,例如聚類分析、異常數(shù)據(jù)檢測(cè)和關(guān)聯(lián)規(guī)則挖掘、順序模式分析等,這通常涉及使用諸如數(shù)據(jù)索引的數(shù)據(jù)庫(kù)技術(shù)。數(shù)據(jù)收集、數(shù)據(jù)準(zhǔn)備或結(jié)果解釋和報(bào)告都不是數(shù)據(jù)挖掘步驟的一部分,但是作為附加步驟屬于整個(gè)數(shù)據(jù)挖掘過程。數(shù)據(jù)挖掘、數(shù)據(jù)捕獲和數(shù)據(jù)窺探是指使用數(shù)據(jù)挖掘方法對(duì)較大數(shù)據(jù)集的部分進(jìn)行抽樣分析。雖然這些數(shù)據(jù)集太小,不足以進(jìn)行可靠的統(tǒng)計(jì)推斷以得出更多有價(jià)值的信息。然而,這些方法可以用于創(chuàng)建新的假設(shè),以測(cè)試更大的數(shù)據(jù)群體。
4.2 機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)的子領(lǐng)域,它使計(jì)算機(jī)能夠?qū)W習(xí)而不用明確編程。從模式識(shí)別和計(jì)算學(xué)習(xí)理論在人工智能的研究演變而來,機(jī)器學(xué)習(xí)探索學(xué)習(xí)對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)算法的研究和構(gòu)建,這樣的算法克服了嚴(yán)格的靜態(tài)程序指令數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)或決策,通過從樣本輸入來建立一個(gè)模型。機(jī)器學(xué)習(xí)在一系列計(jì)算任務(wù)中使用,其中有著明確算法的設(shè)計(jì)和編程是不可行的,比如垃圾郵件過濾、檢測(cè)網(wǎng)絡(luò)入侵者或惡意內(nèi)部人員、光學(xué)字符識(shí)別、搜索引擎和計(jì)算機(jī)視覺,這些方面都沒有明確的算法表示。機(jī)器學(xué)習(xí)與計(jì)算統(tǒng)計(jì)密切相關(guān),并且經(jīng)常與計(jì)算統(tǒng)計(jì)重疊,計(jì)算統(tǒng)計(jì)也集中在通過使用計(jì)算機(jī)的預(yù)測(cè)中。它與數(shù)學(xué)優(yōu)化有著緊密的聯(lián)系,它將方法、理論和應(yīng)用領(lǐng)域傳遞到現(xiàn)場(chǎng)。機(jī)器學(xué)習(xí)有時(shí)與數(shù)據(jù)挖掘相結(jié)合,后者的子領(lǐng)域更側(cè)重于探索性數(shù)據(jù)分析。機(jī)器學(xué)習(xí)也可以是全自動(dòng)化的,用來學(xué)習(xí)和建立各種實(shí)體的行為預(yù)測(cè),然后用于發(fā)現(xiàn)有價(jià)值的異常情況。在數(shù)據(jù)分析領(lǐng)域,機(jī)器學(xué)習(xí)是一種用于設(shè)計(jì)適合預(yù)測(cè)的復(fù)雜模型和算法的方法,在商業(yè)應(yīng)用中,這被稱為預(yù)測(cè)分析。這些分析模型允許研究人員、數(shù)據(jù)科學(xué)家、工程師和分析師通過學(xué)習(xí)數(shù)據(jù)中的歷史關(guān)系和趨勢(shì)來產(chǎn)生可靠的、可重復(fù)的決策和結(jié)果并揭示隱藏的規(guī)律。
5 總結(jié)與展望
大數(shù)據(jù)技術(shù)算法的創(chuàng)新是一條光明而曲折的路,在這條路上會(huì)出現(xiàn)很多難題與挑戰(zhàn),這個(gè)任務(wù)長(zhǎng)期而又艱巨,需要結(jié)合實(shí)際經(jīng)驗(yàn),不斷地進(jìn)行總結(jié)歸納。為實(shí)現(xiàn)自身的長(zhǎng)遠(yuǎn)發(fā)展而進(jìn)行大膽革新,利用創(chuàng)新思維進(jìn)行現(xiàn)代化建設(shè),從而大踏步地走向智能化的大數(shù)據(jù)發(fā)展目標(biāo)。
參考文獻(xiàn)
[1]陳曉,趙晶玲.大數(shù)據(jù)處理中混合型聚類算法的研究與實(shí)現(xiàn)[J].信息網(wǎng)絡(luò)安全,2015(04).
[2]楊婷婷,林昌露,劉憶寧,張勝元.基于多方排序協(xié)議的安全電子投票方案[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015(08).
[3]文坤,廖瑛,楊雅君.帶有空間機(jī)械臂的航天器系統(tǒng)慣性參數(shù)辨識(shí)[J].飛行器測(cè)控學(xué)報(bào),2015(04).
[4]何鋒,谷鎖林,陳彥輝.基于編輯距離相似度的文本校驗(yàn)技術(shù)研究與應(yīng)用[J].飛行器測(cè)控學(xué)報(bào),2015(04).
[5]黃冬梅,杜艷玲,賀琪.混合云存儲(chǔ)中海洋大數(shù)據(jù)遷移算法的研究[J].計(jì)算機(jī)研究與發(fā)展,2014(01).
[6]孔凡新,劉麗.云環(huán)境下的隱私保護(hù)密文排序查詢[J].計(jì)算機(jī)工程與設(shè)計(jì),2014(01).
[7]何清,李寧,羅文娟,史忠植.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識(shí)別與人工智能,2014(04).
[8]程芳權(quán),彭智勇,宋偉,王書林,崔一輝.云環(huán)境下一種隱私保護(hù)的高效密文排序查詢方法[J].計(jì)算機(jī)學(xué)報(bào),2012(11).
[9]王茜,楊正寬.一種基于加權(quán)KNN的大數(shù)據(jù)集下離群檢測(cè)算法[J].計(jì)算機(jī)科學(xué),2011(10).
[10]陳書讓.超大數(shù)據(jù)量的快速排序法[J]. 物探化探計(jì)算技術(shù),2000(04).
作者簡(jiǎn)介
李躍(1979-),男,黑龍江省大慶市人。研究生學(xué)歷?,F(xiàn)為大慶師范學(xué)院講師。
作者單位
大慶師范學(xué)院 黑龍江省大慶市 163712