萬 璞,王麗莎
(昭通學院,云南 昭通 657000)
?
數據挖掘與人工智能技術研究
萬 璞,王麗莎
(昭通學院,云南 昭通 657000)
摘 要:數據挖掘是通過數據采集、處理進行知識表示的過程,是進行海量數據中有效數據挖掘的重要技術;而人工智能則是通過充分利用計算機技術以及其他學科技術進行智能學習、自動控制的人腦模擬技術手段。二者都是前沿的數據控制處理技術,都有非常廣泛的應用前景。文章分別介紹了二者的核心內容以及互相聯系,并簡單的進行了相關領域的展望,希望能夠以此對發展智能化管理控制技術發展有一定的幫助。
關鍵字:數據挖掘;人工智能;技術
1.1 數據挖掘簡介
數據挖掘(Data mining),主要是指對數據庫中數據進行探索的一個過程。一般而言,數據挖掘從概念而言,包含3個方面的內容,即數據源數據的收集、對于數據源數據的處理以及最終的有效數據的表示。數據挖掘技術的應用領域主要集中在數據分析、模式識別和情報檢索等方面,同時人工智能技術以及數據庫技術都與其有著緊密的聯系。隨著數據信息爆發式的發展,從海量的數據中挖掘分析出對于管理決策、生產控制有用的數據是非常必要的,數據挖掘正是基于這樣的需求日益被人們所重視。傳統的數據挖掘更加側重計算機技術的應用而未來數據發掘必然是信息科學、電子科學、計算機技術、建模技術、統計技術的大融合,隨著大數據處理技術的應用、云計算的飛速發展以及數據挖掘算法的不斷提升,數據挖掘必將邁向大有作為的舞臺。
1.2 數據挖掘步驟
如圖1所示,數據挖掘的步驟分為4個主要階段,源數據的收集階段、數據預處理階段、數據挖掘階段、數據評估以及知識表示階段。

圖1 數據挖掘步驟
1.3 數據挖掘常見的方法
數據挖掘中大部分方法都不是專為解決某個問題而特制的,方法之間也不互相排斥。數據挖掘的方法主要有:關聯分析、聚類分析、預測、時序模式分析和偏差分析等。常見和應用最廣泛的算法和模型有:
(1)傳統統計方法:抽樣技術、多元統計分析和統計預測方法等。
(2)可視化技術:用圖表等方式把數據特征直觀地表述出來。
(3)決策樹:利用一系列規則劃分,建立樹狀圖,用樹形結構來表示決策集合,可用于分類和預測,常用的算法有CART,CHAID,ID3,C4.5,C5.0等。
(4)人工神經網絡:模擬人的神經元功能,從結構上模仿生物神經網絡,經過輸入層、隱藏層、輸出層等,對數據進行調整、計算,最后得到結果,是一種通過訓練來學習的非線性預測模型,可以完成分類、聚類、特征挖掘、回歸分析等多種數據挖掘任務。
(5)遺傳算法:基于自然進化理論,在生物進化的概念基礎上設計的一種優化技術,它包括基因組合、交叉、變異和自然選擇等一系列過程,通過這些過程以達到優化的目的,模擬基因聯合、突變、選擇等過程的一種優化技術。
(6)關聯規則挖掘算法:關聯規則是描述數據之間存在關系的規則,形式為“A1∧A2∧…∧An→B1∧B2∧…∧Bn”。一般分為兩個步驟:第一步,求出頻繁數據項集;第二步,用頻繁數據項集產生關聯規則。
(7)最近鄰技術:這種技術通過已辨別歷史記錄的組合來辨別新的記錄,它可以用來做聚類和偏差分析。
每一種數據挖掘技術都有其自身的優勢和不足,在進行具體技術選擇的時候應根據數據特點以及用戶需求進行合理的選擇。
2.1 人工智能簡介
人工智能(Artificial Intelligence)是一門新興的計算機科學分支,主要是研究模擬人類的思考行為方式進行智能化控制的一個領域。人工智能當前最為典型的應用有圖像識別技術、語音系統、視覺識別、機器人技術等,其應用領域十分廣泛,幾乎在各個行業以及領域都能尋覓到人工智能的身影,并且伴隨著相關技術以及理論的逐漸成熟,越來越多的人工智能科技產品必將對人類生產、生活帶來顛覆性的影響。人工智能技術的關鍵點在于能夠模擬人的思維模式來進行智能化的信息處理以及行為判斷。另外,人工智能技術不僅僅包含了計算機相關技術,還包括數學、邏輯學、心理學、哲學、行業技術等廣泛的技術,人工智能技術使得機器從事復雜工作成為可能。
2.2 人工智能技術發展
如表1所示,人工智能的核心技術主要經歷了大腦模擬、符號處理、字符號法、統計學法、集成方法等。大腦模擬主要是研究探索信息控制和神經系統之間的聯系,構筑電子元件人腦模型的一種研究思路,符號處理是在大腦模擬失敗以后,符號處理研究主要是通過符號信息處理的過程來實現人工智能的實現方式,該階段出現了數字計算機,但是由于研究過于簡單化,忽視了控制論、生物神經等交叉學科的作用,最終也沒有獲得重大突破。字符號方法研究研究者進行符號處理失敗以后,進行具體問題的研究階段,在該階段機器人、嵌入式智能等設備出現為下一步人工智能奠定了一定的基礎,同時人們也逐漸意識到了神經網絡理論、控制理論以及其他學科融合的必要性。后來經歷了統計學法和集成方法階段,通過環境感知來進行智能化控制的目標成為研究的核心,該階段更加注重了與行業知識的結合,對于人工智能技術的發展起到了巨大的推動作用。

表1 人工智能技術發展概況
2.3 人工智能應用領域
人工智能的研究與應用領域人工智能存在許多不同的研究領域,如語言處理、自動定理證明、計算智能、智能數據檢索系統、視覺系統、問題求解、人工智能方法和程序語言以及自動程序設計等。人工智能在人們日常生活中最為常見的應用即蘋果的Siri 以及安卓設備的語音識別應用。目前人工智能技術的主要成就包括IBM的(深藍)程序,在國際象棋比賽中打敗世界冠軍卡斯帕羅夫;谷歌公司的AlphaGo戰勝傳奇圍棋手李世石;軟件巨頭Microsoft公司推出的聊天機器人一天學會罵人并自主隨意發帖而被迫終止的AI實驗。或多或少人工智能以各種方式融入人們的日常生活,這些技術的每一步發展都會帶給人們顛覆性的影響。
數據挖掘與人工智能技術有著密切聯系,甚至許多關鍵的技術都彼此一致,尤其在數據推理和數據搜索方面具有高度的一致,無論是傳統的與或非邏輯推理、歸納推理過程,還是模態、多值推理過程基本原理都是一致的,其推理的正確性對于數據挖掘有效性以及人工智能數據處理都有著重要的意義。而搜索應用方面在數據挖掘過程中得到了充分的體現,都是根據用戶需求不斷探尋可利用路徑,構造花費較少的推理計算過程,數據搜索的效率直接決定著數據挖掘的快慢。例如,在屬性約簡中,如果我們發現某一列屬性的取值完全一樣或區分能力不大,則可以提前刪去。另外,在挖掘關聯規則時,如果發現頻繁K項集的任一(K21)項候選集不存在,則終止搜索剩余的(K21)項候選集,就可以判斷“頻繁K項集是不存在的”;等等。搜索機制提高了數據挖掘的效率,這對解決人工智能中的NP難問題是一個積極的探索。由此可見,數據挖掘技術與人工智能技術有著諸多的聯系,具體表現為技術的交叉性。
對于數據挖掘以及人工智能技術分析,可以看出其未來發展都朝著集成化、網絡化以及復雜化方向發展,集成化主要是指多種技術手段的不斷融合,跨學科、跨領域現象明顯,網絡化則是充分發揮網絡的關鍵作用,可以將終端設備處理能力無限拓展,形成強有力的管理控制能力,復雜度主要指各種技術解決難題不僅僅局限于計算機領域,在商業模式、工業控制、金融決策等都可能得到有效應用。
數據挖掘以及人工智能技術是計算機學科領域重要的分支技術,其對于人們的日常生活生產都產生了重大影響,是各個IT巨頭爭奪的制高點,本文分別介紹了數據挖掘技術以及人工智能技術中的關鍵點,二者之間的聯系以及技術展望,隨著相關理論以及技術的不斷成熟,數據挖掘以及人工智能得到更為廣泛的應用。
[參考文獻]
[1]常凱.基于神經網絡的數據挖掘分類算法比較和分析研究[D].合肥:安徽大學,2014.
[2]陳艷華.基于人工智能優化的支持向量機算法研究和應用[D].蘭州:蘭州大學,2014.
[3]董國華.基于數據挖掘的中醫診斷智能信息化技術研究[D].青島:青島科技大學,2015.
[4]姬盈利.基于多群協同人工魚群算法的分類規則挖掘研究[D].武漢:華中師范大學,2013.
[5]楊庭庭,徐凱.人工智能用于異常數據挖掘研究綜述[J].電子技術與軟件工程,2014(8):198.
Research on Data Mining and Artificial Intelligence Technology
Wan Pu ,Wang Lisha
(Zhaotong University,Zhaotong 657000,China)
Abstract:Data mining is a through the data acquisition,processing,the process of knowledge representation,is an important technology of the effective data mining in huge amounts of data;And artificial intelligence is through making full use of computer technology and other disciplines of intelligent learning,automatic control of simulation technology of the human brain,both are preface of data control processing technology,has a very broad application prospect,this paper introduces the core content of the two and contact each other,and has carried on the related areas of simple outlook,hope to be able to in order to control the development of intelligent management technology development has certain help.
Key words:data mining;artificial intelligence;technology
作者簡介:萬璞(1977-),男,云南昭通;研究方向:數據挖掘與人工智能技術研究。