摘要:科學技術的不斷前進使人工智能受到了更多人的注重。作為一種高尖端技術,其前期開展較為緩慢,可是就近幾年的開展狀況來說,人工智能的理論研究與實踐使用已取得了長足前進。而這一前進,雖不能完全歸功于信息技術與大數據技術,可是這兩種技術為人工智能技術的開展起到了極大的推進效果。因而,對數據發掘在人工智能上的使用進行深入研究顯得尤為重要。
關鍵詞:數據挖掘;人工智能;決策
一、數據挖掘技術
(一)數據挖掘簡介
數據挖掘(Datamining),主要是指對數據庫中數據進行探索的一個過程。一般而言,數據挖掘從概念而言,包含3個方面的內容,即數據源數據的收集、對于數據源數據的處理以及最終的有效數據的表示。數據挖掘技術的應用領域主要集中在數據分析、模式識別和情報檢索等方面,同時人工智能技術以及數據庫技術都與其有著緊密的聯系。隨著數據信息爆發式的發展,從海量的數據中挖掘分析出對于管理決策、生產控制有用的數據是非常必要的,數據挖掘正是基于這樣的需求日益被人們所重視。傳統的數據挖掘更加側重計算機技術的應用而未來數據發掘必然是信息科學、電子科學、計算機技術、建模技術、統計技術的大融合,隨著大數據處理技術的應用、云計算的飛速發展以及數據挖掘算法的不斷提升,數據挖掘必將邁向大有作為的舞臺。
(二)數據挖掘步驟
源數據的收集階段、數據預處理階段、數據挖掘階段、數據評估以及知識表示階段。
(三)數據挖掘常見的方法
數據挖掘中大部分方法都不是專為解決某個問題而特制的,方法之間也不互相排斥。數據挖掘的方法主要有:關聯分析、聚類分析、預測、時序模式分析和偏差分析等。常見和應用最廣泛的算法和模型有:
1.傳統統計方法:抽樣技術、多元統計分析和統計預測方法等。
2.可視化技術:用圖表等方式把數據特征直觀地表述出來。
3.決策樹:利用一系列規則劃分,建立樹狀圖,用樹形結構來表示決策集合,可用于分類和預測,常用的算法有CART,CHAID,ID3,C4.5,C5.0等。
4.人工神經網絡:模擬人的神經元功能,從結構上模仿生物神經網絡,經過輸入層、隱藏層、輸出層等,對數據進行調整、計算,最后得到結果,是一種通過訓練來學習的非線性預測模型,可以完成分類、聚類、特征挖掘、回歸分析等多種數據挖掘任務。
5.遺傳算法:基于自然進化理論,在生物進化的概念基礎上設計的一種優化技術,它包括基因組合、交叉、變異和自然選擇等一系列過程,通過這些過程以達到優化的目的,模擬基因聯合、突變、選擇等過程的一種優化技術。
6.關聯規則挖掘算法:關聯規則是描述數據之間存在關系的規則,形式為“A1∧A2∧…∧An→B1∧B2∧…∧Bn”。一般分為兩個步驟:第一步,求出頻繁數據項集;第二步,用頻繁數據項集產生關聯規則。
7.最近鄰技術:這種技術通過已辨別歷史記錄的組合來辨別新的記錄,它可以用來做聚類和偏差分析。每一種數據挖掘技術都有其自身的優勢和不足,在進行具體技術選擇的時候應根據數據特點以及用戶需求進行合理的選擇。
二、人工智能的發展情況
人工智能技術研究的主要方向是計算與知識,其將會通過研究計算與知識之間的關系,從而生產與發明一些適應人們生活的“科技物品”。那么我們就可以簡單將人工智能技術的基本實質概括為以下這一觀點:人工智能技術的實質是通過智能系統與智能機器,將人類的一些基本功能進行延伸、模擬、發展。人工智能技術是在多種學科理論的支持下所形成的新技術。我們可以將人工智能技術看作是信息化時代的必然產物,也可以將其看作是信息化社會的必然需求。例如,人工智能技術在互聯網、信息化教育、信息化高速公路等方面,都將會發揮很大的作用。
人工智能理念最早是由McCarthyJ等正式提出的,在隨后的幾年時間里,人工智能受到了廣泛關注,并且人工智能技術的快速發展,已經取得了很多引人注目的成就。例如在1956年出現的跳棋程序,這一人工智能程序在隨后的六年時間里,戰勝了一個州的跳棋玩家。在1958年,美籍華人王浩在IBM2704計算機上用3~5分鐘,佐證了技術內部有關命題演算所涉及的全部定理。1959年,人工智能模式識別程序誕生。1977年,FeigenbaumEA在國際人工智能聯合會議中,首次提出了“知識工程”概念,應用知識為人工智能的研究與體系構建起到了重要作用。1997年,IBM和公司所制作的“深藍”計算機人工智能系統戰勝了國際象棋大師卡斯帕羅夫等人。
就人工智能技術的發展來說,其早期涉及領域主要有專家系統、自動定理系統、機器人學、博弈、人工神經網絡等。而為了應對日益復雜的社會環境,現階段的人工智能研究領域還涉及數據挖掘、職能決策等。其中數據挖掘對于人工智能技術的發展來說,具有鮮明的現實意義。主要原因在于20世紀80年代初期,美國、歐洲、日本的人工智能技術研究都面臨著很大程度的數據問題,而這些問題一方面是交叉問題,另一方面則是擴展問題。
三、數據挖掘與人工智能之間聯系以及技術展望
數據挖掘與人工智能技術有著密切聯系,甚至許多關鍵的技術都彼此一致,尤其在數據推理和數據搜索方面具有高度的一致,無論是傳統的與或非邏輯推理、歸納推理過程,還是模態、多值推理過程基本原理都是一致的,其推理的正確性對于數據挖掘有效性以及人工智能數據處理都有著重要的意義。而搜索應用方面在數據挖掘過程中得到了充分的體現,都是根據用戶需求不斷探尋可利用路徑,構造花費較少的推理計算過程,數據搜索的效率直接決定著數據挖掘的快慢。例如,在屬性約簡中,如果我們發現某一列屬性的取值完全一樣或區分能力不大,則可以提前刪去。另外,在挖掘關聯規則時,如果發現頻繁K項集的任一(K21)項候選集不存在,則終止搜索剩余的(K21)項候選集,就可以判斷“頻繁K項集是不存在的”;等等。搜索機制提高了數據挖掘的效率,這對解決人工智能中的NP難問題是一個積極的探索。由此可見,數據挖掘技術與人工智能技術有著諸多的聯系,具體表現為技術的交叉性。
對于數據挖掘以及人工智能技術分析,可以看出其未來發展都朝著集成化、網絡化以及復雜化方向發展,集成化主要是指多種技術手段的不斷融合,跨學科、跨領域現象明顯,網絡化則是充分發揮網絡的關鍵作用,可以將終端設備處理能力無限拓展,形成強有力的管理控制能力,復雜度主要指各種技術解決難題不僅僅局限于計算機領域,在商業模式、工業控制、金融決策等都可能得到有效應用。
結語
就人工智能技術本身來說,其發展還應結合人們的生活實際,然后不斷提升現有的技術。數據挖掘技術作為大數據技術的一種,雖然其自身具有一定的局限性,但是仍然可以為當下的人工智能發展提供必要的動力。
參考文獻
[1]尹云飛,張師超,徐章艷.一種實用的軟件數據挖掘模型[J].計算機應用.2016(06).
[2]尹云飛,鐘智.一種聚類挖掘軟件數據的方法[J].河南科技大學學報(自然科學版).2016(02).
[3]凌志泉.搜索引擎中的網絡數據挖掘技術[J].計算機工程與設計.2016(09).
作者簡介:劉恒竹,女,(1996-),山東人, 本科學歷。