孟森玥


摘要:數據、算法、計算力是人工智能發展必備三要素,其中以數據最為關鍵。文章以數據分析為切入點,闡述了人工智能與數據分析的概念、組成,論述了人工智能在數據分析中的應用情況。
關鍵詞:人工智能;數據分析;深度學習
前言:在大數據、物聯網、云計算、互聯網等信息技術蓬勃發展過程中,圖形處理器、泛在感知數據計算平臺獲得了良好的發展機遇,為以深度神經網絡、知識問答、數據分析算法、圖像分類等為代表的人工智能技術發展提供了充足的驅動力。近幾年,人工智能技術大幅跨越了科學與應用之間的“技術鴻溝”,在數據分析方面也實現了從“不能用、不好用”到“可以用”的技術突破。基于此,探究人工智能在數據分析中的應用非常必要。
一、人工智能與數據分析
1、人工智能
在計算機科學領域,人工智能又可稱之為機器智能,即以機器為展示載體的智能,是一種與人類、動物展示的自然智能相對的概念[1]。在通俗意義上,人工智能特指用于描述模仿人類思維或與人類思維相關聯的“認知”功能的機器,比如“學習”、“解決問題”等。從組成上來看,人工智能可以劃分為人類啟發型、分析型、人性化人工智能三種不同類型。從研究問題上來看,人工智能領域不僅涉足了推理、學習、感知能力,而且包括數據統計方法、規劃、只是表示以及智能符號計算能力。
2、數據分析
數據分析是一個清理、檢查、轉換、構建數據模型的過程,旨在發現富有價值的信息、獲得結論、助力決策下達。數據分析領域涵蓋了多種名稱下的多種技術,可以在科學、商業、社會領域發揮功效。比如,在商業領域,利用數據分析可以提高決策下達科學性,助力企業有效運營。
在通俗意義上,數據分析主要是獲得原始數據并將原始數據進行轉換,形成對用戶決策富有價值信息的過程。包括數據要求、數據收集、數據處理、數據清理、探索性數據分析、建模和算法、數據產品、通訊幾個環節。
二、人工智能在數據分析中的應用措施
1、基于數據和算法的系統
人工智能開啟了一次數據再生產的革命,其不僅可以在短時間內扁平化行業鴻溝,代替數據分析行業經驗規則,而且會產生大量新的數據分析經驗,創造出更多新的數據價值。基于數據和算法的系統是人工智能在數據分析領域主要用工具,相較于常規靜態策略+人工干預手段而言,基于數據和算法的系統是以數據+系統的方法為基礎,拋棄數據分析經驗+程序的方式。比如,提出于18世紀的貝葉斯算法就實現了對客觀事物規律化數據的精確數學推理演繹。通過將任何行業數據所攜帶特征進行工程處理,轉化為數學問題后進行分析解決[2]。再如,谷歌團隊利用隱馬爾可夫算法,進行人類語言模型學習,構建了以隱馬爾可夫算法為基礎的語音識別模型。這一語音識別模型是一個具有代表性的數據+算法替代規則,再可以通過分析文本前后分布邏輯概率,結合大規模文章學習經驗,實現對語言知識以及行為運動姿態的自動學習。
基于算法和數據的人工智能系統強調數據深入淺出分析。以貝葉斯算法應用為例,已知在200個人有40個人得了流感,而90%患流感的患者可以檢測出陽性,9.0%未患流感的人也可以檢測出陽性。此時,在條件、答案已知的情況下,就可以計算條件概率P(結果陽性|健康人)=9.0%,此時,貝葉斯公式就可以表示為P(得流感|結果陽性),結合條件在結果為陽性的人的范圍內進行概率分析,即流感患者陽性人數與結果陽性總人數的比值。其中流感患者陽性人為:200×40%×90%;而結果陽性總人數為:(0.4×0.9+1.6×0.09)×200。
2、基于深度學習的數據分析
機器學習是實現人工智能的一種方法和一個途徑,其強調算法從數據中開展學習,在分析數據過程中尋找一種可擬合相關數據的模型,達到使用相關模型對未知數據進行預先估測的目的。深度學習則是在2012年后數據量急劇增加、計算能力迅速提升背景下出現的一種機器學習新算法,其使用的方法類似于機器學習,但更為注重通過深度神經我昂立進行數據特征的分析、學習、表達。
以深度學習在時空大數據(圖1)分析中的應用為例,時空大數據是指同時具有時間屬性、空間屬性的數據,比如,GPS定位數據、滴滴網約車訂單數據、人口密度數據等。由于時空大數據在時間、空間上均具有關聯,且存在平移動態變化特征,數據源影響因素多種多樣,對于數據源整合、分析提出了較大的挑戰,傳統圖像分類、機器翻譯方法并無法實現時空大數據分析。而利用人工智能領域的深度學習工具,可以抓住時空的關聯性,將多數據源不同質因子進行有機整合,拓展分析,解決數據缺失、噪聲過大對數據分析的不利影響。比如,在分析一個區域未來一段時間內網約車叫車訂單不會被滿足的極限問題時,可以利用深度學習的數據特征提取能力,將訂單數據、天氣數據、日期數據、位置數據進行整合,形成一個深度學習框架,在框架內具有多個模塊,每一個模塊負責處理不同類型的數據[3]。
如圖2所示,Environment part負責處理環境信息,而order part則負責進行訂單數據處理,Identify part負責處理時間數據,并利用一個residual link(殘差連接)將多模塊整合,最終實現端到端數據源信息預測分析。
總結:
綜上所述,人工智能是多個學科的知識融合,而數據分析是人工智能的主要應用領域,只有切實將人工智能應用到數據分析領域,才可以保證人工智能的可持續發展。因此,在利用人工神經網絡、基于概率學的方法、搜索和數學優化等人工智能工具進行數據分析的基礎上,應從人與機器之間數據交互入手,進行人工智能的恰當應用,以便在短時間內扁平化數據分析領域的壁壘,構建新的人工智能作用發揮鏈,為智能文明新紀元的開啟奠定基礎。
參考文獻:
[1]李國良,周煊赫.面向AI的數據管理技術綜述[J].軟件學報,2021(01):21-40.
[2]陳翠娟.改進的多項樸素貝葉斯分類算法和Python實現[J].景德鎮學院學報,2021(03):92-95.
[3]孔繁鈺,周愉峰,陳綱.基于時空特征挖掘的交通流量預測方法[J].計算機科學,2019(07):322-326.