員青澤
摘要:人工智能與大數據平臺是業內研究的主要課題之一,如果能夠將二者進行有機融合,則可使大數據平臺變得更加智能化,對于其應用領域的拓寬具有重要的現實意義。基于此點,文章從關鍵技術、平臺搭建和應用三個方面,對人工智能大數據平臺及應用展開論述。
關鍵詞:人工智能;大數據;平臺
中圖分類號:TP3? ? ? 文獻標識碼:A
文章編號:1009-3044(2020)26-0171-02
人工智能作為一項先進的技術,它能夠輔助大數據平臺對海量的數據進行深入挖掘和分析,從而進一步提升大數據的利用效率,使數據發揮出應有的價值。不僅如此,人工智能可以對文本、圖像以及視頻等類型的數據進行處理,由此使得數據的發現能力得到大幅度提高,并且可以將結果輸出到顯示器上,實現了數據可視化。作為計算機領域的核心技術,人工智能日漸成熟,它與大數據平臺的融合,可以使平臺的處理速度和自動化水平達到一個新的高度。借此,本文就人工智能大數據平臺及應用展開分析探討。
1人工智能大數據平臺的關鍵技術
1.1 Hadoop架構
Hadoop是分布式系統的基礎架構,它可以對大量數據進行分布式處理,該框架的可靠性非常之高,這是因為其在構建過程中,假設計算和數據存儲全部都會失敗,所以需要對多個數據副本進行維護,確保能夠對失敗的節點進行重新地分布處理。由于該架構采用的是并行處理方式,因此使其具備了較快的處理速度,處理過程更加高效。Hadoop具有可伸縮的特性,可以對PB級的數據進行處理,它是開源的,任何人都可以使用,成本相對較低。在大數據處理中,Hadoop架構得到越來越廣泛的應用,這與其在ETL(數據提取、轉換、加載)方面的優勢有著密不可分的關聯,通過分布式系統能夠使大數據處理引擎靠近存儲,從而使處理結果可以被直接存儲。
1.2 HDFS
HDFS是分布式文件系統的簡稱,是Hadoop架構的底部基礎,它的上一層是MapReduce引擎。HDFS最初的開發目的是為了對超大的文件進行處理,其特點主要體現在如下幾個方面:吞吐率高、可靠性高、容錯率高、易于擴展等,能夠對海量數據進行無障礙存儲。HDFS以通用的硬件作為基礎,現已成為大規模數據存儲的標準之一。HDFS為M/S(主從)架構,其集群中包含兩類節點,一類是NameNode(管理者),另外一類是DateNode(工作者),前者能夠對文件內數據節點的信息、集群配置信息以及文件命名空間等進行管理,而后者則是存儲文件的主要單元。
1.3 Hive
Hive是以Hadoop為依托構建起來的數據倉庫平臺,只要熟悉SQL編程方法,便可輕松實現向Hadoop轉移的目標,這是Hive最初設計的主要目的。早期的Hive是Face book(臉書)的組成部分之一,現在的Hive則是Apache的獨立子項目。Hive作為Hadoop的數據倉庫,其能夠提供如下管理功能:對大型的數據集進行查詢和分析,并對相關的數據進行存儲管理,支持用戶進行SQL操作,并支持MapReduce框架。Hive的體系架構由以下幾個部分構成:用戶接口、Thrift服務器、元數據存儲以及解析器等。
1.4 Python
Python是一種能夠跨平臺應用的計算機編程語言,是一個高層次的腳本語言,具備解釋性、編譯性、互動性等特點,可用于自動化腳本的編寫。Python應用領域較為廣泛,主要涉及如下幾個方面:人工智能、大數據、云計算、Web開發、系統運維等。Python具有開源的特性,由此使其可被移植到多個平臺上使用,基于Python編寫出來的程序,在無須修改的情況下,能夠在大量的系統平臺上直接運行。
2人工智能大數據平臺的搭建
人工智能大數據平臺的搭建是一項較為復雜且系統的工作,為簡化搭建流程,可將人工智能與大數據進行有機融合,構建起一個大數據智能平臺。具體而言,就是為大數據平臺賦予人工智能的相關能力,在這一目標的實現中,要使Hadoop與開源的人工智能架構進行融合。
2.1融合要求
在人工智能與大數據平臺融合的過程中,應當滿足如下要求。
2.1.1隔離機制
融合之后形成的大數據智能平臺應當能夠支持Docker(應用容器引擎)等Isolation mechanism(隔離機制),并且能夠適應更新速度比較快的人工智能開關框架和Python標準庫。同時,不會對平臺的運行穩定性造成影響,可以對人工智能訓練進行隔離,彼此之間不會發生相互干擾的情況。
2.1.2代碼無縫對接
豐富的源碼共享是開源人工智能框架所具備的基本特點之一,在進行融合的過程中,應當使大數據平臺支持人工智能的原生代碼,并使這些代碼能夠與平臺無縫對接,這樣可以減輕平臺的研發量。想要實現這一目標,要求Hadoop架構與人工智能框架可以互相兼容。
2.1.3 HDFS銜接
為了使大數據平臺具備人工智能的能力,需要對海量的數據資源進行充分利用。故此,應當確保人工智能框架能夠直接對HDFS文件數據進行直接訪問和使用,否則將會對平臺的應用效果造成影響。
2.2 融合框架
人工智能與大數據平臺有機融合之后,形成大數據智能平臺,該平臺分為以下三個層次:數據處理層、賦能層和應用層。為實現數據處理與人工智能賦能之間的銜接,引入數據融合引擎,對數據處理層與賦能層進行深度黏合。
2.2.1數據處理層
該層以Hadoop集群作為支撐,對相關的數據開源架構進行融合,包括Hive、Spark等,具備如下功能:數據采集、數據抽取、數據轉換、數據加載、數據分析、數據治理、數據共享以及可視化展示等。
2.2.2數據融合引擎
在大數據智能平臺中,數據融合引擎的加入能夠實現人工智能框架、算法模型與大數據平臺三者之間的無縫銜接,它能夠實現隔離機制,保證人工智能代碼的對接和HDFS文件數據的銜接。
2.2.3賦能層
該層由兩個部分組成,一部分是深度學習,其中全部為人工智能的開源框架,如PyTorch、Caffe等。另一部分是機械學習算法,包括聚類算法、分類算法以及回歸算法等。
2.2.4應用層
該層以海量的大數據作為依托,以成熟度比較高的人工智能算法為基礎,以預測的方法,對人工智能模型進行訓練,進而提供各種智能應用。
3人工智能大數據平臺的應用
本文所搭建的平臺是將人工智能與大數據平臺進行有機融合,從而使平臺本身具備了智能性,由于整個平臺采用的是開源架構,所以該平臺具有良好的通用性,能夠在諸多領域中進行應用,具體包括電力、醫療、物流等。
3.1在電力領域的應用
電廠是電力系統中不可或缺的重要組成部分之一,主要負責電能的生產,可在電廠部署本文搭建的大數據智能平臺,借助該平臺對電廠運行中產生的數據進行處理,以此來提高數據處理效率,確保數據處理結果的準確性。電廠在對該平臺進行應用以后,解決了以下問題:通過該平臺對集散控制系統(DCS)的相關數據進行分析,得出設備重要的參數,據此構建監測模型,對數據進行持續監控,發現異常后DCS會自動發出報警,提示工作人員進行處理。當出現異常運行后,可利用該平臺對故障點產生的數據進行智能分析,從而找出導致故障的原因,幫助現場操作人員解決故障問題,恢復正常運行。該平臺能夠對數據進行可視化展示,它在電廠的應用改變了被動的管理方式,通過智能標簽的綁定,能夠對人員的位置進行實時顯示。不僅如此,該平臺還能對電廠的小指標進行智能化管理,對相關數據進行自動統計分析,從而及時發現超標的情況,進而降低員工的實際工作量。
3.2在醫療領域的應用
本文搭建的大數據智能平臺在醫療領域的應用,除了能夠提高醫療機構的管理水平之外,還能為醫療科研項目的開展提供一定的幫助。該平臺借助數據搜索引擎,可對某個區域內醫療機構的診療數據進行匯集,通過這些數據可以掌握區域的整體醫療狀況,從而為有關部門制定政策提供強有力的數據支撐。而醫院則可依托平臺提供的數據進行可視化分析,以此來對現有的醫療服務進行改進和完善,從而提高醫療水平和服務質量。該平臺可以對病案等信息進行收集,建立數據集市,醫院的管理人員可以利用數據集市對各個科室進行績效考評。同時,各個科室也可借助數據集市對本科室的醫護人員進行績效考核。在醫療科研方面,該平臺能夠對相關數據進行全局展示,并根據科研項目的實際情況對數據進行篩選,將不符合要求的數據剔除,提高了數據處理速度。
3.3在物流領域的應用
物流業是極具發展潛力的一個行業,它的發展有利于促進社會經濟的發展。物流涉及的環節比較多,如運輸、倉儲、裝卸、流通加工等,每個環節都會產生大量的數據信息,對這些數據進行深入挖掘,能夠提高物流配送效率,降低物流成本,滿足不同客戶的服務需求。本文搭建的平臺可在物流領域進行應用,能夠解決運輸路線的優化、庫存預測以及供應鏈協同管理等方面的問題,對于促進物流業的持續發展意義重大。比如,在車輛運輸路線優化中,通過本文搭建的大數據智能平臺,可以對送貨路線進行優化,平臺能夠找出多條路線,并從中選取出最佳路徑,縮短運輸路程和時間。
4結論
綜上所述,本文基于Hadoop架構,利用HFDS、Hive、Python等技術,對人工智能與大數據平臺進行融合,形成了大數據智能平臺,并對該平臺在電力、醫療、物流等領域中的應用進行分析。結果表明,本文構建的平臺具有良好的通用性,可以解決不同領域的實際問題,具有一定的推廣使用價值。
參考文獻:
[1] 王智陽,謝中朋,郭婷.構建應急大數據平臺解決應急管理面臨問題的探討[J].職業衛生與應急救援,2019(12):165-168.
[2] 曾云華,曾睿,袁武彬.智慧新余時空大數據平臺實景三維數據應用與展望[J].江西測繪,2019(12):154-156.
[3] 趙少東,王程斯.基于異構計算與實時可視化技術的綜合能源大數據平臺研究與應用[J].微型電腦應用,2019(11):127-129.
[4] 謝英杰.中醫院醫療大數據平臺智能搜索子系統設計與實現[D].山東大學,2019.
[5] 王永銳.調度指揮中心大數據平臺在企業信息化管理中的應用[J].機電信息,2020(3):54-57.
[6] 楊夏薇.基于Hadoop大數據平臺的人力資源決策技術研究[J].現代電子技術,2020(2):32-35.
【通聯編輯:張薇】