大數據環境下批量處理的機器智能識別技術分析

2020-11-16 02:11:06李偉田高華賴玲

數碼世界 2020年10期

李偉　田高華　賴玲

摘要：網絡信息技術不斷發展，在很大程度上便利了人們的生產生活，大大推動了社會進步，可以預見到，在未來機器智能技術將繼續發展，并且會擁有更強大的信息處理能力，在人們的生產生活中占據更加重要的位置。本文將結合當前社會的發展現狀，對大數據環境下批量處理的機器智能識別技術展開分析。

關鍵詞：大數據環境;批量處理;機器智能識別技術

引言

大數據也被稱之為“海量數據”，信息是人們進行決策行為的基礎和依據，數據越廣泛和準確，對人們做出正確的決策來說就更有利，在當前的時代背景下，人們獲取信息越來越容易，同時對信息的整理和辨別也越來越重要，“大數據”環境下數據規模的龐大、結構的復雜和類型的眾多要求機器智能識別技術具有更強的數據分析與處理能力，要求能夠通過機器智能識別技術在規模龐大的數據庫中將信息加以分類并批量處理。

一、機器智能識別技術簡介

人類主要是通過視覺來獲取信息，所以在機器智能識別系統中，也存在著計算機視覺，即計算機通過攝像頭和電腦來代替人眼對目標進行識別、信息采集，之后再根據這些信息進一步對數據進行處理。當前的計算機識別技術既可以對無生命智能識別卡進行信息采集與識別，也可以根據人身體上一些無可復制的特征進行識別，如人臉、眼睛、指紋、聲音等。機器智能可以模擬人的思維與意識，針對各種事件和情況可以根據所獲取的信息進行信息處理與分析，然后將結果呈現給人類，機器智能可以應用在很多領域，幫助人們提高工作效率，甚至完成人類不可能完成的信息處理任務。

二、利用機器智能識別技術進行海量數據批量處理的優勢

利用機器智能識別技術進行海量數據批量處理可以不僅可以減少人力成本，還能夠大大提高效率，對于信息處理來說，參與信息操作與管理的人員越多，合作的人越多，出現失誤與信息漏洞的可能性就越大，同時，一旦有人辭職，必然會引進新人，對于新人的培養既耗時又耗力，嚴重影響工作效率。而采用機器智能識別技術來進行對信息進行批量處理可以精簡公司團隊，減少系統數據的錯誤發生率。

當前隨著信息化技術和計算機網絡技術的發展，各個行業的多個領域都需要對數據進行大批量處理，比如行政管理，如今我們需要將所有數據包括國家級、省級、廳級，教育、公安、金融、稅務，社會管理、城市建設在內的數據進行全集中式管理。學校內的主管部門需要管理成千上萬的學生，在進行管理工作時需要同時處理學生的入學與畢業等數據，如果不利用機器智能識別技術的話，這項工作將會耗費巨大的人力物力。尤其是在金融機構、銀行等企業中，每日的信息處理量巨大，而且一旦出現失誤將會造成巨大的財產損失。利用機器智能識別技術可以輕易的進行數據一致性檢查，同時對一些簡單的基礎性數據可以進行大批量的同時操作，還能及時對數據進行批量更新，大大減少了出錯率，提高了信息處理效率。

三、數據批量處理的方式

在對數據進行批量處理之前，要先進行批量數據抽取，數據集的篩選和過濾過程包括建立數據集篩選的查詢條件、得出數據記錄集和得到最終需要批量數據處理的數據結果集。在進行數據批量處理時，可以選擇用事件進行批量數據處理的方式，用事件進行數據批量處理又可以分為批量增加和批量修改兩種方式。如果是對主表進行批量增加只要對較少的數據進行修改，就可以對大批數據進行快速錄入，如果是對關系表子集進行批量增加，則無法進行大批量數據快速錄入，比如在檔案系統中的學歷子集、工資子集等。在對主表進行批量增加時，首先可以在搜索欄中加入關鍵字，同時輸入批量循環的操作次數，然后增加第一條主表記錄并用數組記錄不為空的字段記錄，用于循環執行時賦值給批量增加的字段記錄，最后執行主表的批量增加事件。

還可以用SQL語句來對數據進行批量處理，首先對數據進行過濾操作，之后將條件應用于SQL語句的WHERE部分數據抽取流程，然后再對首條表單的數據進行提取，將改變的一組數據作為INSERT，UPDATE的操作的改變對象。在使用這種方式對數據進行大批量處理時，要注意做一些相關的額外開發工作來保證子集表中的數據能夠保持統一和一致。

四、批量處理的機器智能識別技術

（一）支持向量機

支持向量機是一類按照監督學習方式對數據進行二元分類的廣義線性分類器，而對數據進行大批量處理的前提就是要對信息做好分類。那么支持向量機是如何進行數據分類的呢？在這里我們以天氣分類為例，來解釋一下支持向量機的工作原理以及流程。

首先，我們要在網上尋找一些數據，可以運用Python爬蟲爬取百度相關搜索的詞條，進行多輪爬取，我們將跟天氣相關的語料稱為正語料，與天氣無關的語料稱為負語料，正語料和負語料分開爬取，一般來說，訓練模型所需要的正負語料比例大概是1：3到1：5，也就是說訓練天氣模型的時候，正語料大概是10000條左右，負語料30000+條。在完成數據搜索工作后，可以做一些簡單的人工篩選，將一些不純的正語料去掉，剩下的純凈的正語料。之后再將剩下的正負語料進行進一步處理，比如停用詞的去除等操作，就是將語料中沒有意義的詞去除，比如“嗎”、“的”等等。語料處理好之后，大概要從語料中抽10%的語料，用于模型訓練好之后的測試，即抽取大概1000條正語料和3000條負語料作為測試語料，剩下的語料作為訓練語料。將所有的語料進行分詞處理，將完整的語料分成若干詞語，分詞可以運用“結巴”分詞的庫。將每一個分詞后的語料進行標注，正語料標注為1，負語料標注為0。語料和標簽之間用TAB分隔，即“＼t”。之后將標注好的正負語料進行混合，然后進行打亂順序，讓帶標簽的正負語料充分混合。可以運用卡方或者互信息等方法將分詞之后的語料每個詞的特征提取出來，即每一個詞語與當前類別的相關程度，特征提取也是為后面的向量化做準備的。可以用feature_select.py。特征提取結束可以得到每個特征詞與相關類別的相關度排序。做好這些之后，就可以將我們處理好的數據進行向量化，將我們的語料轉化成向量，分好詞的語料命中之前特征提取的特征詞，那么就將向量中的這個值設置為1，其他的為0。這個過程中，特征詞就是這個向量的維度，每個語料都是一個這么多維度的向量。向量化執行一個vector.sh腳本文件，里面指定feature_num，text_data，train_model這幾個文件，其中feature_num=500是指我們取前500個特征詞作為我們訓練模型的維度，text_data是我們之前分好詞打好標簽的混合好的語料，train_data是我們指定好向量化好之后生成的向量化文件。之后再進行參數調優，之后，就可以調動sibsvm中的svm-train來訓練模型，同時要設置好之前參數調優得到的結果，最終就得到了一個天氣模型，除此之外，還要將參數調優得到的結果c和g傳入一起訓練，還要將參數b設置為1，為了得到的分數是其概率。最終可以得到我們想要的模型，如果我們調用svmpredict，根據訓練獲得的模型，對數據集合進行預測。通過對數據集合的預測，可測得準確率與召回率，最終就會得到預測的結果。

（二）克隆選擇法

當前隨著網絡信息技術的不斷發展，對圖形的批量處理顯得越來越重要，圖像識別指的是計算機通過模式識別、視覺識別、機器識別等方式，對圖像進行分類與處理，不過如果想要進一步對圖形進行識別與處理，就要借助計算機批量的為兄奧圖像視覺，使工作有序展開。在對微小圖像進行識別的過程中，計算機視覺發揮了重要作用，不過由于微小圖像自身特征不夠明顯，使得計算機視覺在對圖像進行識別時，難度比較大，識別不夠準確。此時，就需要用到另一種信息處理識別方式，即克隆選擇法。這種方式能夠針對微小圖像批量識別難度大的特點解決在批量處理信息中的難題。

首先我們要對微小圖形特征智能識別原理有所了解。在大數據環境下，要基于灰度共生矩陣批量提取微小圖像紋理特性參數，全面系統的描述微小圖像視覺的特征，在歸一化手段處理的同時，還要對支持向量機加以利用，使智能識別批量微小圖像特征更準確。微小圖像的恢復共生矩陣當中，會呈現出灰度的相關特性關系。除了要利用歸一化處理手段，還應該對樣本展開分級支持向量機的訓練工作，這樣就可以完成微小圖像批量處理特征的智能識別就可以得到實現。因此，在大數據環境下，對微小圖像特征的智能識別可以輕易的實現，只要利用微小圖像批量處理的特征識別原理就可以了。

在對微小圖像特征進行智能識別批量處理的過程中，首先應該想辦法獲得微小圖像五個尺度上的融合特征，可以通過對微小圖像的Gabor進行變換，同時將方向不同、尺度相同的微小圖像按照一定的規則融合起來來實現。

五、結束語

綜上所述，大數據環境下，必須采用機器智能識別技術對信息進行批量處理，在對信息進行批量處理的過層中，常運用的包括兩種方式：支持向量機和克隆選擇法，在對微小圖像進行識別上，克隆選擇法具有相對優勢。

參考文獻

[1]曾勁松.大數據環境下批量處理的機器智能識別技術研究[J].信息記錄材料，2019，20（6）：102-106.

[2]柴曉麗.大數據環境下人臉識別技術在智能監控系統中的運用分析[J].電視技術，2018，42（7）：38-42.

[3]曹穎，王彥琳，秦曉晗，等.大數據技術在人工智能中的應用研究[J].數碼設計（下），2018，（7）：137-138.

[4]陳銳，王濱，艾傳鮮.大數據處理技術在機器人紅外巡檢中的應用研究[J].電力系統裝備，2019（8）：212-213.

[5]蔣玉婷.大數據背景下的人工智能優化技術研究[J].信息與電腦（理論版），2018，418（24）：147-148.

[6]尹漢雄.大數據視角下的人工智能技術應用探討[J].科技資訊，2019， 17（14）：26-27.

作者簡介

李偉（1983.07-），男，漢族，江西贛州，碩士研究生，助教，研究方向：大數據、機器學習。

數碼世界2020年10期

數碼世界的其它文章: 智能化數控加工技術的特點分析; 數控加工的工藝設計原則及方法探討; 探討大截面碳纖維導線卡線器夾嘴優化設計; 交叉式露點間接蒸發冷卻空調機組在數據機房的應用方案分析; 跳繩智能化發展研究; 智能樓宇自動化監控系統分析