【摘 "要】 當前,人工智能快速發展,主要應用在計算機應用視覺領域、ChatGPT和提示學習領域等,其在為人們帶來便利的同時,也帶來一定的現實問題和風險,文章就人工智能在以上幾個方面的應用進行詳細論述,概括性地反映人工智能在當前社會的應用情況,簡述人工智能當前的發展現狀。
【關鍵詞】 人工智能;計算機應用視覺;ChatGPT;提示學習
一、計算機應用視覺與實戰
人工智能技術在圖像識別上的應用主要有圖像分類、目標檢測、圖像分割;目標檢測中也包含圖像分類的內容,且目標檢測的應用場景更加廣泛,本研究主要結合目標檢測的實際應用場景進行分析,以一個手掌傷口檢測為例。
(一)項目需求和目標
收集和清洗適當的數據集,包括手掌圖片和標注信息、手掌目標檢測算法,并使用YOLOv5來訓練和優化模型。部署訓練好的模型到Windows和Linux平臺,并實現對手掌的檢測和標定;優化模型的性能和精度,如調整模型超參數和改進數據增強技術等。具體來說,精度要求95%,實時性要求是3s,穩定性要求2000次。
(二)技術選型和實現方案
由于YOLOv5具有速度快、端到端訓練、背景誤報低、實時定位與分類的優點,因而采用YOLOv5目標檢測框架。編程語言為Python,開發環境為PyCharm。具體步驟為數據集采集和預處理、模型訓練和優化、模型部署和測試、算法優化和改進。
(三)數據集預處理和增強
數據集預處理上,首先需要將數據集按一定比例劃分為訓練集、驗證集和測試集。然后進行數據標注:需要標注出圖片中的手掌位置和大小信息。在本項目中,使用了開源的標注工具LabelImg對數據集進行標注,標注信息包括每張圖片中手掌的位置、大小、左右手掌等信息。標注信息的準確性對模型的訓練和檢測結果有重要影響,因此需要盡可能準確地進行標注。此外,需要對數據集進行一些預處理操作,包括數據集格式轉換:將原始圖片格式轉換為模型可讀取的格式,如JPEG格式。另外還有正負樣本定義:在手掌檢測任務中,將包含手掌的圖片定義為正樣本,而不包含手掌的圖片定義為負樣本。通過這種定義,可以讓模型學會區分手掌和背景,以提高檢測準確率。最后,還有樣本均衡問題,為了解決這個問題,可以通過采樣方法來平衡正負樣本的數量。本項目采用了兩種采樣方法,分別是正樣本隨機復制和負樣本隨機采樣。具體來說,將正樣本隨機復制若干份,以增加正樣本的數量;同時,也會從負樣本中隨機采樣一部分樣本,以減少負樣本的數量。
數據集增強體現在對原始數據集進行一系列變換操作,可以生成更多、更豐富的訓練樣本,以提高模型的準確率和魯棒性。
(四)模型設計和訓練
YOLOv5采用的是單階段目標檢測方法,將目標檢測任務分解成分類和回歸兩個任務。在目標檢測中,通過優化損失函數、降低損失值,以便通過反向傳播優化模型參數以提高模型性能。
(五)模型評估和性能優化
模型評估用于目標檢測的評估指標FPS(Frames Per Second): 模型的每秒推理幀數,用于評估模型的實時性能。Memory(Memory Usage): 模型占用的內存大小,用于評估模型的存儲資源消耗。
(六)模型優化
學習率調整:學習率是控制模型訓練的重要參數,可以使用學習率調度器來逐漸降低學習率,如StepLR、MultiStepLR、CosineAnnealingLR等。
參數初始化:合適的參數初始化可以使得模型更快地收斂,性能更好。一般來說,可以采用均勻分布、正態分布等隨機初始化方式,或使用預訓練模型的權重來初始化模型。
參數剪枝(Parameter Pruning):通過減少不重要的參數,降低模型大小,加快推理速度。
梯度裁剪(Gradient Clipping):防止梯度爆炸或梯度消失的方法,將梯度限制在一個合理的范圍內。
網絡架構搜索(Neural Architecture Search):通過自動化搜索網絡架構的方法,設計出更加優秀的模型。
超參數優化(Hyperparameter Tuning):通過隨機搜索、網格搜索等方式尋找最優的超參數,如學習率、正則化參數、batch size等。
精度量化:將模型權重參數從浮點數格式轉換為整數格式,以減少模型存儲和計算所需的內存和功耗。
(七)部署和應用
項目部署方法常見的模型部署方法包括本地部署和云端部署。本地部署是將模型直接部署到本地設備(如PC、移動端設備)上進行推理。云端部署則是將模型部署到云端服務器上進行推理,可以通過API或SDK進行訪問。在部署模型之前,需要根據具體場景選擇不同的推理引擎,如TensorRT、OpenVINO等。同時,為了提高推理速度,還需要優化模型并壓縮。
(八)項目總結
本項目旨在實現基于YOLOv5的兒童手掌檢測算法,并將其應用于智能機器人上。通過對數據集的處理和增強,設計了基于YOLOv5的檢測網絡,并進行了模型訓練和評估,最后進行實時檢測。在項目的實現過程中,使用了Python語言和PyTorch框架,利用YOLOv5算法進行手掌檢測。在模型設計方面,采用了YOLOv5的骨干網絡和檢測頭,同時對模型進行了調參和優化。在模型訓練方面,使用了多種訓練技巧,如學習率調整、Warmup、CosineAnnealing、Autoanchor等,提高了模型的訓練效果。最終,將訓練好的模型部署到智能機器人上,通過實時檢測實現了手掌傷口的識別。
(九)項目展望
YOLOv5算法的改進:盡管YOLOv5已經是一個非常高效的物體檢測算法,但是仍然有改進的空間。可以考慮進一步優化模型的精度和速度,增加模型的穩定性,以及改進模型在特定場景下的表現等。可以考慮在未來的項目中,將YOLOv5算法應用于更高效的硬件平臺上,例如GPU、FPGA、ASIC等。
應用場景的拓展:YOLOv5算法不僅可以用于物體檢測,還可以應用在其他場景。比如視頻監控、人臉識別、自動駕駛等。可以將算法應用于更多的場景中,以提高算法的實用性和適用性。比如可以將YOLOv5算法與語音識別算法結合使用,以實現智能語音控制等功能。
商業化的應用:基于YOLOv5算法,可以開發各種商業化的應用,例如智能門禁、智能安防、智能家居等。還可以通過將算法應用于商業化的場景中,為用戶提供更好的服務和體驗。
二、AIGC在各行業的應用及實現
文本和圖片領域預訓練大模型技術相對比較成熟,模型數量、應用場景和相關公司目前是最多的。其中最有代表性的有兩個產品,一個是ChatGPT,一個是生成繪畫的DreamStudio。
(一)內容生成經典方法及技術實現
VAE(變分自編碼器) 是一種自編碼器,其目標是學習一個低維的表示,將高維的輸入數據映射到該低維表示中,再通過解碼器將其映射回高維空間,從而重構原始數據。其特點是能夠對輸入數據進行編碼和解碼,同時學習到一個潛在的連續分布,這使得它能夠生成與原始數據相似但不完全相同的新數據。
Autoencoder(自編碼器)生成樣本的缺陷是低維空間的點大多數沒有意義、不了解編碼在低維空間中的分布情況、難以采樣出合適的Z,難以生成有意義的X對Z的概率分布做限制。按照概率分布采樣出合適的點,即可解碼復原出有意義的內容。Variational Autoencoder:變分自編碼器,假設樣本被編碼后在低維空間中服從某種分布(如正態分布)。
VAE的應用方面,VQ-VAE,學習到的低維空間是一個離散分布而不是正態分布;VQ-VAE核心是將連續的潛在變量離散化為一個固定的詞匯表(Vocabulary),然后使用量化后的離散變量進行編碼和解碼。VQ-VAE在圖像、音頻2等領域有廣泛的應用,因為離散化的潛在空間具有更好的可解釋性和更強的穩定性。VQ-VAE技術在DALL-E 1中起到了關鍵作用,它能夠將高維的自然語言描述向量映射到一個離散化的詞匯表中,并將其轉換為一個低維的向量表示,從而提高了圖像生成的效率和準確性。Deepfake A臉編碼后解碼的還是A臉,B臉編碼后解碼的還是B臉。如果將B臉編碼的向量用A臉的解碼去解,B的臉會出現在原本A的臉的位置,但面部的表情和一些細節會保留A的。這樣就實現了換臉。
GAN: 生成對抗網絡,是一種生成模型,它由一個生成器和一個判別器組成。辨別器D越強,則“鑒偽” 能力越強,所以需要訓練出一個更強的生成器G去“偽造”,這就是“對抗”本質。GAN在圖像生成上的應用:GauGAN,GauGAN的訓練數據包括了數百萬張真實的圖像和草圖,以及相關的場景和顏色標簽。通過這些數據,GauGAN學習了如何將草圖轉換成逼真的圖像,并且可以實時地生成高質量的圖像。
還有Stable Diffusion,向前:擴散,向原始圖像逐步加入高斯噪聲,在T時刻變為純粹的噪點。向后:去噪,由噪點圖像還原為原始圖像。應用于視頻生成、圖像去噪及插值從文本到圖像。
三者各有缺點,VAE容易產生模糊、GAN缺乏多樣性、Diffusion需要推理上千步。
(二)AIGC中的3D生成(Nerf方法)
首先來看相機標定的意義,人們拍攝的圖片是二維的,但是真實世界是三維的。一個場景是如何從三維變成二維的呢?相機起到的就是這個作用。現在主流的攝像機都是運用感光耦合組件(CCD)作為感光組件。而收集數據為NeRF提供信息有點像紅地毯上的攝影師,試圖從各個角度捕捉名人的服飾—神經網絡需要從場景周圍的多個位置拍攝幾十張圖像,以及這些鏡頭的每個位置。如果在二維圖像捕捉過程中有太多的運動,人工智能生成的三維場景將是模糊的。NeRFs使用神經網絡來表示和渲染基于輸入的二維圖像集合的逼真三維場景,NeRF基本上填補了空白。
3D渲染是用計算機模擬照相機拍照,它們的結果都是生成一張照片。用照相機拍照是一個現實世界的物理過程,主要是光學過程,拍照對象是現實世界中真實的萬事萬物,形成照片的機制主要就是光經過鏡頭,到達傳感器,被記錄下來。
(三)AIGC+GPT在各個垂直領域的經典項目
文本—圖像—視頻的跨模態生成、2D到3D生成、多模態理解結合生成。商業視角下人們認為,未來3年內,虛擬人生成和游戲AI這兩種綜合性的AIGC場景將趨于商業化成熟。
三、提示學習和新型機器學習訓練方法
提示學習(Prompt Learning)簡單來說是通過一些方法編輯下游任務的輸入,使其形式上模擬模型預訓練過程使用的數據與任務。
比如做情感分類任務時,監督學習的做法是輸入“我今天考砸了”,模型輸出分類的分數或分布,而提示學習的做法則是在“我今天考砸了”后拼接上自然語言描述“我感覺很 " " " ”,讓模型生成后面的內容,再根據某種映射函數,將生成內容匹配到某一分類標簽。提示學習這種方式拉近了測試分布與預訓練分布的距離,進而可以利用大規模預訓練語言模型在預訓練過程中習得的強大語言建模能力,使其不經過微調就可以在各種下游任務上取得很好的結果。Prompt是一種為了更好地使用預訓練語言模型的知識,采用在輸入段添加額外的文本的技術。提示學習的研究領域:多重提示學習(Multi-Prompt Learning)。包括提示集成(Prompt Ensembling)、提示增強(Prompt Augmentation)、提示合成(Prompt Composition)、提示分解(Prompt Decomposition)。
四、結束語
人工智能生成內容的出現極大地解放了生產力,以ChatGPT為代表的產品風靡全球,其多樣性的應用場景催動商業化迅猛發展。本研究綜合介紹了人工智能在當前社會的不用應用方向,為讀者提供一個大概的了解方向和思路。對具體的方向,比如具體的視覺應用方向、ChatGPT方向等具體應用場景有待對一些典型場景再進行專門性分析,這一部分的內容將有待進一步地完善。此外,將GPT模板作為研究對象,通過分析其已經暴露或出現的安全隱患,重點研究人工智能數據偽造的風險問題也是另一個研究方向。
參考文獻:
[1] 項全星. 發票文字信息檢測與識別技術研究[D]. 重慶:重慶郵電大學,2021.
[2] 劉瑜興. 人工智能在工業設計中的應用研究[J]. 石河子科技,2023(04):70-71.
[3] 蔡秉坤,徐小壘. 人工智能應用中數據安全的法律規制分析[J]. 科技智囊,2023(07):45-52.
[4] 李軍合,李曉燕. 人工智能在自動化控制中的應用分析[J]. 中國設備工程,2023(15):26-28.