程遠航



摘??要:分析了人工智能實驗室的發展現狀和未來前景,介紹了深度學習和虛擬化技術的原理,給出了建設面向深度學習的人工智能實驗室需要的硬件和軟件平臺方案,深入分析了硬件資源的搭建和管理以及軟件環境的部署和開源數據集的選擇。最后提供一些實驗測試和評估的方案。這些工作將有助于提高實驗室的性能、效率和可靠性,推動深度學習的研究以及教學的進展。
關鍵詞:深度學習???虛擬化技術???GPU虛擬化???人工智能??實驗室建設
中圖分類號:TP393
Research?on?the?Virtual?Open?Platform?of?Artificial?Intelligence?Laboratories?for?Deep?Learning
CHENG?Yuanhang
College?of?Science?and?Technology,?Guizhou?University,?Guiyang,?Guizhou?Province,?550025?China
Abstract:?This?article?analyzes?the?development?status?and?future?prospects?of?artificial?intelligence?laboratories,?introduces?the?principles?of?deep?learning?and?virtualization?technology,?gives?the?program?of?hardware?and?software?platforms?required?to?build?artificial?intelligence?laboratories?for?deep?learning,?deeply?analyzes?the?construction?and?management?of?hardware?resources,?the?deployment?of?the?software?environment?and?the?selection?of?open?source?datasets,?and?finally?provides?some?plans?for?experimental?testing?and?evaluation,?which?will?help?improve?the?performance,?efficiency?and?reliability?of?laboratories,?and?promote?research?on?deep?learning?and?the?progress?of?teaching.
Key?Words:?Deep?learning;?Virtualization?technology;?GPU?virtualization;?Artificial?intelligence;?Laboratory?construction
虛擬化技術作為一種新型的解決方案,在國內外得到了廣泛研究和應用。通過虛擬化技術,可以實現對硬件資源的靈活調度和高效利用,降低實驗室建設和維護成本。結合深度學習技術,可以構建一個面向深度學習的虛擬化人工智能實驗室開放平臺,提高深度學習研究和實驗教學的效率和效果。本文旨在研究面向深度學習的虛擬化人工智能實驗室開放平臺,以滿足高校實驗室的教學和研究需求。通過綜合分析國內外相關研究和實踐經驗,本研究將設計和優化虛擬化平臺的架構和功能,探索虛擬機管理、數據存儲、安全與權限控制等關鍵技術,以實現高效的資源利用、靈活的實驗環境和安全的實驗操作,有助于中國高校人工智能教育和實驗室建設的發展,為提高深度學習研究和實驗教學的水平,培養更多創新型人才提供有益的借鑒和參考。
1?深度學習與虛擬化技術
深度學習作為人工智能領域的重要分支,以其在圖像識別、自然語言處理、語音識別等領域取得的卓越成果而備受矚目。然而,深度學習模型的訓練和推理過程對于計算資源的需求非常高。目前,部分中國高校尤其是西部高校的實驗室設備存在老化和落后的情況,無法滿足深度學習和人工智能領域的研究需求。盡管一些學校投入了大量資金購買新設備,但由于技術更新換代迅速,設備很快便面臨淘汰的風險。人工智能領域,大語言模型的設備投入也不是一般普通高校能投入的,因此虛擬化技術為高校實驗室提供了一種靈活、高效的解決方案,以滿足深度學習實驗的需求。通過虛擬化技術,可以實現對硬件資源的靈活調度和高效利用,降低實驗室建設和維護成本。同時,虛擬化技術還可以為學生提供一種沙盒環境,使其可以在隔離的環境中進行實驗和學習,從而提高實驗的安全性和效率。
傳統高校采用的虛擬化方案主要有虛擬桌面基礎架構(Virtual?Desktop?Infrastructure,VDI),它完全將計算資源部署于云端,所有桌面全部運行在云服務器端,本地終端僅承載一個基礎系統。還有一種智能桌面虛擬化架構(ntelligent?Desktop?Virtualization,IDV)?架構,它采用了“集中管理,本地運算”的方式,服務器僅提供鏡像制作、終端策略管理等功能,當制作完鏡像文件之后下發給終端,由終端通過本地的計算資源渲染出相應的桌面,優點在于能夠不受硬件限制能夠虛擬出XP等較老的操作系統;缺點在于由于本地運行虛擬化層及操作系統,資源會有一定損耗。另外,虛擬操作系統基礎架構(Virtual?Operatingsystem?Infrastructure,VOI)架構也比較常見,該架構由服務器來管理操作系統鏡像,并下發給終端,操作系統運行于終端本地硬件上。計算任務完全由終端承擔,服務器只負責鏡像管理、鏡像上傳下載,以及終端的管理工作。
以新型網絡基礎設施、人工智能、大數據中心為代表的“新基建”的迅猛發展將為教育信息化發展注入強動力。高校對計算機實驗室的建設有了更多的需求,具體需求如下:(1)實驗室的設計是否滿足上課、測試、考試、作業實驗,畢業設計等需求;(2)實驗室的管理是否方便,使用是否便捷,是否可以方便地進行遠程管理和維護;(3)實驗室是否兼容各類教學應用,是否兼容各類教學系統,是否兼容常用的教學外接設備,是否對老舊設備友好;(4)實驗室的并發啟動、系統創建、軟件更新、故障恢復等速度是否夠快;(5)實驗室的系統是否穩定、云桌面是否穩定等。
2?開放平臺架構設計方案
面向深度學習的實驗室由硬件平臺和軟件實驗平臺組成,硬件平臺如圖1所示,包含了一套高性能的服務器集群,用于承擔深度學習任務的計算需求。服務器具備強大的計算能力和高速的數據傳輸能力,使用GPU加速卡;配置高速、大容量的存儲系統,用于存儲大規模的數據集、模型和實驗結果;配置核心交換機確保實驗室內部的網絡連接穩定、高速,以便實現服務器之間的數據交互和遠程訪問;防火墻提供安全保證。其中,GPU的虛擬化是建設的重點,可根據實驗室的需求和預算,選擇適量的GPU數量和型號,每個服務器配備多塊GPU,以提供足夠的GPU計算資源。服務器應具備強大的計算能力、高速的數據傳輸能力和充足的內存容量。選擇支持GPU虛擬化的平臺,如NVIDIA的NVIDIA?Virtual?GPU?(vGPU)、VMware的vSphere?with?vGPU、Citrix的XenServer?with?NVIDIA?vGPU等,使用虛擬化平臺創建和管理虛擬機實例,為每個虛擬機分配適當的GPU資源。將物理GPU劃分為多個虛擬GPU,根據實驗室需求和用戶規模進行合理分配。可以采用靜態分配或動態分配的方式,根據用戶的實時需求動態調整虛擬GPU資源的分配,監控和管理虛擬機使用的GPU資源,確保每個用戶獲得公平的GPU資源份額,并根據需要進行任務調度、性能監控和負載均衡。針對人工智能課程的要求,可選擇使用高性能VOI云桌面終端或采用顯卡虛擬化技術的VDI桌面終端。如圖2所示。
軟件環境平臺需要從操作系統的虛擬化、深度學習框架、GPU驅動和CUDA、數據庫和數據管理、部署Jupyter?Notebook服務器、開發工具和編輯器、容器化支持等方面進行部署。部署內容如下表1所示。
提供靈活的實驗環境管理和部署。這樣可以方便地創建、保存和共享實驗環境,并確保實驗環境的一致性和可重復性深度學習的實驗很重要的一部分就是數據集,可以根據具體課程,有很多開源數據集可以選擇。ImageNet是計算機視覺領域最常用的數據集之一,包含了數百萬張標記過的圖像,用于圖像分類、定位等任務。COCO?(Common?Objects?in?Context)是一個用于圖像識別、分割和標題生成的大規模數據集。它包含了日常生活中的各種場景,并且有豐富的標注信息。WikiText是一個用于自然語言處理任務的大型文本數據集,包含了從維基百科文章中提取的文本。LibriSpeech是一個用于語音識別任務的數據集,包含了大量的英文語音錄音和相應的文本轉錄。KITTI是一個用于計算機視覺任務的數據集,特別是在自動駕駛領域,它包含了從車載傳感器(如攝像頭、激光雷達和GPS)收集的數據。GLUE?(General?Language?Understanding?Evaluation)是一個用于自然語言理解任務的數據集集合,包含了多個不同類型的自然語言處理任務。還有一下入門級的MNIST?和?CIFAR等數據集。
3??實驗與評估方案
對深度學習實驗室進行測試評估,驗證實驗室的功能和性能。主要完成圖像分類、自然語言處理、語音識別和處理、生成模型實驗、目標檢測和跟蹤、強化學習、深度學習模型優化和壓縮、遷移學習和領域適應、對抗性攻擊和防御等實驗。
采用以下實驗測試和評估方法對實驗室進行評測。(1)運行標準的深度學習基準測試套件,來評估實驗室配置的性能和吞吐量。使用特定的深度學習模型和數據集進行測試,對比不同配置下的模型訓練和推理性能。(2)使用常見的深度學習模型,在實驗室環境中進行模型訓練和調優。測試不同超參數和優化算法對模型性能的影響,如學習率、批量大小、正則化等。(3)使用實驗室配置進行深度學習模型的推理測試,評估推理速度和準確性。(4)測試不同模型推理加速技術的效果。(5)模擬多用戶共享GPU資源的場景,評估實驗室配置在多用戶環境下的性能和資源管理能力。(6)測試不同用戶同時進行深度學習任務時的資源分配和調度效果。(7)對實驗室環境中常用的數據集進行處理和預處理,如數據清洗、圖像處理、特征提取等,評估處理和預處理過程的效率和準確性。(8)進行長時間的實驗或模型訓練,評估實驗室配置的穩定性和可靠性,檢查系統日志和錯誤日志,排查潛在的問題并進行故障排除。
4??結語
本文分析和設計了一個面向深度學習的虛擬化人工智能實驗室開放平臺,并給出了合理的方案。給出了硬件平臺和軟件平臺的設計方案,通過選擇服務器集群、虛擬化平臺、操作系統、安裝和配置深度學習框架、提供數據庫和數據管理、部署Jupyter?Notebook服務器、提供開發工具和編輯器、支持虛擬化或容器化技術、配置版本控制和協作工具以及考慮GPU虛擬化方案等措施,可以建立一個高效、靈活、可擴展的實驗室技術棧,滿足深度學習研究和開發的需求。另外,還設計了實驗測試和評估的方案,如基準測試、模型訓練與調優等。通過實施這些方案,研究人員可以有效地搭建實驗室環境并進行深度學習的實驗、測試和評估。通過本文的分析和設計,可以建立一個面向深度學習的虛擬化人工智能實驗室開放平臺,為深度學習研究和開發提供全面的技術支持和解決方案。這將有助于促進深度學習技術的發展和應用,推動高校人工智能領域教學的進步和發展。
參考文獻
[1]?LI?G?J.?The?Vibrant?Field?of?Parallel?and?Distributed?Computing—Scan?the?Special?Issue?in?Honor?of?Professor?Kai?Hwang's?80th?Birthday[J].計算機科學技術學報(英文版),2023,38(1):1-2.
[2]彭德巍.人工智能課程實驗案例研究與實踐[J].大學教育,2021(2):71-74.
[3]宋慶恒,莫林琳,張葉芳,等.地方本科院校人工智能實驗室建設及實踐教學探索[J].教育教學論壇,2022(20):128-131.
[4]王雷全,吳春雷,郭曉菲,等.面向人工智能課程群的智能視覺實驗平臺建設[J].計算機教育,2018(10):48-51.
[5]彭德巍.人工智能課程實驗案例研究與實踐[J].大學教育,2021(2):71-74.