趙 莉
(上海工程技術大學電子電氣工程學院,上海 201620)
隨著數據井噴、算法算力的突破,人工智能已然成為全球新一輪科技革命與產業革新的核心驅動力。目前,人工智能技術已被廣泛應用于石油勘探、醫療衛生、智能制造等領域,取得了較好的應用成效。“超大規模智力模型”時代的來臨,人工智能專業的創新型、應用型人才培養成為實現我國2030年總體戰略目標的重中之重。
人工智能的應用與發展方興未艾,為人工智能專業的建設提供了前所未有的機遇。截止到去年,根據教育部網站公布的普通高等學校本科專業備案和審批結果公布,在三年來公布的高校新增本科專業名單中,人工智能專業排行第一,成為新增備案專業數量最多的學科[1-5]。各大高校紛紛利用學校學術資源,開設了具有學校特色的培養項目,致力于培養創新性人才。
早在2017年,Python語言就取代C#,Java,C與C++,成為世界腳本語言排行第一的通用型語言[6-10]。在人工智能所覆蓋的六大核心領域──視覺、語言、認知、機器人、機器學習、多智能體,Python幾乎無處不在。
該課程建設,通過對Python語言“膠水”融合能力的發掘,及軟件自身“開源”基因的運用,快速、有效地彌補數字鴻溝,為全面提升人工智能專業本科生的實踐能力與科學素養,培養人工智能應用工程師探索有效途徑。本文對Python語言課程建設的優點、痛點、難點等工作進行了一一探討。
如前所述,Python語言是一門免費、開源、跨平臺的“膠水語言”,被譽為世界上最簡單的語言[11]。其簡潔、易讀、可擴展成為Python語言最顯著的優勢。無論是計算機或非計算機專業,Python語言已然走向了本專科院校的課堂。國內外高校,諸如清華北大、斯坦福大學等世界一流大學,紛紛將其列入非計算機專業學生的必修名單。
此外,Python功能強大、數量眾多的擴展庫,形成了豐富多彩的Python生態圈,其官網的衍生品數量達到了一百多萬[12],簡化了開發的復雜度,使得人們不必反復糾結于一些基礎的“造輪子”問題,而將注意力集中在系統開發與算法優化本身,從而在功能多樣性與開發周期之間達到動態平衡。
基于以上現狀,使用Python語言成為一種大勢所趨,為人工智能的后續課程建立了天然優勢。功能強大的標準庫,與日新月異的第三方庫奠定了Python未來發展的基石[13],是Python發展壯大的基礎,官網提供的第三方庫主要基于以下四個方面:
2.2.1 文本處理
文本處理是一種各行各業的常規功能,一般需要使用Office辦公軟件。文本處理過程一般涉及關鍵詞提取、排序、錯別字糾正、句法分析等內容。以人工為主,功能鍵與快捷鍵為輔,錯誤率高,耗時較長。10行代碼便創建了一個可以自動生成10000個文檔的答辯決議書,5分鐘內統計平均分、投票表決數的技能,在過去屬于高級辦公技能,門檻很高。擁有了Python語言之后,通過requests庫抓取網頁數據,使用BeautifulSoup解析網頁并清晰和組織數據就可以快速精準獲取數據,稍許查詢網絡資源與官方文檔,即可讓人們從煩瑣的統計工作中解脫出來。
2.2.2 網絡爬蟲
大數據是Python語言處理的主要對象。正如《娛樂至死》一書坦言[14],無用信息或噪音信息,正在吞噬著人類。大數據時代,根據思科白皮書統計,人類每天產生2.5萬億字節的數據量[15]。小視頻正帶給人們極大的享受,而大量有用的信息,正湮沒在浩如煙海的無關數據之中。面向蕓蕓眾生,利用Python語言的網絡爬蟲功能,僅用20行語句,采用正則表達式,即可完成5000條網頁搜索,快速、準確提取信息的能力。實現大數據為我所用,而不受大數據所驅使,是人們適應人工智能時代發展的基本生存技能。
2.2.3 深度學習
深度學習是大數據的典型算法,其核心是算法與模型。本質上,深度學習是遍歷層到層全部函數組合,找到定義從輸入到輸出的映射函數。然而,因為數據量龐大、技術門檻高,對很多企業與開發者而言,深度學習技術似乎高不可攀。考慮到開發者迫切希望找到深度學習模型在產業中落地的支點。目前主流的兩款深度學習框架Tensor-Flow和Pytorch均由Python程序開發[16],是推動人工智能時代發展的強大引擎。面向廣大的Python從業人員,泛化能力較強的深度學習框架,淡化了專業性較強的內容,針對數據實現自動標注,結合可擴展處理器,總能給出令產業開發者滿意的解決方案,為語音識別、人臉識別等方面發揮了強有力的作用。即便是一些相對復雜的情況,例如光譜分析,石油勘探,也能為專家預測提供輔助預測。
2.2.4 大模型
所謂“大模型”,是從弱人工智能到強人工智能的必然產物。它是繼深度學習之后的基礎性共性模型,被稱為新一代人工智能的核心。總的來說,是從海量大數據中學到蘊含在數據中的知識、邏輯,凝練到神經網絡上變成大模型,旨在訓練一套算法,為各種通用智能任務,建立提供服務的基礎性平臺。開發者的個性化需求,通過大模型采集后,針對特定任務,啟動個性化參數和智能轉化接口得以實現。在“大模型”領域,人工智能負責“全能”,知識圖譜負責“全知”,“全知全能”相結合,為實際場景應用落地提供了有力支撐。
基于上述理由,Python語言課程建設是一項比較復雜的系統工程,是彌補數字鴻溝,促進智能化轉型,促進社會發展的必由之路。該課程理論教學內容跨度較大,橫貫文本處理、語音識別、人臉識別、網絡爬蟲、深度學習與人工智能的方方面面。此外,Python版本更新換代很快,即便是實踐部分,舊的語句語法也經常停用,語句內容必須時常更新。理論與實踐的快速迭代,是Python語言學習的主要障礙。
最后,清晰的課程目標,“一萬小時定律”是學習Python語言的良好基礎。而發揮集體智慧,凝聚團隊合力,精準課程定位,更新教學內容,優化教學手段,是上好該課程的先決條件。本文在人工智能專業本科生中開設,年均授課120人,通過線上與線下相結合,提供了高質量的課堂體驗。考慮到本課程建設尚在起步階段,后續本項研究將于本地企業相結合,為學生創造更多真實應用場景與實習途徑,為全面提升人工智能專業本科生的實踐能力與科學素養,培養人工智能應用工程師探索有效途徑。