摘? ? 要:在當今數字背景下,人工智能技術與數字媒體之間關系愈發緊密,從語音、圖像識別,到藝術創作的其它方面都印證了兩者的聯系。人工智能與數字媒體藝術的商業化浪潮暗流涌動,在多領域中,逐漸孕育成為主流之勢。
關 鍵 詞:數字媒體藝術實踐;人工智能;技術革命
一、基于人工智能的數字媒體藝術實踐進入全面超越時代
(一)圖像識別
時光追溯回2009年,就曾有學者發表過論文,其中提出針對計算機視覺研究者需要建立首個超大型圖像數據庫。2010年首次舉辦了ILSVRC 2010。該大型圖像識別競賽是以Imase Net為基礎,最初競賽的訓練樣本包括120萬個圖像。從種類上看,這些圖像涉及1000多個類別,且都具有手工標志。程序通過培訓后,經過5萬多測試圖像評估,判斷是否能夠分類圖像。
在2012年度開展的Image Net競賽中,在30個團體中取得了第一名測試成績。而位居第二的日本代表隊,模型出錯率為26.2%。由此說明,在圖像識別領域神經網絡遠遠領先于其他技術,有望成為突破人工智能的轉折點。
之后微軟亞洲研究院(即MSRA)衛冕2015年度的Image Net競賽的桂冠,提高了網絡深度,反而降低了學習效率。為了解決在層層傳遞中信息有效性的衰減問題,MSRA團隊試著導入了“ 深度殘余學習”的算法。由此得到了包含152層神經網絡的MSRA深度殘余學習模型,在前五個類別的測試中,刷新了以往的記錄,出錯率僅為3.57%,相較于正常人5%左右的出錯率還要低。
(二)語音識別
2012年10月,來自于微軟,IBM,谷歌,多倫多大學的鄧力、Geoffrey Hinton等人共同發表了一篇名為《深度神經網絡在語音識別的聲學模型中的應用:四個研究小組的共同觀點》的文章。他們對神經網絡實施了從Hinton中導入的“限制波爾茲曼機”的“預培訓”。運用深度神經網絡模型對文字識別的幾率進行估算。在測試中,谷歌的語音輸入,最低的單詞錯誤率為12.3%。
2013年3月,在Alex Graves(多倫多大學)為主導發表的一篇名為《深度循環神經網絡用于語音識別》論文中,導入了RNN/LSTM 技術,形成了有三個隱層構成的網絡,其中包含自由參數430萬個,由此進行的TIMIT基準測試,得出了只有17.7%的“音位錯誤率”,領先于同期所有技術的效果。
2015年5月,谷歌公開表示在RNN/LSTM等技術的支撐下,谷歌語音已經將單詞出錯率壓縮到了8%(一般正常人為4%左右)。
2015年12月,Dario Amodei代表百度AI實驗室發表了一篇名為《英語和漢語的端對端的語音識別》的著作。運用了基于lstm得到的簡化模型——封閉循環單元,在長達12000個小時(16個GPU約3-5天)的語音訓練下,百度英文語音識別系統在接受WSJEval'92的一個基準測試中,創造了3.1%的單詞出錯率,這一水平已經比5%的正常人水平還要低。同時在小型漢語的一個測試中,得出的出錯率結果為3.7%,而另外的一個由五人構成的團隊測試中集體出錯率為4%。
從本質上來看,循環神經網絡能夠對一個序列的長度變化的輸入/出(多對多)進行處理。就廣義而言,前饋神經網絡所優化的對象如果是一個函數(如,識別圖像),就可以認為循環神經網絡所優化的對象是一個程序,有著更加寬闊的應用空間。
(三)藝術創作
長時間以來,在人類的意識中,機器一直被賦予了理解人類思維及邏輯的能力,而對于豐富的人類情感和美學價值,卻認為機器是無法理解的,所以也不可能形成有美學價值的作品。然而以往的實踐歷歷在目,在與李世石對局中阿爾法狗下出了讓我們震撼的一步,面對阿爾法狗的高超下法,就連聶衛平先生都脫帽致敬,由此證明,深度學習算法具備了美學價值的自發創造能力。實際上,人工神經網絡在視覺藝術領域,已經能夠區分出一副作品的風格及內容,同時能夠掌握多種藝術風格,并隨意地運用到其他作品中,可以在同樣的內容上,嘗試多種藝術風格來渲染。
(四)其它方面
谷歌AI實驗室于2016年5月的一篇報道中表示,對機器開展英文言情小說的培訓,讓機器從2865部小說中學習敘事方式與用詞風格。通過觀察程序的演化進程來看,單詞的空格結構,最先被機器模型所領悟,隨后有短到長識別了更多單詞,并逐步掌握了標點符號的運用,一些相關性較高的語句結構也被重新慢慢掌握。
2016年5月,谷歌的Deep Mind團隊對其開發的“神經編程解釋器”做了相關報道,該神經網絡不僅具備自主學習程序的能力,且能夠完成一些簡單的程序編輯,具備了初級程序員的能力。
二、基于人工智能的數字媒體藝術實踐的商業化浪潮
2015年,谷歌推出了TensorFlow開源機器學習平臺,臉書定制打造的FBLeamer Flow平臺,顯著的提升了員工效率;特斯拉也在同年的5月,創設Open AI升源人工智能系統。一時間人工智能領域熱鬧異常,大量工業巨頭攜帶巨資蜂擁而入,加速了人工智能的前進步伐,代表性的如百度大腦計劃、IBM的沃森系統、微軟的同聲翻譯等。
2016年,在IBM的帶領下,全球人工智能開啟了首輪核心業務轉型,并驅動人工智能的商業化浪潮?,F階段,深度學習的焦點如同疾風一樣向以深度卷積神經網絡為依托的物體檢測和定位,分割蔓延,一旦突破將會引領人工智能加快轉化,實現產業化發展?;谌斯ぶ悄芘c大數據、機器人、云平臺、移動互聯等融合的持續深化,人工智能開始轉向基礎性、前沿性、關鍵性的重要角色。以大數據為基礎建立的商業直覺、業務流程智能化、產品服務差異化,驅動人工智能向醫療、新聞、律師、保險、金融、數字個人主體等新領域進軍且占據了核心地位,全面地滲透于日常生活。
人工智能雖然實現了突破性的成長,但還只是一顆幼苗。雖然聯結主義的方法無堅不摧、戰無不勝,然而在理論層面卻缺乏堅實的基礎。立足于仿生學與經驗實現的突破,并未實現透徹的理解與預測。小樣本的學習如何開展,尤其是自主的對周圍環境進行學習,提高學習的泛化性,均是亟待剖析的熱點。
就當前而言,在圖像識別、文本處理、語音識別、藝術美學、藝術博弈、軟件開發等領域,人工智能已經全面超越人類。在醫療、新聞、律師、保險、金融、數字個人主體等領域,人工智能顯然是勢不可擋的主流,由其引發的新一輪技術革命正在孕育,人工智能暗流涌動,或即將面臨全面爆發!
參考文獻:
[1]張登峰.《人工智能藝術的美學限度及其可能的未來》[J].江漢學術2019,(01):86-92.
[2]徐放鳴.《審美文化新視野》[M].北京:中國社會科學出版社,2008.303
作者簡介:蔡念,女,生于1994年,江蘇揚州人,南京藝術學院2017級研究生,研究方向:數字媒體。
基金項目:此文章為2018年江蘇省研究生科研實踐創新項目 項目編號:SJCX18_0548。