文/陳曦

圖/東方IC
前段時間,微軟宣布擬裁撤近80名外包編輯,由人工智能編輯負責接下來的MSN網站的新聞抓取、排版和配圖等工作。但沒想到,剛到崗沒多久,人工智能編輯就“翻車”了。人工智能編輯在尋找配圖時,把非裔歌手Leigh與阿拉伯裔歌手Jade弄混了。為何一向以高識別率著稱的人工智能,這次卻“翻車”了?
人臉識別技術是目前人工智能領域公認的比較成熟的技術,圈內人士也熱衷像刷分一樣把人臉識別準確率屢屢刷出新高,最高的號稱準確率可達99.9%。人臉識別技術有如此輝煌的戰績,為何此次人工智能編輯還會臉盲?
“人臉識別技術的工作原理,主要是比對五官比例以及面部特征。”天津大學智能與計算學部教授韓亞洪解釋,簡單說,就是基于人臉圖像的大數據,先對看到的人臉圖像進行預處理,提取面部各個方面的特征,并通過分層多次提取,尋找對于識別個體人臉最有效的特征表達。
人臉識別技術這些年已經發生了重大變化,傳統的人臉識別方法已被基于卷積神經網絡的深度學習方法替代。深度學習方法的主要優勢是它們可通過大規模數據集進行訓練,從而學習到這些數據的最佳特征。
“雖然可以使用大規模數據集進行訓練,但是目前99.9%的準確率基本上是在一些基準的數據集上測試的結果。這個數據集肯定是有范圍的,如果收集的數據是在數據集分布的范圍內,便可獲得比較高的準確率。”韓亞洪說。
據了解,目前號稱人臉識別準確率達99%以上的,很多指的都是和全世界最權威的人臉數據庫LFW(Labeled Faces in the Wild)進行比對測試的成績。LFW可以被認作一個考查深度學習系統人臉識別能力的題庫,它從互聯網上提取6000張不同朝向、表情和光照環境的人臉照片作為考題,可以讓任何系統在里面“跑分”。“跑分”過程是LFW給出一對照片,詢問測試系統兩張照片是不是同一個人,系統給出Yes或No的答案。
“解決特定的臉盲問題并不難,其實就是重新針對任務,收集這項任務領域內的人臉圖像,在原有算法模型上訓練,或重新設計新的算法模型進行訓練,都會提高人臉識別率,以滿足實際應用的需求。”韓亞洪說,但是超出了特定任務,人工智能的“臉盲癥”就會復發。目前并沒有哪個通用的模型算法可以解決所有的任務,但是人工智能可以通過不斷地調整及大量的學習,從而提高人臉識別的準確性。
“目前針對新聞文檔的分析和處理任務,人工智能編輯做起來相對得心應手。”韓亞洪介紹,具體地說,比如在一篇很長的報道中,讓人工智能編輯把重點摘出來,這是沒有問題的。當下,大量的新聞報道會涉及圖片和視頻,人工智能編輯可以將圖片或者視頻自動提取出來,再從大篇幅的文字報道中,選取與之相匹配的文字說明,這個工作人工智能是可以比較準確地做到的。
“解決特定領域的問題,人工智能大多時候還是沒問題的,但是要實現通用,就比較難了。”韓亞洪強調,實現這些功能需要用到自然語言處理、模式識別、圖像視頻理解等領域的技術。
要培養一名人工智能編輯,首先需要收集大量的新聞報道和圖片視頻,再根據收集到的數據設計一個針對這個任務的深度神經網絡模型,網絡模型里會有很多參數,然后通過數據把參數訓練出來,它就具備了最初設定的各種編輯能力。在使用過程中,人工智能編輯會學習更多的新聞,它的業務能力和性能也將不斷提升。
“不過目前的新聞生產對于人工智能編輯來說還很困難。”韓亞洪說,要讓人工智能學會寫新聞,必須要針對某個特定新聞主題,進行大量資料搜集和模型訓練。目前人工智能技術只能在風格相對固定、詞匯量使用范圍較小的領域完成文本生成,比如天氣預報等內容,人工智能編輯可以很好地輸出相關報道和消息。但要生成有創新要求、情感描述豐富的文章,人工智能編輯的能力仍有待提升。
“有趣的是,人工智能犯的錯誤大多是我們意想不到的低級錯誤,但在某些方面又強悍到讓人類望塵莫及。”韓亞洪舉例說,像給文章分類這種工作,人類編輯要進行大量閱讀,重復性勞動耗時耗力,速度非常慢。但這項工作人工智能編輯做起來就非常簡單。另外,對于可以使用模板的短新聞,比如天氣預報、證券信息等,人工智能編輯可以準確迅速地將各種數字或者專有名詞嵌套到模板中,從而完成一定的文檔生成任務。
美聯社曾使用人工智能系統自動編發企業財報。人工智能系統對數據進行自動抓取,將其嵌套在美聯社預先設定的新聞模板中,幾秒鐘就能完成一篇150字至300字的短消息,該系統每季度能產出約4000篇新聞,與之相比,美聯社的人工編輯們每季度只能完成400篇。
做這些特定的工作,人工智能編輯比人類厲害的地方不僅在于速度,準確率也可圈可點。“像分類或者是嵌套模板寫短消息這類的工作,因為任務明確,人工智能的準確率還是非常高的,很少出現錯別字或者數據錯誤。”韓亞洪介紹。
在運用大數據分析預測爆款方面,人工智能編輯可能比人類單純從經驗出發顯得更“科學”。2015年,《紐約時報》使用人工智能機器人對社交平臺中的文章進行篩選和分析,預測哪部分內容適合推廣。凡是由它自動推薦的文章的點擊量都大大增加,甚至達到了普通文章的38倍。
“但在人工智能編輯的世界中,只有知道和不知道兩種狀態,因此處理的內容一旦超綱,它們就會犯很多低級到可笑的錯誤。”韓亞洪說,像這次人工智能編輯就把非裔歌手Leigh與阿拉伯裔歌手Jade弄混了。
“目前階段的編輯工作完全依賴人工智能是不現實的,讓人工智能成為人類編輯的幫手似乎更切實可行。”韓亞洪說。美聯社預測,人工智能介入媒體行業能幫助新聞工作者釋放20%左右的時間,讓后者可以將這部分時間更多地投入到內容創作方面,簡單的事實核查與調研方面的工作交給人工智能,有利于提高新聞質量。
“未來,人類應該把人工智能編輯當作合作伙伴,雙方協同起來,使工作更加高效高質。”韓亞洪說,人類不應該覺得人工智能是來“搶飯碗”的,而應該為有人工智能這樣的合作伙伴而感到幸運。