隨著技術的迭代,人工智能正在快速從解決“具體問題”的弱人工智能向解決“通用問題”的強人工智能演進。
在這個過程之中,人工智能想要獲得同人類一樣的解決問題的能力,必須具備與人類相似的“知識架構”。有了這個基礎,人工智能不僅可以做到“共情”,甚至可以對人類行為或事態的發展進行一定程度的“預判”。
2020年10月15日,來自北卡羅來納大學教堂山分校的博士生雷杰在arXiv上傳了一篇名為“What is More Likely to Happen Next?Video-and-Language Future Event Prediction”(接下來可能會有什么發生?視頻語言能預測未來事件)的預印本論文,這篇論文的內容提出并初步實現了讓AI預測事態未來,目前該論文已經被EMNLP2020接收。
雷杰表示,前幾年業內關注的研究重點都在于機器如何“理解”視頻的內容,而他們的工作對于業內來說算是在新領域進行了些許拓荒,為加強和測試模型的事件預測能力及常識認知能力提供了一個新的方向。
他們的項目名為“Video Language Future Prediction”(視頻語言未來預測),其中Video指視頻,而Language指視頻中對話的文本,可以理解為“字幕”。一次完整的預測流程大概是這樣:
將視頻+字幕+兩種人類給出的未來可能方向A和B,輸入模型,模型將輸出它的判斷結果,即A和B各白發生的概率。通過這種做“選擇題”的方式實現一定程度的“預測”。
雷杰補充道,這是一種比較初步的解決方案,未來AI將能夠做“閱讀理解”,即直接從給定的視頻和字幕之中自己生成對未來的預測。當然,不管是“選擇題”還是“閱讀理解”,都需要AI具備一定的理解能力。
同時,雷杰和同事也暫未加入讓AI給出決策理由的功能。他說,這項能力可以單獨作為一個比較復雜的研究課題,所以他們暫時聚焦于“預測”這件事。

一個AI預測未來的案例,食物當然要是被吃掉,而不是投入到火里。為了訓練這個模型,雷杰和同事準備了2.8萬個用例,并將其命名為“VLEP”

Video Language Future Prediction數據流程圖

視頻素材統計
這批視頻數據分成兩類,電視節目以及來自YouTube的Vlog。
他們首先將這些視頻進行預處理,最終它們被切割為一個個60秒~90秒的片段。之后將這批素材提交到數據標注平臺進行人工標注。人類將標注短視頻內“事件”的起止時間,并且給出兩個預測結果——未來較大可能發生的和較小可能發生的。

雷杰
雷杰說,假如視頻中顯示一個人拿起杯子,那么按照常理推斷,他更可能要喝水,而不是將杯子摔碎。“這種人類非常容易完成的事情,對機器來說并不簡單。”
未來,他們將嘗試結合大規模視頻數據進行一些無監督學習,讓模型能夠加深對視頻和字幕的理解,并建立像人類一樣的“關聯”。
談及應用,雷杰坦言,目前他們的研究仍然處于比較早期的階段,但他認為未來人工智能必將具備同人類一樣的“知識架構”,它們將更加懂得人類的想法,同人類的合作也會更加“心有靈犀”。
雷杰2013年考入坐落于成都的電子科技大學,大學二年級他憑借優異成績入圍了僅接收年級前5%學生的“英才實驗學院”,在這里,雷杰接受了較同齡人更為全面、系統性的計算機教育。
雖然他現在的研究方向專攻“人工智能”,但其實雷杰最早報考的是微電子專業,入學之后才轉到了計算機。
對此他解釋道,“小的時候我非常喜歡鼓搗電子元器件,所以高考選擇了這個專業,但當我設計的正確電路因為粗糙的工藝而失效時,我的內心動搖了。”經過一段時間的自我審視,他發現自己更加傾向于“1+1=2”這類嚴格規整、且確定性的東西,便義無反顧地投身到計算機科學之中。
大一結束時,雷杰在同一位博士學長交流的過程中第一次聽到了“機器學習”這個概念,這讓他感到非常震驚。是的,機器為什么不能“學習”呢?
在好奇心的驅使下,他開始孜孜不倦地學習相關知識,并最終選擇留學攻讀相關領域的博士學位。(摘自美《深科技》)(編輯/諾伊克)