石菲
人類的智慧是如何產生的?人類通過感知得到各種各樣的信息,經過認知使信息和數據成為知識,并教授給其他人,這個過程就是智慧的產生過程。
近年來,隨著技術的飛速發展,人工智能的應用越來越普及。但這一現象很大程度上是由于互聯網產生的海量數據以及大規模運算能力的提升,在從感知智能通往認知智能的道路上,依然存在重重障礙。
隨著人工智能逐步從消費互聯網進入產業互聯網,人們發現傳統行業與互聯網行業相比,數據量少基礎差,需求復雜,人工智能在傳統行業的深度應用迫切需要一種新的方法。
比如快消行業,新品發布后企業迫切想得知消費者的反饋。但這數據從何而來?即便在微博、小紅書、抖音等平臺上發現用戶對新品的評價,如何將視頻與文本中的觀點評價提煉出來,形成對企業有價值的反饋?
作為深耕數據智能領域多年的企業,北京百分點科技集團有限公司始終堅持在感知、認知、決策、行動的人工智能應用閉環中不斷探索,在此過程中,百分點科技找到了一種認知智能在行業里落地、決策的新范式。
百分點科技CTO劉譯璟說:“這個范式我自己稱之為符號主義引導下的多方法融合技術,它不是純粹采用深度學習,而是首先構建出該領域業務的本體框架,然后再結合深度學習和樣例數據細化知識圖譜的本體和事實數據,并根據知識圖譜應用中的反饋信息不斷調整和優化。經過在不同行業的試用,我們認為這是一條傳統行業人工智能深度應用落地的可行方法。”
劉譯璟補充說,這套框架是融合符號主義、連接主義和行為主義三種方法的,基于符號主義引導,圍繞應用需求定義出行業知識框架;再融合連接主義和行為主義,在應用中不斷豐富和完善行業知識。由于一開始就是以應用為目的,可行性較高。
“該框架經過在應急領域的嘗試,被證明是適用的。我們有信心把它從一個行業再跨越到另外一個行業里面,產生價值。比如對應急預案的定量判斷、提供數據支撐方面都取得了不錯的效果。例如暴雨會導致滑坡,以前更多是靠經驗進行判斷,到底導致滑坡的概率有多大?不同地形滑坡的概率是否不同?這些情況以前大多依靠人工判斷,沒有數據支撐。百分點基于歷史數據,把暴雨、滑坡、房屋倒塌等災害及事件全部搜集出來,構建了一個大數據庫,之后計算發生次生災害的概率,這樣在制定預案的時候會有定量的數據進行支撐。”他說。
傳統行業領域受制于以前的感知能力不強,實際積累下來的數據比較少。因此需要先定義框架,才可以根據有限的數據進行分析。
比如上面提到的快消行業,百分點科技首席算法科學家蘇海波舉例說,在新品發布后百分點科技可以先根據產品的品牌、型號、類型等維度,對在不同網絡平臺的帖子進行海量結構化的抽取、分析,就能夠知道消費者對產品的反饋,甚至可以了解不同競品之間具體數字上的差異。
數據量不足不僅僅是傳統行業面臨的難題,互聯網領域也同樣存在這個問題,此外,數據治理成本過高也是人工智能應用難的一個重要原因。近日,由百分點科技和機器之心聯合舉辦的數據智能技術實踐論壇成功舉行。百度視覺技術部主任架構師劉經拓在論壇上表示,大規模有監督數據的技術紅利逐漸減弱,AI新基建需要更低的研發與部署成本。因此,百度在技術和產業兩個維度上都進行了融合創新,提出了計算機視覺領域從預訓練、定制化到小型化,以及平臺化的一體化研發方案。具體來說,首先通過用超大規模非結構性的數據做預訓練,能夠在同樣少量數據的情況下取得更好的效果;定制化是指結合特定場景進行自適應遷移學習,根據場景數據進行有監督定制化調優;小型化主要是基于模型剪枝、蒸餾、量化等技術,對模型進行裁剪。
對此,百分點科技數據開發部負責人馬偉凱表示,數據治理中的技術挑戰除了數據孤島、數據質量等問題,還存在多模態下如何解決數據不可用、不能用及不好用等挑戰。百分點科技沉淀了一套數據治理“PAI”實施方法論,即流程化(processoriented)、自動化(automation)、智能化(intelligence)。通過引入機器學習算法、NLP等數據智能技術,可以更好地開展數據治理工作,建立全域數據標準、提升數據質量、盤活數據資產,從而支撐數據融通,最終釋放數據價值指導業務創新。
從感知到認知的跨越過程中,構建大規模高質量知識圖譜是一個重要環節。但目前知識圖譜的成本與效用問題突出,如何低成本地從文本及各種資源抽取出有效的知識是一個非常大的制約因素。對此,復旦大學肖仰華教授也深有感觸,他表示,作為大數據知識工程的典型代表,知識圖譜技術近年來取得了長足進步,并在一系列實際應用中取得了顯著效果。但隨著應用的深化,知識圖譜的落地過程單靠其所代表的知識智能本身這套技術體系和范式已經難以解決很多問題:一是數據獲取和治理困難;二是在知識層面,小樣本、低資源情況下知識的表示和獲取代價仍然非常大;此外,獲取知識之后,在應用、服務能力方面也存在很多挑戰。
因此,未來破題的關鍵在于要突破以知識圖譜為代表的知識智能的邊界,向認知智能這樣的智能新形態發展。他認為,認知智能作為數據智能、知識智能融合創新產物,將是知識圖譜等知識工程技術發展的必然歸宿。
百分點科技首席算法科學家蘇海波則認為,未來知識圖譜一定會深入到各行各業,只有掌握通用的人工智能技術,并將技術和業務需求對應起來,才能真正發揮出知識圖譜的價值,解決行業問題。
此外,人才問題依然是困擾人工智能深度應用的重要因素。劉譯 表示,影響人工智能應用最重要的是人。人工智能應用需要跨學科、跨領域,需要人工智能專家和業務人員一起努力,把現實的問題轉化成AI能理解的數學或者計算機語言,不斷迭代或優化后才能落地。只有構建好這樣的融合探索環境,之后才能孵化出合適的工具,擴大人工智能應用范圍。
我們已經進入到一個從數據到知識的“智變”時代,隨著人工智能與大數據的進一步融合,從感知智能到認知智能的通路搭建會越來越快,人工智能賦能各行各業的時代即將到來。