文 楊龍霄 楊潤鑫 湯 偉 李峻翔
前不久,在素有知識圖譜“世界杯”之稱的大規模圖數據挑戰賽(Open Graph Benchmark,OGB)中,來自中國的度小滿AI-Lab團隊憑借自創的TranS模型榮登OGB-wikikg2榜首。OGB是國際公認的知識圖譜基準數據集和“競技場”,比賽會聚了全球AI頂級人才。此次,度小滿奪冠的OGB-wikikg2是OGB三大類任務之一。
近年來,隨著數字化時代到來,基于人工智能的一系列技術蓬勃發展,知識圖譜技術便是其中不可或缺的一環。全球各大科技巨頭逐步加強知識圖譜布局,期待著知識圖譜在更多領域發揮重要作用。
一提到福爾摩斯,就會不可避免地聯想到他那神乎其神的推理能力。這種能力,不是與生俱來的,而是來自對細節的重視和縝密的分析。電影《大偵探福爾摩斯》中有一個讓人印象深刻的場景——福爾摩斯將各種相關事件和受害者的關系用紅線相互連接起來形成了一個布滿整個房間的網狀結構,在網的中心,與所有人物和事件都有直接或間接聯系的就是案件的核心犯罪嫌疑人。其實,這就是一種簡單的知識圖譜——通過把不同資訊串聯起來,形成關系網,從而在關系網中找到所需要的信息。
知識圖譜技術,指的是建立和應用知識圖譜,對海量數據信息進行檢索、抽取與處理,并且利用數據挖掘和機器學習技術來管理和分析,從而形成圖模型來描述知識和建模世界萬物之間的聯系。
知識圖譜的概念最早在2012年由谷歌提出,其發展史卻可以追溯到1960年的語義網絡。
語義網絡是一種較為直觀的知識表達方式,采用相互連接的節點和邊來表示知識。其中,節點表示對象或者概念,而邊表示對象或概念之間的關系。
用語義網絡表達事件時,常需要設立一個事件節點。比如,想表達“上級向下級傳達文件”,這句話的語義網絡圖中,最中心的節點是“傳達”,并隱含著“接收”和“物品”兩條沒有直接顯現的邊。以“傳達”這個動作為邊,與之相關的節點就是“上級”;以“接收”的動作為邊,與之相關的節點就是“下級”;而“文件”這個節點通過“物品”這個邊,與核心節點“傳達”相連。通過語義網絡,可以更加直觀地了解到事物之間的邏輯關系。
20世紀80年代,哲學概念“本體”被引入人工智能領域用以刻畫知識,為知識圖譜搭建了基本的框架。萬維網的出現,初步實現了文本間的鏈接,形成了知識圖譜的雛形。
萬維網服務器可以通過將信息內容與文本聯系,以超鏈接的方式實現從一個站點到另一個站點的跳躍,這樣徹底打破了之前查詢工具只能一步步地按特定路徑來查找信息的限制。比如,當在搜索引擎中輸入“大數據”時,能夠檢索到一連串與之相關聯的網頁,這時只需輕擊鏈接就可以進入網頁瀏覽。在瀏覽過程中,如遇晦澀生僻的專業名詞,還可以繼續點擊超鏈接進一步學習。
隨著萬維網技術不斷發展,它的技術棧(所使用的不同種類的技術的統稱)越來越龐大、復雜。2006年,萬維網的發明者、英國計算機科學家蒂姆·伯納斯·李提出“關聯數據”的概念。他希望所有機構以標準化形式將原始數據公開,從而建立一個互聯互通的知識網絡,而這已經很接近現在的知識圖譜技術了。
2012年,谷歌發布了知識圖譜,用于改善搜索的質量。知識圖譜除了顯示其他網站的鏈接列表,還提供詳細的關于主題的信息及其所屬結構。不同于傳統網頁搜索的是,使用知識圖譜的語義搜索不是展示網頁,而是展示結構化知識。比如輸入“戴高樂號”,傳統網頁搜索會給出“戴高樂號”航空母艦的艦長、舷寬、排水量和下水日期等屬性信息,如果點擊“戴高樂號”的技術特點版塊,則可以直接進入其知識卡片,了解到艦體防護、動力系統、船電系統、艦載武裝等信息,實現即問即答。
互聯網技術發展進入快車道后,數據的爆炸式增長早已使知識圖譜潛移默化地融入人們的日常生活。無論是一次平常的“百度”,還是與手機AI助理的知識問答,或是個性化教學服務,都是基于知識圖譜技術的發展實現的。
基于知識圖譜等前沿交叉技術開發的人工智能正在風靡全球。
前幾年曾經引起熱議的AI繪畫,如今又一次風靡網絡。AI繪畫剛剛流行時,鬧過不少笑話,比如3只眼睛的小狗、4個頭的鴨子……當時,大多數成品往往不被主流審美接受。短短幾年時間,AI創作技術飛速發展。只要輸入幾個關鍵詞,再選擇喜歡的畫風,AI便能在短時間內生成幾幅令人驚嘆的作品,其質量堪比專業畫師。從搞笑到震撼,其背后是運用了知識圖譜技術,AI不斷學習的結果。
知識圖譜讓智能系統具備了認知能力。這類人工智能相較只擁有海量、繁雜數據的機器而言,顯得“聰明”和“可靠”許多。它能利用知識圖譜管理歸納數據,將數據以多種類型和關系連接在一起,在檢索信息時,可以更加全面、更加開闊、更加系統地將要找的信息整理并輸出。
反過來,因為更強大的智能系統,可以更好地從客觀世界中去挖掘、獲取和沉淀知識,這些知識和智能系統形成正循環。兩者共同進步,這也正是知識圖譜的優勢所在,不斷為數據提供“住處”的同時也提升自己的容量,進一步自我完善。
隨著技術的成熟及應用的推廣,知識圖譜逐漸向生物、金融、能源等知識密集型領域滲透。比如,中國林業科學院林業科技信息研究所林草大數據與知識服務團隊日前研發成功的“林草領域知識圖譜應用系統”就實現了林草領域知識資源的協同建設與共享。
如果進一步放開眼界,知識圖譜技術的應用更加宏闊。2022年4月19日,中央全面深化改革委員會第二十五次會議審議通過了《關于加強數字政府建設的指導意見》。數字是手段,治理是目的。利用知識圖譜技術可以更好地促進政府決策科學化、社會治理精準化、公共服務高效化。
可以說,人類未來的生活,已經與知識圖譜技術密不可分了。
正如網絡誕生之初是為了服務于軍事活動,很多新技術的發展,不但會在日常生活中大量應用,同時也會觸及軍事領域,成為軍事發展的熱點,甚至會對未來戰爭的模樣產生影響。
世界上一些軍事大國已敏銳地洞悉到利用知識圖譜分析數據的重要性。早在2013年,美國國防部高級研究計劃局(DARPA)就牽頭開發了Insight項目,這一項目能夠將互不相干的信息源整合成一張統一的戰場圖片,通過對來自不同信息源的數據進行整合歸納,形成鮮明的體系結構,以提高情報傳感器的工作效率。
目前,軍事領域知識圖譜的研究正火熱開展。
軍事領域知識圖譜是鏈接指揮系統、作戰部隊和武器平臺等各項作戰要素的重要橋梁。
在信息化智能化戰爭中,指揮效率對作戰進程和結局有著決定性影響,而戰場數據是指揮員作出決策的最重要依據。來自海軍、陸軍、空軍等各軍兵種的海量信息數據,無論是作戰還是非作戰數據,人員還是裝備數據,演習還是訓練數據,都在呈指數級趨勢增長,這使得作戰問題更加復雜。據美軍報道,僅1架“捕食者”無人機1天搜集的視頻數據就需要19名情報分析人員來處理。前美國國防部情報局局長空軍中將杰克·沙納罕稱:“談到情報、監視和偵察,我們有比國防部歷史上任何時候更多的平臺和傳感器。這些平臺和傳感器產生了海量的情報數據,但我們卻無法充分利用。”
構建軍事知識圖譜,將使這一問題迎刃而解。
針對正面戰場多、參戰軍兵種多、武器裝備多、突發情況多的實際,可以運用知識圖譜技術對大數據進行采集、歸納與分析。這份戰爭的知識圖譜,將為指揮官提供武器分配、兵力調動等決策輔助,幫助他們及時了解、掌控各個點位和戰場態勢。知識圖譜技術的運用將使整個作戰指揮控制體系更加高效,推動戰爭由信息化向智能化發展。
此外,在情報偵察方面,利用知識圖譜能夠將孤立的數據源進行知識融合,實現碎片信息的深度挖掘,從中獲取高質量的情報。
知識圖譜也可以運用到部隊日常訓練之中。比如說,可以針對某一領域或某個專業,利用知識圖譜構建一個軍事知識問答系統。當訓練時遇到問題,就可以向系統提出疑問,基于知識圖譜的智能問答系統可以判斷問題出現的原因并提供相應的解決辦法,甚至還能向用戶智能推薦進行訓練時需要的注意事項及相關方法技巧等。