李啟可 張克亮
摘要:問答系統的歷史可以追溯到20世紀50年代,主要是受到了圖靈測試的影響,圖靈測試主要是通過測試者與被測試者之間的問答來進行測試。圖靈測試可以說是問答最初的表現形式。而在當時,伴隨著計算機的發展,問答系統也在之后問世,只不過當時的問答較現在來說,系統復雜程度不高,功能較少。經過幾十年的發展,問答系統已經具有了蓬勃的發展,種類繁多,其中所使用的方法以及模型也多不勝數。近年來,由谷歌所提出的知識圖譜技術在工業界得到了廣泛的應用,并且知識圖譜給帶來的收益是不可小覷的,知識圖譜結合了多種學科,并利用圖的形式,為研究者提供具有切實的,有價值的參考。本文將著重介紹與知識圖譜,知識推理相關的問答系統的發展狀況,在此將做一個整體性的論述。
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2019)09-0155-02
1 基本概念
1.1 什么是推理
我們在生活中常常談到推理,每當我們要對某些未知的事情進行猜測或是分析時,我們就會用到推理。推理,在《現代漢語詞典第6版》第1323頁是這樣定義的:邏輯學指思維的基本形式之一,是由一個或幾個已知的判斷(前提)推出新判斷(結論)的過程[1]。
推理是思維的基本形式之一,思維是人類的基本的特征,推理能夠幫助人類認識世界,能夠有效地表達人類的思維,并與外界產生交流,從而實現信息的交換。從古至今,人類的知識產量一直在不斷增長,尤其最近幾十年,人類知識呈現爆炸式的增加,從人類思維的角度來說,這就是推理所帶給人類的巨大益處,人類通過已知的知識去推理未知的知識,從而產生新的知識,這樣的過程就是一個推理的過程,而這個過程是從已知到未知,從無到有的過程。
1.2 什么是知識推理
知識推理的定義比較多,以下是MBA智庫百科的定義:知識推理是指在計算機或智能系統中,模擬人類的智能推理方式,依據推理控制策略,利用形式化的知識進行機器思維和求解問題的過程。推理是按照某種策略從已知判斷推出另一種判斷的思維過程。推理的過程就是解決問題的過程,使問題從初始狀態轉移到目標狀態的方法和途徑。Kompridis[2]在他的論文中談到,推理為一系列能力的總稱,包括有意識地理解事物的能力建立和驗證事實的能力運用邏輯的能力以及基于新的或存在的知識改變或驗證現有體系的能力。
推理是人類思維最基本的特征,作為一個正常的人類,或者說只要是正常的人類,都會推理,這是必須承認的事實。其實推理就是思考,而對于機器來說,機器并不會思考,機器不想人類那樣智能,人類能夠分辨貓咪和狗,能夠分辨下雨和天晴,但機器不能,機器在沒人類指導的情況下是做不到的;人類能夠通過學習去推斷出新的知識,人類能夠通過學習來推斷未知的事物。但機器同樣不能,機器在沒有人類指導的情況下是無法做出推理的。
那么從人工智能的角度來說,機器想要進行推理,那么必須由人來指導,由人來指定規則,算法,模型等等一系列有利于計算機理解的法則,而計算機通過對這些法則進行編碼解碼,來按照人們的意愿,或是模仿人類的推理的行為做出一些簡單的推理。我們必須把現實世界里的語言,知識,或是規則轉換成計算機能夠識別的語言,這樣能夠使計算機更加方便去進行推理,而計算機將通過計算機能識別的語言按照人們的思路去進行推理,從而實現讓計算機來進行推理的過程。
2 歷史發展
知識推理是與知識圖譜密切相關,知識圖譜的誕生直接導致了知識推理的誕生,而知識推理離不開知識圖譜,知識推理中很多技術都是基于知識圖譜來實現的,這就體現了這兩種技術的相互的依賴性。關于知識圖譜和知識推理的發展大概可以分為本體網絡時代,語義網時代,和知識圖譜時代[3]。
2.1 本體時期
知識圖譜的最初形式是本體網絡。這可以看作是知識圖譜的雛形,后期的知識圖譜在很大程度上是受本體網絡的啟發,從而發展出來的。本體(ontology)是一個哲學里的概念,在知識圖譜的發展過程中,本體主要是指由一些抽象概念,物體屬性以及關系類型所構成一個世界。本體主要關注的是物體之間的相互關系,或是物體的特征之間的一些相互關系。本體網絡我們可以看作是一種特殊的語義網絡(Semantic Network),這在早期人們也對其做了深入研究,并由此催生了很多與之技術。
在知識圖譜發展初期,除了本體網絡的雛形之外,還有一種形式值得我們研究——專家系統。專家系統中存儲了大量的與某一類專業相關的知識,每當我們需要解決某一類專業問題的時候,我們可以不再去查閱大量的資料來解決我們遇到的問題,我們可以直接使用這樣一個存儲了大量專業知識的專家系統,通過這個專家系統來解決我們的問題。這樣的專家系統同樣為后來的一些人工智能系統提供了靈感。這也是早期人們通過計算機程序系統來解決問題的一個實例。
2.2 語義網
語義網(Semantic Web)與語義網絡(Semantic Network)是兩個不同的概念,語義網絡主要研究事物之間的相互關系,或是事物特征之間的相互關系,而語義網則是與互聯網類似的一種網,它具有十分強大的智能,能夠有效地與人類交流,從而實現人類與機器的交互。語義網主要通過對用戶輸入的語義進行工作。對于當前大量的信息,人們將會面臨困難是如何對大量信息進行檢索,以及挖掘有用信息,而語義網的出現正是對這種困難的一種解決方案。
2.3 知識圖譜
2012年,谷歌提出知識圖譜。這是由谷歌搜索引擎專家Amit Singhal在他的論文《Introducing the Knowledge Graph: things, not strings》中提出的,搜索引擎在知識圖譜的幫助下其性能將會有一個很大的提升。在知識圖譜的幫助下,搜索引擎將能夠理解用戶的輸入中語義,從而有一個更加精確的搜索,對用戶的友好度將會更高。同時,知識圖譜會為用戶推薦與用戶搜索相關的一些信息,或者說知識圖譜通過用戶的輸入,來判斷用戶的喜好、興趣,并根據這些喜好和興趣來為用戶推薦相關的東西。這與個性化推薦比較相似。
3 主流技術
當前在問答系統中有很多技術,這里主要介紹問答系統中一些相對來說比較主流的技術。主要分為兩種,一種是基于規則的推理方法,一種是基于統計的推理方法。
3.1 基于規則的推理方法
基于規則的推理方法[4],這個方法的主要思想是借助RDF來實現的,資源描述框架RDF是Resource Description Framework的縮寫,RDF允許人們可以定義自己的詞匯表,這就意味著在知識表示的方面,人們能夠根據自己的實際情況來定義知識,然后再根據自己的詞匯表或者是自己定義的知識來進行知識推理。但僅僅是這樣還無法完成知識推理,所以在這當中加入了圖,與三元組相似,用圖來表示實體之間的關系,但在這當中變得十分靈活,通過自己定義知識表示結構,從而讓系統從這樣的結構中去學習推理,并通過這些知識去推理出新的知識。
其次,在基于規則的推理方法中,還使用了OWL,OWL是Ontology Web Lanugage的縮寫,通過借助這種語言來對事物之間的關系進行表示,之后再通過這些關系去進行推理。
3.2 基于統計的推理方法
基于統計的推理方法,這種主要是對大量數據進行處理,也就是堆數據進行挖掘,從中挖掘出實體之間的關系,之后再抽象成相應的規則,從而在這之后能夠實現知識推理。我們都知道知識圖譜主要是從數據抽取出三元組,通過三元組來表示實體之間的關系,這里基于統計的推理方法同樣是如此,但這里的方法更進一步,它把抽取出來的三元組放進一個集合,同時有把這當中涉及的實體放入另一個集合,通過這樣方法對未知的三元組進行推理,推斷出一些可能的,未出現過的三元組,從而實現知識的推理。
4 總結
本文從知識推理的概念,歷史發展,以及在問答系統中一些主流的知識推理技術等多個方面對知識推理做了介紹,從中我們可以了解到有關知識推理的一部分內容,同時,我們也能從這些內容中獲取一些相關知識,從而能指導我們之后的學習,有關知識推理的內容以及知識推理的應用在工業界還有很多,例如基于知識庫的問答系統[5]。在這里只是選取一些主流技術來介紹,對于知識推理我們仍然還有很長的路要走,因此我們應該秉持虛心求教的態度,才能把握好之后的機遇。
參考文獻:
[1] 官賽萍,靳小龍,賈巖濤,等.面向知識圖譜的知識推理研究進展[J].軟件學報,2018,29(10):2-3.
[2] Kompridis N. So we need something else for reason to mean. International Journal of Philosophical Studies,2000,8(3):271-95.
[3] 毛先領,李曉明.問答系統研究綜述[J].Journal of Frontiers of Computer Science and Technology,2012,6(3):195-196.
[4] 曾帥,王帥,袁勇,等.面向知識自動化的自動問答研究進展[J].自動化學報,2017,43(7):5?6.
[5] 王樹西.問答系統:核心技術、發展趨勢[J].計算機工程與應用,2005.18:2-3.
【通聯編輯:李雅琪】