曾真 岳陽市高級技工學校 劉堯 桂林旅游學院旅游數據學院
知識圖譜構建技術是近幾年來研究比較熱門的話題,知識圖譜(Knowledge Graph)的本質就是一種語義網絡,其主要目標就是將真實世界中的各種實體(Entity)、屬性(property)以及實體與屬性之間的關系(Relation)描述出來,知識元素是組件語義檢索系統的基本單位,在漢語體系中,語義之間的邏輯關系是比較復雜的,需要結合上下文結構,需要了解當時的語境,需要確定具體的歷史時期,這些因素都有可能展示出不同的語義含義和關系,達到計算機可讀取、好理解以及用戶查詢方便的目的[1]。用戶能通過搜索自己所需的關鍵詞來獲得相關更廣泛、更深入的知識信息,大大提高獲取知識的效率,其中語義檢索技術恰恰就是核心關鍵所在。接下來,我們了解一下知識圖譜的基本概念。
知識圖譜是21世紀提出來的,相當于將人工智能、大數據、數字化、可視化等相關技術進行融合后的新概念,它的數據形式并不單一,不同的名稱實體、屬性關系等數據需要從不同的地方去采集,有結構化的,有半結構化的,也有非結構化的,使得互聯網中的海量無序信息的表達變成更好組織、管理和理解的數據模式,達到更接近人類思考和認知模式[2]。知識圖譜作為一種新型的技術概念展現在大家面前以來,得到了研究者們廣泛的研究,其中語義檢索就是知識圖譜的研究熱點之一。
知識圖譜構建是融合了實體鏈接、知識可視化、知識分析、關系提取、語義檢索等相關技術。具體如下:
實體鏈接就是指對用戶查詢時,對其輸入的語句中的實體進行自動識別,并將其與知識圖譜的相應節點進行鏈接。主要步驟有兩個,一個是對自然語句中的主語和賓語進行實體識別,主要包括姓名、單位名稱、項目名稱、地方名稱等幾類實體[3]。另外一個是對自然語句中的實體關鍵詞進行歧義消除,比方說一語雙關或一詞多義的問題,主要是要結合自然語句中的上下文意境來判斷,將自然語句中出現的相關名稱鏈接到知識圖譜里相應的實體節點上,充分利用上下文,分析不同含義的實體出現在該處的概率,已到達精準鏈接的目的。
知識可視化是指把現實世界中所關心主體知識和客體知識進行抽象描述,并將其關聯起來,知識可視化需要通過計算機數字化后,實現計算機可識別、分析的數據,再結合機器學習模式,不斷進行數據修正,以達到人類識別和理解知識的常規模式。
知識分析是指通過智能系統來實現推理的程序,通過機器學習模式,并設置合理的邏輯關系的規則,讓系統按照設定好的邏輯關系規則去搜索知識庫里的信息,然后進行數據匹配,產生或論證出新的知識。知識分析的關鍵就是對知識之間的邏輯關系,潛在的語境進行甄別,判斷出最合理的語義關系,得到用戶預期的需求。
在當前信息爆炸、海量數據充斥互聯網的時代背景下,信息抽取工作就顯得格外重要。關系提取顧名思義,就是在語句結構中,試圖用計算機的語言區識別文字體系中的邏輯關系,主要是從海量的非結構和半結構的數據信息中,提取出與用戶檢索相關的內容,再通過計算機的處理,將這些不夠結構化的數據變成結構化的數據,提高后期的檢索效率,使得這些信息能夠成為計算機可識別和使用的格式。關系提取主要分兩個步驟,一個是從文本內容中判斷實體是否有關聯,另一個就是抽取到與之有關系的實體之間的關系是哪一種屬性[6]。
語義檢索顧名思義就是針對中文語句中的文字含義用計算機搜索的方式來進行操作的事情,在知識圖譜中找到對應的實體、概念、屬性和聯系,搜索結果以結構化信息內容展示在用戶面前,直接滿足用戶關聯信息需求,而不是一個個獨立的互聯網網頁[7]。
語義檢索技術是知識圖譜構建中非常重要的一環,它能改善當前搜索引擎的搜索效果,不再刻板的研究和分析用戶搜索時所輸入關鍵詞的字面意思,而是通過關聯分析,能準確地挖掘到用戶所要找尋的具體內容和可能需要但并沒有及時想起來的信息,達到一種精準提醒和引導的作用,輔助用戶找到自己更喜歡的內容[7]。所以說,在知識圖譜技術領域里,語義檢索技術是相當重要的一環,也是未來互聯網研究熱門之一。
說起語義檢索,就不得不提到語義網,它是在Web 3.0這一概念中誕生的,說白了就是希望通過人工智能來進行表達的一種網絡。它不再是簡單的識別詞語和概念的表面含義,關鍵是能夠對實體之間的邏輯語句進行甄別、判讀、推理、學習和互動,以達到更高效、更精準的信息交流,使得用戶在網絡上獲得更有價值的數據信息[8]。
語義網不同于現在普通的網頁,常規的網頁更多的是靜態信息的展示和呈現,數據沒有變換,而語義網中提供的數據主要都是針對可以編輯的動態數據,用戶能夠對數據進行更改和編輯,并且可以成為機器硬件可讀取的數據,能夠讓計算機進行邏輯運算和處理,以給出用戶能夠理解的結果出來。
語義關系是語言詞匯之間的存在某種意義上的關系,如聚合關系、組合關系和邏輯關系等。在中文語句中,不同的語氣、停頓都能產生不同的意思和理解,這就導致了一句話的語義關系需要結合上下文的結構來理解。如:①我不想吃了,②米飯不想吃了,③蝦不想吃了。
這三例句法關系都一樣,都是主謂關系。但其背后隱藏的語義關系是比較復雜的,打個比方說,小明爬過岳麓山沒有?這里就有兩個意思,一層意思是小明以前去爬過岳麓山,有沒有爬到山頂并不確定,另一層意思是,小明從岳麓山山頂爬過去,明確是到過岳麓山山頂的。所以說這句話不同的人就有不同的理解,是有歧義的。中文的語義存在多種含義聯系,需要結合當前語境才能獲得比較準確的理解,只有把多種理解的語義之間的聯系建立成計算機模型,才可以更為合理和精確的解釋負責的中文語法結構。
何為語義模型?簡而言之,就是針對語義概念用計算機的手段建立的模型,模型能夠給出詞的語義,例如判斷這個詞是地名、日期、書籍、歌曲等等。語義相似度是在語義檢索中最重要的也最難解決的問題,傳統的文本相似性有時無法有效發現語義類檢索-解答結果對,如:①存在輸入錯誤。例如輸入的錯誤檢索“稻城雅丁”(稻城亞丁),對于這種錯誤我們希望系統能夠自動的糾錯;②存在表達冗余。例如輸入“三國志智慧的現實意義”,在這個語境下,“智慧”是一個無關緊要的詞。如果強制去匹配“智慧”的話,反而匹配不出真正想要的結果;③存在語義鴻溝。比如“皮鞋消音”,其中“消音”這個詞的與:“皮鞋”在一起的表達比較少見,使得同時包含“皮鞋”和“消音”文檔較少。而類似的表達如“皮鞋走路聲音大如何消除”等可能較多。用戶輸入的檢索和用戶生產內容之間存在了語義鴻溝;還有其他類型表達不完整,意圖不明等等的相似性。檢索和解答就相當于鑰匙和鎖之間的關系,它們之間的關聯分析可以很高的幫助語義檢索結果排序[9]。
語義檢索的基礎是需要在數據語義知識庫中進行,這個知識庫的建立重點在于將真實世界中的概念或對象進行數字化,形成數據語義,實現數據語義與現實語言聯系起來。如果從未使用過計算機數據庫的人試圖從中提取信息,則用于訪問數據庫的單詞和短語是沒有意義的[10]。語義檢索是智能化搜索服務的前提,探索文本信息數據語義化,實現文本信息從基本機器可讀逐漸向計算機可理解、可計算、可推理的方向邁進,是語義檢索有效性的保證。
綜上所述,語義檢索在知識圖譜技術領域中占有非常重要的一環,使用者能通過輸入關鍵詞就能實現自己個性化信息需求,語義檢索起到了至關重要的作用,也是知識圖譜構建的關鍵所在。本文從語義網的概念、語義關系、語義模型和數據語義等方面來論述語義檢索技術的優勢、要領、基礎和核心需求,為智能化搜索服務提供一定的參考。