基于啟發式規則的SPARQL本體查詢

2017-01-18 01:59:53譚立威邵志清張歡歡蔣宇一胡芳槐

華東理工大學學報(自然科學版) 2016年6期

關鍵詞：單詞規則

譚立威, 邵志清, 張歡歡, 蔣宇一, 胡芳槐

(華東理工大學信息科學與工程學院,上海 200237)

基于啟發式規則的SPARQL本體查詢

譚立威, 邵志清, 張歡歡, 蔣宇一, 胡芳槐

(華東理工大學信息科學與工程學院,上海 200237)

提出了基于啟發式規則的SPARQL查詢。用語言技術平臺(LTP)解析出問句的依存分析樹(DPT),然后對問句集的依存分析樹進行統計和分析,總結出用于查詢三元組抽取的啟發式規則,利用這些規則去掉無意義的查詢三元組,合并和重組意義不完整的查詢三元組。查詢三元組經過類映射、實例映射和屬性映射得到本體三元組,形成SPARQL查詢。用戶在B/S結構的查詢界面中提交中文自然語言問句,得到中間結果和問句結果。實驗結果表明了該方法的有效性。

自然語言問句; 依存分析樹; 三元組映射; SPARQL查詢

本體能清楚地表示某一領域的分類(類和屬性)和存儲大量的知識(實例和實例關系),通過共享和交換知識在語義網中起著關鍵作用[1]。然而,為了查詢本體內的知識,人們需要了解本體和本體查詢語言,對普通用戶顯然不友好。由于問答系統的輸入是更為自然的日常語言的問句,并且有能力直接返回針對用戶提問的答案[2],因此結合本體和問答系統功能的基于本體的問答系統、問答模型或查詢接口得到了越來越多的關注。

基于本體的自然語言查詢關鍵在于自然語言問句到本體查詢語言的轉換。文獻[3] 簡單地使用語言技術平臺(LTP)解析中文問句得到依存分析樹,再根據本體元數據和經驗找出詞語間的映射關系得到本體三元組,效率較低。文獻[4-5]中先生成查詢三元組然后生成本體三元組。AquaLog在擴展性和方便程度上優于PANTO,但只支持23類問題。PANTO比AquaLog支持更多問題,但缺少AquaLog的其他特性[6]。選擇不同的自然語言處理平臺使得上述3種方法所處理的數據結構有所不同,PANTO利用Stanford Parser[7]解析問句得到的句法樹作為算法的輸入,AquaLog利用GATE[8]標注過后的問句作為算法輸入,標注內容包括:動詞的時態和名詞的類別等。

本文提出了基于啟發式規則的SPARQL本體查詢,利用LTP解析問句生成依存分析樹,提出了6條啟發式規則用于從依存分析樹中抽取查詢三元組,提高了查詢三元組的抽取效率。用戶只需在B/S結構的查詢界面提交中文自然語言問句,便能從本體庫中檢索出答案。為了便于驗證和改進本文方法,中間結果即問句的查詢三元組和本體三元組也作為查詢結果的一部分返回給用戶。

1 自然語言映射為SPARQL查詢的一般步驟及分析

自然語言映射為SPARQL查詢的一般步驟如圖1所示,可概括如下:

圖1 自然語言問句映射為SPARQL查詢的一般步驟Fig.1 General steps of mapping natural language question to SPARQL query

(1)利用自然語言處理平臺對問句進行分詞、詞性標注、命名實體識別和句法分析等工作后得到問句的組件(命名實體、疑問焦點等)。

(2)構建本體庫和詞典。

(3)使用映射方法或抽取算法結合知識庫和問句組件中得到SPARQL查詢。

分析發現,在第3步抽取算法中,從問句中抽取查詢三元組時,可用啟發式規則來提高查詢三元組的抽取效率,從而有利于提高整個映射過程的效率。

本文在一般步驟的基礎上使用LTP的依存句法分析功能分析問句,得到問句的依存分析樹,然后對問句集的依存分析樹的標注關系進行統計和分析得到用于抽取查詢三元組的啟發式規則,通過這些規則和查詢三元組抽取算法去掉了無意義的查詢三元組,合并和重組了意義不完整的查詢三元組。再利用本體庫和字典,把查詢三元組映射為本體三元組,最終形成SPARQL查詢,整個流程如圖2所示。本文在一般步驟的基礎上作了如下改進:

圖2 本文的自然語言問句映射為SPARQL查詢的步驟Fig.2 This paper’s steps of mapping natural language question to SPARQL query

(1)對問句集的依存分析樹的標注關系進行統計和分析,由此提出用于抽取查詢三元組的啟發式規則。

(2)設計查詢三元組抽取算法并結合抽取規則從依存分析樹中抽取查詢三元組,然后經過類、實例和屬性的映射得到本體三元組,組合后得到SPARQL查詢。

(3)開發B/S結構系統提供用戶查詢界面,用戶提交自然語言問句后,系統自動把問句映射為SPARQL查詢,然后在本體庫上執行,最終得到答案。

2 依存分析樹及統計和分析

2.1 依存分析樹

依存分析樹由LTP解析問句后得到,它是查詢三元組抽取算法的輸入。LTP是一個處理中文的集成平臺,擁有一系列自然語言處理模塊,包括詞法分析(分詞、詞性標注和命名實體識別)、句法分析和可視化工具等模塊[9]。

本文的依存分析樹(又稱為依存結構樹)不同于句法樹,是利用LTP提供的WEB API對語句進行依存句法分析后生成,且以標注關系為邊、詞語為節點的有序樹。句法樹是依據上下文無關文法表示句子句法結構的有根節點的有序樹[10],依存分析樹識別了句子中的“主謂賓”、“定狀補”這些語法成分,并分析了各成分之間的關系[11]。有序樹是一棵有根節點的樹,且樹中每個節點的孩子節點的順序是固定的。LTP依存句法標注關系有14種,如表1[11]所示。

表1 LTP依存句法標注關系Table 1 LTP dependency relationships

例如:“阿里巴巴網絡技術有限公司”經LTP分析后得到該句子的依存分析樹,如圖3(a)所示;圖3(b)是該依存分析樹對應的直觀樹形圖。圖3(a)中,節點“Root ”經弧“HED”指向單詞“有限公司”,表示“有限公司”是核心單詞,是這棵樹實際上的根節點,簡稱為根單詞,“Root”起頭節點的作用?！坝邢薰尽苯浕　癆TT”指向單詞“阿里巴巴”,表示“阿里巴巴”和“有限公司”是定中關系。圖3中其他關系可類推。

圖3 依存分析樹和對應的樹形圖示例Fig.3 ADPT and its tree structure

2.2 問句標注關系的統計和分析

以往的基于LTP的SPARQL本體查詢方法缺乏對問句的標注關系的統計和分析,如文獻[3,12]。問句的依存分析樹中的標注關系體現了各詞語間的依賴關系,是各個詞語如何組成查詢三元組的依據。除HED關系外,每一個標注關系都是一個候選查詢三元組?；跇俗㈥P系的統計和分析有助于生成啟發式規則,從而去掉無意義的查詢三元組,合并和重組意義不完整的查詢三元組,提高抽取查詢三元組的效率。本文提出當查詢三元組能獨立地映射為本體三元組時,則認為該查詢三元組是意義完整的。

查詢三元組的形式為:<主語部分,謂語部分,賓語部分>,簡寫為<主語,謂語,賓語>。查詢三元中3個部分的內容都是依存分析樹中的單詞,它的謂語可以為空,謂語為空時填入null,或者填入主語和賓語之間的標注關系。

哈工大信息檢索研究中心語言技術平臺中的問答系統問題集[13]包含機構、概念、人物等類別的問句,這些類別的問句能夠與百度百科中的詞條對應起來,而百度百科是本文實驗系統的數據源之一,因此本文采用該問題集,對該問題集的標注關系進行統計和分析。調用LTP的WEB API的依存句法分析功能解析問題集中的629個問句,得到它們的依存分析樹,然后統計各標注關系,并按照各標注關系出現的頻率降序排列,排前10位的標注關系柱的狀圖如圖4所示。

圖4 特定問句標注關系的頻率統計Fig.4 Frequency of certain dependency relationships

從圖4可以看出,中文問句標注關系中出現頻率最高的依次是定中關系(ATT)、動賓關系(VOB)、核心關系(HED)、主謂關系(SBV)、狀中結構(ADV)和右附加關系(RAD),這6個標注關系是中文問句的主要標注關系,需要重點處理。6個標注關系轉換成查詢三元組的具體分析如下:

(1)ATT標注關系,簡稱為ATT關系,其他標注關系采用同樣的方式進行簡稱。ATT關系修飾名詞,起限定名詞的作用,因此可直接抽取為查詢三元組。當命名實體或行業名詞被LTP解析成多個ATT關系時需要合并這些ATT關系成一個單詞以表示一個整體。

(2)同一個動詞對應的一對SBV關系和VOB關系分別轉換成查詢三元組時,缺少主語或賓語,意義不完整,這樣的一對關系需要合并從而得到包含主謂賓意義完整的查詢三元組。

(3)HED關系標識出查詢三元組抽取的起始單詞是哪個單詞,對查詢三元組的抽取無其他意義。

(4)RAD關系出現的頻次高是因為助詞“的”和各個名詞構成的RAD關系在問句中頻繁出現,這類關系所表達的含義隱含在各名詞的ATT關系中,可直接去掉。比如在問句“公司的創始人是誰”經LTP解析后得到標注關系:<的,RAD,公司>和<公司,ATT,創始人>等標注關系。右附加關系<的,RAD,公司>的含義已隱含在定中關系<公司,ATT,創始人>中,因此可以直接去掉。

(5)ADV關系修飾形容詞或動詞,在本文的問題集中,ADV關系主要修飾形容詞,表示程度、范圍等,視情況決定是否要映射為查詢三元組,這是因為ADV關系所描述的程度或范圍等信息,本體庫中常常沒有與之直接對應的屬性,也難以量化。

3 查詢三元組的抽取規則與抽取算法

3.1 抽取規則與抽取算法

基于2.2節的分析,提出6條從依存分析樹中抽取查詢三元組的抽取規則如下:

(1)命名實體名詞和行業名詞在問句中表示一個整體概念,因此提出抽取規則:合并依存分析樹中被拆分為多個單詞的命名實體名詞和行業名詞。

(2)根據2.2節的分析(4)提出用于去掉無意義組合的抽取規則:去掉首單詞為助詞“的”的RAD關系。

(3)根據2.2節的分析(1)和本節抽取規則(1),提出抽取規則:當滿足本節規則(1)且ATT關系對應的首尾單詞都是名詞時,一個ATT關系對應一個查詢三元組。

(4)根據2.2節分析(2)提出合并意義不完整的查詢三元組的抽取規則:一對SBV關系和VOB關系合并為一個查詢三元組,簡稱為SBV-VOB查詢三元組。

(5)當本節規則(4)中的SBV-VOB查詢三元組修飾名詞時,需要拆分SBV-VOB查詢三元組再和被修飾的名詞組成新查詢三元組,因此提出用于重組查詢三元組的抽取規則:當SBV-VOB查詢三元組的謂語(動詞)和某一名詞存在ATT關系時,拆分SBV-VOB查詢三元組,然后和ATT關系組成新查詢三元組。

(6)依據就近原則,和疑問單詞(比如:誰,哪里)在同一查詢三元組內的主語或賓語為疑問焦點,得到以下抽取規則:查詢三元組的主語或賓語為疑問單詞時,對應的賓語或主語為疑問焦點。

抽取規則中,首單詞為標注關系到達的單詞,對應查詢三元組的主語。尾單詞為標注關系出發的單詞,對應查詢三元組的賓語,如圖3中的標注關系<網絡,ATT,技術>,“網絡”是首單詞,“技術”是尾單詞,起連接作用的弧是ATT關系。

抽取算法描述如下:

輸入:問句依存分析樹

輸出:問句查詢三元組

(1)執行抽取規則(1)和規則(2)。

(2)根據HED關系找到依存分析樹的根單詞并把它作為參數傳入第(3)步。

(3)傳入的單詞作為父單詞,檢索其孩子單詞,若孩子單詞為空則此趟遍歷結束;否則,根據所有孩子單詞和父單詞的詞性與標注關系抽取查詢三元組。

(4)將第(3)步中的孩子單詞作為參數傳入第(3)步,遞歸處理孩子單詞。

3.2 抽取規則與抽取算法的應用

以問句“阿里巴巴網絡技術有限公司的創始人是誰”為例說明抽取規則的作用和抽取算法的執行過程。該問句的依存分析樹如圖5所示,其中陰影部分為LTP命名實體識別功能模塊識別出來的機構實體。

第1步,合并機構實體名詞“阿里巴巴網絡技術有限公司”,去掉首單詞為助詞“的”的RAD關系<的,RAD,阿里巴巴網絡技術有限公司>。

第2步,確定根單詞為單詞“是”,把該單詞作為參數傳入算法的第3步。

第3步,“是”的孩子單詞非空,根據抽取規則(4),抽取出SBV-VOB查詢三元組:

<創始人,是,誰>

第4步,“創始人”和“誰”分別作為參數傳入第3步。

執行算法的第3步,“創始人”是傳入參數,根據抽取規則(3),抽取出查詢三元組:

<阿里巴巴網絡技術有限公司,ATT,創始人>

執行算法的第4步,“阿里巴巴網絡技術有限公司”傳入第3步,該單詞已無孩子單詞,此趟遍歷結束。

執行算法的第3步,“誰”是傳入參數,它的孩子單詞為空,此趟遍歷結束,整個遍歷隨之結束。

例句的依存分析樹中的7個標注關系(HED關系除外)對應7個候選查詢三元組,抽取過程不是簡單的依賴經驗而是利用抽取算法和抽取規則去除了1個RAD關系、合并了3個ATT關系和1對SBV-VOB關系,提高了抽取效率,最后生成2個查詢三元組。

圖5 “阿里巴巴網絡技術有限公司的創始人是誰”的依存分析樹Fig.5 DPT of question “a li ba ba wang luo ji shu you xian gong si de chuang shi ren shi shui”

4 映射本體三元組

4.1 SPARQL和詞典

SPARQL[14]是一種RDF(Resource Description Framework)[15]查詢語言,可以檢索和操作RDF格式的數據。RDF是有向的、含標簽的圖數據格式,也是以三元組的形式表示和存儲數據:<主語,謂語,賓語>。例如,通過三元組<誰,創作,紅高粱>來表示問句“誰創作了《紅高粱》”。RDF三元組可構成本體庫,然后通過SPARQL語句查詢本體庫內的RDF數據。SPARQL的語法類似SQL,使用“SELECT”語句包含查詢變量,“FROM”語句指出具體查詢哪一個本體庫,設置默認本體庫后可省略“FROM”語句?！癢HERE”語句塊表示與查詢變量相關的約束條件,約束條件也是通過三元組的形式表示。查詢變量可以出現在三元組中任何一個位置上。上述問句可簡單地映射為SPARQL查詢語句:

PREFIX:

SELECT ?author

WHERE { ?author :created “紅高粱”.}

為了實現查詢三元組到SPARQL查詢的映射需要借助詞典。詞典主要包括3部分:本體實體、通用詞典、用戶詞典[16]。本體實體包含類(概念)、屬性(關系)和實例(個體)。通用詞典可以使用中文WordNet[17]和維基百科。用戶詞典是對通用詞典的補充,補充新名詞、術語等。例如:本體實體中包含詞語“公司”,它對應的本體類“:Company”,即存在一條映射規則:<公司, :Company>。在通用詞典中“公司”和“企業”是近義詞,因此,結合本體實體和通用詞典便可以推出新的映射規則:<企業,:Company>。問句“餓了么的網址”,經LTP解析后,機構名詞“餓了么”會被解析為兩個標注關系<了,RAD,餓>和<么,RAD,餓>,當“餓了么”作為機構名詞加入用戶詞典后,便可以在抽取查詢三元組和映射本體三元組時正確地識別為一個整體。

4.2 映射本體三元組

本體三元組也是通過三元組的形式表示:<主語,謂語,賓語>,但三元組內的主謂賓是本體元素:本體實體、查詢變量和本體格式數據。每個查詢三元組映射為本體三元組都需要3個步驟:映射主語、映射賓語、映射謂語。先映射主語和賓語再映射謂語。映射謂語時,謂語非空時根據主語、謂語和賓語映射謂語,謂語為空時則根據主語和賓語及它們之間的標注關系映射謂語。查詢三元組映射為本體三元組有3類映射:類映射、實例映射和屬性映射。

例如:3.2節中第1個生成的查詢三元組<創始人,是,誰>在映射為本體三元組時,第1步映射主語 “創始人”,它對應本體類“:Person”,進行類映射,通過以下本體三元組描述該類映射:

?person rdf:type :Person

第2步映射賓語“誰”,它是疑問詞,根據抽取規則(6)確定與它對應的主語“創始人”是疑問焦點,疑問詞本身不需要做映射,從而也不需要進行第3步謂語映射,第1個查詢三元組的映射結束。

類似的,3.2節中第2個查詢三元組<阿里巴巴網絡技術有限公司,ATT,創始人>映射為本體三元組時,第1步映射主語“阿里巴巴網絡技術有限公司”,它對應本體實例,進行實例映射。該實例對應本體類“:Company”。實例名稱為“阿里巴巴網絡技術有限公司”,名稱對應的本體屬性為“:name”,“:name”的值即為實例名稱。因此,通過以下兩個本體三元組描述該實例映射:

?company rdf:type :Company

?company :name "阿里巴巴網絡技術有限公司"

第2步映射賓語“創始人”,由圖5可知,它和第1個查詢三元組的主語是同一個詞語且在之前的步驟中已經映射過,這里無須再映射。第3步映射謂語,ATT是主語和賓語之間的標注關系,說明謂語為空,主語是對應類“:Company”,賓語對應類“:Person”,根據類“:Company”和類“:Person”之間可能存在的屬性和“創始人”的語義,把謂語映射為屬性“:founder”,因此,通過以下本體三元組描述該屬性映射:

?company :founder ?person.

本體三元組映射過程中需要的類(名)和屬性(名)包含在本體庫中。3.2節中的2個查詢三元組按步驟,經過3類映射之后得到本體三元組,同時確定疑問焦點是“創始人”,因此SELECT語句中的查詢變量設為“?person”,與生成的本體三元組組合后得到的SPARQL查詢語句(查詢結果為“馬云”):

PREFIX rdf:http://www.w3.org/1999/02/22-rdf-syntax-ns#

PREFIX:http://cise.ecust.edu.cn/ontology#

SELECT ?person WHERE {

?person rdf:type :Person

?company rdf:type :Company.

?company :name "阿里巴巴網絡技術有限公司".

?company :founder ?person.

}

5 實驗

實驗使用本體編輯器Protégé5.0.0[18]設計本體庫,采用Jena2.10.0[19]和Java程序向本體庫中批量導入本體實例,使用SPARQL作為本體查詢語言,利用LTP解析問句得到依存分析樹。實驗使用JSP和Tomcat6.0.39開發B/S結構系統方便用戶提問,如圖6。本體實例的數據源之一是百度百科詞條,同時支持互動百科和中文維基百科,詞條到本體實例的映射和本體庫的構建,限于篇幅不再贅述。

文獻[3]中的方法簡單地利用了元數據和經驗實現自然語言問句到SPARQL查詢的轉換,本文利用抽取算法和抽取規則去掉了無意義的查詢三元組,合并和重組意義不完整的查詢三元組,提高了抽取效率。以問句“北京經營電子商務的公司有哪些”為例,利用抽取算法和抽取規則去掉了一個RAD關系,合并了一個ATT關系和兩對SBV-VOB關系,重組了一對SBV-VOB關系,問句的中間結果和答案如圖6所示。該例句的處理過程類似3.2節的例句的處理過程。

圖6 B/S結構查詢界面Fig.6 Query interface based on B/S structure

實驗主要針對經濟本體、人物本體和城市本體這3個本體進行查詢。實驗數據如表2所示。

采用準確率評價本文方法,定義如下:

準確率=

表2 實驗數據Table 2 Experimental data

實驗中,對ATT關系、SBV關系和VOB關系的映射效果較好,對ADV關系的映射效果映射較差。因為ADV關系所描述范圍和程度難以映射,例如問句:“哪些公司和華東理工大學比較近”,經LTP解析后得到ADV關系<比較,ADV,近>,如何定義“比較近”以及如何映射到本體庫中都有待通過將來進一步的研究來解決。另一方面,由于本方法依賴LTP,當LTP解析依存分析樹出現偏差時,后續的映射也出現錯誤。例如:“阿里巴巴網絡技術有限公司的簡稱為什么”,目前為止,LTP都把“為什么”解析為疑問詞,然而正確的解析是把“什么”解析為疑問詞。

6 結束語

本文映射中文自然語言問句為SPARQL查詢的方法,在一般步驟基礎上,進一步對問句集的依存分析樹進行統計和分析,提出了查詢三元組抽取規則,設計并利用查詢三元組抽取算法結合抽取規則從問句的依存分析樹中抽取出查詢三元組,提高了查詢三元組的抽取效率。實驗表明該方法的有效性。不過,該方法依賴于LTP,而LTP所生成的依存分析樹存在偏差,針對這一情況我們將會研究人工修正和問句等價替換兩種方法來處理這種情況。此外,本文主要分析處理了6種高頻率的標注關系,其他標注關系也會在將來的工作中得到研究。

[1] CHANDRASEKARAN B,JOSEPHSON J R,BENJAMINS V R.What are ontologies,and why do we need them?[J].IEEE Intelligent Systems,1999,14(1):20-26.

[2] 孫昂,江銘虎,賀一帆,等.基于句法分析和答案分類的中文問答系統[J].電子學報,2008,36(5):833-839.

[3] CHANG Qingling,ZHOU Yuanchun,XU Shiting,etal.Research on ontology-based Chinese semantic retrieval model[C]// 2014 International Conference on Computational Science and Computational Intelligence (CSCI).USA:IEEE,2014:302-307.

[4] LOPEZ V,PASIN M,MOTTA E.AquaLog:An ontology-portable question answering system for the semantic Web[J].Lecture Notes in Computer Science,2005,3532:546-562.

[5] WANG Chong,XIONG Miao,ZHOU Qi,etal.PANTO:A portable natural language interface to ontologies[J].Lecture Notes in Computer Science,2007,4519:473-487.

[6] KARIM N,LATIF K,AHMED N,etal.Mapping natural language questions to SPARQL queries for job search[C]// 2013 IEEE Seventh International Conference on Semantic Computing.Irvine:IEEE,2013:150-153.

[7] KLEIN D,MANNING C D.Accurate unlexicalized parsing[C]// Proceedings of the 41st Annual Meeting on Association for Computational Linguistics.USA:ACM,2003:423-430.

[8] CUNNINGHAM H,MAYNARD D,BONTCHEVA K,etal.GATE:A framework and graphical development environment for robust NLP tools and applications[C]// Proceedings 40th Anniversary Meeting of the Association for Computational Linguistics (ACL).Philadelphia,USA:DBLP,2002:10-15.

[9] CHE Wanxiang,LI Zhenghua,LIU Ting.LTP:A Chinese language technology platform[C]// 23rd International Conference on Computational Linguistics.Beijing:DBLP,2010:13-16.

[10] Parsetree[EB/OL].[2015-07-20].https://en.wikipedia.org/wiki/Parse_tree.

[11] 語言技術平臺[EB/OL].[2015-11-10].http://www.ltp-cloud.com/intro/.

[12] YIN Wenke,GE Weiyi,WANG Heng.CDQA:An ontology-based question answering system for Chinese delicacy[C]//2014 IEEE 3rd International Conference on Cloud Computing and Intelligence Systems (CCIS).Shenzhen:IEEE,2014:1-7.

[13] 劉挺.哈工大信息檢索研究室對外共享語料庫資源[EB/OL].[2015-09-22].http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm.

[14] PRUD’HOMMEAUX E,SEABORNE A.SPARQL query language for RDF[EB/OL].[1015-08-20].http://www.w3.org/TR/2008/REC-rdf-sparql-query-20080115/

[15] KLYNE G,CARROLL J J.Resource description framework (RDF):Concepts and abstract syntax[EB/OL].[2015-10-15].http://w3c.org/TR/rdf-concepts,2004.

[16] 張宗仁,楊天奇.基于自然語言理解的SPARQL本體查詢[J].計算機應用,2010(12):3397-3400.

[17] 張俐,李晶皎,胡明涵,等.中文WordNet的研究及實現[J].東北大學學報(自然科學版),2004,24(4):327-329.

[18] Protégé[EB/OL].[2015-09-25].http://protege.stan-ford.edu/.

[19] Jena[EB/OL].[2015-10-20].http://jena.apache.org/documentation/ontology/.

SPARQL Ontology Query Based on Heuristic Rules

TAN Li-wei, SHAO Zhi-qing, ZHANG Huan-huan, JIANG Yu-yi, HU Fang-huai

(School of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China)

This paper proposes an SPARQL ontology query based on heuristic rules.In the proposed method,LTP (Language Technology Platform) is utilized to parse a question to dependency parsing tree (DPT).Heuristic query triple extraction rules are formed according to the statistic and analysis of DPTs of question set.Query triple(s) are extracted accurately by deleting meaningless query triple(s) and recombining incomplete query triple(s) based on these rules.Query triple(s) are mapped to ontology triple(s) by means of three kinds of mapping:class mapping,instance mapping and property mapping.And then,SPARQL query is obtained.Intermediate results and answer will be presented to users when they submit a Chinese natural language question in the query interface.The experiment shows that the presented method is effective.

natural language question; dependency parsing tree; triple mapping; SPARQL query

1006-3080(2016)06-0851-07

10.14135/j.cnki.1006-3080.2016.06.016

2016-01-13

國家高技術研究發展“863”計劃(2015AA020107)

譚立威(1988-),男,湖南郴州人,碩士生,主要研究方向為自然語言處理。E-mail:tanliweii@qq.com

邵志清,E-mail:zshao@ecust.edu.cn

TP39

基于啟發式規則的SPARQL本體查詢

1 自然語言映射為SPARQL查詢的一般步驟及分析

2 依存分析樹及統計和分析

3 查詢三元組的抽取規則與抽取算法

4 映射本體三元組

5 實 驗

6 結束語

5 實驗