唐 勇
(常州紡織服裝職業技術學院常州213164)
基于領域本體的自動應答系統典型問句分析*
唐勇
(常州紡織服裝職業技術學院常州213164)
基于領域本體來研究自動問答系統中用戶問句的分析與處理方法。通過構建旅游領域的本體知識庫,梳理了旅游電商領域各種概念之間的關聯。通過在本體知識庫中加入程度形容詞類和疑問詞類,定義這些詞語與本體中概念類的修飾和指代關系。分析了如何利用本體知識庫對用戶的四種典型問句進行處理,為后續問句的答案處理提供了技術準備。
領域本體 自動應答 問句分析
隨著電子商務的普及和發展,越來越多的企業需要構建自動應答系統為用戶提供實時的業務咨詢和問題解決方案,在此過程中如何理解用戶提出的問題并返回準確的答案,即問句的分析與匹配是自動應答系統的實現基礎。
中文問句分析與匹配的主要方法有:基于關鍵詞匹配的分析、基于概念的分析、基于模式匹配的分析和基于語義理解的分析[1]。其中,基于關鍵詞匹配的分析依據向量空間模型計算關鍵詞在常見問題集合中出現的頻率,選擇匹配值高的問題作為答案[2],其缺點是割裂了關鍵詞之間語義關系;基于語義理解的分析考慮了問句中關鍵詞之間的依存關系,包括內在聯系和修飾關系[3],常利用知網或同義詞詞林對問句中的關鍵詞進行詞語相似度計算[5]。然而,知網和同義詞詞林給出的是詞與詞之間的普遍意義,沒有結合特定領域的知識。
本文以旅游電子商務中用戶在線咨詢為應用場景,構建面向旅游電子商務的知識本體,分析該領域用戶咨詢的特點,分析問句的問點、對象和疑問詞等關鍵特征,然后在本體知識庫中匹配問句、抽取問題答案。
本體被定義為“共享概念模型的明確的形式化規范說明”,它以計算機可讀的方式為現實世界中各種事物或現象做了概念定義,并描述了這些概念之間的相互關系,使得知識的重用和共享成為可能。領域本體是指特定領域中概念與概念之間的相互關系,提供了該領域的相關詞匯和概念。
Protege軟件是斯坦福大學開發的本體編輯和知識獲取工具,能夠快速的進行本體建模。針對旅游電子商務領域涉及到的相關概念,根據Gruber提出本體構建的五個準則,使用protege軟件構建旅游電子商務的本體,如圖1所示。該本體中主要涉及到人、景點、交通工具、組織機構、地理位置、線路和票據等類,這些類又可以進一步劃分為若干子類,比如人可以分為客戶和導游;組織機構分為:景點管理機構、旅行社、酒店和保險公司等;景點可以劃分為人文景點和自然景點;票據包括門票、車票和住宿發票等。
本體中的類具有數據屬性和對象屬性。其中,數據屬性表明類具有的某種狀態,比如景點類具有開放時間、關閉時間、面積大小等屬性;車票類具有價格、發車時間等屬性。對象屬性表明多個實體類之間的相互關聯,例如:預定屬性表示客戶和酒店之間的“預定”關系,其定義域為客戶,值域為酒店;交通工具和景點之間具有“到達”的屬性關系等。
中文問句的類型大致可以劃分為是非問句、正反問句、選擇型問句和特指問句,如表1所示。

表1 中文問句類型及結構分析
1、“是非問句”一般以疑問詞結尾。通過定義一個“是非疑問詞”列表來檢測,若問句中含有是非疑問詞,則進一步判斷問句結構是否為“名詞+形容詞+疑問代詞”,若是,那么問點應是名詞的某種屬性,而該屬性可能被多種形容詞修飾。
例如,“恐龍園貴嗎?”這句話實際上是想詢問恐龍園門票的價格。修飾價格的形容詞除了“貴”之外還可能是“高、低、便宜”等。在本體中添加“程度類”與“屬性類”,其中“程度類”包含了“高、低、遠、近、大、小、多、少、貴、便宜”等形容詞語?!皩傩灶悺卑恕皟r格、距離、面積、價格,等級”等的名詞。定義價格屬性的值域為“高、低、貴、便宜”等,面積屬性的值域為“大、小”等。如圖2中紅色虛線所示。當在本體中查詢形容詞“貴”的修飾關系時可以得到價格屬性,進而發現價格屬性的擁有者是門票類,問句被轉化為“恐龍園+門票+價格”。進一步挖掘可以回溯到景點管理機構、景點和位置信息。類似的,“恐龍園大嗎?”則通過形容詞“大”和“恐龍園”景點推出其修飾的是“面積”,因此返回“恐龍園+面積”的相關信息。
“是非問句”還有可能是“主語+謂語+賓語+疑問代詞”或“主語+介詞+賓語+疑問代詞”的結構。對此類型可以直接在本體中查詢主語和賓語的關聯關系。例如“常州有地鐵嗎?”提取出“常州”和“地鐵”,通過本體查詢可以獲取“常州”是位置類的實例,“地鐵”是交通工具類的實例,在本體模型中位置和交通工具之間為“擁有”關系。例如“恐龍園在常州嗎?”提取出“常州”和“恐龍園”,通過本體查詢可知“恐龍園”是景點類的實例,它與位置類的實例“常州”之間是“位于”的關系。
部分“特指問句”具有“多+程度形容詞”的結構。例如“市區到恐龍園有多遠?”可以提取程度形容詞,按照“是非問句”的分析方式進行處理。
2、“正反問句”含有“肯定否定組合詞”。例如“可不可以”、“能不能”、“是否”等,可以將其轉換為是非問句。例如“恐龍園門票貴不貴”被轉換為“恐龍園門票貴嗎”,“常州有沒有地鐵嗎?”被轉化為“常州有地鐵嗎?”。然后按照“是非問句”的方法進行處理。
3、“選擇問句”含有“是……還是”的選擇項。可以根據此特征將問句劃分為兩個“是非問句”。例如“去常州是坐汽車快還是坐火車快?”被轉化為“去常州做汽車快嗎?”和“去常州做火車快嗎?”兩個是非問句。在本體中的關系如圖3所示。汽車和火車都是交通工具類的子類,而常州是位置類的實例。在本體模型中路線類具有時間,時間類又被程度詞“快、慢、長、短”等修飾,而路線和位置是到達關系。通過在本體中查找程度詞“快”并結合位置類和交通工具類可以返回有關路線的信息。
4、“特指問句”通常用疑問詞代替未知的部分,這些疑問詞包括“怎么、什么、哪里”等。例如“常州恐龍園在哪里?”。在旅游電商領域特指問句的問點一般集中在時間、位置、路線、交通等方面。將疑問詞分為位置疑問詞,例如“哪兒、哪里、哪個”等;方式疑問詞,例如“如何、怎么”等;針對物的疑問代詞包括“哪些、哪個、什么”等。在本體中建立“疑問代詞”類,并設置與位置、路線、交通、景點等類之間具有“疑問指代”的關聯關系。以路線和位置類為例,它們和“疑問代詞”類之間具有圖3所示的關聯關系。
借助哈工大語言云系統的分析可以得出圖4所示的語句依存關系。若疑問代詞在語句中的成分是賓語(POB或VOB),那么提取出主語(SVB);若疑問代詞為主語(SVB),則提取出賓語部分;進一步在本體中查詢疑問詞的修飾的對象是位置、方式還是事物。若疑問詞在句子中作為修飾成分ATT或ADV,那么提取出句子的主語和賓語部分,結合疑問詞在本體中可以修飾對象進行本體查詢。
根據對問句的分析將“選擇問句”、“正反問句”、帶有“多+形容詞”的特指問句轉換為“是非問句”。其流程處理為提取問句的主語、賓語等實體名詞;在本體中查找被“程度詞”修飾的類;結合這些修飾類和主語名詞在本體中進行匹配。對于“特指問句”則在本體中查找疑問代詞的指代類,結合這個類和語句中的實體名詞在本體中進行三元組的匹配。
基于Protege構建的本體可以被保存為xml格式的文檔。本體的查詢可以使用SparQL技術,SparQL是W3C組織推薦的標準本體查詢語言,其語法結構類似數據查詢語言SQL。例如在旅游本體中查詢“到達常州的旅行線路”可以采用以下的語句。
PREFIXtour:
SELECT?rout
FROM
WHERE{?site tour:location"changzhou".
?rout tour:weblog?site.}
本文介紹了領域本體的概念并使用Protege工具構建了旅游領域本體;根據旅游電商自動問答系統的需求,分析了該領域內常用的四種典型問句:是非問句、選擇問句、正反問句和特指問句。通過在本體中加入程度形容詞、疑問代詞,將典型問句中常用的疑問詞與旅游本體的類通過對象屬性有效關聯起來;詳細闡述了如何利用本體識別典型問句的潛在含義,從而為自動應答系統的答案抽取提供了技術準備。
[1]王恒.中文問答系統的研究與實現[D].哈爾濱工業大學.2008:23-25.
[2]秦兵,劉挺等.基于常問問題集的中文問答系統研究[J].哈爾濱工業大學學報.2003(35):10.
[3]強繼朋.FAQ系統中的問句相似度研究[D].合肥工業大學.2013:12-14.
[4]郭艷華,周昌樂.一種漢語語句依存關系網協動生成方法研究[J].杭州電子工業學院學報,2000,20(4):24-32
[5]田久樂,趙蔚.基于同義詞詞林的詞語相似度計算方法[J].吉林大學學報.2010(06):605.
Analysis on the Typical Question of Auto-answering System Based on Domain Ontology
TangYong
(Changzhou Textile and Garment InstituteChangzhou213164)
To research the method of question analysis and processing in auto-answering system based on domain ontology.This paper sorted out the the relationship between different concepts in the field of tourism e-commerce by building the domain ontology knowledge base.Defined the modified and referential relationships between the domain concepts and classes of adjective words and interrogative words which are adding to the domain ontology knowledge base.Analyzed how to use the domain ontology knowledge base to process the four typical question in the tourism e-commerce field,which will give the technical preparation for the following answers processing in auto-answering system.
Domain ontologyAuto-answeringQuestion analysis
TP391.12
A
160801-7352
常州紡織服裝職業技術學院應用技術類課題(編號:CFK201512)
唐勇(1982~),男(漢族),安徽滁州人,碩士,講師。研究領域:電子商務。