杜夢影 楊志來
中國兵器工業標準化研究所,北京,100089
基于物資采購本體的問答系統設計
杜夢影 楊志來
中國兵器工業標準化研究所,北京,100089
通過物資采購領域本體的研究和討論,確定構建一種以物資采購本體為基礎的問答系統。該系統共分為問題處理、檢索和答案抽取三個模塊,各模塊協同工作完成用戶提問的答案搜索和顯示工作。系統根據領域本體的特殊性改進了一種關鍵詞權重的計算公式,以關鍵詞匹配和自然語言處理相結合的方法進行問答系統設計。
物資采購;問答系統 ;信息檢索
物資采購本體作為問答系統的研究對象有以下優勢:一、目前大型企業物資采購業務越來越多元化,管理者對物資采購的關注度逐漸增加;二、物資采購領域的概念豐富,且關聯度大,識別度高;三,物資采購領域中的知識層次比較清晰,便于構建本體。
研究構建物資采購本體的目的在于:解決企業各部門對物資采購相關知識的需求問題并彌補物資采購領域問答系統的空白。具體而言即幫助采辦者找到其想要得到的準確答案。
1.1 選取術語、定義概念
通過研究物資采購領域知識,選取物資采購領域的專業術語。實施方式為向用戶發放調查問卷和查閱專業文獻。具體選取術語和定義概念時,首先查閱物資采購領域的信息資源,通過總結與物資采購相關的信息,概括出物資采購領域的術語,再將術語制成表格,發放給網絡用戶進行網絡調查,要求用戶根據自身的理解和需求選擇他們認為與自己相關的術語。最后通過綜合問卷、結合文獻以及查詢術語分類表等手段將結果進行比對,最終確定出本系統需要的物資采購術語。
此方法提取出了98%用戶關注的物資采購信息,這些信息并不包含所有的物資采購領域知識,但可達到一般用戶需要的物資采購知識。因此,本系統只保留了這些領域知識,從而根據這些知識定義物資采購本體的概念,最終構建合理的、符合用戶需求的概念體系。
設計物資采購本體時需要注意的問題有:收集相關學科知識時,確保所用術語為該學科內公認并從不同的層面形式化術語之間相互關系的明確定義。
1.2 定義類名、屬性及實例
術語本身包含了本體中的概念(類名)、屬性和以上兩項內外在的相互關系(邏輯關系)。對于屬性,要依據應用范圍對其進行規范的定義。對于邏輯關系,為構成一個完整的邏輯關系體系應將其明確分為三類:概念與概念之間的關系;屬性與屬性之間的關系及概念和屬性之間的關系。本文以邏輯推理為基礎,并實施試驗驗證的手段,最終構成了一個立體的、直觀的邏輯關系網。物資采購資源本體還給出了具體的物資采購資源實例以及他們所屬的資源類別。
1.3 構建物資采購領域本體
完成自然語言層次的本體規劃后,將利用Protege軟件對物資采購本體進行實體構建。構建的步驟如下:①打開protege軟件,“文件” —“新建項目”,選擇OWL文件格式。②通過在“OWL”欄內選擇“preference”,并在 “OWLPreference"對話框中選擇“OWLDL”。
1.4 命名概念
當新建OWL文件時,系統自動生成一個things類,隨后由用戶建立的所有類均為things的子類。物資采購領域本體以“物資采購資源”作為主體概念(類)。用戶首先可以通過類關系窗口對已建立的類層次關系進行添加,添加對象可為同級類、子類,同時還可對已有類進行刪除、查看等操作。隨后用戶可通過類編輯窗口,實現輸入類名、描述和定義類以及類不相交等功能。
1.5 物資采購本體設計
本步驟是建立概念層次結構模型。在物資采購資源本體中,設計者一共提出了八類主要的概念,分別是:采購形式、采購因素、采購人員、采購對象、采購商、供應商、采購產品。
本段列出了基于物資采購本體的問答系統的相關知識庫模型。在本體的各種關系中,本文分別設計和構建了類屬種關系、整體—部分關系、屬性關系等。
(1)類屬種關系
分別以上提到的概念。
(2)整體-部分關系
整體—部分關系表示概念之間組成關系。
(3)類-實例關系
類-實例關系表示類的實例與類之間的關系,即個體作為類的實例與類建立關系,其中屬于某一類的實例具有這個類的所有屬性。舉例說明:在子集團類中,北方工業集團、遼寧華景集團和信息控制集團等等就是它的實例,即與子集團類屬于類實例關系。
(4)類屬性關系
類屬性關系表示某個概念是另一個概念的屬性,即某個類所具有的屬性。如“軍械裝備總裝”類擁有“廠名”、“廠址”、“級別”、“主營業務”等屬性。
基于本體的問答系統需要采集用戶提出的問題,經過問題處理模塊形成查詢關鍵詞;再對問句進行二次分析,根據分析結果判斷采用何種查詢機制。本文對查詢模塊設計了兩種查詢機制,一種是基于問句本身的推理,另一種是基于關鍵詞的推理。
基于問句本身的推理通過語義算法求出問句的語義表達式。處理過程為:第一步,在問句集合中查找與用戶問句相似的模板;第二步,對比用戶問句和模板的句式結構得到二者的匹配程度,并以向量的形式來表示用戶輸入的問句;第三步,利用生成的向量模型檢索問句集中對應這種模型的答案形式。
基于關鍵詞的推理過程由查詢處理模塊和答案提取模塊共同完成。查詢模塊首先提取問句中的關鍵詞,再進行淺層規則推理,推導出有語義關系的語義向量;再將語義向量傳遞到答案提取模塊,通過答案模式匹配抽取與答案最相關的語義向量作為答案因子,最后將這些答案因子帶入知識庫中解析。由于知識庫以本體的組織方式構成,在解析過程中,可實現在知識庫內的二次推理,通過二次推理最終可得到準確率較高的答案。
以下是上述幾個模塊的作用。
(1)問題處理模塊
對用戶的自然語言提問進行處理,其中包括:對句子的詞、句法的分析;對關鍵詞的提取(提問關鍵詞、擴展關鍵詞、…);經過句模匹配,確定問句所關注焦點和問題的類型等。
(2)檢索模塊
輸入問題處理模塊提取出的關鍵詞,通過關鍵詞匹配等信息檢索技術獲得答案可能所在的段落、句群,再對這些文檔進行處理,最后得到范圍小的段落、句群。
(3)答案抽取模塊
對檢索模塊中找到的段落、句群進行語法和語義分析,并根據在問題處理模塊中確定的問句類別,抽取出與問句類型一致的實體,并根據與答案的符合程度將其排序,將次序靠前的實體作為答案返回給用戶。本系統采用基于搜索、匹配和自然語言處理相結合的方法進行問答系統設計。在本系統中,首先將關鍵詞分類為:普通關鍵詞(ord)、擴展關鍵詞(ex)、基本關鍵詞(basic)、引用關鍵詞(quote)和其他關鍵詞(other)。普通和基本關鍵詞是從問句中通過分詞處理直接抽取出來的關鍵詞;擴展關鍵詞是通過網絡擴展得到的關鍵詞;引用關鍵詞是問句中引號內的詞。
以下公式即對關鍵詞權重的計算方法:

式中的v1~v5分別代表普通關鍵詞、擴展關鍵詞、基本關鍵詞、引用關鍵詞和其他關鍵詞的加權因子,體現各種關鍵詞對排序的重要程度。通常,weight(ord)> weight(ex)>weight(quote)> weight(basic)>weight(other)。式中的ord、ex、basic、quote和other是各種關鍵詞本身的得分。在系統運行時,系統會通過分析判斷當前問句的模式,根據判斷結果將與此類問句有直接關系的答案模式集中抽取出來,再通過語義等其他要素驗證哪個答案模式真正與問句匹配,最后得到用戶想要的答案。例如,問句“某國成立于哪年哪月哪日?”,其對應的部分答案模式如下:
a.<國家>于<答案>成立
b.<國家>成立于<答案>
c.<國家>在<答案>成立
d.<答案>成立了<國家>
e.<答案><國家>成立了
對于自然語言處理,本系統利用本體知識庫對用戶問句進行淺層語義推理,根據推理結果返回答案。
仍需改進:第一、本系統目前僅支持文字輸入;第二,本系統為模擬系統,并未上線進行實際應用,因此并未討論負載能力、用戶體驗等方面的問題;第三,本系統算法邏輯較為簡單,后期需要加強對此的研究和討論。
[1]張玉琴.企業采購管理系統的設計[J].企業技術開發.2014(13):70-71.
[2]劉紅梅.基于C/S和B/S體系結構應用系統的開發方法[J].計算機與現代化.2007(11):52-54.
[3]曾學軍.淺析B/S和C/S結構的開發與應用[J].電腦知識與技術:學術交流.2007(08):407-408.
[4]葛昂揚.試論高校設備招標采購的管理[J].浙江教育學院學報.2005(03):105-108.
[5]羅海濱,范玉順,cims.tsinghua.edu.cn,等.工作流技術綜述[J].軟件學報.2000(07):899-907.
杜夢影/1987年生/女/北京人/本科/工程師/研究方向為信息化管理