任薇 彭寧 范會(huì)麗

摘要:近年來(lái),智能問(wèn)答系統(tǒng)的研究熱度急劇飆升。區(qū)別于傳統(tǒng)搜索引擎,智能問(wèn)答系統(tǒng)提供的信息服務(wù)速度更快、準(zhǔn)確率更高。對(duì)基于中醫(yī)的智能問(wèn)答系統(tǒng)進(jìn)行研究,可以為受限領(lǐng)域的問(wèn)答研究提供經(jīng)驗(yàn)。將中醫(yī)知識(shí)智能問(wèn)答系統(tǒng)劃分為三部分,分別是問(wèn)句的分析理解,信息檢索和答案返回,并使用基于傳統(tǒng)規(guī)則的方式完成智能問(wèn)答過(guò)程。實(shí)驗(yàn)結(jié)果表明,系統(tǒng)可以對(duì)13類問(wèn)題進(jìn)行針對(duì)性的回答。
關(guān)鍵詞:中醫(yī);智能問(wèn)答;知識(shí)庫(kù);傳統(tǒng)規(guī)則;受限領(lǐng)域
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)32-0200-02
1概述
人類日常生產(chǎn)生活過(guò)程中充斥著各種各樣的信息,如何從眾多信息中獲取到有效的信息是值得關(guān)注的問(wèn)題。隨著信息化時(shí)代的到來(lái),人們獲取信息的方式由傳統(tǒng)的書(shū)籍、信件等發(fā)展成了現(xiàn)如今的網(wǎng)絡(luò)化信息獲取。網(wǎng)絡(luò)化信息獲取主要媒介就是傳統(tǒng)的搜索引擎。用戶通過(guò)輸入一些關(guān)鍵詞,搜索引擎會(huì)返回許多與之相干的頁(yè)面,而這些網(wǎng)頁(yè)內(nèi)容的質(zhì)量參差不齊,因此用戶必須根據(jù)實(shí)際需要對(duì)信息進(jìn)行篩選,無(wú)形中消耗了更多的時(shí)間,這無(wú)疑與現(xiàn)如今快節(jié)奏的生活背道而馳。
順應(yīng)社會(huì)發(fā)展要求,問(wèn)答系統(tǒng)應(yīng)運(yùn)而生。用戶輸入自然語(yǔ)言問(wèn)題后,問(wèn)答系統(tǒng)接收并對(duì)問(wèn)題進(jìn)行分析理解,直接返回問(wèn)題的正確答案,這個(gè)過(guò)程很好彌補(bǔ)了傳統(tǒng)搜索引擎的缺陷。華盛頓大學(xué)圖靈中心主任Etzioni教授曾指出,問(wèn)答系統(tǒng)具有的高效、準(zhǔn)確的特點(diǎn),必將引領(lǐng)下一代搜索引擎的發(fā)展形態(tài)。而且近些年來(lái),知識(shí)庫(kù)技術(shù)的發(fā)展為問(wèn)答系統(tǒng)提供了新的突破性進(jìn)展。
中醫(yī)作為傳統(tǒng)文化的瑰寶,在中華民族發(fā)展過(guò)程中積累了大量的臨床經(jīng)驗(yàn)。將基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)應(yīng)用于中醫(yī)學(xué)領(lǐng)域,對(duì)于提高人們獲取醫(yī)學(xué)知識(shí)的效率、淋漓盡致地發(fā)揮中醫(yī)應(yīng)用價(jià)值有著重要意義。
2中醫(yī)知識(shí)庫(kù)的構(gòu)建
知識(shí)庫(kù),又稱知識(shí)圖譜。利用節(jié)點(diǎn)和有向邊兩種基本元素對(duì)知識(shí)進(jìn)行組織。其中,節(jié)點(diǎn)代表現(xiàn)實(shí)世界中客觀存在的實(shí)體,而邊則表示實(shí)體間存在的關(guān)系。對(duì)中醫(yī)知識(shí)智能問(wèn)答系統(tǒng)進(jìn)行研究,首當(dāng)其沖的,要構(gòu)建一個(gè)基于中醫(yī)知識(shí)的知識(shí)庫(kù)。
首先,知識(shí)獲取階段主要是從半結(jié)構(gòu)化的中醫(yī)網(wǎng)站中利用爬蟲(chóng)技術(shù)爬取相關(guān)的中醫(yī)知識(shí)數(shù)據(jù),作為構(gòu)成知識(shí)庫(kù)的數(shù)據(jù)來(lái)源。并且由于這些初步數(shù)據(jù)不可避免地存在數(shù)據(jù)不干凈、表達(dá)不規(guī)范等問(wèn)題,需要人工進(jìn)一步進(jìn)行分析處理,剔除掉不可用的無(wú)效信息。其次,知識(shí)表示與存儲(chǔ)階段采用圖結(jié)構(gòu)對(duì)中醫(yī)知識(shí)進(jìn)行組織,并采用Neo4i圖數(shù)據(jù)庫(kù)作為數(shù)據(jù)存儲(chǔ)工具存儲(chǔ)中醫(yī)知識(shí)數(shù)據(jù)。
3智能問(wèn)答過(guò)程
一般來(lái)說(shuō),智能問(wèn)答系統(tǒng)主要由問(wèn)題分析與理解、信息檢索和答案返回三部分組成。其中:
問(wèn)句分析理解是第一步驟,也是先決環(huán)節(jié),其分析理解的精度將直接影響后續(xù)步驟的執(zhí)行。
信息檢索旨在知識(shí)庫(kù)中確定問(wèn)句實(shí)體位置,縮小問(wèn)題答案范圍。
答案返回則是將查詢結(jié)果套上各種類型問(wèn)題的回答模板返回給用戶,以免直接返回答案太過(guò)于晦澀。如果用戶的問(wèn)題表達(dá)缺乏必要的信息,會(huì)根據(jù)缺失內(nèi)容進(jìn)一步引導(dǎo)用戶輸人正確的問(wèn)句。
以問(wèn)句“患失眠后可能有哪些表現(xiàn)?”為例,分析問(wèn)答過(guò)程:
首先,問(wèn)句分析理解階段主要進(jìn)行實(shí)體識(shí)別、問(wèn)句分類等操作。利用實(shí)體識(shí)別技術(shù)抽取出用戶輸入問(wèn)句中所包含的實(shí)體關(guān)鍵詞,并獲取實(shí)體關(guān)鍵詞所對(duì)應(yīng)的實(shí)體類型。通過(guò)窮舉各種可能提問(wèn)問(wèn)題的方式,建立不同類型關(guān)系類型的疑問(wèn)特征詞集合。通過(guò)實(shí)體類型輔以問(wèn)句的疑問(wèn)特征詞匹配,共同確定問(wèn)句所詢問(wèn)的關(guān)系類型,對(duì)問(wèn)句的操作類型進(jìn)行分類。以“癥狀”特征詞集合[“癥狀”,“表現(xiàn)”,“癥候”,“表征”]為例。通過(guò)對(duì)問(wèn)句進(jìn)行分析理解,獲取的實(shí)體為“失眠”這類中醫(yī)疾病實(shí)體,輔以“癥狀”特征詞集合中的元素“癥狀”,因此可以確定問(wèn)句的操作類型是要詢問(wèn)“疾病的癥狀”。
信息檢索將問(wèn)句分析理解的結(jié)果,即不同的問(wèn)句操作類型,轉(zhuǎn)化為Neo4j數(shù)據(jù)庫(kù)支持的cypher查詢請(qǐng)求,作為問(wèn)題和中醫(yī)知識(shí)庫(kù)連接的媒介,從而支持問(wèn)答服務(wù)。利用Neo4j的cv-Dher語(yǔ)句直接match到知識(shí)庫(kù)中相應(yīng)的節(jié)點(diǎn)和關(guān)系邊。所舉例子中,在知識(shí)庫(kù)中由“失眠”的節(jié)點(diǎn)出發(fā),經(jīng)由“癥狀”關(guān)系邊,所到達(dá)的節(jié)點(diǎn)即為失眠的癥狀節(jié)點(diǎn),也就是問(wèn)題的答案。當(dāng)與知識(shí)庫(kù)數(shù)據(jù)進(jìn)行交互時(shí),如果表達(dá)數(shù)據(jù)不精確,則使用模糊匹配,提高問(wèn)題處理的靈活度。
答案返回則是獲得cypher語(yǔ)句的操作結(jié)果并輔以各種類型問(wèn)題的回答模板返回給用戶,至此完成全部的問(wèn)答服務(wù)。所舉例子的操作類型為詢問(wèn)“疾病的癥狀”,封裝上該類型回答模板后,返回結(jié)果為“失眠的癥狀有:不寐,心煩,頭重目眩等”。
實(shí)驗(yàn)結(jié)果表明,系統(tǒng)可針對(duì)13種不同類型的問(wèn)題給出針對(duì)性的回答。
4結(jié)論
中醫(yī)作為中國(guó)的傳統(tǒng)醫(yī)學(xué)文化,蘊(yùn)含了豐富的病理知識(shí)。近些年來(lái),國(guó)家頒布諸多法令促進(jìn)中醫(yī)學(xué)的發(fā)展。響應(yīng)國(guó)家號(hào)召,對(duì)中醫(yī)知識(shí)的智能問(wèn)答系統(tǒng)進(jìn)行研究,對(duì)于促進(jìn)中醫(yī)學(xué)“現(xiàn)代化”具有重要意義嘲。使用基于傳統(tǒng)規(guī)則的方式對(duì)中醫(yī)領(lǐng)域的智能問(wèn)答系統(tǒng)進(jìn)行研究,回答結(jié)果依賴于規(guī)則制定的覆蓋范圍。相信利用數(shù)據(jù)挖掘技術(shù),采集更多的問(wèn)句樣本,可以提高規(guī)則的覆蓋范圍,擴(kuò)大問(wèn)題回答的廣度。