魏恒,紀芳,李儒夢
摘要:隨著互聯網的不斷發展,信息抽取技術也在不斷革新與進步,將植物描述信息結構化,對于植物分類學和植物標本的采集鑒定等進一步的深入研究具有重要意義。文章結合實體屬性抽取技術,構建了植物信息知識庫,從而實現了一個新型的植物問答系統,使用戶能直接得到準確具體的答案。
關鍵詞:實體屬性抽取;植物知識庫;問答系統
中圖分類號:G642.0 ? ? 文獻標志碼:A ? ? 文章編號:1674-9324(2020)01-0070-02
一、引言
互聯網的不斷發展,推動了信息抽取技術的不斷革新與進步。實體屬性抽取作為信息抽取的重要組成部分,其主要任務是抽取不同類型實體的獨有屬性特征。在非結構屬性抽取中,目的是給定實體,從非結構化文本中抽取(實體、屬性、屬性值)三元組[1]。盡管實體屬性抽取在國內外成為一些領域的研究熱點[2],但針對植物領域的研究仍然較少。并且由于植物專業術語的特殊性,其邊界難以確定,導致其他領域的屬性集與技術不可完全移植。此外,植物信息檢索目前只能通過傳統的搜索引擎(如百度)或相關網站(如《中國植物志》官網)完成,用戶只能得到相關網頁鏈接或大段非結構化的文本描述,需要耗費大量的精力去篩選有用信息,不能直接得到準確具體的答案。針對這些情況,本文在植物領域結合實體屬性抽取技術,構建了較全的植物信息知識庫,從而實現了植物問答系統。
二、基于實體屬性抽取的植物知識庫構建
本文將基于實體屬性抽取的植物知識庫構建分解為三項任務:數據獲取與預處理、分詞與標注、屬性與關系抽取并構建知識庫。
1.數據獲取與預處理。《中國植物志》全書80卷,126冊,5000多萬字,記載了我國3萬多種植物,是目前世界上最龐大、種類最豐富的一部巨著。其中,種子植物數量約占總植物的80%。本文選其作為原始數據進行研究。使用爬蟲從電子版網站(http://frps.eflora.cn)上獲取種子植物的相關數據。由于這些植物網頁的結構可能有所不同,因而需要網頁清洗,進行規范化處理。網頁是標記語言構建的半結構化文本。將網頁解析成DOM樹,去除無關的HTML標簽元素,提取植物的有效信息。進行規范化處理,將植物的描述文本分為科學名稱、形態特征、地理分布、經濟用途等文本塊。
2.分詞與標注。本文基于種子植物的相關專業知識,確定了種子植物的基礎性狀及其屬性取值的范圍,構建了植物屬性特征詞典,進一步提高了植物實體屬性信息抽取的準確性。考慮到中文的特性,尤其許多植物的專有名詞難以被計算機區分,為節省時間成本,對于植物信息描述,本文使用中文分詞軟件Jieba進行分詞處理和詞性標注預處理。由于植物專業術語的特殊性,為保證準確率,在分詞前會將上述自主構建的植物屬性特征詞典導入該軟件。此外,對于可能出現的嵌套詞等計算機無法識別的部分則進行手工處理。通過分析與標注,得到預處理的語料。
3.屬性與關系抽取并構建知識庫。本文采用基于規則的方法進行實體屬性與關系的抽取。并且使用RDF模型表示被識別和抽取的信息。RDF表達式的基本結構是三元組,每個三元組由一個主體、一個謂詞和一個客體組成。首先,定義屬性規則集,包括通用規則和專用規則,進行植物屬性抽取。通用規則,即針對具有共性的描述形式定義的提取規則。在《中國植物志》中,種子植物的信息描述大部分具有規律性和一致性。如:植物描述一般都是從生長習性、根、莖、葉、花、果實描述到物候學特征,對于較復雜的器官結構,則依其構成進一步展開;描述文本的句子通常以表示植物結構的名詞詞組(先導詞)開頭;一些屬性具有內部特征,如顏色的標志為“色”,形狀的標志為“狀”“形”等;標點符號起一定作用,如“、”表示某一屬性的屬性值并列,“;”表示葉片與葉柄的分離,“。”表示根與葉的分離等。專用規則,即針對不同植物具有特性的描述形式定義的規則。譬如,在有些植物描述花的語句中出現“植物結構”+“數量”的形式,抽取時需合理設定語序。基于通用規則和專用規則,定義屬性規則集,用正則匹配的方式抽取出植物的屬性,包括生長類型、顏色、形狀、形態、質地、毛被、花期、果期、長度、寬度、高度、胸徑等。在表示植物屬性的RDF模型中,三元組的主體是實體,謂詞是屬性,客體是屬性值,譬如“油杉”“高度”“30m”。其次,定義關系規則集,進行植物關系抽取。由于數據的限制,本文從中只抽取到了3種關系:地域關系、異名關系、變種關系。地域關系可表示為一個植物實體與多個地域的關系,也可表示為多個植物實體與一個地域的關系。異名關系和變種關系也是如此。在表示植物關系的RDF模型中,三元組的主體是實體,謂詞是關系,客體是實體,譬如“油杉”“產于”“浙江南部、福建、廣東、廣西南部”。最后,通過數據庫實現RDF模型的實際存儲就完成了植物知識庫的構建。
三、植物問答系統的實現
植物問答系統的實現包括三個部分:用戶輸入、調用問答模塊、答案輸出。其中,問答模塊的構建是核心。本文基于自主構建的結構化植物知識庫,并且參照相關問答系統[3],確定本系統的問答模塊分為四個部分,包括問題分類、問題分析、三元組語義槽提取、答案生成。
1.問題分類。對于用戶輸入的問題,確定是屬性問題還是關系問題。譬如,問題“油杉有多高?”是屬性問題,問題“油杉產自哪里?”是關系問題。
2.問題分析。對問題進行分析,確定句子中的實體、屬性或關系。譬如,問題“油杉有多高?”中的實體是“油杉”,屬性是“高度”;問題“油杉產自哪里?”中的實體是“油杉”,關系是“地域”。
3.三元組語義槽提取。從問題分析的結果中提取語義信息,用三元組表示。譬如,從問題“油杉有多高”中提取出三元組(“油杉”“高度”“?”),從問題“油杉產自哪里”中提取出三元組(“油杉”“產于”“?”)(“?”表示未知)。
4.答案生成。根據問題分類和提取到的三元組,在知識庫的屬性部分和關系部分中選擇查詢,填充三元組中的未知部分,生成答案。譬如,問題“油杉有多高?”查詢填充后的三元組為“油杉”“高度”“30m”,答案為“30m”;問題“油杉產自哪里?”查詢填充后的三元組為“油杉”“產于”“浙江南部、福建、廣東、廣西南部”,答案為“浙江南部、福建、廣東、廣西南部”。
將構建的問答模塊結合Web應用,即可實現植物問答系統。
四、結語
本文實現了一個基于實體屬性抽取的植物問答系統,對于植物分類學和植物標本的采集鑒定等進一步地深入研究具有重要意義。筆者希望有更多的有志之士能夠投身這個課題的研究之中,并指出筆者在文中的不足之處,同時為這一課題的研究做出自己應有的一份貢獻。
參考文獻:
[1]曾道建,來斯惟,張元哲,劉康,趙軍.面向非結構化文本的開放式實體屬性抽取[J].江西師范大學學報(自然科學版),2013,(03):279-283,305.
[2]丁君軍,鄭彥寧,化柏林.國內外屬性抽取研究綜述[J].情報科學,2011,(05):793-796.
[3]杜澤宇,楊燕,賀樑.基于中文知識圖譜的電商領域問答系統[J].計算機應用與軟件,2017,(05):159-165.
Research on Plant Question Answering System Based on Entity Attribute Extraction
WEI Heng,JI Fang,LI Ru-meng
(School of Information Science & Technology,Beijing Forestry University,Beijing 100083,China)
Abstract:With the continuous development of the Internet,information extraction technology is also in constant innovation and progress,the plant description information structured,for plant taxonomy and plant specimen collection and identification of further in-depth research is of great significance.In this paper,a knowledge base of plant information is constructed by combining entity attribute extraction technology,so as to realize a new plant question answering system and enable users to get accurate and specific answers directly.
Key words:entity attribute extraction;plant knowledge base;question answering system