李 立
(安慶廣播電視大學,安徽安慶 246003)
基于事件本體的查詢擴展方法
李 立
(安慶廣播電視大學,安徽安慶 246003)
針對用戶獲取互聯網上事件類信息的需求,提出了一種基于事件本體的查詢擴展方法,重點研究了該方法涉及的2個關鍵技術:查詢內容與領域事件本體的匹配和基于事件本體的擴展項的選取.在中文事件語料庫上,通過實驗驗證了方法的有效性.
事件本體;查詢擴展;擴展項
傳統信息檢索方法通常利用簡單的詞匹配法則計算文檔特征值與檢索詞之間的相似度,因而經常出現與用戶查詢請求相關的文檔由于用詞不同而無法被檢索出來的情況[1].詞不匹配已成為影響信息檢索效果的重要原因之一.解決這一問題,目前常采用查詢擴展技術.查詢擴展,指在原查詢詞的基礎上加入相關的詞,從而組成新的、更準確的查詢詞集,這在一定程度上能夠彌補查詢信息不足的缺陷,也有助于改善檢索的查全率和查準率[2].一般而言,領域事件本體存儲了一個領域的事件類、事件類的各個要素、事件類之間的關系以及事件類之間的影響因子.基于領域已有事件本體的先驗知識,對事件類信息的查詢可以進行面向事件本體的查詢擴展,而基于事件本體可以從事件類到事件類、事件類到事件要素這2個層面進行聯想擴展[3-8].據此,本研究提出一種基于事件本體的查詢擴展方法,并通過實驗驗證了方法的有效性.
基于事件本體的查詢擴展模型如圖1所示.
對圖1所示的查詢擴展模型而言,查詢內容與領域事件本體的匹配、查詢項中事件項的判別、事件之間關聯強度的計算以及擴展項的選取都直接基于事件本體進行.該模型與其他查詢擴展模型最大的不同在于查詢擴展所依賴分析的資源發生了變化.

圖1 基于事件本體的查詢擴展模型示意圖
基于事件本體的查詢擴展模型涉及2個關鍵技術:查詢內容與領域事件本體的匹配和基于事件本體的擴展項選取.
在很多情況下,用戶在查詢內容中指定了特定的領域,比如,“地震救援”,查詢的是“地震”領域的“救援”事件.由于同一個事件類在不同的領域對應的事件類關系和事件類的要素都可能是不同的,所以應該判別用戶的查詢內容所屬的具體領域.查詢內容與領域事件本體的匹配,是指判別查詢內容究竟屬于哪個領域的事件本體,以便基于此領域事件本體進行查詢擴展.
2.1.1 基于領域事件本體的查詢項的類別判別.
通過依存句法分析工具分析用戶輸入的查詢內容,可明確事件要素充當的限定項以及詞之間的依存關系.由動詞、動名詞以及名詞這些項組成的集合記作IQ,但IQ中的項還不能準確判別為事件.領域事件本體存儲了一個領域的絕大多數重要的事件類,對于IQ中這些未能準確判別的項可以基于領域事件本體進行.
假設領域事件本體有n個,分別記作EQ1,EQ2,…,EQn,EQi(1≤i≤n)中的事件類按照重要度的大小降序排列得到的事件類集合為,

基于領域事件本體判別IQ中的項是否是事件的思想是:取IQ中所有的項IQK∈IQ,依次與每個領域事件本體EQi中的事件類集合ECi比對,若IQK=ECi,則IQK就作為事件,否則不作為事件.
一旦查詢內容中的事件判別出來以后,再根據詞之間的依存關系,就可確定查詢內容中的事件項和限定項.
2.1.2 查詢內容與領域事件本體的匹配.
通常,查詢內容中可能包含多個事件,但事件項中只包含一個事件,事件項中的事件是用戶所要查詢的核心內容.查詢內容中的其他事件都是限定事件,限定事件的作用是限定所要查詢的核心事件的范圍,在查詢內容與事件本體匹配的過程中具有重要的作用.
查詢內容與領域事件本體匹配的具體步驟是:
①根據“2.1.1”中所述的方法判斷查詢內容中的限定項Qe′和事件項Qe.
②如果Qe′中有事件充當了限定項,則用此限定項與每個領域事件本體EQi中的事件類集合ECi比對,并記下此限定項在ECi中出現的序號,記為ki(1≤i≤n),如果ECi中無此限定項,則ki值可設置為機器最大數,然后,取序號最小的ki為匹配到的事件本體,匹配過程結束;如果Qe′中無事件充當限定項,則轉步驟 ③.
③直接用事件項e∈Qe與每個領域事件本體EQi中的事件類集合ECi比對,記下e在ECi中出現的序號為ki(1≤i≤n),如果ECi中無e,則ki值設置為機器最大數,然后,取序號最小的ki為匹配到的事件本體,匹配過程結束.
以往已經出現過不少由于護理管理制度存在不足而導致的醫療差錯甚至醫療事故,這些不足主要體現在制度沒有明確的工作標準,缺乏到位的崗位職責[1]。因此為了提升護理管理質量,有必要建立并完善相關規章制度,將崗位具體職責明確,落實各項工作的具體標準,同時應該建立評審各項工作質量的標準,對產科工作的具體流程進行明確優化,并且要保證在實際工作中貫徹執行,以實現護理糾紛的最大程度避免,實現產科護理質量的逐步提升。
上述步驟完畢后,如果在查詢內容中找到了匹配的領域事件本體,則可將此領域事件本體作為下一步擴展的依據.
基于領域事件本體可以從2個層面對事件項進行查詢擴展:一是事件類到事件類的聯想擴展,二是事件類到其各個要素的聯想擴展.
擴展項選取的順序為:先是事件類之間的關系,然后是事件類的各個要素.
擴展項選取的具體步驟是:
①事件類的同義關系,通過事件類觸發詞的不同的語言表現獲?。?/p>
②組成關系,選取其組成事件類觸發詞的不同的語言表現進行擴展;
③父子關系,選取子事件類觸發詞的不同的語言表現進行擴展;
④其他關系,根據影響因子設置一個閾值,大于該閾值的就選取擴展,同時根據事件類觸發詞的不同的語言表現進行擴展;
⑤動作要素,是指事件類的動作的程度、方式、方法及工具的聯想擴展,根據其語言表現選??;
⑥對象要素,包括主體與客體,根據其語言表現選取;
⑦環境要素,根據其語言表現選取.
擴展項的選取一般都是指定具體的個數,如果經過了上述7個步驟擴展后,擴展項的個數還不能滿足要求,則可根據事件影響因子的大小,依次選取擴展事件,如果選擇完所有有關聯的事件,擴展項的個數還沒滿足要求,則停止擴展.
中文事件語料庫(Chinese Event Corpus,CEC)是在XML標簽的基礎上對事件原始語料庫進行標注,形成事件、事件要素和事件關系標注分明的事件語料庫.該語料庫的制作方法是建立在中文句法分析和語義分析基礎上的,符合中文的特點.CEC語料規模雖然偏小,但對文本中的事件、事件要素和事件關系的標注最為全面.在實驗中,本研究構建了5個領域的突發事件本體,其CEC語料基本情況如表1所示.

表1 5個領域的文本語料
查詢主題的設置采用了與用戶使用搜索引擎最為一致的方式,即輸入若干個關鍵字.在實驗中,本研究人工設置了10個查詢主題,具體如表2所示.

表2 10個查詢主題
為了驗證本研究所提出的基于事件本體的查詢擴展方法的有效性,從以下3個角度擴展,以便進行實驗比較:僅根據事件類關系進行擴展的方法記作EOnto1;僅根據事件類要素進行擴展的方法記作EOnto2;綜合使用事件類關系和事件類要素進行擴展的方法記作EOnto3.對于每個查詢主題,用Ti表示,使用P@10和P@20作為評價指標.選取的時候以P@10為主,P@20為輔,同時對擴展項的個數從0~20之間做了實驗比較,每種方法選取最好的檢索結果.表3列出了3種擴展方法得到的檢索結果.

表3 3種擴展方法獲取的檢索結果比較
從表3可見,EOnto2的檢索性能最差,其原因是事件類的某些要素并不僅僅出現在某個事件類中,而是經常出現在多個事件類中;EOnto3的檢索性能最好,EOnto1與EOnto3檢索的性能非常接近,尤其是對于評價指標p@20而言,這說明僅僅使用事件類之間的關系進行擴展,獲取的檢索結果已經比較理想了,在事件類關系的基礎上再添加事件要素的擴展,檢索結果會進一步改善.實驗結果表明了本研究所提方法的有效性.
:
[1]劉宗田,黃美麗,周文.面向事件的本體模型[J].計算機科學,2009,36(11):191-195.
[2]仲兆滿,劉宗田.利用事件影響關系識別文本集合中重要事件的方法[J].模式識別與人工智能,2010,23(3):307-313.
[3]Fu Jianfeng ,Liu Zongtian,Zhong Zhaoman,et al.Chinese Event Extraction Based on Feature Weighting[J].Information Technology Journal,2010,9(1):184-187.
[4]Zhong Zhaoman,Liu Zongtian.Identifying Key People from a SingleDocument Using People Event Map[J].Journal of Computational Information Systems,2010,6(1):17-23.
[5]仲兆滿,劉宗田,周文.事件關系表示模型[J].中文信息學報,2009 ,23(6):56-60.
[6]馮平.特征詞抽取和相關性融合的偽相關反饋查詢擴展[J].現代圖書情報技術,2011,7(1):35-37.
[7]張超盟,李戰懷.局部上下文分析剪枝概念樹的查詢擴展[J].計算機工程,2009,35(14):45-48.
[8]袁津生,程超然.基于文本聚類搜索引擎的查詢擴展算法[J].計算機工程與應用,2012,48(3):129-132.
Method of Query Expansion Based on Event Ontology
LI Li
(Anqing Radio and Television University,Anqing 246003,China)
Aiming at the requirements of getting event information from internet,a method of query expansion based on event ontology was proposed.Two key technologies were mainly introduced concerning this method:matching between query content and field event ontology and selecting extended item based on event ontology.Experiments on the prototype validated the effectiveness of the proposed method in Chinese Event Corpus(CEC).
event ontology ;query expansion ;extended item
TP391.3
A
1004-5422(2012)04-0364-03
2012-10-15.
李 立(1980—),女,碩士,講師,從事計算機軟件工程研究.