伍大勇 劉挺
摘要: 提出了一種弱指導的方法從搜索引擎查詢日志中挖掘命名實體。該方法中采用人工選擇的少量命名實體名稱作為種子,使用隨機游走模型從查詢日志中獲得大量的命名實體。其中采用了查詢日志中的實體上下文模板,用戶點擊URL和候選命名實體構建三分圖,根據在該圖上的隨機游走計算候選命名實體屬于指定目標實體類別的概率,從而在查詢日志中獲取該類別的命名實體。在真實的查詢日志上對7個實體類別進行的實驗,實驗結果顯示本文方法在各個類別上均獲得較好的命名實體挖掘效果。
關鍵詞:
中圖分類號:TP391.3文獻標識碼:A文章編號:2095-2163(2012)04-0022-06