999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種從自然語言文本到本體模型的轉換方法

2011-02-24 07:25:40
電大理工 2011年2期
關鍵詞:語義單詞概念

彭 靜 羅 偉

遼寧裝備制造職業技術學院(沈陽 110161)

一種從自然語言文本到本體模型的轉換方法

彭 靜 羅 偉

遼寧裝備制造職業技術學院(沈陽 110161)

如何利用本體將內容所蘊涵的語義進行形式化與規范化描述是一項艱巨的任務。本體通常用來描述內容的語義,以實現基于語義的內容共享和集成。然而,手工構建本體通常耗費巨大,因此,有必要研究基于非結構化數據的本體學習技術。提出了從自然語言文本中學習本體的方法,定義了自然語言數據源到本體的映射規則并與現有方法進行了詳細的比較,同時給出了應用實例及原型實現。分析表明,本文提出的方法在映射的完整性及正確性方面有較大提高。

本體 自然語言

本體學習(ontology learning)方法主要可以歸為三類:手工的、半自動化、全自動化的方法。目前存在的本體構造方法多是手工的,需要領域專家的參與,在面對海量的內容時,手工方法費時、費力,而完全自動化的方法也不現實,因此,如何利用機器學習或統計等知識獲取技術自動半自動化的從已有的數據資源中獲取期望的本體,以降低本體構建的開銷是一個迫切需要解決的問題。本文主要研究如何從非結構化(主要指自然語言文本)數據源獲取期望的本體。

1 概述

自然語言文本是Web中大量存在的一類非結構化數據,因此,有必要從該類數據源中學習本體。依據文獻,本體概念的獲取方法主要有3類:基于語言學方法,基于統計學方法和混合方法。對于概念關系的獲取,有基于模板的方法、基于概念聚類的方法、基于關聯規則的方法、基于詞典的方法和以上方法的混合。本文提出的方法是半自動化的,需要人工的參與。首先,借助于特定領域的核心本體與WordNet詞典,挖掘出文本中包含的與該本體概念在語義上相近的概念以及頻繁項集作為侯選概念,在人工參與下將侯選概念補充到核心本體中;然后挖掘與全部概念相關的關聯規則,利用該關聯規則形成概念間的侯選關系與實例,最終判定由用戶來決定。

2 自然語言文本到本體模型的轉換

借助特定領域的核心本體與WordNet,挖掘文本包含的與該本體概念在語義上相近的概念及頻繁項集作為侯選概念,在人工參與下將侯選概念補充到核心本體中,步驟如圖1所示。

圖1 相關概念的獲取流程

“拆詞”:從核心本體概念的標識,獲取與概念相關的詞或詞組。

“去頻繁項”:將頻繁出現并含有較少語義信息并的詞從“拆詞”獲得的詞集中去除。

“切詞與標詞”:獲得輸入詞的詞根及詞性。本文采用Porter Stemming 算法完成“切詞”步驟,采用QTAG算法完成“標詞”步驟。

“同義詞集”:借助WordNet,獲得單詞的同義詞集合,繼而獲得單詞的語義鏈(Semantic Chain),然后將語義鏈轉化為向量表示。

“矢量化”:借助WordNet,用向量表示獲得輸入文本中單詞的語義鏈,將向量進行標準化,即為每個分量計算權重。權重的計算采用TF*IDF規則產生,TF(term frequency)表示詞頻,IDF(inverse document frequency)表示逆文檔頻率,權重計算公式如下:

wi,j表示詞ti在向量dj中的權重,fi,j為詞ti在向量dj中的詞頻,N為向量總數,ni為包含詞ti的向量數目,分母為歸一化因子。

“匹配”:利用VSM方法,通過向量間的夾角余弦衡量單詞的相似程度,計算公式如下:

根據結果選出與核心本體中概念相關的單詞和句子。

用戶從上述步驟得出的相關單詞和句子中選擇新的概念標識充實到核心本體,得到與特定文本相關的本體。采用關聯規則挖掘算法,形成概念間的侯選關系與實例并添加到本體中。

給出從文本數據源生成本體的例子。采用清華大學的travelontology.owl作為旅游領域的核心本體,導入一篇桂林旅游的自然語言文本。圖2顯示了導入系統后的本體,可以進行概念及概念間關系、屬性、實例的編輯添加,以充實核心本體,生成與導入內容相關的本體。

3 本體編輯及一致性檢驗

本文研發的管理系統支持由數據庫、XML內容、自然語言文本到本體的轉換,及現有本體的導入,形成基于本體的知識庫。另外,內容管理系統提供本體的編輯及一致性檢驗功能,以消解可能的語義沖突。

圖2 自然語言文本到本體的導入

4 結語

討論了自然語言數據源到本體的轉換,并與現有工作進行了詳細的比較,在此基礎之上開發了內容管理系統,實現了本體編輯和數據一致性檢驗,為實現面向語義的內容搜索奠定了基礎。

[1]杜小勇等.本體學習研究綜述.軟件學報,2006(9).

[2]Lawrence S, Giles CL. Searching the World Wide Web. Science, 1998,280(5360):98?100.

[3]Alexander Maedche, Steffen Staab.Mining Ontologies from Text. In:Proc. Of th EKAW2000,LNAI1937.pp:18 9-202.2000.

[4]Felbaum.WordNet:an Electronic Lexical Database.MIT Press,Cambridge,Massachusetts,1998

[5]張劍,李春平.基于Word Net概念向量空間模型的文本分類.計算機工程與應用,2006(14).

齊婷婷)

猜你喜歡
語義單詞概念
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
單詞連一連
學習集合概念『四步走』
看圖填單詞
聚焦集合的概念及應用
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
最難的單詞
主站蜘蛛池模板: 2021精品国产自在现线看| a级毛片在线免费观看| 中文字幕不卡免费高清视频| 国产精品免费福利久久播放| 91区国产福利在线观看午夜| 国产情精品嫩草影院88av| 精品久久777| 亚洲色图欧美激情| 亚洲综合香蕉| 一本一本大道香蕉久在线播放| 婷婷综合亚洲| 日韩a在线观看免费观看| 999精品色在线观看| 午夜国产精品视频| 东京热高清无码精品| 欧美日韩另类在线| 精品国产中文一级毛片在线看| 亚洲天堂网在线观看视频| 国产综合另类小说色区色噜噜| 青青国产视频| 国产97色在线| 天堂久久久久久中文字幕| 嫩草在线视频| 日韩精品一区二区三区免费| 99精品在线看| 国产激爽爽爽大片在线观看| 欧美激情第一区| 日本日韩欧美| 91午夜福利在线观看精品| 日韩精品高清自在线| 国产制服丝袜91在线| 亚洲国产高清精品线久久| 特级做a爰片毛片免费69| 伊人婷婷色香五月综合缴缴情| 在线欧美日韩| 亚洲中文字幕久久无码精品A| 国内嫩模私拍精品视频| 亚洲成人网在线播放| 免费国产在线精品一区| 国产香蕉一区二区在线网站| 国产日韩欧美中文| 欧美日本视频在线观看| 尤物精品视频一区二区三区| 国产国拍精品视频免费看| 国产精品一区二区不卡的视频| 精品国产电影久久九九| 啦啦啦网站在线观看a毛片 | 国产自在线播放| 国产精品成| 中国丰满人妻无码束缚啪啪| 色哟哟国产成人精品| 亚洲国产精品日韩av专区| 影音先锋亚洲无码| 色综合热无码热国产| 成人一级黄色毛片| 国产一级裸网站| 毛片网站观看| 国产成年无码AⅤ片在线 | 波多野结衣爽到高潮漏水大喷| 国产精品无码一区二区桃花视频| 九九热精品在线视频| 国产91全国探花系列在线播放| 欧美精品高清| 免费看一级毛片波多结衣| 日韩毛片在线视频| aⅴ免费在线观看| 亚洲精品制服丝袜二区| 免费国产好深啊好涨好硬视频| 亚洲成在线观看 | 亚洲成a人片| 最近最新中文字幕在线第一页 | 久久人午夜亚洲精品无码区| 国产无码精品在线| 亚洲毛片一级带毛片基地| 婷婷中文在线| 夜夜操国产| 国产精品无码一二三视频| 美女黄网十八禁免费看| 无码一区18禁| 免费一级成人毛片| 91综合色区亚洲熟妇p| 成人欧美日韩|