999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數字圖書館本體的構建方法研究與應用

2016-04-12 00:00:00尤勝
現代電子技術 2016年17期

摘 要: 設計并實現了中文領域術語抽取系統,提出了基于前后綴的中文領域術語抽取算法,該算法獨立于具體的領域,并且對包含常用前后綴的領域術語具有較好的抽取效果;通過對領域本體構建中關鍵技術的研究,提出了適用于不同領域的領域本體半自動構建方法;最后,數字圖書館氣候變化領域本體的成功構建驗證了基于多源數據的領域本體半自動構建方法的有效性,并且該方法可以很方便地移植到其他領域。

關鍵詞: 本體; 本體構建; 術語抽取; 關系抽取

中圖分類號: TN911?34; TM417 文獻標識碼: A 文章編號: 1004?373X(2016)17?0112?04

0 引 言

本體是網絡信息組織和檢索的理想選擇,信息組織以便于信息檢索和利用為目的,本體的引入能夠促進信息組織向知識組織轉變,由于本體能夠提供領域知識的共享和重用,以這樣的方式進行信息組織,能夠更好地為人們提供信息檢索和利用服務。語義Web的發展迫切需要簡單快捷的本體構建方法。國內外對本體理論及其技術進行了一系列研究,提出了多種本體構建方法,產生了多種本體構建工具和描述語言。雖然本體構建工具已經相當成熟,但它支持的仍然是手工構建本體的方法,手工構建本體耗費大量的時間、人力和物力,難以適應時代發展的要求。因此,通過機器學習的辦法讓計算機參與到本體構建的過程中來,以縮短本體構建的周期,減少人員投入,成為語義Web的一個重大課題。

1 系統介紹

目前以本體為核心的語義Web技術正在為解決異構系統之間的互操作問題提供一種解決思想。本體的實質就是實現領域知識的共享和重用,形式化和標準化的領域本體為信息系統之間的互操作提供了良好的工具,因此,將本體技術引入到數字圖書館,可以解決分布式網絡環境下的互操作問題。本體在數字圖書館中具有很大的應用空間。例如:可以創建跨系統、跨平臺之間的通信中介;可以提供元數據的映射方案;可以提高計算機支持的協同工作的能力;可以提高分布式環境下查詢請求的自動分發能力和語義理解能力;可用于數字圖書館的數據挖掘等多個方面。

2 本體半自動構建方法

將機器學習技術應用到領域術語抽取及概念關系抽取中,提出了基于多源數據的領域本體半自動構建方法,具體流程如圖1所示。

多源數據是指構建領域本體所使用的源數據,包括txt文本、敘詞表、HTML文本,既有非結構化的數據,也有半結構化數據,而不僅僅限于某一種數據來源。

文中長度為1的領域詞稱為基本術語,復合術語也即詞組型術語,其長度大于1,通過分析領域術語,復合術語通常包括一個前綴或一個后綴。因此,領域術語通常可以表示為以下幾種形式:

3 術語關系獲取

3.1 術語解釋抽取模塊

術語解釋抽取模塊主要用來抽取術語的詞條解釋,以及該術語在百科中的相關詞條,以此獲得需要從中抽取術語關系的所有術語的概念解釋。整個術語解釋抽取流程可描述為:

(1) 初始化候選詞表,初始候選詞表是氣候變化領域種子術語。

(2) 從候選詞表中選擇一個候選詞,下載其對應的百科網頁,并保存到Access數據庫。

(3) 利用SVM分類器判斷當前網頁是否是氣候變化領域詞匯,如果是,則抽取當前候選詞對應的百科名片數據,并保存到Access數據庫;否則,不做任何操作。

(4) 抽取當前詞匯百科名片中的鏈接詞匯,并加入到候選詞表;同時抽取該詞匯在百科網頁中的相關詞匯,加入到候選詞表,同時保證候選詞表中的候選詞不重復。

(5) 重復步驟(2)~步驟(4),直到候選詞表為空。

術語解釋抽取模塊抽取的術語解釋保存在Access數據庫中。

3.2 抽取模板學習模塊

抽取模板學習模塊主要分析術語的百科名片解釋,通過機器學習訓練關系抽取模板。該模塊的流程框圖包含三大步驟:

抽取候選標記詞:在本文中,標記詞是在百科名片解釋中出現次數較多,并且比較抽象的詞;

人工篩選標記詞:候選標記詞集中并不是所有的詞都被最終選作標記詞,通過分析百科名片解釋的語言表達特點,結合候選標記詞在候選標記詞集中的頻率信息,對候選標記詞集進行了人工篩選;

生成關系抽取模板:對術語百科名片解釋進行分詞,分詞時只保留術語本身、標記詞和標點符號,其他詞用其詞性代替。

3.3 本體關系抽取模塊

本體關系抽取模塊使用關系抽取模板抽取本體中的上下位關系,實驗結果如表1所示。

通過實驗結果可以看出:基于百科的術語間關系抽取的方法的召回率比較低,準確率相對較高。經分析可知影響召回率的因素如下:術語的百科名片中不含上位概念;關系抽取模板覆蓋不夠充分,基于百科的術語關系抽取本質上是術語基于模板的關系抽取方法,模板集的完備性會對關系抽取效果產生很大的影響。

分析可知影響準確率的因素如下:分詞程序切分不準確。分詞結果的不準確使得模板無法正確匹配術語的上位概念,從而影響了關系抽取的準確率;模板錯誤匹配;術語百科名片信息本身的問題。一些術語的百科解釋中并不會包含術語的上位概念,這樣從術語的百科名片解釋中當然無法抽取其上位概念。

4 應用案例

4.1 數字圖書館氣候變化領域本體構建

為實現對已獲取氣候變化領域新聞的分類,方便用戶分類查找,同時完成對信息進行語義標注,本文利用基于多源數據的領域本體半自動構建方法進行構建,構建的氣候變化領域本體具有樹狀結構,最大深度是5層,與其他本體不同的是,該本體中只有上下位關系,這些關系是由人工確定的。

(1) 期刊文獻關鍵詞

通過氣候變化領域專家推薦,獲得了氣候變化領域的445篇核心期刊文獻。通過對這些文獻的來源期刊進行分析,可以初步勾畫出氣候變化所涉及到的學科領域。對這445篇文獻的關鍵詞進行搜集整理,并與第一輪中得到的關鍵詞對比,經過去重復及刪除不相關詞語之后,將整理得到的關鍵詞添加到詞匯集中。

(2) 開放網絡信息

氣候變化領域相關新聞中包含了大量的氣候變化領域術語。鑒于新聞的實時性,其在一定程度上反映了當前的熱點問題,利用本文提出的基于前后綴的領域術語抽取技術,通過分析和處理大量的氣候變化領域新聞,抽取出該領域的術語,經過去重復后將抽取出的術語添加到詞匯集中,對詞匯集進行擴充。

基于前后綴的中文領域術語抽取算法,首先分析種子術語的常用前后綴;其次對實驗語料分詞,統計與常用前后綴相鄰的詞的頻次信息,根據頻次信息計算前后綴與相鄰詞是否構成候選術語;然后再根據詞語在語料中出現的頻率擴充初始候選術語集;最后通過詞語共現分析過濾候選術語,得到最終的領域術語集。術語抽取系統的界面如圖3所示。

圖3中展示了基于前后綴的中文領域術語抽取系統界面,界面上方是系統工具欄和設置算法中閾值的設置區域,算法需要使用的閾值一共有三個,判斷出現在某一前綴詞后面的詞是否與該前綴構成候選術語的閾值,判斷出現在某一后綴詞前面的詞是否與該后綴詞構成候選術語的閾值,判斷某一候選術語是否是氣候變化領域術語的閾值。左側用來顯示抽取出的領域術語以及有關該術語的一個值,該值是每一個候選術語在算法中計算出的判定該候選術語是否是氣候變化領域術語的指標,為了便于人們觀看,已經對該值進行降序排列展示。

4.2 本體的初始化

本體的初始化即構建初始化的領域本體,使得能夠通過對初始化的本體進行精煉和校正得到最終的領域本體。在氣候變化領域本體的構建過程中,項目開發組針對氣候變化本體的層次構建問題組織了相關專家進行研討,綜合專家意見將氣候變化領域進行結構分類,如圖4所示。

在完成對領域術語的分析整理和本體框架的初步建立后,開始進行術語與知識節點之間關系的確定,采取的主要方法是根據專家領域知識,把術語掛接到所建立的氣候變化領域知識樹的葉節點之下。對構建的氣候變化領域本體知識樹進行掛接,采用由根到葉的分類方法。

4.3 本體的精煉與確認

領域專家使用本文中開發的本體編輯器,可以很方便地完成本體的校正。系統啟動時,就會將已有的本體知識樹和待掛接的候選術語載入到系統中,同時候選術語解釋區域能夠為本體編輯器的使用者提供一定的幫助。氣候變化領域本體的成功構建驗證了基于多源數據的領域本體半自動構建方法的有效性。最終構建的氣候變化領域本體具有樹狀層次結構,最大深度為5層,共包括233個分類節點和932個領域術語。氣候變化領域本體已經應用到“應對氣候變化科技成果集成與服務平臺建設”中,用于新聞定制和新聞閱讀器。

隨著全球性氣候變化問題的日益嚴重,將會有更多的人、數據庫和信息系統涉及本領域的電子圖書館知識管理系統。領域本體的核心價值是知識共享,為該領域提供一個統一框架或規范模型,減少概念和術語上的歧義,使來自不同背景、持不同觀點和目的的人員之間的交互和理解成為可能,在人和其他Agent之間對信息結構達成共同認識,方便人機對話和信息系統之間的互操作。

5 結 論

本文探討了領域本體的構建方法,提出了基于前后綴的中文領域術語抽取算法,在抽取包含前后綴的領域術語方面具有良好的抽取效果,并且基于該算法實現了一個中文領域術語抽取系統。同時,提出的基于百科的術語關系獲取方法,充分利用了術語的百科名片解釋,能夠有效地抽取出術語間的關系,實現了上下位關系的抽取。然后,通過使用基于多源數據的領域本體半自動構建方法,使計算機參與到本體構建的過程中來,提高了本體開發的效率。

參考文獻

[1] 古小東,夏斌.我國推行合同能源管理的問題與對策研究[J].企業經濟,2013(3):149?152.

[2] 李恒杰,李軍權,李明.領域本體建模方法研究[J].計算機工程與設計,2008,29(2):381?384.

[3] CIMIANO P, LKER J V O. Text2Onto [C]// Proceedings of 2005 10th International Conference on Applications of Natural Language to Information Systems. Alicante: IEEE, 2005: 227?238.

[4] 胡金強,冀亞林,孟妍,等.基于Protege的裝備保障知識本體構建方法[J].現代電子技術,2010,33(6):207?210.

[5] NAVIGLI R, VELARDI P. Learning domain ontologies from document warehouses and dedicated web sites [J]. Computational linguistics, 2004, 30(2): 151?179.

[6] 季培培,鄢小燕,岑詠華.面向領域中文文本信息處理的術語識別與抽取研究綜述[J].圖書情報工作,2010,54(16):124?129.

[7] 周浪,張亮,馮沖,等.基于詞頻分布變化統計的術語抽取方法[J].計算機科學,2009,36(5):177?180.

[8] 賈秀玲,文敦偉.一種本體學習中分類關系提取方法的研究[J].計算機技術與發展,2007(10):31?33.

[9] 袁小艷,唐青松,賀建英.高校知識本體的構建及應用研究[J].現代電子技術,2014,37(16):58?61.

主站蜘蛛池模板: 日韩av手机在线| 亚洲福利一区二区三区| 亚洲欧洲日韩久久狠狠爱| 久久综合AV免费观看| 91综合色区亚洲熟妇p| аv天堂最新中文在线| 91麻豆国产视频| 中国一级毛片免费观看| 色婷婷成人| 国产香蕉国产精品偷在线观看 | 国产91精选在线观看| 一级做a爰片久久免费| 中文字幕永久在线看| 欧美精品高清| yy6080理论大片一级久久| 少妇精品久久久一区二区三区| 亚洲精品大秀视频| 色吊丝av中文字幕| 999国产精品| 欧美一区二区三区国产精品| 99国产精品一区二区| 99无码中文字幕视频| 一级毛片免费不卡在线| 久久精品亚洲专区| 污污网站在线观看| 欧洲极品无码一区二区三区| 中文字幕在线观| 日韩国产另类| 精品国产一区91在线| 免费看a级毛片| 国产伦精品一区二区三区视频优播 | 亚洲精品在线91| 又黄又爽视频好爽视频| 99re精彩视频| 国产91丝袜在线播放动漫| 久久久噜噜噜| 大乳丰满人妻中文字幕日本| 久久五月视频| 亚洲欧洲日韩综合色天使| 又黄又湿又爽的视频| 国产新AV天堂| 精品一区二区三区自慰喷水| 97国产精品视频自在拍| 97国产一区二区精品久久呦| 国产免费一级精品视频| 宅男噜噜噜66国产在线观看| 国产尤物jk自慰制服喷水| 久久中文无码精品| 精品福利视频导航| 色噜噜在线观看| 中字无码精油按摩中出视频| 亚洲国产精品一区二区第一页免| 日本成人福利视频| 亚州AV秘 一区二区三区| 少妇极品熟妇人妻专区视频| 国产激情影院| 波多野衣结在线精品二区| 毛片免费观看视频| 操操操综合网| 亚洲国产精品一区二区第一页免 | 国内精品久久人妻无码大片高| 亚洲国产成人无码AV在线影院L| 国产午夜一级毛片| 中国国产A一级毛片| 黄色网站在线观看无码| 日韩av高清无码一区二区三区| 亚洲a免费| 国产v欧美v日韩v综合精品| 亚洲天堂日韩在线| 国产成人综合亚洲网址| 亚洲国产欧洲精品路线久久| 一级看片免费视频| 欧美日韩中文国产va另类| 国产情侣一区二区三区| 毛片网站在线播放| 99久久这里只精品麻豆| 国产无码在线调教| 日韩小视频网站hq| 欧美国产视频| 91福利一区二区三区| 亚洲性一区| 久久人搡人人玩人妻精品|