999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

國外典型語義標注平臺的比較研究

2009-04-29 00:00:00鞠彥輝
現代情報 2009年1期

〔摘 要〕本文簡要介紹了國外典型的語義標注平臺,詳細比較了它們的特點,分析了這些平臺的不足,展望了語義標注的發展趨勢。

〔關鍵詞〕語義Web;語義標注;本體;標注平臺

〔中圖分類號〕G203;TP311 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)01-0215-03

Comparative Study on Foreign Representative Semantic Annotation Platforms

Ju Yanhui Liu Chuang

(College of Information Science and Engineering,Bohai University,Jinzhou 121000,China)

〔Abstract〕The article introduced simply foreign representative semantic annotation platforms,compared them characteristic in detail,analyzed deficiency of these platforms,prospected development trend of semantic annotation.

〔Key words〕semantic Web;semantic annotation;ontology;annotation platform

為了解決互聯網上信息處理的自動化、智能化程度很低的問題,Web創始人Tim Berners-Lee于2000年提出語義Web的概念[1],而實現語義Web目標的一個重要前提是利用本體(ontology)詞匯標注Web資源,將Web上資源的狀態從機器可讀提高到機器可理解的程度,這是整個語義Web實現的基礎。

1 國外典型語義標注平臺簡介

按照語言學(特別是計算語言學)的理解,標注是對文本特定部分所加的形式注釋,從語義Web的角度來看,對傳統Web資源添加語義信息是基于本體進行的,稱之為語義標注。語義標注既是指一組元數據(metadata)也是指這些元數據的生成過程。[2]下面簡要介紹一下國外典型的語義標注平臺(Semantic Annotation Platform)。

1.1 SHOE Knowledge Annotator

SHOE(Simple HTML Ontology Extension)Knowledge Annotator[3]由MaryLand大學開發,可認為是第一個在真正意義上實現語義標注的平臺,通過選取和填表的方式輕松地向Web頁面添加SHOE知識。SHOE是由類似HTML代碼編寫的語言,用于定義本體和標注語言。它沒有用于顯示Web頁面的瀏覽器,主要用于SHOE標注演示。

1.2 SMORE

SMORE[4](Semantic Markup,Ontology,and RDF Editor)是由Maryland大學MIND(Maryland Information and Network Dynamics Lab)SWAP(Semantic Web Agents Project)研究小組開發的為用戶提供無縫集成Web內容發布和語義標注的開發環境,還擴充了其他標注平臺所不具備的許多特性,如本體管理、屏幕抓取等。

1.3 MnM

MnM[5]由KMi(Knowledge Media Institute)研究開發,其目標是利用已有本體導出的標記標注文檔。MnM采用了易于理解的一般處理模式,集成了自適應的信息抽取系統(Information Extraction Systems,IES)Amilcare,支持知識學習和信息抽取。MnM先對Text或HTML文檔學習庫進行標注,然后利用標注結果生成詞匯規則,該詞匯規則可用于對其他未標注的文檔集進行信息提取。

1.4 Melita

Melita[6]是在AKT(Advanced Knowledge Technologies)項目下研究開發,同時集成自適應信息抽取系統Amilcare。Melita是半自動的文本標注平臺,它的功能為管理任務、信息提取和信息標記,這些功能是通過良好的界面操作和高效的信息提取算法來實現的。

1.5 AeroDAML

AeroDAML[7](The DARPA Agent Markup Language,DAML)屬于UBOT(UML Based Ontology Toolset)項目的一部分,采用自然語言信息抽取技術從Web頁面自動生成DAML知識標注平臺,它把常見的概念和關系與DAML本體中的類和屬性聯系起來。

1.6 SemanticWord

SemanticWord[8]是在TeKnowledge項目下開發的基于MS Word環境的集成化的Word文檔標注平臺,它提供定制工具使得內容發布和語義標注同時進行。當內容被重用時,標注模式允許標注被重用。一個定制的模版庫包含部分被標注的文本。它包含自動化的信息抽取系統和用以及精煉、增加它的輸出內容的定制工具。

此外還有:M-OntoMat-Annotizer[9]是德國Karlsruhe大學的應用情報學和規范描述方法研究所(Institute of Applied Informatics and Formal Description Methods,AIFB)開發的多媒體內容標注的集成化平臺,那些缺乏多媒體經驗的索引編制者通過對低水平特性的自動抽取從內容上描述客體,從而實現圖像和視頻數據的手動標注;Annotea[10]由W3C組織研究開發,是基于通用開放式RDF(Resource Description Framework,資源描述框架)構架下We共享的標注平臺;COHSE[11](Conceptual Open Hypermedia Service Environment)由Manchester大學和Southampton大學聯合研究開發,其目標是利用元數據支持Web中Link創建與導航。

2 國外典型語義標注平臺的特點比較

本節從11個方面詳細分析一下以上6個典型的語義標注平臺的特點,如表1所示。

3 典型語義標注平臺比較分析

3.1 典型語義標注平臺的技術比較

(1)語義標注平臺的設計思想分為:①語義Web的方法,即以產生語義標注為主、本體生成為輔,如SMORE等;②知識工程的方法,是以本體為指導的文檔標注,既產生知識庫又生成文檔標注,此類平臺支持自然語言處理(Natural language processing,NLP),如MnM、AeroDAML等。(2)多數平臺采取插件(如SMORE、MnM等)機制,便于功能擴充和系統集成[12];(3)標注存放位置有標注服務器、嵌入被標注的文檔、單獨的本地文件。嵌入標注是指頁面的標注存儲在被標注文檔中,而標注嵌入在整個文檔的頭部(如SMORE),或者依附于被標注的文本區域(如SemanticWord);MnM等的標注以單獨的文件存儲,還允許標注作為知識庫單元存儲在WebOnto中;(4)標注過程和標注生成有普通的標注生成和借助信息抽取的標注生成。普通的標注生成實現相對簡單,所有標注半自動產生。借助信息抽取的標注生成一個集成的信息抽取系統,需要綜合自然語言處理和機器學習技術來解決自然語言的復雜問題。由于Amilcare是針對語義Web自動文檔標注設計的自適應IES,從IES新手到專家的各類用戶都能使用,所以支持IE的標注平臺多數集成Amilcare,例如MnM、Me ita。此外,AeroDAML集成商業IES產品AeroText;(5)標注平臺給用戶呈現的形式有Web服務、現有實用平臺的插件或擴充、獨立的應用系統。AeroDAML以Web頁面形式給用戶提供語義標注的Web服務,輸入文檔URL可完全自動地產生標注信息,只提供預定義本體;SemanticWord擴充了MS Word。多數標注平臺是獨立的應用系統,按其處理模式分為客戶和服務器兩層(如Melita)或瀏覽器/服務器三層模式(如CHOSE等)和一般處理模式(如SMORE、MnM等)[13];(6)用戶中心/協同設計:很少有組織有能力雇用專業標注者,所以提供給知識工作者用以簡化標注過程的易用的用戶界面是至關緊要的,一個較好的方法是提供單一的界面入口,使用戶標注文件的環境與他們創建、閱讀、共享、編輯文件集成在一起。平臺設計要便于用戶間協作,這是知識工作者與來自不同領域專家分享和重用智能化文檔的關鍵的一方面[14];(7)從標注對象上分可分為對靜態Web頁、動態Web頁以及多媒體資源的標注;(8)從標注的方式上可分為手動、半自動或自動,手動標注是標注人員手工直接將語義元數據信息寫入Web頁的源碼中,半自動標注是借助平臺用鼠標拖拉等方式決定要標注內容后由平臺將信息寫入Web頁中,自動標注從概念上是自動將語義信息寫入Web頁中;(9)從標注元素的選擇上可以采用不同類型的元素來加以區分,本文介紹的是以本體為標注元素的標注平臺[15];(10)MnM,Melita支持有監督學習,其他平臺不支持自動化學習。

3.2 典型語義標注平臺存在的不足

通過表1可以發現典型的語義標注平臺均具有各自的特點和適用范圍,但普遍存在以下不足:(1)幾乎所有標注平臺的本體語言使用RDF(S)、OIL(Ontology Interchange Language)、DAML+OIL、RDF OCML(Operational Conceptual Modeling Language)等,標注語言使用XML、RDF(S)等,具體如表1所示,而沒有平臺支持最新的W3C Web本體語言OWL(Web Ontology Language);(2)除少數平臺如SMORE支持本體詞匯的編輯、修改和擴充外,支持對Web內容的多本體標注,多數平臺都不支持本體詞匯擴充,這與語義Web的應用環境相悖;(3)一個頁面上的詞匯往往涉及多個本體中的概念,少數平臺如SMORE允許用戶使用多個本體標注頁面,多數平臺不支持同時打開、瀏覽多個本體,并使用多個本體標注頁面,這與語義Web的本體環境不符;(4)標注平臺的多語言支持是關鍵,這對推進語義Web應用很重要,而以上所有平臺只用英語標注,不支持多語言標注;(5)大部分平臺采用先創建內容、后進行標注的“兩步法”,只有少數平臺支持內容發布與語義標注的同步進行[2];(6)多數平臺的標注對象為HTML頁、Image、E-mail、Word、PowerPoint等,且以靜態內容為主,只有少數平臺對多媒體對象、電子商務應用中的業務數據、E-Science中的科學數據、Deep Web數據資源等動態內容進行標注;(7)語義標注過程中本體查詢、輔助推理支持及元數據產生的自動化程度不夠,精度不高;(8)有的平臺使用的本體元素還很有限,甚至有的還不支持Relations(即無法生成對語義Web極其重要的關系元數據);(9)標注平臺的可用性、互用性、重用性和擴展性較差,需要進一步提高。

4 結 語

語義標注是很活躍的研究領域,它將推動語義Web走向實際應用,能夠提高信息檢索的精確性和語義資源的互用性。今后的技術挑戰包括支持多媒體資源標注,提高自動化程度,進一步解決語義標注存儲等問題。

參考文獻

[1]Tim Berners-Lee.Semantic Web-XML2000[EB/OL].http:∥www.w3.org,2008-06-01.

[2]羅旋.基于復句領域本體的語義標注方法研究[D].武漢:華中師范大學,2006:31-33.

[3]OntoWeb:A Survey on Ontology Tools[EB/OL].http:∥www.aifb.uni-karlsruhe.de,2008-06-02:71-72.

[4]Aditya Kalyanpur,James Hendler,Bijan Parsia.SMORE–Semantic Markup,Ontology,and RDF Editor[EB/OL].http:∥www.mindswap.org/papers,2008-06-02:1-5.

[5]Maria Vargas-Vera, Enrico Motta,John Domingue et al.MnM:Ontology driven semi-automatic and automatic support for semantic mark-up[EB/OL].http:∥kmi.open.ac.uk,2008-06-08:1-6.

[6]F.Ciravegna,A.Dingli,D.Petrelli,Y.Wilks,User-system cooperation in document annotation based on information[EB/OL].http:∥www.aktors.org,2008-06-08:3-12.

[7]P.Kogut,W.Holmes,AeroDAML:applying information extraction to generate DAML annotations from web pages[EB/OL].http:∥semannot2001.aifb.uni-karlsruhe.de,2008-06-10:1-3.

[8]Marcelo Tallis,Semantic Word processing for content authors[EB/OL].http:∥ftp.informatik.rwth-aachen.de,2008-06-15:1-6.

[9]Stephan Bloehdorn,Kosmas Petridis,Carsten Saathoff.Semantic annotation of images and videos for multimedia analysis[EB/OL].http:∥www.acemedia.org,2008-06-15:1-12.

[10]Annotea Project Overview[EB/OL].http:∥www.w3.org,2008-06-20.

[11]OntoWeb:A Survey on Ontology Tools[EB/OL].http:∥www.aifb.uni-karlsruhe.de,2008-06-20:65-66.

[12]鄒亮,廖述梅.基于本體的語義標注工具比較與分析[J].計算機應用,2004,(24):329.

[13]廖述梅.基于本體的語義標注原型評述[J].計算機工程與科學,2006,28(9):124-125.

[14]Victoria Uren,Philipp Cimiano,Jose Iria,Siegfried Handschuh.Semantic annotation for knowledge management:Requirements and a survey of the state of the art[EB/OL].http:∥www.siegfried-handschuh.net,2008-07-08:17-26.

[15]陶皖,李平,廖述梅.當前基于本體的語義標注工具的分析[J].安徽工程科技學院學報,2005,20(2):53.

主站蜘蛛池模板: 亚洲男人的天堂久久香蕉| 国内熟女少妇一线天| 欧美日韩激情在线| 大香伊人久久| 亚洲男人的天堂久久精品| 91精品人妻一区二区| 国产视频一区二区在线观看| 精品久久久久久成人AV| 在线免费观看a视频| 乱人伦视频中文字幕在线| 亚洲爱婷婷色69堂| 亚洲精品成人片在线观看| 青青草原国产av福利网站| 视频国产精品丝袜第一页| AV在线麻免费观看网站| 精品免费在线视频| 欧美午夜精品| 91在线日韩在线播放| 亚洲bt欧美bt精品| 老司机精品一区在线视频 | 国产精品19p| 国产日产欧美精品| 日本午夜影院| 亚洲第一视频免费在线| 亚洲人成网站在线观看播放不卡| 中文一区二区视频| 国产尤物在线播放| 五月婷婷激情四射| 国产精品久久久久婷婷五月| 一级毛片免费观看久| 国产精品自拍合集| 99这里只有精品免费视频| 91区国产福利在线观看午夜| 欧美亚洲日韩中文| 亚洲av成人无码网站在线观看| 欧美日韩资源| 久久久久青草线综合超碰| 波多野吉衣一区二区三区av| jijzzizz老师出水喷水喷出| 欧美成人免费一区在线播放| 色天堂无毒不卡| 日本国产精品| 99久久精品免费看国产电影| 国产精品亚洲天堂| 91丨九色丨首页在线播放| 国产精品无码久久久久久| 久久综合丝袜日本网| 色综合久久88| 国产高清精品在线91| 狠狠色狠狠色综合久久第一次| 999国内精品久久免费视频| 国内视频精品| 国产精品私拍在线爆乳| AV不卡在线永久免费观看| 久久青草视频| 在线视频亚洲色图| 天天做天天爱夜夜爽毛片毛片| 欧美狠狠干| 亚洲一区精品视频在线| 99999久久久久久亚洲| 日本高清免费一本在线观看| 国产成人综合日韩精品无码不卡| 好吊色妇女免费视频免费| 久热精品免费| aaa国产一级毛片| 亚洲男人天堂2020| 亚洲精品欧美重口| 亚洲AⅤ综合在线欧美一区| 亚洲成人在线网| 国产一区二区网站| 国产视频一二三区| 亚洲第一香蕉视频| 日本一区二区不卡视频| 国产成人a在线观看视频| 在线观看热码亚洲av每日更新| a毛片在线免费观看| 欧洲日本亚洲中文字幕| 国产亚洲欧美日韩在线一区二区三区 | 亚洲天堂久久久| 日本免费高清一区| 国产一级妓女av网站| 日本三级精品|