999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題詞表的數字出版領域本體構建

2015-12-10 04:25:35司莉陳雨雪莊曉喆
出版科學 2015年6期

司莉 陳雨雪 莊曉喆

[摘 要] 領域本體在知識管理和語義網中起到越來越重要的作用,本文按照從提取主題詞、概念的篩選與取舍、概念名稱的規范化處理、概念分類體系的調整與概念歸類、主題詞表的編制與修訂、確定概念間的語義關系、領域本體的形式化建模等程序構建了數字出版領域本體,并利用保護軟件(Prot€間€椋┩瓿篩帽咎宓男問交涂墑踴允盡=ǔ珊蟮謀咎寰弒肝謀咀遠暌⑽南仔畔⒂鏌寮燜饔肟墑踴燜鰲⑹跤鋟竦裙δ堋?

[關鍵詞] 數字出版 領域本體 主題詞表

[中圖分類號] G237 [文獻標識碼] A [文章編號] 1009-5853 (2015) 06-0080-05

The Construction of a Digital Publishing Domain Ontology Based on Thesaurus

Si Li Chen Yuxue Zhuang Xiaozhe

(Information Resource Research Center,Wuhan University,Wuhan,430072)(School of Information Management,Wuhan University,430072)

[Abstracts] Domain ontology plays a more and more important role in knowledge management and semantic web.This article explores the methods and the process of building a digital publishing ontology knowledge base based on thesaurus.The extraction and selection of descriptors,the establishment and revision of thesaurus,the building of semantic relationship between concepts, and the modeling of domain ontology are discussed.The modeling and visual display of the domain ontology is realized by Prot€間€?The system can provide a series of functions,including text automatic indexing,documental informations semantic and visual retrieval,term service,etc.

[Key words] Digital publishing Domain ontology Thesaurus

1 引 言

隨著出版產業與數字技術、信息網絡技術的加速融合,傳統出版與數字出版并重發展的格局已逐步形成,出版產業發展方式發生了根本轉變[1]。如何對數字出版領域的概念及概念間的關系進行明晰的表達與描述,成為數字出版發展過程中面臨的重要課題,而構建數字出版領域本體是解決該問題的有效舉措。

在表達知識結構方面,本體和主題詞表有著與生俱來的聯系。主題詞表包含豐富的主題詞與清晰的語義結構,易于從中提取概念與關系,為本體的建立提供了極為便利的條件;本體使用受控詞表中的受控詞及它們之間的關系來對某一知識領域的信息進行組織和正式地概念化[2]。因此,國內外一些學術機構和團體都在開展利用主題詞表建立本體的研究。美國國家癌癥研究所(National Cancer Institute,NCI)和馬里蘭大學帕克分校合作將NCI主題詞表(The NCI Th€閟aurus)轉換為一個OWL本體[3];植物本體聯盟(The Plant Ontology Consortium,POC)基于其創建的受控詞表構建了植物本體(lant Ontology,POP)[4];Sun等基于農業科學敘詞表(Agriculture Science Thesaurus,AST)建立了果樹栽培領域本體(Pomology Domain Ontology,PDO)[5];胡兆芹等進行了利用漢語主題詞表建立領域本體的研究[6]。

筆者創建數字出版領域主題詞表,以Prot€間€槲唇üぞ吖菇ㄊ殖靄媼煊蟣咎澹迪質殖靄嫖錟諶蕕淖遠暌⑻峁┯鏌寮燜鰲⒖墑踴燜骱褪跤鋟窆δ堋?

2 本體構建步驟

數字出版領域本體知識庫的建設過程包括提取主題詞、概念的篩選與取舍、概念名稱的規范化處理、本體分類體系的調整與概念歸類、主題詞表的編制與修訂、確定概念間的語義關系、領域本體的形式化建模等步驟。

2.1 提取主題詞

2.1.1 主題詞的來源

(1)人工抽詞

首先選取中國知網全文數據庫作為數據源,下載國內數字出版領域研究文獻(含期刊論文、會議論文、學位論文、報紙、專利、標準)的題錄信息(含題名、摘要),并從中人工抽取與數字出版相關的關鍵詞,進行去重處理,再經人工篩選后,得到4700余個相關概念,初步獲取了數字出版領域內的重要術語。

(2)文本分詞

人工抽取的術語并不能完全反映領域知識,為避免遺漏,選用中科院NLPIR/ICTCLAS漢語分詞系統(2014版)對電子工業出版社出版的《數字出版理論、技術和實踐》系列叢書中的9本專著進行自動分詞處理,進一步提取有關術語,而后對分詞結果作預處理:刪除所有單字詞、對剩余的語詞進行去重處理。預處理后,余下的術語為34484個。

2.1.2 概念的篩選與取舍

分詞結果的準確度對于領域本體的知識覆蓋范圍與表達能力以及文本標引的效果均有直接影響,任何分析系統的結果必須經過人工審核預處理。其具體過程如下:

(1)通過Excel的COUNTIFS函數一次性統計每個概念在書中的出現頻次,并按頻次由低至高排列所有概念。去除出現頻次過低(設置閾值為3)的概念與過于泛指(通常為超高頻詞)、專指以及與數字出版無關的概念。

(2)對于存有歧義、專業性較強的概念,在專著、研究文獻、網絡百科中查閱其含義并備注。

(3)標明英文縮寫詞的英文全稱及其對應的中文名稱。

全面瀏覽專著內容,訂正分詞時切分出錯的概念,同時補充遺漏的重要概念。最后共留存概念480余個。

此外,對人工抽詞獲取的近5000個概念進行了多輪篩選,具體工作大致同上,共保留概念700余個。將兩部分概念進行比對,去除重復概念后,計有680個概念(含非正式概念100余個)。

2.2 概念名稱的規范化處理

概念名稱必須符合漢語構詞特點,契合實際使用情況,便于用戶檢索,表述規范清晰。具體處理原則包括:若語詞中存在標點符號,則去除標點符號或直接刪除;外文名詞術語均采用漢譯名,如有多個譯名,以最通行的譯名為準,其余譯名作入口詞;若外文名詞術語更為通行,也可直接選用其作為正式詞;概念術語長度限制在10個字以內,過長的語詞使用其簡稱、縮寫或者直接刪除;拆分并列式概念,將析出的概念/語詞作為多個新概念術語。

2.3 概念分類體系的建立與概念歸類

在人工抽詞之后,筆者采取自頂向下的建模原則,初步確定數字出版領域概念的分類體系,編列前四級類目,并對已抽取的概念詞進行分類,依其內涵分別歸入各類目下。

首先將人工抽取的關鍵詞初步劃分為10個大類。文本分詞后獲取了一批新的概念術語,原有的等級體系也需予以相應調整,以便更加科學合理地容納數字出版領域內的概念,因此增設了“案例”和“機構”兩個一級類目,將“數字出版物與數字圖書館”和“傳統出版”類名分別改為“數字出版產品”和“相關概念”,并撤銷“數字版權”一級類目,使一級類目達到11個(見表1)。

表1 分類體系一級類目

此外,部分子類的設置也有所調整。本體等級體系的調整,解決了原有等級體系存在的類目涵義重疊、表意模糊等缺陷。考慮到概念數量有限,加之過深的層級體系不利于用戶的瀏覽與檢索,本體等級體系的層級一般為4級,極少數類目劃分到5級。最后,依據新的等級體系,在準確把握概念內涵及外延的基礎上,將所有概念逐一歸入對應的類目之下。

2.4 主題詞表的編制

將獲取的數字出版領域概念術語編制成數字出版領域主題詞表。概念術語編碼采用英文字母與阿拉伯數字組配的方式,為每個概念賦予唯一編號,基本采取層累制編號法,具體編碼方式如下。

①一級為兩位數字(00到10);

②二級為對應的一級類目編號加一位英文大寫字母(若類目多于26個,則加兩位英文字母);

③三級為對應的二級類目編號加兩位數字(01起);

④四級為對應的三級類目編號加兩位數字(01起);

⑤五級為對應的四級類目編號加一位英文小寫字母;

⑥入口詞則是在相應正式詞編碼后面增加“UF”和兩位數字(用于標識同一主題詞對應的多個入口詞)。

以“工具”類及其部分下位類為例,其編碼如下:

04 工具

04A 存儲設備

04A01 磁帶

D 04A01UF01磁介質

04A02 光盤

D 04A02UF01光介質

D 04A02UF02光碟

04A0201 CD@

04A0201a CD-ROM@

04A0202 DVD@

04A0202a DVD-ROM@

D 04A0202aUF01 數字視盤

注:編碼前標有英文字母“D”則為入口詞

其中“工具”為一級類目,“存儲設備”為二級類目,“磁帶”“光盤”為三級類目,“CD”“DVD”為四級類目,“CD-ROM”“DVD-ROM”為五級類目,“磁介質” “光介質”“光碟”“數字視盤”則是相關概念的入口詞,編碼為相應正式詞編碼后增加“UF”和兩位數字。

對于表述形式不唯一的概念(同義異形)以及彼此間涵義相近的概念,根據其出現的頻次,并結合用戶的檢索習慣,確定了正式詞(出現頻次較多、用戶使用較廣泛者;對應于本體中的正式概念)和入口詞(出現頻次較少、用戶使用不普遍者;對應于本體中的非正式概念)。而后按照已完成的分類表編排所有概念,添加用、代關系;入口詞均緊隨對應的正式詞之后,與正式詞的下位概念同級。對具有多種含義、涉及多種領域的概念進行多重列類處理,即將同一概念依其語義分別歸入不同的類目,并以“@”符號加以標識。最后,編列入口詞表收錄入口詞,以音序排列,所有入口詞均給予唯一編號。

這樣即編列完成了反映概念間等級結構的數字出版領域主題詞表之范疇表。此外,還將所有概念按其首字或首字母的字順排列,得到數字出版領域主題詞表之字順表。

2.5 確定概念間的語義關系

首先,將本體概念間的語義關系歸納為等同關系、等級關系和相關關系三類;接著仔細分析概念的內涵與外延,并咨詢領域專家,以準確把握各概念的涵義與其間關聯;最終確定概念間存在的10種關系。其中,除了“In relation to”外,其余關系均以關系對的形式存在,即包含兩種互逆的關系。具體關系如下:

①Equals/Is synonym of(等同于/是**的同義詞),如Copyleft Equals著作權/著作權Is synonym of Copyleft。

②Has part/Is part of(包含**部分/是**的一部分),如SGML Has part XML/XML Is part of SGML。

③Has type/Is type of(包括**一類/是**的一類),如軟件Has Type iTunes/iTunes Is type of 軟件。

④Has instance/Is instance of(有實例**/是**的實例),如出版單位Has instance愛思唯爾/愛思唯爾Is instance of 出版單位。

⑤Has tool/Is tool of(有工具**/是**的工具),如移動閱讀Has tool HTML5/HTML5 Is tool of 移動閱讀。

⑥Offer/Offered by(提供**/提供者是**),如OCLC Offer 數字期刊/數字期刊Offered by OCLC。

⑦Develop/Developed by (發明**/發明者是**),如Adobe Develop PDF/PDF Developed by Adobe。

⑧Has standard/Is standard of(有標準**/是**的標準),如ISO Has standard MPEG/MPEG Is standard of ISO。

⑨In relation to(與**相關),如3G In relation to 數字閱讀。

⑩Manage/Manage by(負責管理**/管理者是**),如DCMI Manage DC/DC Manage by DCMI。

隨后為抽取的概念間兩兩建立關系,前后共建立關系3500余對,并進行人工審定,保證領域本體的一致性,盡量避免冗余關系、循環錯誤等不一致性錯誤的產生。

2.6 領域本體的形式化建模

選用開源本體編輯軟件Prot€間€?4.3建立領域本體的等級結構(即添加父類、子類及實例),設置概念的IRI(資源標識符)、label(顯示的名稱)、code(編碼)等基本屬性,定義概念間存在的關系種類,并為部分概念添加注釋信息。該本體的等級結構即為范疇表中的等級結構,但入口詞則與對應的正式詞平級。接著使用Prot€間€橥綈鎃ebProt€間€椋扇《噯嗽諳咝鞣絞劍拍釤砑庸叵擔⒍員咎宓牡燃督峁埂⒗嗝捌涫糶災到屑觳欏6雜詰韌叵擔碋quals/Is synonym of關系,如概念的全稱和簡稱、用代關系等),采用增設“fullname”(全稱)與“abbreviation”(簡稱/縮寫)屬性、使用系統自帶的“equivalent to”關鍵字等方式予以描述。最后使用Prot€間€櫚牟寮﨩WLViz和OntoGraf實現領域本體的可視化瀏覽(圖3)。

2.7 領域本體形成與界面

使用Prot€間€槿砑瓿殺咎宓男問交:螅勺遠擅枋霰咎逯懈拍釷糶約捌浼涔叵檔腞DF文檔(圖4)。

3 結 語

筆者通過對信息技術領域主題詞表中涉及數字出版的主題詞及其相互關系的分析,構建了適合科教出版的領域本體模型所需的要素與本體描述模型,使之能完整反映數字出版領域的知識網絡;并通過抽取相關系列專著的信息,完成該領域本體的實例化。主題分類表和領域本體二者間應存在一定的對應關系,并作為動態數字出版標準規范體系的重要組成部分,為動態數字出版技術的集成開發、動態數字出版應用系統的建設提供支撐。

目前,在本體知識庫建設方面已編制完成數字出版領域主題詞表的范疇表、字順表,利用Prot€間€槿砑瓿墑殖靄媼煊蟣咎宓男問交涂墑踴允荊就瓿墑殖靄媼煊蟣咎逯犢庀低車慕ㄉ韞ぷ鰨低辰ǔ珊蠼弒肝謀咀遠暌⑽南仔畔⒌撓鏌寮燜饔肟墑踴燜鰲⑹跤鋟竦裙δ堋?

雖然當前研究已取得一些成果和經驗,但對于未來的研究,還有以下建議和展望:實現數字出版領域本體知識庫在線服務系統與其他數字出版業務系統的無縫集成,保證系統具有良好的可擴展性;強化后期維護和后臺資源更新,實現數字出版資源建設、流程管理、用戶服務的一體化;系統總結數字出版領域本體開發中的經驗及策略,為建構更大規模、適用于其他學科領域文獻的標引與檢索的本體積累更多經驗。

注 釋

[1]常青. 世界圖書出版西安公司是如何提升數字出版水平的[J]. 出版參考,2013,27:16

[2]Vihinen M. Variation Ontology for annotation of variation effects and mechanisms[J]. Genome research, 2014, 24(2): 356-364

[3]Golbeck J, Fragoso G, Hartel F, et al. The national cancer institutes thesaurus and ontology[J]. Web Semantics: Science, Services and Agents on the World Wide Web, 2003, 1(1): 75-80

[4]Plant Ontology Consortium. The Plant Ontology? consortium and plant ontologies[J]. International Journal of Genomics, 2002, 3(2): 137-142

[5]Sun Q, Wu Q, Liang Y. Study on Query System Based on Pomology Domain Ontology[M]//Computer and Computing Technologies in Agriculture V. Springer Berlin Heidelberg, 2012: 180-187

[6]Hu Z Q. Domain Ontology Construction from Chinese Thesaurus[J]. Advanced Materials Research, 2013, 753: 3209-3213

主站蜘蛛池模板: 91麻豆国产视频| 91国内在线视频| 99久久亚洲综合精品TS| 国产精品女在线观看| 亚洲免费人成影院| 试看120秒男女啪啪免费| 亚洲成人一区在线| 国产黄色爱视频| 国产真实二区一区在线亚洲| 香蕉eeww99国产精选播放| 欧美成人影院亚洲综合图| 久久一本日韩精品中文字幕屁孩| 国产精品天干天干在线观看| 在线观看国产黄色| 在线精品自拍| 国产精品2| 亚洲无码A视频在线| 国产成人精品高清不卡在线| 国产精品不卡永久免费| 国产99在线| 超薄丝袜足j国产在线视频| 国产精品亚欧美一区二区| 亚洲无卡视频| 香蕉99国内自产自拍视频| 麻豆精选在线| 不卡的在线视频免费观看| 国产高潮视频在线观看| 色综合网址| 欧美人人干| 国产色婷婷视频在线观看| 亚洲一级色| 99久久国产综合精品2020| 本亚洲精品网站| 欧美午夜理伦三级在线观看| 国产天天射| 亚洲无码精彩视频在线观看| 日本草草视频在线观看| 久久福利网| 免费国产不卡午夜福在线观看| 久久网欧美| 五月激激激综合网色播免费| 国产乱子伦无码精品小说| 丁香婷婷激情网| 国产毛片高清一级国语| 浮力影院国产第一页| 国产区人妖精品人妖精品视频| 国产精品va免费视频| 久久精品国产一区二区小说| 亚洲 欧美 中文 AⅤ在线视频| 一级一毛片a级毛片| 欧美不卡视频一区发布| 日本欧美一二三区色视频| 久久精品人妻中文系列| 国产91丝袜| 国产精品亚洲日韩AⅤ在线观看| 亚洲男人天堂2020| 青草视频网站在线观看| 免费高清a毛片| 国产99视频精品免费观看9e| 性做久久久久久久免费看| 99青青青精品视频在线| 国产视频一二三区| 国产一区免费在线观看| 青草国产在线视频| 国产欧美日韩另类精彩视频| 国产精彩视频在线观看| 国产va在线观看免费| 久久久噜噜噜| 国产视频大全| 欧美激情视频一区| 国产人成乱码视频免费观看| 日本高清在线看免费观看| 狠狠亚洲婷婷综合色香| 国产精品分类视频分类一区| 91在线一9|永久视频在线| 久久精品娱乐亚洲领先| 久草国产在线观看| 亚洲人成在线精品| 成人午夜天| 日韩高清无码免费| 97久久超碰极品视觉盛宴| 亚洲男人的天堂网|