999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向數字動態出版的主題詞系統實現*

2016-06-01 12:38:40冉從敬郭曉婉
圖書館論壇 2016年9期
關鍵詞:分類內容

冉從敬,郭曉婉

面向數字動態出版的主題詞系統實現*

冉從敬,郭曉婉

隨著出版產業與數字技術、信息網絡技術加速融合,傳統出版與數字出版并重發展格局逐步形成,解決數字出版知識庫建設不規范和數據內容片段及其相互關系描述不完整等問題成為數字出版的重要課題。文章聚焦于信息技術領域,編制《信息技術領域分類主題詞表》,開發主題詞分類處理系統軟件,介紹主題詞分類處理系統從設計到實現的全部過程。

信息技術領域 數字動態出版 主題分類詞表

1 研究概述

1.1 研究背景

隨著互聯網的發展,目前理念與技術的融合使數字出版愈加重要[1]。圖書、雜志、報紙、音像等傳統出版產品一般以單一媒體、單一渠道進行分銷和傳播[2],數字革命則改變了傳統出版的供應鏈[3]。在此背景下,國內外涌現出不少數字出版服務模式,如以電子書為主要出版形式的單品種服務模式、按需印刷服務模式、以數據庫出版為主的知識服務模式和在線教育服務模式。這些數字出版服務模式的主要特點包括:出版正在轉型為基于細顆粒度的知識挖掘和信息服務;數字出版物傳播渠道和終端閱讀呈現多樣性;用戶的個性化和可定制化需求越來越強烈;數字出版物的跨媒體應用越來越廣泛,數字出版消除了紙質出版物生產和銷售中的金融壁壘[4]。這些特征要求出版單位能夠利用知識主題或本體對數字內容進行結構化的組織和管理,實現多種媒體、多種形式、多種渠道的數字出版物同步生成,進一步根據用戶的不同需求快速形成不同形式和內容的產品及服務。

面對這種新型數字出版模式應用需求,出版單位亟待改造自身的技術裝備,構建滿足數字出版需求的內容生產系統,建立可重用的結構化內容資源庫,并以此為基礎進行數字內容的多渠道發布和內容的重組利用,最終形成跨媒體、專業性、分層次的數字出版發展格局,為出版單位的內容產品樹立競爭優勢。然而,我國傳統出版單位在發展道路上還存在種種問題,主要包括數字出版行業標準不規范、專業知識分類體系不完善、不能滿足日益增長的跨媒體多終端閱讀應用需求、大量非結構化文檔資源處理成本高、傳統出版流程數字化改造過程復雜、數字出版的商業模式難以確定[5]。本研究聚焦于信息技術領域,根據中文主題詞表、英漢信息詞典、簡繁對照詞典、簡繁對照詞表,抽取對照詞表,抽取對應的中文、英文、繁體和拼音的主題詞,輸出包含以上信息的主題詞表,制定面向動態數字出版的主題詞分類處理系統。在信息時代,主題詞表依然是重要的檢索工具,《漢語主題詞表》《中國分類主題詞表》在中文檢索語言的標準化過程中發揮了關鍵作用,促進了現代知識組織和信息處理的發展[6]。本研究在借鑒眾多相關詞表的基礎上編制《信息技術領域分類主題詞表》(以下簡稱《分類主題詞表》)。

1.2 研究目標、成果和技術框架

本研究的主要目標是建立動態數字出版系統,實現內容的“一次制作、多渠道發布、跨媒體出版”,面向廣大用戶提供個性化的按需出版服務。研究成果是10萬個主題詞已經完成提取,初步建立了中文、繁體、拼音、英文的對應關系,并開發軟件系統對中英文繁體拼音的對應關系進行自動化處理;并將研究領域限定在科技出版中最活躍的信息技術出版物領域,調研和采集已有的知識組織體系及其相關元數據集,從已有的數據庫中抽取的關鍵詞和用戶檢索詞等構成來源素材;利用設計的數字內容類型規范(詞形規范、詞義規范)等遴選規范形成概念;在借鑒綜合性詞表和專業詞表概念語義關系的基礎上,借助詞共現,建立概念間相關屬性關系;建立涵蓋全學科的范疇體系,并對概念進行相應范疇體系歸類[7],最終編制《分類主題詞表》。主題詞表作為信息組織工具,能有效地組織和使用數字文件資源,因此其編制仍然是一項重要工作[8]。本研究分類詞表的構建框架見圖1。

圖1 面向信息技術領域主題詞表的技術流程圖

2 《分類主題詞表》的編制與應用

2.1《分類主題詞表》定位及范圍

《分類主題詞表》是電子工業出版社內部使用的、面向信息技術領域的專業主題詞表,帶有主題詞范疇索引,該詞表可以起到規范標引用詞的作用,給出版社所有的內容編輯人員提供了一套統一的標引參考標準,保證標引用詞的規范性、一致性和科學性,可以有效防止自由標引帶來的凌亂化,有利于文獻聚類和數據挖掘,也為未來實現自動標引奠定了基礎。《分類主題詞表》不僅適用于文本類信息分類標引標準,還適用于數據、圖片、聲視頻信息的分類和標引;不僅適用于傳統出版物的分類標引,還適用于電子書、數據庫等各種新型出版物和數字內容資源的分類標引,是出版社所有內容資源的基礎性加工參考標準。

2.2 《分類主題詞表》參考文件

《分類主題詞表》在編制過程中綜合多方力量,參考眾多相關文件而形成,這些文件主要包括信息技術中文編碼字符集、信息交換用漢字編碼字符集、信息分類編碼的基本原則和方法、信息與文獻術語、語種名稱代碼、中華人民共和國法定計量單位、中國分類主題詞表、中國圖書館分類法、計算機科學技術名詞、計算機科學技術名詞、信息技術術語詞典、最新電子名詞辭典等多種分類工具和信息技術領域術語表。

2.3 《分類主題詞表》介紹

2.3.1 概況

《分類主題詞表》是帶有范疇索引的主題詞表。所謂范疇索引,是按照主題詞的學科含義聚類并建立索引,以便于族性檢索。分類主題詞表靈活性高,維護復雜度低,還能在一定程度上說明不同主題詞在概念和語義上的關聯。

(1)編制原則。電子工業出版社出版的《信息技術領域分類主題詞表》是在參考《中國分類主題詞表》《中國圖書館分類法》《中國科學院圖書館圖書分類法》《中國人民大學圖書館圖書分類法》的基礎上,充分考慮電子工業出版社的圖書出版情況而編制。《分類主題詞表》可以實現分類和主題一體化標引,為文獻和數字內容加工工作創造了良好的條件。

(2)分類方法與類目體系編制原則。《分類主題詞表》根據實際需要分為13個一級類,其中前7個一級類目主要針對內容,稱為內容類目;后6個一級類目主要針對非內容要素,稱為非內容類目。內容類目分別是計算機技術、自動化技術、電子工程、電信工程、電工技術、機械和儀表、交通運輸;非內容類目包括出版物、機構、物理媒介、人物與角色、讀者和計量單位。一級類目下面可細分成二級類目、三級類目和四級類目。類目具體的層級根據實際需要進行設置,主題詞一般位于最細一級類目之下。

(3)編碼方法。詞表中的每一級類目以及主題詞類均由類目編碼和類目詞組成。一級類目采用數字字符順序和字母順序編碼,如01、02,A、B。二、三、四級類目分別采用兩位數字編碼,均采用順序編號法。二、三、四級類目的數字編碼均采用順序編號法。類目編碼的長度可以體現出類目的等級和次序。內容類目的一級類目編碼分別用01、02、03、04、05、06、07表示。非內容類目的一級類目編碼分別用類目詞中具有代表意義的漢字的拼音首字母C(出)、D(度)、J(機)、M(媒)、R(人)表示,并按字母順序排序。

2.3.2 《分類主題詞表》維護方法與流程

近年來,隨著信息科學技術的快速發展,新型信息技術及理論不斷涌現,新的主題和概念隨之產生。為能夠及時對這些新的內容進行主題標引,就必須對《分類主題詞表》進行周期性的更新和維護,以保證詞表能夠涵蓋信息領域最新的概念和主題。《分類主題詞表》的維護包括類目下主題詞的增加、修改和刪除,類目的增加、修改和刪除。

在修訂主題詞時,必須依據科學性與使用性相結合的原則選詞,注意詞的學名與俗名的關系處理和詞形的選擇。在新增主題詞時,選定的主題詞要符合漢語的結構特點以及各學科的通用性,對外來語詞要注意選用較通用的譯名。選定的主題詞必須一詞一義,不選用概念容易混淆、詞義不清的語詞作為正式主題詞。新選定的主題詞盡量同國內外主題詞表兼容。主題詞的增加應盡量放置于專指性強的類目下,若無,則考慮“其他”類目。

在修改或刪除主題詞時,主要考慮該詞內涵具有時代局限性,詞義不清,則可以刪除該詞。該詞不規范、不通用,已被另一詞性代替,則選擇另一詞為正式主題詞。該詞有錯別字或詞義錯誤,則修改更正該詞,若不能更正,則刪除。增加、修改和刪除主題詞都可以在《分類主題詞表》中直接進行,但需要追主題詞增加、修改和刪除后必須通知所有信息編輯人員開始使用、修改使用或停止使用這些主題詞。

《分類主題詞表》的分類體系實質上是具有分類意義的主題詞的范疇索引。隨著《分類主題詞表》中的主題詞的增加,新的主題詞可能會重新聚類形成新的類目,這時就要求增加、刪除和修改類目。

2.4 《分類主題詞表》的功能與應用

2.4.1 規范出版物或內容單元的標引用詞

《分類主題詞表》的各級類目和主題詞可以直接用于各種出版物、數字資源及內容單元的標引。對出版物或內容標引單元的標引分為分類標引和主題標引兩種。分類標引以出版物或內容單元的學科或專業屬性為主要依據,進行類目劃分。在進行分類標引時,必須對出版物進行仔細的主題分析,而不能單憑題名進行分類。必須符合專指性和實用性要求,將其分入適當的類目,而不能分入范圍大于或小于實際內容的類目。主題標引是針對出版物所論及或涉及的主題進行標引,而不是對出版物內容的學科性質進行標引。進行主題標引時,必須選用詞表中最切合主題的詞匯標引,一般不選用其上位詞或下位詞標引。若無專指詞,則選用一個最直接的上位詞或最近義的、最相關的主題詞。該分類主題詞表可以實現分類與主題標引的一體化。

2.4.2 提高檢索性能

通過掌握《分類主題詞表》,出版物編輯可以使用規范的主題詞作為數字內容的標引用詞,提高主題標引的質量,便于實現文章自動關聯和內容挖掘。《分類主題詞表》是簡單的本體,借助層級語義關系,可在一定程度上實現語義檢索,有利于提高檢準率和檢全率。

2.4.3 過濾非法標引詞

將《分類主題詞表》與標引系統關聯,可實現出版物內容標引用詞的校驗和過濾功能。如果出現不規范的標引詞進入標引系統,機器可自動報警,并將非法標引詞過濾出來。

2.4.4 《分類主題詞表》的應用

《分類主題詞表》與《科技類圖書結構化處理規范》都是電子工業出版內部的基礎性標準規范,既可以用于圖書的分類主題標引,還可用于可重用內容單元的分類主題標引。

在圖書結構化處理過程中,對于整體圖書和所有的可重用單元,必須給與詳細的元數據標注,這些元數據信息借助兩種形式存在:一是主題信息,編輯加工人員需要選擇主題詞,對圖書或內容單元涉及的主題進行揭示;二是元素屬性,比如對所有圖書和可重用單元都可以增加“讀者對象”這個屬性,其選值包括“初學者”“熟練者”“精通者”等三種。在編輯加工人員對圖書內容進行結構化處理的時候,可以從該《分類主題詞表》中選擇規范的主題詞作為元素的屬性值進行設置。

《分類主題詞表》編制完成后,最終開發出面向動態數字出版的主題詞分類處理系統,該系統是經過系統架構設計、系統功能設計、系統界面設計這一完整的設計流程構成的,旨在實現利用主題詞支持數字動態出版的“一次輸入,多次使用”。

3.1 系統架構設計

系統架構設計是指該主題詞分類處理系統的總體結構,該系統能夠實現數據的輸入、處理、查詢、展示、輸出整個完整的流程,系統的整體架構包括數據入庫、數據預處理、主題詞分類、主題詞查看、主題詞編輯、主題詞輸出。

實現這一系統架構包括三方面的準備:一是搭建一個主題詞數據庫,采用數據采集分析與理論研究相結合的方式,搭建一個集中、統一管理的主題詞數據庫,建設面向主題詞分類的原始數據表、工作表等,統一主題詞數據管理,為后續的數據應用和數據共享提供有效支撐;二是實現主題詞一體化處理流程,各模塊功能相互配合,共同為主題詞分類與展示提供技術支撐,完成業務流的配合實現;三是建設面向主題詞分類的業務應用,主題詞分類包括自動分類、半自動分類和手動分類。

3.2 系統功能設計

主題詞分類處理系統功能模塊包括數據入庫、預處理、處理、查看、編輯、輸出等,每個功能模塊根據業務不同又細分子業務功能,以下就各模塊的功能性需求進行介紹。

數據入庫的基本功能包括分類編碼入庫、主題詞入庫、參考詞入庫、英漢詞典入庫、簡繁詞典入庫。分類編碼入庫是從參考詞中抽取分類編碼的目錄,包括簡體名與編碼;主題詞入庫是把未分類的主題詞加入到工作表中,以便后續的分類處理;參考詞入庫是將參考主題詞入庫,包括編碼與簡體名,該表是自動分類表的參考基礎;英漢詞典入庫是將英文名與其對應的簡體名輸入到數據庫中;簡繁詞典入庫則是將簡體名與其對應的繁體名輸入至數據庫中;簡繁英詞典入庫先整理信息技術領域分類主題詞表(簡體繁體對應表),將其簡體、繁體、英文一一對應并輸入數據庫中。

預處理包含的功能依次為中文轉換拼音、復制英語名、查找英漢詞典、查找簡繁詞典、簡體英文提取、繁體字首字處理、查找參考英文、繁體數據清洗、數據來源標記、繁體手動糾錯、新詞重新過濾、復制簡繁英詞表和繁體字去重。

處理是利用開發出來的程序調用未處理的詞,根據已分類詞,按照一定的算法處理,人工干預確定未分類的分類編碼。處理包括自動分類、半自動分類和手動分類三個模塊。

自動分類是將工作表里的記錄與參考表里的記錄匹配,獲取參考表的分類編碼,賦值給工作表里的分類編碼字段。半自動分類主要包括四個方面的內容,一是查詢待處理詞;二是設置關鍵詞,系統根據關鍵詞查找已分類的詞,用以作為未處理分類的依據;三是根據關鍵詞,系統查找未分類詞,供用戶選擇,以便同待處理詞合并一起分類;四是用戶根據參考詞,選擇并設置待處理詞的編碼,同時選擇其他未分類詞。手動分類是通過手動輸入的方式給未分類詞進行類別劃分,并提交到數據庫。

查看菜單主要提供查詢工作表、參考表、分類表的查詢功能,包括查看未分類詞、已分類詞和高級查詢。

編輯功能可以對工作表進行清空、修改、刪除和添加等操作。清空分類編碼,操作后不可恢復,所以在使用該功能的時候要謹慎。修改可以按照“簡體名”“繁體名”“漢語名”“英文名”“編碼”“標記”等進行條件選擇,然后進行“范圍限定”,并進行相應字段的修改。刪除則分為批量刪除和選擇刪除兩種。

輸出主要包括輸出參考詞表、未分類詞表、已分類詞表和分類詞文檔,以Excel表格的格式輸出。

3.3 系統界面設計

登錄界面和功能界面,見圖2、圖3和圖4。

圖2 登錄界面

圖3 功能界面1

圖4 功能界面2

3.4 數據結構設計

本研究主要對數據結構設計的原則性內容及設計思路、建庫內容與流程進行介紹。根據詞庫涉及內容,建立相應的數據庫,包含CodeExcel表、EnglishChinese表、FanDic表、FanDic-Sec表、FanDicThird表、ReferExcel表、Work-Excel表、WorkExcelBefore表、WorkExcel-Refer表。以CodeExcel表為例,具體表結構見表1。建立以上表結構后,將數據導入,并存在統一的*mdb文件中,以供系統讀取、寫入使用。

表1 CodeExcel表

4 結語

本研究聚焦信息技術領域,先通過整合多方資料,制定《分類主題詞表》,包含10萬個從現存標準中提取的信息技術領域的詞語,既有中文、英文、拼音,還有繁體。在詞表基礎上開發出主題詞分類處理系統軟件,該軟件能夠實現數據的輸入、處理、查詢、展示、輸出整個完整的流程和相應的對應關系,容許批量主題詞的導入和規定格式主題詞的導出。本研究理論與實際相結合,開發出實用軟件,這個過程體現出來的特點和意義包括:形成一套完整的標識體系;兼容分類法和主題法等重要的信息組織方法;分類體系兼顧分面分類法和等級分類法,將二者融為一體;完成中文簡體與繁體主題詞在信息領域的對照;實現中英文主題詞在信息領域的對照;完成主題詞全周期軟件開發;成功實現計算機輔助分類和人工分類相結合,利用主題詞支持了數字動態出版的“一次輸入,多次使用”。

[1]姚柏年.數字出版商業模式研究[D].上海:華東師范大學,2012.

[2]葛存山,張志林,黃孝章.數字出版運作模式研究[J].科技與出版,2008(9):51-55.

[3]Ho H Y,Wang LW,Cheng H J.Authors,Publishers,and Readers in Publishing Supply Chain:The Contingency Model of Digital Contents Production,Distribution,and Consumption[J].SystemsEngineering Procedia,2011(2):398-405.

[4]Ben Hunter.The Effect ofDigitalpublishingon Technical service in University libraries[J].Journal of Academic Librarianship,2013,39(1):84-93.

[5]Hong Cheng W,Li Ren S,Rousseau R.Digital publishing and China’s core scientific journals:a position paper[J].Scientometrics,2014,98(1):11-22.

[6]ZhangW.ThedevelopmentandstructureoftheChinese Thesaurusforsubject indexing[J].InternationalInformation&LibraryReview,2004,36(1):47-54.

[7]曾建勛,常春,吳雯娜,等.網絡環境下新型《漢語主題詞表》的構建[C]//2011年全國知識組織與知識鏈接學術交流會.2011:43-49.

[8]Zeng W.Exploration and study of multilingual thesauri automation construction for digital libraries in China[J]. ElectronicLibrary,1983,30(2):233-247.

(責任編輯:何燕)

Implementation of Subject Headings System Based on Digital Dynamic Publishing

RAN Cong-jing,GUO Xiao-wan

As the integration with digital technology and information network technology speeding up,traditional publishing and digital publishing develop simultaneously.It is important for digital publishing to solve problems such as non-standard construction of knowledge base,fragmented data content and incomplete description of relationship among data.This paper focuses on the compilation of Classified Information Technology Thesaurus and the development of classification processing system of subject headings;then gives an introduction of the entire process of designing and implementing the system.

information technology field;digital dynamic publishing;subject headings

格式 冉從敬,郭曉婉.面向數字動態出版的主題詞系統實現[J].圖書館論壇,2016(9):79-84.

分類處理系統軟件設計

冉從敬,武漢大學信息資源研究中心、武漢大學信息管理學院教授;郭曉婉,武漢大學信息管理學院碩士研究生。

2016-05-05

*本文系國家科技支撐課題“面向科技教育領域的動態數字出版標準規范研究”(項目編號:2012BAH88F00)和博士后特別資助課題“基于信息可視化技術的知識產權學術演化規律研究”(項目編號:2014T70199)研究成果之一

猜你喜歡
分類內容
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
內容回顧 溫故知新
科學大眾(2021年21期)2022-01-18 05:53:48
內容回顧溫故知新
科學大眾(2021年17期)2021-10-14 08:34:02
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
給塑料分分類吧
主站蜘蛛池模板: 永久免费无码日韩视频| 久久久久亚洲AV成人网站软件| 国产一二三区在线| 欧美成人影院亚洲综合图| 亚洲欧美成aⅴ人在线观看| 亚洲动漫h| 成人一级免费视频| 国产成人精品男人的天堂| 久久天天躁夜夜躁狠狠| 国产成年女人特黄特色毛片免| 国产一区成人| 国产浮力第一页永久地址| 伊人五月丁香综合AⅤ| 伊人国产无码高清视频| 无码中文字幕精品推荐| 91精品国产综合久久不国产大片| 91精品视频在线播放| 久久精品人人做人人爽| 国产高潮视频在线观看| 国产欧美视频综合二区| 久久精品午夜视频| 亚洲av片在线免费观看| 黄色免费在线网址| 毛片大全免费观看| 日韩精品高清自在线| 免费人成视网站在线不卡| www.日韩三级| 精品国产欧美精品v| 亚洲精品麻豆| 欧美曰批视频免费播放免费| 成人午夜久久| 伊人久久久久久久久久| 久久久久青草线综合超碰| 爽爽影院十八禁在线观看| 国产亚洲高清在线精品99| 欧美日本视频在线观看| 五月六月伊人狠狠丁香网| 久久人搡人人玩人妻精品一| 国产精品综合久久久| 全午夜免费一级毛片| 98精品全国免费观看视频| 色香蕉影院| 农村乱人伦一区二区| 日韩精品成人在线| 亚洲综合色在线| 91蜜芽尤物福利在线观看| 少妇极品熟妇人妻专区视频| 亚洲中字无码AV电影在线观看| 永久天堂网Av| 熟女日韩精品2区| 伊人丁香五月天久久综合| 国产亚洲欧美在线人成aaaa | 在线观看国产小视频| 一级毛片在线播放| 国产一在线观看| 亚洲V日韩V无码一区二区| 国产精品冒白浆免费视频| 国产成人精品三级| 欧美中日韩在线| 国产精品视频猛进猛出| 精品国产一二三区| 免费看a级毛片| 欧美视频在线第一页| 欧美三级不卡在线观看视频| 中文无码影院| 香蕉网久久| 亚欧成人无码AV在线播放| 热re99久久精品国99热| 无码区日韩专区免费系列| 国产97公开成人免费视频| 成人亚洲天堂| 亚洲日韩高清无码| 亚洲欧美自拍中文| 亚洲中文精品久久久久久不卡| 国产超碰一区二区三区| 国产大片喷水在线在线视频| 亚洲第一中文字幕| 亚洲欧美日韩高清综合678| 亚洲精品你懂的| 好吊妞欧美视频免费| 全午夜免费一级毛片| 中文精品久久久久国产网址|