999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

全媒體檔案信息資源語義組織與服務研究

2019-03-20 06:06:58任妍龐宇飛荊欣
檔案管理 2019年2期
關鍵詞:大數據

任妍 龐宇飛 荊欣

摘 要:本文針對數據化時代檔案信息資源深層次組織、管理與服務問題,提出了全媒體檔案信息資源語義組織與服務的一般思路,并針對元數據語義轉換、檔案數據語義分析與表述、語義組織與存儲、語義檢索與服務以及系統實現等相關問題進行初步探討。

關鍵詞:全媒體;大數據;檔案資源;語義組織;語義服務

Abstract: This paper proposed the general idea for semantic organization and service of omni media Archives information resources in the case of problems faced to deep organization, management and service of Archive information resources in the period of big data. A preliminary discussion was made on related issues such as semantic transformation of meta data, semantic analysis and representation of Archive data, semantic organization and storage, semantic retrieval and service, system implementation and so on.

Keywords: Omni media; Big data; Archive resources; Semantic organization; Semantic service

1 引言

數字化與數據化的過程中,檔案信息資源的載體形態和載體類型越來越豐富,各類文本、圖形、圖像、音頻、視頻、動畫以及各種類型的三維建模數據不斷涌現,大數據和人工智能技術在信息化進程中的不斷普及和應用也帶來了檔案工作新的機遇和挑戰。檔案工作僅僅處于科學保管和有效利用檔案信息資源層面上,已經不能滿足人們對信息的個性化、便捷化和人性化等方面的更高需求。人們對檔案信息資源的需求不局限于瀏覽檔案的原件,更多的是檔案信息內容,檔案信息資源的語義組織就顯得極為重要。

傳統的檔案信息資源組織過程,一般是根據檔案信息資源載體類型的不同分別進行加工和處理。在這種情況下,各類信息資源在語義上的相關度往往是通過鏈接的形式進行描述和處理的,語義上的聚合度不是很高,基于內容的檔案信息資源深層次組織、管理與服務難以開展。對于圖形、圖像等異構的檔案全媒體載體形態,單純使用元數據描述方式不能滿足檔案信息資源庫語義組織的要求,需要運用模式識別和語義標注等手段,通過智能代理工具和方法,將這類信息進行語義組織和存儲,共同納入檔案信息資源語義知識庫體系[1]。這需要對全媒體檔案信息資源進行語義組織與服務,本文擬在這方面初步研討。

2 語義組織與服務基本思路

全媒體檔案信息資源語義組織與服務的實現,需要在圖形、圖像、動畫、音頻和視頻類數據的文本化處理和元數據組織基礎上進行。非文本數據的文本化處理可通過模式識別技術和深度學習算法實現,元數據組織通過分詞技術和自動著錄與標引技術實現。

本文重點分析元數據語義轉換、語義識別、標注、表示、描述、存儲、檢索和提供利用等方面的內容,即全媒體檔案信息資源語義組織與服務的基本流程包括元數據語義轉換、檔案數據語義分析與表述、語義組織與存儲、語義檢索與服務等四個方面。

元數據語義轉換,即利用語義知識庫組織檔案信息的內容,運用檔案語義詞典進行檔案元數據語義轉換。

語義分析與表述,即運用詞法分析技術進行信息內容的分詞、詞性標注、句法標注、語義和語境標注。

語義組織與存儲,即通過存儲節點控制使檔案信息內容按語義關系進行鏈接,按語義關聯關系進行組織和存儲,形成規范化的檔案信息內容語義網絡知識體系。

語義檢索與服務,即按一定的技術方法與手段形成檔案信息語義知識管理服務體系,提供檔案信息資源語義檢索和智能服務。

3 語義組織與服務一般框架

3.1 元數據語義轉換策略。元數據語義轉換策略是在自動著錄和解析的基礎上通過檔案語義詞典生成檔案信息語義集合的策略。

元數據著錄標引。檔案著錄標引是按照檔案著錄規則、中國檔案主題詞表、中國檔案分類表進行的,其中檔案元數據主要包括題名、檔號、檔案館(室)代號、分類號、主題詞、關鍵詞、提要、文件號、責任者、載體類型、載體形態、保管期限、密級、文種、稿本、形成時間、附件、鏈接地址、正文等。元數據著錄標引在現有的檔案管理信息系統中已經具有一定的積累,是生成檔案信息語義集合的數據基礎。

檔案語義詞典的建立。檔案語義詞典可參照國家檔案局頒布的關于檔案元數據和檔案基本數據規范[2],資源基礎是檔案原生數據及其元數據集合。《中國檔案主題詞表》的基本結構分為主表、附表和輔助索引三大部分,包含字順表、范疇索引、詞族索引、主題詞索引等。字順表作為主題詞表的主體,可以通過詞性分析,進行語義關聯規范化組織,建立檔案信息語義分析系統的基本詞匯控制數據集合,為檔案信息資源的語義組織和分析提供語義結構標準化和系統化控制基礎[3]。

語義集合的生成。在語義詞典確定的基礎上,通過模式識別等技術對全媒體信息源進行文本化處理,利用分詞技術實現詞匯的提取,進而進行語義關聯分析并生成語義信息集合。

檔案信息內容的文本語義抽取。從檔案的原生數據源之中識別和標注相關信息,并按照一定的標準和規范對這些信息進行語義化描述,形成語義信息集合。在此基礎上,對檔案信息資源的內容、背景、時空環境、載體形態等進行內外多維度語義屬性、特征、句法依存等關聯分析,形成檔案信息資源語義詞表和句法關聯信息集合[4]。

3.2 語義分析與表述方法。語義分析是運用語義區分量表對信息內容進行表述的方法。相對于關鍵詞和元數據,語義分析對于信息內容涉及概念表述更加全面和準確,所產生的歧義更小,詞語和句法的關聯度更強。一般來講,語義關聯關系是基于上下文的語義之間的同一性、隸屬性、相關性、間接性、直接性等關系[5]。

通用的語義關聯分析方法是檔案信息資源語義分析的重要參考。檔案信息資源是各類社會職能活動中所產生的原始記錄,每一份檔案材料內容都與人們所從事的社會實踐活動密切相關,都有其相應的立檔單位特點、組織和活動風格、產生的時代背景、工作性質、社會環境等,有其特定的語境,以及語義和語境的關聯關系。檔案信息資源與其他數字資源一樣可以運用字串語義、文本語義、圖片語義、音頻語義、視頻語義、語義索引、語義匹配等語義關聯分析方法進行處理。

語義分析與表述的基本方法。首先,通過語義特征分析,進行概念標注與描述,以明確所涉及的信息內容相關概念以及概念的屬性和相互之間的關系,通過對檔案信息資源多種媒體元素的內容屬性分析與標注,揭示相互之間的語義關聯性;其次,進行語義相關度分析和語義描述,針對各類詞語在檔案信息資源內容上下文之間的關系,通過一定的模型和算法確定相互之間的語義關聯度和相似度并形成檔案信息內容語義元素關聯網絡集合[6]。

3.3 語義組織與存儲技術。檔案信息內容的語義組織包括檔案信息資源內容體系和知識體系的語義關系組織、詞匯體系與元數據體系的映射關系組織等各個方面[7]。

全媒體檔案信息語義組織可以運用本體工具對檔案信息內容所涉及的概念以及概念之間的關系進行加工處理,據此完成檔案信息資源的內容、需求的語義組織以及建立兩者之間的語義鏈接。

語義描述和組織一般使用融合自然語言處理的語義網技術進行標注、表示、描述、組織和存儲。目前所使用的語義網技術包括資源描述框架RDF(Resource Description Framework)、網絡本體語言OWL(Web Ontology Language)。RDF使用SPO(Subject Predicate Object)三元組定義語義模型,并通過類、屬性以及關系形成語義網絡模型。OWL使用本體(Ontology)定義的語義模型進行描述。在此基礎上可以實現語義抽取、語義表示、語義融合、語義推理、語義檢索等操作。利用Java工具箱Jana,可以支撐RDF與OWL語義網應用并利用Apache Jena Fuseki服務器完成語義網數據的存儲與服務。

3.4 語義檢索與服務系統。全媒體檔案信息資源語義組織與服務系統的基本結構有語義組織層、語義關聯層、語義應用層等三個層次。

語義組織層,對檔案信息資源的內容進行語義分析并形成檔案信息資源語義本體結合;語義關聯層,將檔案信息的內容進行語義化組織并進行語義化關聯,形成語義關聯網絡數據集合;語義應用層,按照應用層的服務需求,根據語義關聯的檔案信息內容,提供語義檢索服務[8]。

語義檢索與服務系統的三層結構包含檔案信息本體數據庫管理機制、語義本體推理機制、語義知識檢索機制、語義應用控制機制等,通過系統集成共同構成人機交互的全媒體檔案信息資源語義組織與服務體系。

參考文獻:

[1]張倩.語義Web技術對高校檔案信息檢索工作的應用價值[J].城建檔案,2018(02):85-87.

[2]張素萍.基于語義的電子健康檔案信息組織模式[J].醫學信息學雜志,2015,36(09):65-68.

[3]段榮婷.基于簡約知識組織系統的《中國檔案主題詞表》語義網絡化應用研究[J].檔案學通訊,2011(02):72-75.

[4]徐一男,李禾.基于藝術語義特征抽取的藝術檔案信息聚合初探[J].圖書情報導刊,2017,2(04):52-56.

[5]呂元智.數字檔案資源跨媒體語義關聯聚合實現策略研究[J].檔案學研究,2015(05):60-65.

[6]石秀春.數字化檔案信息的語義相似性研究[J].檔案學研究,2013(02):51-53.

[7]林周佳.檔案的語義級檢索技術研究[J].檔案與建設,2007(09):24-25.

[8]譚靜.基于語義關聯的高校圖書情報檔案數字資源整合研究[J].圖書館學刊,2016,38(11):38-40+45.

(作者單位:任妍,武漢大學信息管理學院;龐宇飛、荊欣,鄭州航空工業管理學院 來稿日期:2018-12-20)

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 国产成人精品一区二区免费看京| 性色一区| 国产国产人在线成免费视频狼人色| 欧美日韩在线成人| 亚洲精品第一在线观看视频| 国产在线自揄拍揄视频网站| 国产不卡网| 亚洲精品动漫| 欧美国产日本高清不卡| 午夜国产大片免费观看| 99性视频| 免费中文字幕一级毛片| 欧美激情综合一区二区| 一本色道久久88亚洲综合| 亚洲中文字幕国产av| 思思热在线视频精品| 六月婷婷精品视频在线观看| 最新精品久久精品| 欧美特黄一级大黄录像| 亚洲精品视频网| 99热免费在线| 91丝袜在线观看| 美女内射视频WWW网站午夜| 影音先锋丝袜制服| 午夜福利在线观看入口| igao国产精品| 国产一区二区三区精品久久呦| 国产区福利小视频在线观看尤物| 日韩 欧美 国产 精品 综合| 亚洲女同一区二区| 日本一区二区三区精品视频| 亚洲永久视频| 国产女人在线| 久草视频中文| 久久国产精品嫖妓| 国产在线日本| 在线视频一区二区三区不卡| 国产午夜看片| 国产精品自在自线免费观看| 天天做天天爱夜夜爽毛片毛片| 国产成人凹凸视频在线| 亚洲区第一页| a毛片在线播放| 男人天堂伊人网| 在线人成精品免费视频| 伊人久久婷婷五月综合97色| 国产青榴视频| 国产理论最新国产精品视频| 日韩成人午夜| 欧美激情综合| 国产网站黄| 亚洲VA中文字幕| 极品尤物av美乳在线观看| 国产欧美在线观看一区| 性色在线视频精品| 成人午夜久久| 欧美激情,国产精品| 又黄又爽视频好爽视频| 最新精品久久精品| 永久免费AⅤ无码网站在线观看| 久久精品日日躁夜夜躁欧美| 一本大道视频精品人妻| 五月激情婷婷综合| 亚洲男人在线| 国产福利在线免费观看| 日韩在线第三页| 中文字幕一区二区视频| 精品少妇人妻无码久久| 特级欧美视频aaaaaa| 日韩不卡高清视频| 嫩草影院在线观看精品视频| 伊人无码视屏| 国产欧美精品专区一区二区| 日韩精品亚洲人旧成在线| 亚洲视频无码| 国产成人免费视频精品一区二区| 亚洲综合第一区| 国内毛片视频| 不卡无码h在线观看| 漂亮人妻被中出中文字幕久久| 亚州AV秘 一区二区三区| 91麻豆精品视频|