999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高校數字檔案資源智能語義檢索技術策略研究

2020-03-03 08:30:55蔣紅健
蘭臺世界 2020年12期
關鍵詞:語義概念智能

蔣紅健

目前,高校數字檔案資源的傳統檢索方式是通過詞條切分技術形成關鍵詞對元數據進行檢索,這種檢索方式快速高效并且精準,但是沒有對數字檔案資源的知識管理體系進行檢索,缺乏對元數據的分析理解,存在著無法查找或者查全率不夠的情況,需要人工多次篩選[1]69。智能語義檢索通過語義層面判斷用戶檢索意圖,可以通過閾值的選定保證查全率,并可兼容圖書、情報、出版等其他領域語義本體系統,甚至可以和網絡資源進行鏈接,因此,智能語義檢索技術對檔案管理來說是一個全新的檢索手段。

一、高校數字檔案資源的來源和利用模式轉變

高校數字檔案資源的主要來源是長期實體檔案數字化的積累和不斷新增的電子文件歸檔,特別是電子文件數量十分龐大,因此電子文件歸檔將成為高校數字檔案資源體系未來主要來源渠道。存量檔案數字化和增量檔案電子化的實行,使得高校檔案利用的針對對象主要為數字形式的檔案資源,從而要求檔案部門對檔案檢索的方式作出新的判斷和改變。

服務網絡化是高校數字檔案資源利用的主要方向,而網絡化利用服務與傳統利用服務模式的最大區別是用戶的泛在化、多樣化和個性化。數字檔案資源建設是網絡化服務的前提和保障,網絡化服務是數字檔案資源管理的目標、趨勢和導向。高校數字檔案資源管理正步入從資源管理為中心轉向以用戶服務為中心的軌道上來,而用戶服務網絡化的特點要求檔案檢索技術走向智能化,語義本體技術在這樣的形勢下應運而生,并博得廣大檔案學科研究者的關注和重視。語義本體技術的本質就是建立領域知識框架,對數字檔案資源的信息進行提煉,形成語義概念和語義邏輯,進而實現基于知識的智能語義檢索??梢哉f,服務網絡化是高校數字檔案資源智能語義檢索技術的內在推動力,智能語義檢索技術是檔案領域現代信息技術發展的新亮點,是實現數字檔案資源信息檢索的知識化、關聯化和便捷化的重要技術保障,將變革傳統檔案利用服務的慣有模式,在檔案利用服務這一檔案管理的終極目標上具有極大的應用前景,也必將對信息技術背景下的檔案管理產生深遠的影響。

二、語義本體技術的概念分析

本體論屬于哲學范疇,是希臘哲學家根據自然關系性質界定而提出的物質存在本原思想,是關于抽象對象概念化的領域、集合關系的描述。簡言之,本體是關于知識的分類和概念屬性有層次性的描述,是共享概念模型明確的形式化的規范說明。本體通過對概念的描述、解釋和說明來揭示概念的內在屬性,可用于知識的檢索和共享復用,因此智能語義檢索技術與直接搜索元數據的形式完全不同,是根據詞匯、關系、規則等要素進行語義匹配檢索的方式。

語義本體是本體概念在自然語言處理、異構信息集成等信息技術領域的具體應用,對概念進行抽象化描述實現對概念的定義,構建概念間的關系,使智能語義檢索技術擁有語義關聯和知識共享的基礎。語義本體技術能夠很好地解決知識表達、知識存儲、知識檢索等基礎性問題,解決知識的結構性描述及識別、定位知識地址問題,不僅能夠明確詳盡地描述概念,構建概念間的關聯關系,而且使檔案智能檢索技術得以合理推理。因此,語義本體技術使檔案管理從信息存儲層面上升到知識管理層面,使數字檔案信息數據庫上升到數字檔案信息知識庫。語義本體包括概念的類、屬性、實例、關系類型以及函數、公理、規則等基本要素,其層次劃分可分為頂層本體、領域本體、任務本體和應用本體。借助語義本體技術,檔案知識管理成為可能,實現對檔案信息的組織、加工、提煉工作,形成基于語義本體的檔案知識體系。

基于語義本體的智能語義檢索技術其核心就是知識管理,根據本體之間的有機聯系,推斷數字檔案資源之間、數字檔案資源與其他領域信息資源之間的關聯關系,實現檔案信息的整理、分類和聚合,達成檔案檢索的智能化、標準化,從技術上消除信息孤島。智能語義檢索技術不僅能夠挖掘出概念體系中的顯性知識,同時也能夠根據推理規則挖掘出隱性知識,使隱性知識顯性化,更大程度上實現知識的關聯和共享。本體構建是實現檔案語義轉換的重要形式和關鍵所在,本體構建的完善與否決定了高校數字檔案資源的語義聚合程度,決定了能否與異地、異構、異質的其他信息資源實現概念理解和復用。

三、高校數字檔案資源的語義本體構建策略

高校數字檔案資源已建立一系列表述豐富的元數據集,這些元數據對檔案資源進行充分描述,容易借其進行資源整合。本體構建原則是尊重原有著錄標準和數據存儲方式,充分利用原有數字化建設的成果,建立知識概念和合理的檢索推理路徑,同時充分注意到高校數字檔案資源中知識概念、屬性信息動態變化特征,進行本體分類動態更新??紤]到檔案的信息保密要求,還必須設置瀏覽權限、只讀權限等檔案信息保護措施。

高校之間獨立建立元數據庫,導致元數據規范可能不一致,語義本體技術利用本體描述語言將元數據本體化、結構化、形式化,構建元數據間語義表達的有機聯系,能夠挖掘主題、人物、部門及事件的關聯關系。通過對元數據本體屬性進行描述、關聯和映射,可以構建縱向深遠、橫向錯綜的信息關聯網絡,實現數字檔案資源內及與其他高校、不同領域資源間的智能檢索。因此,元數據庫的語義本體化能夠規范資源描述,又能相互映射,經過推理實現隱性知識顯性化,同時能夠與不同類型數字信息資源互操作,達到共享知識信息的目的。高校數字檔案資源內部可以對人、事、物、機構、時間等類目建立關聯關系,對檔案本體概念進行語義分析,提煉各類目間的知識結構,從語義角度理解、判斷用戶需求,推送用戶感興趣的目標檔案。

本體構建方法目前主要為手工構建,時間和勞動力成本較高,并且干擾因素大,計算機輔助半自動構建或自動構建技術需要時間的沉淀和發展,需要進一步解決半自動或自動構建本體的質量。目前,常用的本體構建方法有IDEFS 法、骨架法和七步法等,需要根據實際情況進行選用。高校數字檔案資源本體構建采用RDF 資源描述框架格式,在XML 語法規范基礎上,通過對象、屬性、值三元組描述檔案概念之間的抽象關系,表示概念等級關系,定義概念屬性并創建實例,具有可擴展和可交換的特色。OWL 采用較多的本體網語言,用于定義各個類的相關屬性,通過屬性定義實現語義推理。本體構建工具非常多,Protege 是一種獨立于本體構建語言并可導入或導出多種本體構建語言的最常見的本體構建工具,可以添加pellet、fact、racer、Jess、Jena 等推理插件實現推理,不需要編寫具體本體語言代碼,通過添加對象屬性、數據屬性和實例,展示概念間的部分與整體、衍生、實例和概念、從屬等多種關系,通過關系的構建聚合各領域本體概念。Protege 作為開源本體構建工具,不僅支持中文,而且其插件graphviz 能夠用可視化的方式顯示本體,使查詢結果更為直觀。高校數字檔案資源可以通過自上而下法提取領域核心類,建立起本體框架結構及本體間的相互關系,實現本體編碼,并可利用基于邏輯或基于規則的推理工具或者SPARQL 語言實現隱性知識的本體推理。

四、高校數字檔案資源智能語義檢索策略

傳統的檢索技術主要以題名、作者、機構等表層信息進行數據檢索,也就是根據主題詞、關鍵詞對數字檔案資源進行檢索,檢索方式比較單一,不能檢索出概念間的聯系,需要根據檢索結果人工推理進行篩選,檢索的效率較低。而智能語義檢索技術對包含概念、屬性及實例的網狀結構進行檢索,通過設計推理規則,搜索以本體形式相互連接的知識點,形成知識聚類和分析,對數字檔案資源庫進行條目識別映射,推送本體框架結構的實例目標對象,從而提供全面、準確的知識檢索結果。因此,高校數字檔案資源語義檢索技術是基于知識管理角度的檢索技術,對語義進行描述和分析,檢索本體知識庫中概念間的關聯,從而解決自然語言的語義多義、同義、相似問題,理解自然語言信息,實現語義推理,結合其他領域本體知識,擴大檢索覆蓋面,可以檢索出更大范圍的本體庫中的類和實例。

數字檔案資源本體可以導入元數據中的條目信息,如題名、來源單位、責任人、發文時間等,需要在元數據信息基礎上進行語義化和知識關聯,與其他語義本體對應形成語義信息網絡。元數據在語義本體檢索技術中起關鍵作用,是描述數據并使各種類型數據具有本體結構的相關數據,對于數字檔案資源中二維表單形式的結構化數據,不完全結構化的半結構化數據和各種載體、格式和內容的非結構化數據均可進行屬性描述。元數據需要借助RDF、OWL 等本體描述語言以三元組方式本體化,確定本體所屬領域,查詢可用來復用的本體,獲取本體元數據標準及詞表,定義類目關系和類目屬性,并創建本體實例,實現元數據本體關聯層次化。智能檢索時用戶輸入的關鍵詞將與本體庫中的本體類、屬性與本體實例等關鍵信息進行匹配,提取本體實例獲得智能查詢結果。智能檢索技術通過設置閾值擴展語義檢索范圍,如果保證查準率,則閾值為1,如果保證查全率,則閾值大于3,閾值的擴大可以增大關聯語義范圍,從而獲得新的關鍵詞集合,以此,關鍵詞集合再次匹配、檢索本題庫,可獲得基于知識點集合更大范圍的關聯檢索結果[2]42。

高校數字檔案資源本體既可與其他資源本體關聯,又可與網絡上的開放資源進行連接,形成范圍廣泛的關聯數據網絡。RDF 框架中的三元組方式是構建關聯數據集的基礎,通過添加語義邏輯關系、歸納推理、數據挖掘與網絡互通互連,聚合相關概念,獲取語義邏輯的隱性知識,產生領域外的本體知識,發現潛在資源的網絡地址。因此,智能檢索技術可以最大范圍和程度上搜索到所有相關數據,打通高校數字檔案資源與網絡公開資源之間連接的通道。

智能檢索技術如果對本體庫進行全文讀取,則反應時間過長、效率較低,因此,也可以根據本體規模情況采用關系型數據庫儲存本體數據,將本體類目、對象屬性、數據屬性、類間關系、實例、實例間關系以數據庫形式儲存,實現高效查詢本體信息。用戶通過檢索入口提交檢索詞,則檢索詞將與本體概念匹配,根據語義相似度將相關閾值的概念加入到檢索式,形成相似度權重的檢索詞集合,找到符合條件的實例。其中,語義相似度的計算方法主要基于語義距離、語義重合度,語義距離為0 時,語義相似度為1,語義距離越小,語義相似度越大;語義距離越大,語義相似度越小;語義距離為無窮大,語義相似度為1,語義相似度決定了智能語義檢索技術的檢索能力和檢索質量。

五、高校數字檔案資源本體復用策略

高校數字檔案資源本體庫構建需要確立分類樹,導入元數據進行標注,形成本體概念,建立語義索引庫。高校內尚未建立現成的概念完善的復用本體,因此可以引用國家頒布的相關規定所含詞表作為敘詞,如《中國檔案分類法》《中國檔案主題詞表》《公文主題詞表》《綜合電子政務主題詞表》等[3]45-46。其中,《中國檔案分類法》采用上下總分結構,非常類似語義本體結構,可以作為高校數字檔案資源的本體框架結構?!吨袊鴻n案主題詞表》《公文主題詞表》《綜合電子政務主題詞表》等收錄檔案管理的規范術語,并且收錄非正式主題詞即擴充詞表作為參照項,非正式主題詞在概念上等同正式主題詞,可用于本體類目詞匯對應和擴充。這些國家頒布的相關規定是高校數字檔案資源可以復用的符合本體構建的規范本體,可以借其確定概念互不相交的核心類,確定由上而下逐步細化繼承父類的子類,子類共用父類的通用屬性,父類涵蓋子類所屬的屬性。我們可以使用Protege 軟件的Entities 菜單欄,選取核心概念構建高校檔案資源本體,對各種概念進行分類,并標注包含關系、等同關系等體現類屬結構關系的層級。在建立新概念后,根據上述規定創建本體分類樹和本體概念關系,不同本體框架的分類類目可以融合,本體分類樹狀結構可以形成網狀結構,產生高校數字檔案資源語義信息,并將標注信息存儲在本體知識庫,或嵌入式標注數字檔案資源。

高校數字檔案資源通過Protege 構建的頂級類目可包括檔號、題名、主題詞、人物、責任機構、資源格式、日期等關鍵信息,其中,用戶如果查詢檔號、題名,因檔號、題名具有唯一性,則為精準查詢,如果查詢主題詞或者其他類目,則可實現語義智能查詢,提供語義推理基礎,定位檔案記錄所在位置。資源格式主要指文本、圖片、音頻、視頻等,以此顯示本體實例的格式。本體類的屬性具體分為對象屬性和數值屬性,對象屬性描述主題詞、創建者、關系類型、格式、文種等,數據屬性包括字符型、整型、時間型等數值格式,推理規則包括繼承、對稱、整體與部分、函數關系等通用規則或者自定義規則。因此,選擇具體的類并添加本體特征對象屬性、參數特性數據屬性及特定實例,則類屬性和實例形成對應關系,對象屬性之間也有關聯。通過Protege 軟件的插件graphviz 選擇列表中的本體圖,通過ontograph 顯示顯性關系的本體關聯,用不同顏色的連接線表明本體之間不同的關聯關系,另外,通過Jess、Jena等各種推理引擎實現隱性關系推理,或者通過嵌入的SPARQL 菜單智能訪問RDF 框架。

六、智能語義檢索技術的用戶交互策略

智能檢索技術可以通過可視化服務平臺與用戶交互,用戶既可查詢和瀏覽相關檔案,又可通過智能問答形式擴展語義滿足檢索需求。智能檢索技術可以通過檔案本體的主題分類和語義標注,針對性地對語義字段進行分類,約束檢索范圍,提供精確檢索結果,也可以選取上下層級或者語義相似度高的概念一并推送給用戶。智能檢索技術不僅可以讓用戶了解知識脈絡和邏輯路徑,并在條件成熟后,逐步設計主題、任務或者機構等專題。用戶智能問答交互模式可以利用本體框架結構,通過雙向反饋更好地理解自然語言,了解用戶檢索的潛在目的。智能檢索技術還可以通過分析用戶瀏覽日志,歸納用戶檢索的興趣點,提供個性化利用服務。

高校數字檔案資源語義檢索技術是一項融合現代信息技術和檔案管理科學的系統性技術,它的實現、推廣和使用需要多部門、多專業的密切配合,需要建立起技術開發和利用的組織保障和綜合協調機制,需要結合檔案部門的人力和財力情況漸進式加以推進[4]63?;谡Z義本體的智能檢索技術不僅適用于高校數字檔案資源領域,還適用于圖書、情報、出版、電子政務、網絡信息管理等多個領域,因此智能檢索技術完全可以與其他領域本體從詞形到詞義實現互操作,本體概念所具有的規范性、系統性、靈活性和可擴展性將實現更大范圍的跨平臺知識共享。

猜你喜歡
語義概念智能
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
學習集合概念『四步走』
聚焦集合的概念及應用
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 国产在线高清一级毛片| 国产精品黑色丝袜的老师| 一本久道热中字伊人| 亚洲欧美在线综合图区| av一区二区无码在线| 色综合激情网| 天堂va亚洲va欧美va国产| av天堂最新版在线| 国产网友愉拍精品视频| 欧美中出一区二区| h视频在线观看网站| 精品三级网站| 欧美精品二区| 日本成人不卡视频| 天堂久久久久久中文字幕| 在线播放精品一区二区啪视频| 精品无码专区亚洲| 福利视频99| 久久久四虎成人永久免费网站| 日韩欧美国产综合| 国产成人高清精品免费| 色有码无码视频| 国模极品一区二区三区| 国产爽妇精品| 88国产经典欧美一区二区三区| 岛国精品一区免费视频在线观看| 欧美亚洲香蕉| 亚洲天堂精品在线| 茄子视频毛片免费观看| 在线综合亚洲欧美网站| 黄色一级视频欧美| 91精品国产综合久久香蕉922| 亚洲日本一本dvd高清| 中文字幕中文字字幕码一二区| 日韩一区精品视频一区二区| 国产精品露脸视频| 丁香五月亚洲综合在线| 欧美不卡视频在线| AV天堂资源福利在线观看| 午夜视频在线观看区二区| 97一区二区在线播放| 美女免费精品高清毛片在线视| 国产对白刺激真实精品91| 日本黄色a视频| 国产理论一区| 成人午夜亚洲影视在线观看| 免费国产高清精品一区在线| 国模私拍一区二区三区| 久久久久无码精品| 人妻丰满熟妇啪啪| 婷婷六月综合网| 一级毛片在线播放| 亚洲第一在线播放| 谁有在线观看日韩亚洲最新视频| 国产毛片片精品天天看视频| 中国国产一级毛片| 九月婷婷亚洲综合在线| 91香蕉国产亚洲一二三区 | 国产另类视频| 在线亚洲小视频| 99精品热视频这里只有精品7| 91人妻日韩人妻无码专区精品| 国产女人18毛片水真多1| 国产麻豆91网在线看| 真实国产乱子伦高清| 亚洲天堂视频网站| 蜜桃视频一区二区三区| 亚欧成人无码AV在线播放| 亚洲无线一二三四区男男| 亚洲精品视频免费观看| 手机在线免费不卡一区二| 亚洲国产AV无码综合原创| 无码区日韩专区免费系列| 亚洲毛片网站| 亚洲国产AV无码综合原创| 日本久久网站| 一区二区三区四区日韩| 狠狠v日韩v欧美v| 欧美日本二区| 亚洲首页在线观看| 午夜视频在线观看区二区| 一级毛片免费不卡在线视频|