999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

檔案文獻的本體構建與知識推理

2024-01-22 10:01:52譚碧云王秀梅
太原城市職業技術學院學報 2023年11期
關鍵詞:定義概念

■譚碧云,王秀梅

(1.惠州市排水管理中心,廣東 惠州 516000;2.廣東藥科大學,廣東 廣州 510006)

數字檔案項目已在臺灣國家自然科學博物館(NMNS)建立。該項目旨在設計各種自然科學領域,如動物學、植物學、地質學和人類學。盡管可以使用查詢或通過元數據模式或超鏈接手動表示內容,但這項研究認為,數字檔案是提供“知識”的一個有前途的模型。當前NMNS 的可用性只關注于提供明確的靜態信息。因此,當前的系統不足以支持高級知識工程,例如,知識推理過程。

一、研究的目的

數字博物館應用信息技術建立在線服務,用戶無需親自到場即可訪問。我們還要考慮當前信息系統面臨的一些挑戰,以使公眾能夠重復使用和共享知識。本體是一種用于知識管理的方法,用于創建定義良好的知識庫。本體需要以系統的、細粒度的方式構建,因為現實世界的認知和本體的概念結構之間存在很大的差距,需要發展構建。因此,本研究具有以下目標:設計一種有效識別本體概念結構的方法以及設計使用基于邏輯的語言輔助知識推理的方法。為了實現這些目標,本研究檢查了現有的提取方法,調查了相應的工具,并進行了必要的修改。本研究采用形式概念分析(FCA)來識別概念并確定其層次關系,簡化描述在本體中的應用。此外,開發人員不需要太多的設計時間或數學技能應用DL模型。

二、本體的概念

為了建立本體概念框架并發現概念之間的層次結構,本研究采用形式概念分析(FCA)方法。FCA 最初是一種基于詞匯和層次問題的數據分析方法,將元素分類為形式對象和形式屬性。正式對象和屬性的集合,以及它們之間的關系,形成了一個“正式上下文”。當對象和屬性中的關系不能增加時,這對關系是封閉的,并進一步稱為“形式概念”。概念格包括形式上下文的概念集合和概念之間的層次關系。

折線圖直觀地表示FCA 形式上下文。圖1 中的線圖由節點、線和所有對象的標簽(在節點下方表示)以及給定上下文的屬性(在節點上方表示)組成。折線圖描述了形式概念之間的依賴關系。形式概念可以定義為{(對象集),(屬性集)}。例如,形式概念{(G),(Herb)}被附加到{(天南星科),(草本,種子,喬木)}和{(槭樹科),(草本,蕨類)}節點之上的節點。在其超級節點之下的每個節點都表示一個“超級- 子”關系,即“is-a”層次概念集群。因此,FCA是一種確定概念之間穩定依賴關系的有用技術。

圖1 FCA 分析的維管植物的一個例子

三、本體的構建

文獻的本體構建早已被用來表達人類對信息的共同理解。Gruber 將本體定義為“概念化的規范”。概念化是一種抽象的、簡化的世界視圖。也就是說,文獻的本體構建是對概念、屬性和關系的正式描述,這些概念、屬性與關系涉及建立對現實世界事件認知的共同理解。知識庫社區通過定義一組術語、話語和公理,采用文獻的本體構建方法。因此,本體對于定義用于表示共享知識的通用詞匯表是有價值的。廣泛的共識是,采用基于文獻的本體構建的系統的開發人員必須專注于特定的領域問題,并提供對單個概念的共同理解。然而,從現實世界中獲得認知,從而設計本體概念方面存在挑戰。

XML 技術最近被引入各種應用領域的數據交換和系統開發中。本體研究使用XML 為本體開發語言構建和模式庫。此外,已經開發了許多基于XML 的本體編輯工具。兩種本體語言DAML+OIL 和OWL 描述如下。

DARPA 代理標記語言(DAML)。自2000 年以來,DAML(DARPA 代理標記語言)被開發為XML 和RDF的擴展。最近發布的DAML 加本體交換語言(OIL)為構建本體和標記信息提供了一組豐富的構造,使其機器可讀和可理解。

本體Web 語言(OWL)。OWL 是W3C 開發的最新的基于XML 的本體語言。OWL 繼承了DAML+OIL 的大部分特性,現在已成為正式標準。根據OWL 規范,該標準有三種表達能力越來越強的子語言,適用于不同級別的可用性:OWL Lite 設計用于分類層次結構和直接的約束特征;OWL-DL支持在保持計算完整性和可判定性的同時希望獲得最大表現力的用戶;OWL-Full 對于具有最大表現力但沒有計算保證的推理系統具有有用的計算財產。

四、知識推理

知識推理是根據已有的知識的過程,通過已有的知識三元組構建實體之間的關聯,對傳遞關系、對立關系等諸多有價值的實體關系進行推理,是檔案文獻本體的核心應用之一,也是檔案文獻本體構建的價值之一。

知識推理表示特定格式的信息系統的專業知識。描述邏輯(DL)是一個可描述的片段,由類、財產和表示屬性或類關系的邏輯符號組成。DL 已被包括OIL 和OWL在內的各種本體開發方法廣泛用作表示格式。為了提高推理能力,本研究使用OWL-DL 作為知識推理。描述邏輯推理器可以計算所有命名概念的包容層次結構。概念被分類為已定義或原始類。默認情況下,每個描述都是原始的,即至少有一組必要的條件。相反,如果類具有描述和充分條件,則定義該類。基元類和已定義類之間的區別在于,已定義類可以同樣雙向。在表達式C≡D 中,如果一個實例是概念D 的成員,那么它必須滿足概念C的成員。基元類中的實例不是同樣雙向的。以下DL 模型旨在幫助開發人員定義正確的邏輯表達式。

為了定義概念的詳細語義,DL 為精確描述應用了屬性限制,例如,量詞、基數和賦值。

在定義檔案文獻的本體構建概念時,上述模型有助于解決大多數情況。然而,一些例外情況,如不相交和不相關,需要進一步的支持補充。不相關的概念是不屬于彼此的概念,因此彼此沖突。賦予相關概念或個體雙向關系。例如,如果ChasValueD表示DL表達式,其中C 和D表示兩個類,則DL表達式需要由DisValueC給出。

五、示例

為保護和傳播中國檔案文獻,中國于1995 年成立了“世界記憶工程中國國家委員會”,并于2000 年創建了“中國檔案文獻記憶工程”項目。以國家檔案局形成《中國檔案文獻名錄》為依托,迄今共142(組)檔案文獻,并于2022 年3 月1 日開展第五批“中國檔案文獻”申報工作。中國檔案文獻具有記錄、證據、信息的工具價值,實施檔案文獻影響力提升工程,為中國國際傳播能力建設助力,為“構筑世界記憶”拓展深層次內涵價值。故本研究以此為實踐案例。

(一)數據獲取與預處理

1.資料搜集。與檔案相關的報刊和官方檔案網站,都有大量權威可靠的檔案文獻傳承知識,是很好的資料來源。為構建《中國檔案文獻名錄》本體模型,用于對名錄中的文獻的相關實體進行提取,主要從兩個源頭進行數據采集:一是利用八爪魚工具,對中國、中國檔案全國檔案網站、省、市檔案文獻遺產事跡記述文字資料進行采集;二是利用OCR 技術,采集世界記憶中國官方網站圖片資料,獲取中國檔案文獻文本資料。選取“式樣雷圖檔”文獻遺存為典型案例,建構“清代式樣雷圖檔”這一體例。收集CNKI“風格雷圖檔”高相關期刊論文,檢索有效論文76 篇,不包括建筑工程等類別。資料收集時間為2021 年10 月15 日,獲取檔案文獻文本凈資料1 份。

2.資料儲存。最終獲得檔案文獻文本資料《中國檔案文獻名錄》142 篇,檔案文獻事跡記述文本64 篇,相關期刊論文39 篇。《中國檔案文獻名錄》資料包括輯次、名稱、形成年代、數量、保存者、地址、郵編、申報人、文獻內容、解說詞等9 個字段,以CSV 格式存放。檔案文獻事跡記述文本內容主要包括,以機器學習可讀取的UTF-8 編碼TXT 形式存儲的形成的時間、地點、人物、事件以及社會自然環境等內容。此外,挖掘提取的資料也要補正,主要人物的職務、機構、事件、職務、著述等信息,尤其要注意補充。

3.資料預處理。所收集的資料異構資料分析易受雜音影響,故資料清洗、去停用詞、中文分詞等預處理步驟應包含在資料分析前:(1)資料清洗:對初始資料資料清洗,刪除與檔案文獻傳承無關的詞組或語句。(2)去停用詞:以停用詞庫集合表36 為基礎,降維文本集的特點向量。(3)中文分詞:常用詞典由于檔案文獻域內詞語的特殊性,對所需的專業名詞難以識別,需要對域內詞典進行重構。從已收集處理的資料中篩選出“檔案文獻名錄”中的文獻內容和評介文本資料共142 項,再通過ROSTCM社會化網絡分析軟件篩選高頻詞、增補近似詞等方法,整理成《檔案文獻領域辭典》。

經過對上述資料的清理、遣詞斷句、漢語分詞等預處理操作,最終形成檔案文獻的完整語料庫。數據的實體提取和基于語料庫的本體構建。

(二)檔案文獻本體構建

1.分析核心概念對象

以“檔案文獻名錄”的概念對象及其相互關系,按照領域本體對抽取的核心實體進行分類、劃分等級。而特定日期、物品種類、事件等類別則受限于命名實體辨識、關鍵詞提取等技術,主要依賴于手工抽取。按頻次降序排列地理位置、責任者、民族、時期、語言等。增加和補充檔案文獻領域的核心概念對象是一個不斷豐富和擴展的過程,在此后的工作中,作者將繼續收集檔案文獻資料,完善補充檔案文獻中的概念名詞的類別和描述,并對我國檔案文獻名錄項目內容的本體概念圖,在相關文獻專家的指導下進行整理。

2.構建應用本體

利用Protege 5.5.0 本體開發工具,在分析中國檔案文獻名錄中檔案文獻的核心概念間的基礎上,構建各概念的層級結構和關聯關系,從而完成檔案文獻本體的構建過程。某一中國檔案文獻項目的創建實例,是根據本體定義的核心類和對象和數據屬性等框架,精選而成的檔案文獻概念本體網絡(見圖2)。

圖2 檔案文獻本體模型部分內容

《清代式樣雷圖檔》是清代雷氏家族參與設計繪制的故宮、頤和園、清東陵、清西陵等工程的圖樣和文字檔案資料的建筑歷史資料。《中國檔案文獻名錄本體模型展示與說明》選擇《清代式樣雷圖檔》作為研究案例。本體構建“清代風格雷圖檔”語義組織概念模型,鏈接案例實體與本體之間的關系,實現對“清代風格雷圖檔”項目中實體、語義的內在邏輯結構及其實體以實體、屬性、關系等三元組的形式進行描述。在已建立的類目下增加相應的例題,共有198 個屬性。

《清代樣式雷圖檔》應用本體概念圖的形象化,圖譜中的結點是遺存本體的概念,結點間的有向線段是實體間的語義關系。該家八代、樣式該圖檔相關人物共同構成有向的社會網絡圖,群體之間形成縱橫交錯的關系網絡,具體表現為師徒、父子、配偶等諸多關系,以及參與保護、任職等由保護文獻形成的關系。就具體事例而言,本體可檢索到的文獻項目名稱為《清代樣式雷圖檔》,有雷發達、雷金玉、雷聲徵等均為該遺產的主要人物姓名,而雷家璽正是秘密將圖檔運回家中并加以保存的父親雷景修,因此保存了大量式樣該圖檔。

(三)知識推理

本體推理的主要應用:對于本體的建立者,推理的主要應用是對建立的本體進行一致性檢驗。對于本體的使用者,推理的主要應用是獲得本體中的知識和運用本體中的知識解決問題。

1.傳遞關系

對于關系R 和任意實體X、Y、Z,如果存在三元組(X、R、Y)和(Y、R、Z),并由此推理得到(X、R、Z),則關系傳遞關系。檔案文獻本體建設中,檔案文獻項目“包含”責任者條目,同時責任者條目“包含”主要人物,且通過經驗可以判斷,檔案文獻中應當“包含”主要人物(見圖4),那么“包含”關系為傳遞關系。在對檔案文獻遺產本體實例化時,僅構建了檔案文獻項目與責任者條目、責任者條目與主要人物間的關聯,通過人為方式篩選其包含的主要人物并添加其關系較為耗費人力,且容易遺漏,因此可以由檔案文獻本體推理進行完善。

圖4 傳遞關系包含知識推理

在進行知識推理之前,只能通過作為中間節點的詞條進行檢索,且重復結果較多,查詢效率較低,所以通過語義web 規則語言(swrl),定義推理規則sso:consistof(?X、?y_^so:consistof(?Y、?Z)->SSO:Consistof(?X、?z,進行知識知識推理后再次檢索,本體實例關系的完善、語義表達與知識檢索能力的加強等,都是通過知識推理追根溯源、不斷發現新的隱含關系、構建更為完善的檔案文獻知識體系、助力檔案文獻傳承與保護的有效途徑。

2.對稱關系

對關系R 和任意實體X、Y,如果存在三元組(X、R、Y),并由此推理出(Y、R、X),則關系對稱關系。檔案文獻中常有多種字的異形之間是對稱關系,即A 的異形為B,則B 的異形為A。但現有的例題關系和錄入方式難以做到全面的知識關聯,所以凡是相關的異形,如果通過某一刊物或典籍檢索到主語為錄入的,都可以通過它查到;反過來說,檢索到的是“異形”的其他的異形就很難找到了。但該例中能全面檢索到的概率只有1/12,知識檢索的查全率較低,完善檔案文獻本體急需知識推理。通過SWRL 定義推理規則"SSO:SAMEWord (?X、?y)->sso:SameWord(?Y,是嗎?x,實現關系推理的“異形”。推理而來,方向相反,實現了對稱關系推理,完善了檔案文獻本體,提高了其知識檢索時的查全率。

3.互反關系

對于關系R1、R2 與任意實體X、Y,如果存在(X、R1、Y),并由此推理得到(Y、R2、X),反之,則關系R1 與R2 是相互對立的關系相似,但更為普遍,大多數關系反向關系,通過對互反關系的定義、推理,有效提高了檔案文獻本體語義檢索的查全率和查準率,同時也提高了檔案文獻本體語義檢索。

六、結束語

傳統方法可能只提供系統集成,而不是在知識層中推斷其內容。也就是說,知識共享不僅涉及系統連接,還涉及知識推理機制的參與。可以得出以下與開發技術相關的經驗結論。第一,形式概念分析(FCA)可以作為一種知識獲取方法,從專業知識中獲取概念和屬性。第二,OWL-DL 可以用作知識推理語言,提供形式化邏輯表達式來描述知識概念。因此,本研究表明文獻的本體構建技術具有良好的知識構建潛力,應開展未來研究,以構建相關文獻的本體構建,并與其他文獻的本體構建知識庫進一步合作。

猜你喜歡
定義概念
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
永遠不要用“起點”定義自己
海峽姐妹(2020年9期)2021-01-04 01:35:44
定義“風格”
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
學習集合概念『四步走』
聚焦集合的概念及應用
論間接正犯概念之消解
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
概念的限制
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
主站蜘蛛池模板: 免费女人18毛片a级毛片视频| 日韩亚洲综合在线| 国产精品永久免费嫩草研究院| 99这里只有精品在线| 国产亚洲欧美在线中文bt天堂| 91精品国产一区自在线拍| 精品伊人久久久香线蕉| 91在线激情在线观看| 东京热一区二区三区无码视频| 国产精品久久久久久久久| 91精品啪在线观看国产60岁 | 国产在线无码一区二区三区| 亚洲国产成人精品青青草原| 亚洲浓毛av| 国产亚洲视频在线观看| 亚洲精品人成网线在线| 日本一本正道综合久久dvd | 国产成人一区免费观看| 中文字幕永久在线看| 福利视频久久| 国产人妖视频一区在线观看| 毛片网站在线看| 国产欧美日韩综合在线第一| 日韩毛片免费| 国产亚洲精品va在线| 一本无码在线观看| 99免费视频观看| 日韩成人在线网站| 亚洲看片网| 亚洲精品成人福利在线电影| 亚洲欧洲国产成人综合不卡| 99精品福利视频| aa级毛片毛片免费观看久| 亚洲日韩AV无码一区二区三区人| 亚洲美女一区| 精品亚洲麻豆1区2区3区| 丰满的熟女一区二区三区l| 精品人妻AV区| 小13箩利洗澡无码视频免费网站| 国产免费人成视频网| 性激烈欧美三级在线播放| 午夜精品区| lhav亚洲精品| 99久视频| 欧美精品v日韩精品v国产精品| 免费人成网站在线高清| 欧美亚洲香蕉| 18禁黄无遮挡免费动漫网站| 成人午夜久久| 国产欧美日韩另类精彩视频| 综合色区亚洲熟妇在线| 玖玖精品在线| 亚洲一区毛片| 亚洲成人播放| 国产产在线精品亚洲aavv| vvvv98国产成人综合青青| 中文字幕中文字字幕码一二区| 免费日韩在线视频| 国产网站免费观看| 欧美亚洲第一页| 五月天久久婷婷| av大片在线无码免费| 国产成人无码久久久久毛片| 精品国产中文一级毛片在线看| 91精品国产自产91精品资源| 国产理论一区| 999福利激情视频| 中文字幕日韩丝袜一区| 成人午夜网址| 中文字幕在线看| 欧美激情视频二区| 亚洲福利一区二区三区| 成人看片欧美一区二区| 福利在线一区| 久久中文字幕2021精品| 伊人成人在线视频| 在线观看网站国产| 国产人成午夜免费看| 青青草原偷拍视频| 国产亚洲欧美日韩在线一区| 久草中文网| 久草性视频|