999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

談專業領域知識圖譜建設實踐

2018-09-18 10:03:12余敬春
出版參考 2018年4期

余敬春

摘 要:在原國家新聞出版廣電總局“專業數字內容資源知識服務模式試點”工作倡導下,專業出版社基于自有優質資源,開展知識庫建設為行業提供基于知識圖譜的服務,是傳統出版向知識服務轉型的必由之路。本文總結國防工業出版社“雷達與探測知識圖譜”項目實施經驗,介紹了出版行業專業領域知識圖譜建設研究;探索了從資源遴選、結構化加工、本體模型構建、知識元提取、關聯關系構建的知識圖譜建設全過程;探討了知識圖譜的評價與審核方法。

關鍵詞:知識元 知識圖譜 知識服務 知識本體

目前,知識圖譜的建設已成為國內外出版社的必要工作。Springer Nature推出了SciGraph(科研圖譜)服務,把自有和來自合作伙伴的資源,如期刊、論文、圖書、專利,以及機構、作者等關聯。Elsevier開發的知識圖譜,把資源和軟件工具關聯,形成知識管理系統。電子工業出版社的數字產品“E知元”和人民法院出版社的“法信”數字網絡服務平臺,也創新性地利用了知識圖譜技術。

一、知識圖譜的內涵

專業出版社積累了豐富的內容資源,其涵蓋范圍較廣,且大多是非結構化的不斷更新的數據。知識圖譜是知識間關系的最有效表示形式,通過提取知識元,建立知識元之間的關聯關系,從內容資源中提煉知識元實體信息,從而打通資源內在脈絡,支持內容的計算、重組、聚合、再創造形成新的知識對象,達到優化知識檢索、共享和傳承的目的。專業出版社通過構建行業知識圖譜,可探索實現以“知識圖譜+知識化內容資源”為主體的新型知識服務模式。

知識圖譜在工業領域剛剛起步,很難找到現成的知識圖譜為出版社所用,且建設耗時長,出版社需綜合分析內容資源、智力儲備和行業應用,選擇最優質資源、最豐富內容、最迫切需要的細分專業領域,采用“逐點構建、連點成面”的方式,完成專業領域知識圖譜建設。

為了使知識圖譜能服務實際應用,出版社建設的知識圖譜需滿足三項原則:①面向應用。以實際應用為出發點,進行資源遴選、本體模型設計,以及技術和規范的制定等。②與內容資源結合。確保知識圖譜通過標引能與內容資源緊密結合。③尊重著作權人學術觀點。專業領域存在學術分歧,知識圖譜的構建不在學術觀點上厚此薄彼,盡量全面反映學術研究現狀。

二、知識圖譜建設研究

知識圖譜建設的技術路徑是構建本體模型,對本體進行實體擴充。其建設主要任務是知識元的提取與關聯關系的構建,實施流程包括資源遴選、結構化加工、本體模型構建、知識元提取、關聯關系構建等5個環節,如圖1所示。

圖1 知識圖譜建設流程

1.資源遴選。知識圖譜基于資源建設,只有優質的資源才能保證知識圖譜的質量。出版社需組織領域專家或有豐富經驗的編輯,通過分析資源的經典和時效性,以及對領域知識覆蓋的廣度和深度,從海量資源中挑選出與選定領域最相關的資源;同時,根據專業深度和應用目的,對這些資源進行分類,確定核心資源、輔助資源。例如,國防工業出版社“雷達與探測知識圖譜”項目,遴選100多種近幾年出版的重點圖書或叢書,涉及原理、技術、系統、設備等。其中核心資源40余種,即成熟的教材、手冊和工具書,對知識圖譜的貢獻度超過70%;科技專著則在專業縱深方向進行補充,屬于輔助資源。

2.結構化加工。結構化加工的任務是:統一資源格式;標識內容中的標題、段落、圖片和表格等(因為出現在不同位置的關鍵詞,在知識圖譜中的重要程度有明顯的區別);規范元數據結構。內容資源經過結構化加工形成符合標準的XML文件和Epub文件。

3.本體模型構建。本體是知識元和知識元關聯關系的集合,本體模型需構建一個完整、簡潔、規范、結構清晰的描述規則或框架,清楚地描述知識元及其關系的類型、層級和結構,定義元數據即知識元實體信息描述規則。例如,“雷達與探測知識圖譜”本體模型提取知識元類型10余類,包括:設備、方法、技術、產品、原理等;知識元元數據30余項,如圖2所示;知識元關聯關系20余種,如圖3所示。

4.知識元提取。知識元提取是通過人工或程序輔助方法將資源中的專業知識提煉出來并完善元數據,實現本體模型到知識圖譜建設的過程。目前,計算機技術的自動提取功能,對于語料匱乏的小領域而言,其提取效率還達不到使用需要,人工提取知識元是更加實用、可行的方式。知識元的提取包括:內容閱讀、知識元提取、元數據編輯、知識元修正等4個環節,如圖4所示。

(1)內容閱讀:分為通讀和精讀。通讀時了解圖書的內容和編寫風格,關注圖書的結構和可提取的知識元,知識元描述信息從何處摘取等。精讀時需分析圖書中主要論述、附加描述以及涉及的各層級知識點。專業圖書內容組織的特點一般是以章/節為一個相對獨立的知識范圍進行編寫,所以,精讀一般以章/節為基本單元進行。

(2)知識元提取:知識元的提取就是找到書中的知識點和相關描述,大部分在內容精讀時可完成。科技圖書通常表述比較嚴謹、規范,可以通過總結知識的表述形式來提高提取的速度和質量,常見的表達形式包括:定義型、引用型和舉例型。例如:

定義型:

引用型:

舉例型:

知識元提取應把握以下原則:是領域專業詞匯、術語;是圖書主要講述或涉及的知識點;以名詞或名詞短語為主,避免使用動詞,一般不用形容詞或副詞;提取的詞出現頻率較高;概念明確,敘述簡練。如果提交時系統提示已經存在相同的詞條,需仔細查看已有詞條的詳細信息,判斷是否為相同概念。如果概念相同則放棄提交;如果概念不同則強制提交(此情況一般為“一詞多義”)。

(3)元數據編輯:需要編輯的元數據項包括分類、詳細描述、詞條出處、詞條位置等。“詳細描述”字段即知識條目是對知識元定義性或描述性的內容,包括純文本、圖表或公式等。這些信息通常出現在提取位置附近,也有的需要從不同的位置分別提取、編輯、整合。其內容要求在任何語境中閱讀時,均有完整的意義,不能帶有“綜上所述”“見××頁”等承接前后文的文字。出現此類情況,需要加工人員對內容進行摘取、調整和補充。

(4)知識元修正:由于不同圖書或加工人員對相似概念理解不一致,需對提取的知識元進行橫向比較并修正。主要問題包括提取粒度、知識元名稱和元數據的一致性。提取粒度的一致性是指同級概念下提取的子概念的細化粒度應一致。知識元名稱的一致性主要考查詞組或短語的一致性,例如,與“雷達功率”同級別或并列的概念“雷達波段”“雷達天線”也要用詞組描述,不能僅用“波段”和“天線”。元數據的一致性是指同級或并列知識元的元數據的“詳細描述”等需要二次編輯的項目應保持質量與程度一致。除了一致性問題,還需要考慮的是同義詞的合并以及一詞多義的判斷。通過對比,確定概念是否相同,如果相同或相似則進行合并;如果不同則需修改元數據以做區分,使其差異盡可能清晰。

5.關聯關系構建。通常,在知識元提取過程中建立與鄰近資源相關知識元間的關聯關系之后,還需設置專門的建立關聯關系的環節,使更廣泛的資源間建立關聯。這個環節需系統整理、規范和挖掘廣泛資源中知識元間的關聯關系,同時形成對關聯關系的數量及分布是否合理的評價指標。

(1)關系空間:關系空間包括關系的名稱及元數據屬性。關系空間在確定時應規范、統一。通常敘詞表中有五類標準的關系名稱,即用、代、屬、分、參。在這五類關系之上,還需增加“擴展關系”和“自定義關系”。擴展關系是根據應用需要,在基本關系的基礎上分解或細化出的關系名稱,這些關系名稱能夠更加清晰、準確地表現兩個知識元之間的關系。在工程技術中,常用的擴展關系包括:“相關原理”“由……部件組成”“有……方法”“被替代”等。當增加了擴展關系,還存在沒有合適的名稱來描述的關系時,則允許加工人員自行命名新的關系名稱,經過整理和規范,符合條件時納入“擴展關系”。

(2)關系的判斷:兩個知識元之間的關系通過閱讀圖書內容、分析層次結構完成,找不到具體語境則依據加工人員專業知識或查找輔助資料來判斷。例如:從上下級標題中分別提取的知識元,一般以屬分關系為主,其次是相關關系以及其他關系;一般情況下,“×××又叫(也叫/又稱)×××”這種句型的句子中知識元之間大多是用代關系。有些知識元之間的關系并不明顯,不能簡單地從標題層級、句型結構上分析出來,這時需要依據內容判斷,尤其是擴展關系和自定義關系,需要認真理解知識元的含義及其邏輯關系,找到最適合的關系名稱。

三、知識圖譜的評價與審核

在知識圖譜建設過程中,可通過量化度量的評價圖譜,及時了解實施的進度和質量,示例如圖5所示(圖中每一個黑點為一個知識元,中間的連線為關聯關系),其中包括核心集合、知識簇和孤立詞。中心是核心集合,由具有關聯關系的知識元構成;外層是知識簇,由若干有關聯關系的知識元構成,對外沒有關聯關系;最外層是孤立詞,與其他知識元沒有關聯關系。同時,引入了知識元/關系比和全局關系比兩個概念來評價知識圖譜的質量,知識元/關系比是一個知識元的關聯關系的值,反映知識元的重要程度;全局關系比是全部關聯關系與知識元個數的比,反映關聯關系建設的合理性。一個健康的知識圖譜應該只有少量孤立詞、較少的知識簇和龐大的核心集合;知識元/關系比通常最大不宜超過50;全局關系比一般應大于2。

知識圖譜構建階段性工作完成后,必須由領域專家依據相關規范,對知識元及元數據、關聯關系及元數據進行審核,包括其科學性、專業性、準確性和規范性等。審核發現的常見問題包括:知識元名稱不規范,或內涵較大,需要修正或拆分;知識元間關聯關系漏建等,需進行補充。

綜上所述,知識圖譜以可視化圖譜的形式建立非結構化資源的內在聯系,使傳統出版社基于圖書資源提供知識服務得以實現。專業領域知識圖譜建設對出版行業而言,是一項新技術,也是一個新挑戰;同時,它又是一個需要逐步更新、進化的大工程,是無法回避、必須跨越的壁壘。本文在總結“雷達與探測知識圖譜”項目實施經驗的基礎上,討論了知識圖譜建設中資源遴選、人員組織、質量保障需要注意的問題,重點介紹了專業知識圖譜建設中知識元抽取這個最關鍵環節的特點、方法,希望對出版社同行有所助益。

參考文獻:

1. 張曉林.顛覆性變革與后圖書館時代——推動知識服務的供給側結構性改革[J].中國圖書館學報,2018(1).

2. 張德政,謝永紅,李曼,石川.基于本體的中醫知識圖譜構建[J].情報工程,2017,3(1).

(作者單位系國防工業出版社)

主站蜘蛛池模板: 国产丝袜第一页| 国产在线精品99一区不卡| 亚洲成人免费看| 中国丰满人妻无码束缚啪啪| 在线精品亚洲一区二区古装| 91欧美在线| 在线色国产| 四虎国产在线观看| 亚洲第一区精品日韩在线播放| 成人在线第一页| 99热这里只有精品免费| 欧美成人a∨视频免费观看| 思思热精品在线8| 国产拍揄自揄精品视频网站| 国产成人亚洲毛片| 亚洲欧美日韩中文字幕一区二区三区| 中文字幕中文字字幕码一二区| 日本免费高清一区| 亚洲男人在线| 青青操国产| 青草娱乐极品免费视频| 五月天综合婷婷| 国产成人免费视频精品一区二区| 久久综合五月| 久久99国产综合精品女同| 98超碰在线观看| 亚洲精品在线影院| 欧美高清三区| 久久77777| 国产高潮视频在线观看| 国产精品内射视频| 国产一级无码不卡视频| 91久久大香线蕉| a级毛片免费网站| 久草美女视频| 538国产在线| av色爱 天堂网| 久久激情影院| 国产va在线观看| 国产精品久久精品| 一级全黄毛片| 人人妻人人澡人人爽欧美一区| 亚洲成a人片77777在线播放| 伊人成人在线| 美女被躁出白浆视频播放| 国产亚洲精品在天天在线麻豆| 日本草草视频在线观看| 九九线精品视频在线观看| 国内自拍久第一页| 国产一级小视频| 久久人人妻人人爽人人卡片av| 色国产视频| 国产精品亚洲精品爽爽| 国内精品自在自线视频香蕉| 亚洲首页在线观看| AV熟女乱| 亚洲午夜综合网| 91po国产在线精品免费观看| 麻豆精品久久久久久久99蜜桃| 浮力影院国产第一页| 欧美日韩一区二区三| 视频国产精品丝袜第一页| 青青青国产在线播放| 丁香婷婷在线视频| 亚洲综合狠狠| 国产日韩欧美视频| 成人亚洲国产| 性色生活片在线观看| 久久天天躁夜夜躁狠狠| 成人国内精品久久久久影院| lhav亚洲精品| 亚洲人免费视频| 中文字幕在线播放不卡| 国产精品自在线拍国产电影| 久久中文字幕2021精品| 午夜精品福利影院| 黄片在线永久| 黄色成年视频| 日本在线国产| 国产网站免费| 丝袜无码一区二区三区| 亚洲五月激情网|