中國核動(dòng)力研究設(shè)計(jì)院 黃禹 欒思雨 蘭洋 張玥 黃粲
本文以船用核動(dòng)力知識(shí)圖譜構(gòu)建為例,從知識(shí)圖譜構(gòu)建的實(shí)際流程出發(fā),闡釋構(gòu)建過程中的科技情報(bào)質(zhì)量控制的原理和手段。首先,提出基于DIKW 層次結(jié)構(gòu)的船用核動(dòng)力知識(shí)圖譜構(gòu)建流程;然后,根據(jù)知識(shí)圖譜構(gòu)建流程,提出圖譜構(gòu)建過程中的科技情報(bào)質(zhì)量控制過程模型,將整個(gè)流程劃分為“知識(shí)獲取——知識(shí)表示——知識(shí)存儲(chǔ)與可視化”三階段,并針對過程不同階段提出了相應(yīng)的情報(bào)質(zhì)量控制手段;最后,分階段完成了船用核動(dòng)力知識(shí)圖譜框架的構(gòu)建,實(shí)現(xiàn)圖譜的存儲(chǔ)與可視化,并使得科技情報(bào)質(zhì)量控制貫穿于從知識(shí)獲取到知識(shí)存儲(chǔ)與可視化的整個(gè)圖譜構(gòu)建過程中。
知識(shí)經(jīng)濟(jì)時(shí)代的到來使知識(shí)成為提升企業(yè)競爭力的重要來源。隨著2015 年新版國際標(biāo)準(zhǔn)ISO9001 明確將知識(shí)管理納入質(zhì)量管理認(rèn)證體系范疇,知識(shí)管理理論與實(shí)踐方法得以快速發(fā)展,并逐漸反哺企業(yè)利用知識(shí)管理理論與方法指導(dǎo)科研生產(chǎn),實(shí)現(xiàn)科學(xué)、高效、系統(tǒng)的管理模式。同時(shí),知識(shí)管理也廣泛應(yīng)用于情報(bào)業(yè)務(wù)中。知識(shí)管理集成信息收集、組織、檢索和傳遞的各種技術(shù),為情報(bào)研究工作提供有力的技術(shù)保障。在情報(bào)實(shí)踐中,質(zhì)量控制是滿足用戶情報(bào)需求、實(shí)現(xiàn)情報(bào)價(jià)值的重要手段。通過知識(shí)圖譜、時(shí)間序列等可視化手段,情報(bào)產(chǎn)品能夠以直觀、具體、智能的方式呈現(xiàn)給用戶,提升情報(bào)研究的質(zhì)量。因此,科技情報(bào)研究更加強(qiáng)調(diào)充分的數(shù)據(jù)資源、數(shù)據(jù)內(nèi)容的深入挖掘、分析過程和結(jié)果的客觀性、數(shù)據(jù)處理的自動(dòng)化手段等,在數(shù)據(jù)驅(qū)動(dòng)的思維方式和工作方式下,探索出情報(bào)分析工作的有效模式和流程,充分提升情報(bào)質(zhì)量,實(shí)現(xiàn)知識(shí)的價(jià)值。
知識(shí)圖譜構(gòu)建對于科技情報(bào)質(zhì)量控制的必要性還體現(xiàn)在其對于科技情報(bào)工作人員不同知識(shí)位勢(Knowledeg Potential)情況的處理上。知識(shí)位勢指知識(shí)主體在某領(lǐng)域所處的知識(shí)水平狀態(tài),其中既包括明文記載或口頭傳授的顯性知識(shí),也包括個(gè)人積累的經(jīng)驗(yàn)、技巧或培養(yǎng)形成的洞察力、價(jià)值觀等隱形知識(shí)。由于不同分析人員之間學(xué)術(shù)背景不同、學(xué)科分類不同、經(jīng)驗(yàn)積累不同等原因,同時(shí)考慮到船用核動(dòng)力這一系統(tǒng)工程的復(fù)雜性,在情報(bào)研究過程中存在處于同一研究課題小組的分析成員之間知識(shí)位勢差過大的問題,這會(huì)對團(tuán)隊(duì)情報(bào)分析的質(zhì)量和效率帶來負(fù)面影響。為此,將知識(shí)管理引入船用核動(dòng)力領(lǐng)域,利用知識(shí)圖譜技術(shù)構(gòu)建專題核動(dòng)力知識(shí)圖譜框架,對系統(tǒng)梳理領(lǐng)域?qū)I(yè)知識(shí)、了解設(shè)計(jì)研發(fā)構(gòu)成、明晰操作規(guī)程具有一定的實(shí)踐意義,為我們后續(xù)開展知識(shí)管理分析應(yīng)用平臺(tái)建設(shè)提供參考與借鑒。
知識(shí)圖譜的構(gòu)建對于情報(bào)信息數(shù)據(jù)采集、分析以及傳遞階段都要求做好情報(bào)質(zhì)量控制,使信息更加精準(zhǔn)。基于此,本文以船用核動(dòng)力知識(shí)圖譜構(gòu)建為例,從知識(shí)圖譜構(gòu)建的實(shí)際流程出發(fā),構(gòu)建科技情報(bào)質(zhì)量控制過程模型,闡釋知識(shí)圖譜構(gòu)建各階段科技情報(bào)質(zhì)量控制的處理手段,為情報(bào)分析中群體決策環(huán)節(jié)的質(zhì)量提升提供借鑒。使研究成果更外顯生動(dòng),研究結(jié)論淺顯直觀,幫助情報(bào)用戶清晰地理解情報(bào)內(nèi)容。
科技情報(bào)的質(zhì)量是一個(gè)抽象的、多維度概念,是通過情報(bào)研究過程而形成并傳遞出的情報(bào)產(chǎn)品,與最初直接采集到的數(shù)據(jù)和信息相比,所增加的決策支撐價(jià)值。這里的決策支撐價(jià)值具體指情報(bào)產(chǎn)品中所蘊(yùn)含知識(shí)的價(jià)值,具有高相關(guān)性、及時(shí)性、全面性以及真實(shí)性的特點(diǎn)。
知識(shí)圖譜(Knowledge Graph)是以圖的形式表現(xiàn)客觀世界中的實(shí)體(概念)及其之間關(guān)系的結(jié)構(gòu)化語義知識(shí)庫。知識(shí)圖譜由數(shù)據(jù)層和模式層兩部分構(gòu)成,數(shù)據(jù)層主要內(nèi)容為具體的數(shù)據(jù)信息,以“實(shí)體——關(guān)系——實(shí)體”或“實(shí)體——屬性——屬性值”的三元組形式進(jìn)行存儲(chǔ),是構(gòu)成知識(shí)圖譜的基本元素。模式層位于數(shù)據(jù)層之上,是知識(shí)圖譜的核心,其主要內(nèi)容為知識(shí)的數(shù)據(jù)結(jié)構(gòu),包括實(shí)體、關(guān)系、屬性等知識(shí)類的層次結(jié)構(gòu)和層級關(guān)系定義,約束數(shù)據(jù)層的具體知識(shí)形式。
Neo4j 是一個(gè)基于Java 的高性能NOSQL 圖形數(shù)據(jù)庫,不同于以二維表形式實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)的關(guān)系型數(shù)據(jù)庫,其將結(jié)構(gòu)化數(shù)據(jù)以網(wǎng)絡(luò)(圖)狀進(jìn)行存儲(chǔ),利用自定義存儲(chǔ)格式和基于圖相關(guān)的概念來描述數(shù)據(jù)模型。與傳統(tǒng)關(guān)系型數(shù)據(jù)庫相比,以Neo4j 為代表的圖數(shù)據(jù)庫為適應(yīng)大數(shù)據(jù)時(shí)代海量數(shù)據(jù)存儲(chǔ)的需要,突破表結(jié)構(gòu)的關(guān)系束縛,將數(shù)據(jù)以實(shí)體、屬性和關(guān)系的形式進(jìn)行網(wǎng)狀存儲(chǔ),使得數(shù)據(jù)的粒度、數(shù)據(jù)之間的關(guān)系更加清晰、高效,使之成為知識(shí)圖譜構(gòu)建、上層知識(shí)應(yīng)用的基礎(chǔ)。
DIKW 層次結(jié)構(gòu)也被稱作知識(shí)層次、信息層次、知識(shí)金字塔等,是展示數(shù)據(jù)(Data)、信息(Information)、知識(shí)(Knowledge)和智慧(Wisdom)之間關(guān)系的模型,也是展現(xiàn)數(shù)據(jù)如何一步步轉(zhuǎn)化為信息、知識(shí)乃至智慧的方式。其中,數(shù)據(jù)是原始事實(shí)的抽象表示,是記錄客觀事物的可鑒別符號;數(shù)據(jù)通過某種方式進(jìn)行組織、處理和分析數(shù)據(jù)間的關(guān)系,形成具有意義的信息;知識(shí)是對信息的應(yīng)用,是一個(gè)對信息判斷和確認(rèn)的過程,是從相關(guān)信息中過濾、提煉及加工而得到的有用資料;智慧主要表現(xiàn)為收集、應(yīng)用、傳播知識(shí)的能力,以及對事物發(fā)展的前瞻性看法。DIKW 金字塔層次模型如圖1 所示。

圖1 DIKW 金字塔層次模型Fig.1 DIKW pyramid hierarchy model
知識(shí)圖譜的構(gòu)建方法主要有三種方式,即自底向上、自頂向下和二者混合的方法。其中,業(yè)內(nèi)最常使用的是自底向上的構(gòu)建方法,該方法從數(shù)據(jù)源中提取實(shí)體、屬性和關(guān)系構(gòu)建資源模式,通過選擇其中置信度較高的新模式,加入到知識(shí)庫中。其主要的構(gòu)建過程按照“知識(shí)獲取——知識(shí)表示——知識(shí)存儲(chǔ)——知識(shí)可視化”的步驟進(jìn)行,本文在此構(gòu)建過程的基礎(chǔ)上,融入DIKW 層次結(jié)構(gòu)的特點(diǎn)形成專題核動(dòng)力知識(shí)圖譜構(gòu)建流程如圖2 所示。具體步驟如下:

圖2 基于DIKW 層次結(jié)構(gòu)的專題核動(dòng)力知識(shí)圖譜構(gòu)建流程Fig.2 Construction process of thematic nuclear powered knowledge graph based on DIKW model
(1)在數(shù)據(jù)層次通過對核動(dòng)力專業(yè)領(lǐng)域數(shù)據(jù)的整理與體系梳理完成對知識(shí)的獲取;
(2)在信息層次通過知識(shí)抽取,構(gòu)建“實(shí)體——關(guān)系——實(shí)體”三元組,形成圖譜關(guān)系,完成對知識(shí)的表示;
(3)在知識(shí)層次與智慧層次,利用Neo4j 圖數(shù)據(jù)庫完成對知識(shí)圖譜的存儲(chǔ)并在此基礎(chǔ)上實(shí)現(xiàn)知識(shí)的可視化應(yīng)用。
科技情報(bào)質(zhì)量是在情報(bào)研究活動(dòng)中逐漸形成和衍化的,不同的情報(bào)研究階段,情報(bào)質(zhì)量有不同的表現(xiàn)形式,對應(yīng)著不同的質(zhì)量標(biāo)準(zhǔn)。本文知識(shí)圖譜構(gòu)建過程中的科技情報(bào)質(zhì)量控制的過程模型如圖3 所示,該模型將基于DIKW 層次結(jié)構(gòu)的知識(shí)圖譜構(gòu)建全過程視作“知識(shí)獲取——知識(shí)表示——知識(shí)存儲(chǔ)與可視化”三個(gè)前后相繼的階段,提出每個(gè)階段的情報(bào)質(zhì)量標(biāo)準(zhǔn)并歸納總結(jié)出各階段潛在的質(zhì)量干擾因素,知識(shí)圖譜構(gòu)建過程中考慮到各階段的質(zhì)量干擾因素并提出相應(yīng)的進(jìn)行質(zhì)量控制手段,從而實(shí)現(xiàn)貫穿知識(shí)圖譜構(gòu)建全過程的質(zhì)量控制。的數(shù)據(jù)源中提取出實(shí)體與屬性,在此基礎(chǔ)上,通過構(gòu)建各實(shí)體間的相互關(guān)系形成本體化的知識(shí)表示。本階段,最主要的質(zhì)量標(biāo)準(zhǔn)就是數(shù)據(jù)和信息的準(zhǔn)確、充分和相關(guān)。面對可能存在的需求不明、數(shù)據(jù)渠道不權(quán)威、數(shù)據(jù)價(jià)值低等質(zhì)量干擾因素,該階段的質(zhì)量控制需做到:

圖3 圖譜構(gòu)建過程中的科技情報(bào)質(zhì)量控制過程模型Fig.3 The process model of science intelligence quality control in the process of graph construction
(1)清晰聚焦情報(bào)需求。準(zhǔn)確清晰地定義情報(bào)需求是情報(bào)質(zhì)量控制的第一個(gè)重要環(huán)節(jié)。以船用核動(dòng)力知識(shí)圖譜構(gòu)建為例,數(shù)據(jù)層次需要完成對所需數(shù)據(jù)的整理與體系的全面梳理,以研究方向?yàn)橹髅}形成領(lǐng)域知識(shí)樹,為知識(shí)圖譜的構(gòu)建奠定框架基礎(chǔ)。
(2)從權(quán)威渠道獲取數(shù)據(jù)。從數(shù)據(jù)源中獲取實(shí)體與屬性信息是知識(shí)獲取中的重要步驟,數(shù)據(jù)來源渠道的權(quán)威性是數(shù)據(jù)質(zhì)量的重要保障。專業(yè)性知識(shí)圖譜的知識(shí)獲取原則上需要以專業(yè)領(lǐng)域的數(shù)據(jù)源為基準(zhǔn),由于知識(shí)較為分散,本次知識(shí)獲取過程以于俊崇等編著的,并由上海交通大學(xué)出版社公開出版發(fā)行的《船用核動(dòng)力》為例,將此書作為主要數(shù)據(jù)源以確保數(shù)據(jù)來源渠道的權(quán)威性與高數(shù)據(jù)價(jià)值,以提升情報(bào)工作人員核動(dòng)力領(lǐng)域知識(shí)儲(chǔ)備,解決同一小組分析成員之間知識(shí)位勢差過大的問題。通過人員對文獻(xiàn)進(jìn)行系統(tǒng)梳理,對各種核動(dòng)力技術(shù)的相關(guān)知識(shí)按照研究方向、研究內(nèi)容、研究內(nèi)容子項(xiàng)進(jìn)行整理分類,最終形成包含17 類研究方向的結(jié)構(gòu)化文本。形成的專題核動(dòng)力知識(shí)圖譜框架體系示例如表1 所示。

表1 專題核動(dòng)力知識(shí)圖譜框架體系示例Tab.1 Example of thematic nuclear powered knowledge graph framework
在知識(shí)圖譜的構(gòu)建過程中,知識(shí)獲取是從各種類型
信息層次的主要任務(wù)是完成對數(shù)據(jù)的加工,使得具有一定邏輯的有價(jià)值的數(shù)據(jù)形成信息。知識(shí)表示是數(shù)據(jù)形成信息的重要階段,也是情報(bào)質(zhì)量控制的重要階段,需要對整個(gè)數(shù)據(jù)抽取過程進(jìn)行層次分解,將數(shù)據(jù)進(jìn)行歸類,保證數(shù)據(jù)的有效融合、價(jià)值的充分提取和挖掘,實(shí)現(xiàn)規(guī)范性、標(biāo)準(zhǔn)化和一致性的質(zhì)量標(biāo)準(zhǔn),以此達(dá)到控制知識(shí)表示過程質(zhì)量的目的。
(1)對知識(shí)表示過程進(jìn)行層次分解。對知識(shí)表示的過程進(jìn)行分解是本階段質(zhì)量的控制重點(diǎn)。以船用核動(dòng)力知識(shí)圖譜構(gòu)建為例,將需要抽取出的知識(shí)表示對象分文實(shí)體、屬性、關(guān)系三個(gè)層次,并分別建立相應(yīng)的抽取原則,從而實(shí)現(xiàn)對各類對象的規(guī)范化、一致化的抽取流程,保證數(shù)據(jù)的價(jià)值得到充分挖掘,完成對專題核動(dòng)力數(shù)據(jù)源內(nèi)的實(shí)體抽取、關(guān)系抽取、屬性抽取,將實(shí)體與屬性及關(guān)系信息構(gòu)建成三元組實(shí)現(xiàn)對知識(shí)的表示。
(2)將知識(shí)表示進(jìn)行歸類,突出相關(guān)關(guān)系。為解決知識(shí)抽取后各實(shí)體關(guān)系離散化、相關(guān)關(guān)系不明確的問題,需要對知識(shí)表示進(jìn)行歸類。以專題核動(dòng)力知識(shí)圖譜中“失水事故處置”知識(shí)表示為例,通過知識(shí)抽取技術(shù)構(gòu)建出“失水事故”“小破口失水事故”“反應(yīng)堆艙高劑量報(bào)警信號”“穩(wěn)壓器水位低報(bào)警信號”這多個(gè)實(shí)體并具備各自屬性,例如“失水事故”這一實(shí)體具有概述(反應(yīng)堆主回路壓力邊界產(chǎn)生破口或發(fā)生破裂,造成一部分或大部分冷卻劑泄漏的事故)、事故工況(一回路管道破裂、與主管道連接的輔助管道破裂、隔離閥門卡開)、事故類型(大、中、小破口失水事故)等屬性。針對實(shí)體關(guān)系間的抽取,將其構(gòu)建為多個(gè)
知識(shí)表示通常選用RDF 或者圖數(shù)據(jù)庫來表示,本文選擇采用圖數(shù)據(jù)結(jié)構(gòu)的表示方法,關(guān)系圖模型中每個(gè)節(jié)點(diǎn)表示現(xiàn)實(shí)世界中的一個(gè)實(shí)體,節(jié)點(diǎn)與節(jié)點(diǎn)間的邊表示實(shí)體之間的關(guān)系。一般來說,圖數(shù)據(jù)庫中的節(jié)點(diǎn)與節(jié)點(diǎn)之間可以存在多條邊,即可存在多種關(guān)系,每條邊都與2 個(gè)節(jié)點(diǎn)相連接。如“失水事故”這一實(shí)體既與“小破口失水事故”存在“事故類型”關(guān)系,又與“反應(yīng)堆艙高劑量報(bào)警信號”“穩(wěn)壓器水位低報(bào)警信號”這兩個(gè)實(shí)體分別存在“造成”關(guān)系,這在圖數(shù)據(jù)庫中的知識(shí)表示形式如圖4 所示。

圖4 以“失水事故”為例的知識(shí)表示Fig.4 Knowledge representation taking "Water Loss Accident" as an example
知識(shí)層次與智慧層次作為數(shù)據(jù)與信息利用的高級階段,基于主觀認(rèn)知從信息中過濾、提煉及加工而得到能夠指導(dǎo)決策與行為的無形資產(chǎn),是一個(gè)組織存儲(chǔ)、利用知識(shí)的核心。而知識(shí)的價(jià)值最終也通過使用而得以實(shí)現(xiàn),因此本階段的質(zhì)量是一種效用質(zhì)量,知識(shí)的存儲(chǔ)與知識(shí)可視化應(yīng)圍繞知識(shí)高效存儲(chǔ)、所形成的情報(bào)產(chǎn)品直觀明了等質(zhì)量標(biāo)準(zhǔn)開展工作。為實(shí)現(xiàn)本文所構(gòu)建的專題核動(dòng)力知識(shí)圖譜的知識(shí)存儲(chǔ)與可視化應(yīng)用,所生成產(chǎn)品能夠有效處理響應(yīng)慢、內(nèi)容不易理解等質(zhì)量干擾因素,采用Neo4j 圖數(shù)據(jù)庫作為存儲(chǔ)及可視化方式。知識(shí)可視化將知識(shí)以圖的方式進(jìn)行呈現(xiàn),類似于思維導(dǎo)圖,可以加深人們對知識(shí)的直觀理解,從而達(dá)到對知識(shí)印象加深,進(jìn)而支持智慧層次的高級應(yīng)用。基于Neo4j 圖數(shù)據(jù)庫將知識(shí)獲取與知識(shí)表示階段形成的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)提取并保存在網(wǎng)絡(luò)中,同時(shí)利用Java 持久化嵌入式引擎,能夠更高效地解決低結(jié)構(gòu)化、復(fù)雜的數(shù)據(jù),使數(shù)據(jù)庫的工作效率更加高效,同時(shí)可以將存儲(chǔ)的知識(shí)迅速形成知識(shí)圖譜,視覺化呈現(xiàn)出效果。
專題核動(dòng)力知識(shí)圖譜屬于特定行業(yè)的領(lǐng)域知識(shí)圖譜,對系統(tǒng)梳理領(lǐng)域基礎(chǔ)性專業(yè)知識(shí)、了解設(shè)計(jì)研發(fā)構(gòu)成、指導(dǎo)操作規(guī)程具有一定的實(shí)踐意義。為縮小小組成員知識(shí)位勢差距,為情報(bào)分析中群體決策環(huán)節(jié)的質(zhì)量以及后續(xù)開展知識(shí)管理分析應(yīng)用平臺(tái)建設(shè)提供參考與借鑒。在該圖譜的構(gòu)建過程中,科技情報(bào)質(zhì)量控制貫穿于從知識(shí)獲取到知識(shí)存儲(chǔ)及知識(shí)可視化的整個(gè)過程。在接下來的研究中,將會(huì)不斷應(yīng)用新一代信息技術(shù),持續(xù)深化對圖譜內(nèi)知識(shí)的動(dòng)態(tài)可視、語義搜索、智能問答、個(gè)性化推薦等智能應(yīng)用的探索,逐步實(shí)現(xiàn)基于數(shù)據(jù)驅(qū)動(dòng)的復(fù)雜分析應(yīng)用與決策支持輔助,為知識(shí)管理分析應(yīng)用平臺(tái)的構(gòu)建奠定基礎(chǔ)。
引用
[1] 李志男,孟瀟,楊海麗,等.基于信息融合模型的科技情報(bào)質(zhì)量控制研究[J].情報(bào)雜志,2019,38(1):54-60.
[2] 田玲,張謹(jǐn)川,張晉豪,等.知識(shí)圖譜綜述——表示、構(gòu)建、推理與知識(shí)超圖理論[J].計(jì)算機(jī)應(yīng)用,2021,41(08):2161-2186.
[3] 徐增林,盛泳潘,賀麗榮,等.知識(shí)圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報(bào),2016,45(4):589-606.
[4] 莫富傳,婁策群,馮翠翠,等.基于DIKW體系的政府?dāng)?shù)據(jù)利用路徑研究[J].情報(bào)科學(xué),2021,39(3):82-87.
[5] 黃恒琪,于娟,廖曉,等.知識(shí)圖譜研究綜述[J].計(jì)算機(jī)系統(tǒng)應(yīng)用, 2019,28(6):1-12.
[6] 李德毅,于劍.中國科協(xié)新一代信息技術(shù)系類叢書 人工智能導(dǎo)論[M].北京:中國科學(xué)技術(shù)出版社,2018.
[7] WU X,CHEN H,WU G,et al.Knowledge Engineering with Big Data[J].IEEE Intelligent Systems,2015,30(5):46-55.
[8] 于俊崇.船用核動(dòng)力(第一版)[M].第一版版.上海:上海交通大學(xué)出版社, 2016.
[9] 何婷婷,涂新輝,張紅春,等.中文維基百科的結(jié)構(gòu)化信息抽取及詞語相關(guān)度計(jì)算方法[J].中文信息學(xué)報(bào),2012,26(3):109-115.
[10] 韓晨靜,王天時(shí),高凱燁,等.基于Neo4j圖數(shù)據(jù)庫的質(zhì)量工程技術(shù)知識(shí)圖譜的構(gòu)建及實(shí)現(xiàn)[J].質(zhì)量與可靠性,2021(2):50-55.