屈琴芹 華鵬 高超
重慶電子工程職業學院/電子與物聯網學院 重慶 401331
在當今互聯網時代,大數據、人工智能、知識圖譜等技術應用越來越普及,各行各業向著信息化和智能化發展,其中知識圖譜被廣泛應用于各大高校的科研管理系統中。知識圖譜主要有自頂向下與自底向上兩種構建方式,自頂向下是指先為知識圖譜定義好本體與數據模式,再將實體加入到知識庫[1]。自底向上指的是從一些開放鏈接數據中提取出實體,選擇其中置信度較高的加入到知識庫,再構建頂層的本體模式,經人工審核后,加入到知識圖譜中。信息在現代社會日趨重要,合理的決策取決于對大量信息的有效利用,高??蒲泄芾砉ぷ髅媾R雜亂無序的大量數據,如何將高校科研管理系統中的科研人員、科研項目、專著、論文、獲獎、發明專利、學術影響力等復雜數據進行大數據分析顯得尤為重要。本文借助知識圖譜技術,對各類科研數據進行可視化展現,指導決策者進行合理的規劃和科研政策的制定,提高科研管理系統的科學性和高效性[2]。有學者將內容分析與信息可視化相結合,運用基于共現矩陣的知識圖譜及社會網絡分析法,分析某高校近十一年來學術論文的研究方向、學術群體關系、對外合作關系等,能高效找出科研中存在的問題[3]。高??蒲泄ぷ鲗热莺蛿祿嫒菪苑矫婢哂懈叩囊?,利用知識圖譜對科研數據進行可視化的展示,將有效提高科研工作效率,同時也為科研工作的擴展應用提供了有力支撐。
知識圖譜是將應用數學、圖形技術、信息可視化技術、信息技術等方法和理論知識與其共同分析等方法相互結合,利用可視化的圖譜具體地展示出學科的發展歷史、核心內容、相關領域以及整體的知識框架,以此來達到不同數據相互融合的一個現代理論[4]。知識圖譜在邏輯上分為數據層和概念層,數據層是指以三元組為表現形式的實體和關系集合,用<實體,關系,實體>和<實體,屬性,屬性值>來表示。概念層構建在數據層之上,是經過積累沉淀的知識集合[5]。一個知識圖譜的構建需要包含知識抽取、知識融合、知識加工、圖譜應用等過程,其中涉及本體和實體兩個概念。本體是共享概念模型的形式化、規范、明確的說明,即一個概念的集合,是一個公認的知識框架;實體是本體、實例及關系的整合。本體模型和實體數據庫的建設是知識圖譜結構的核心,知識圖譜結構如圖1所示。

圖1 知識圖譜結構圖
要應用知識圖譜需要提前構建知識圖譜,即先要構建一個知識庫,可以通過搜索知識庫來回復相關搜索。比如在搜索框里輸入關鍵詞,可以得到相關回復。這是因為在系統層面上已經創建好了一個包含關鍵字和回復內容關鍵詞的實體以及兩者關系的知識庫。所以,當執行搜索任務時,可以通過關鍵詞提取以及知識庫上的匹配獲得答案。這種搜索方式不同于傳統的搜索引擎,通常傳統的搜索引擎返回的是相關網頁,返回的內容是有關聯度但關聯度不高的內容,不是最終答案,用戶還需要進行篩選并過濾信息。這就是以往的智能分析專注在每一個個體上,而知識圖譜除了個體,還深入分析個體之間的關系,只要有關系分析的需求,知識圖譜就能夠發揮作用。
知識抽取是構建一個知識圖譜必不可少的部分,基于大數據的基本結構,利用自動化或半自動化的技術抽取出可用的數據知識,包括關系、屬性、事件抽取等。關系抽取是從信息中抽取出實體名稱,再通過關系抽取獲取實體當中的連接關系,從而形成一個完整的網絡知識結構,事件抽取是從一個知識圖譜信息源中抽取出事件信息,包括時間、人物、地點等,通過人物關系搜索,形成一個關系網絡。
知識融合是高層次的知識組織,使來自不同知識源的知識在同一框架規范下進行異構數據整合、消歧、加工、推理驗證、更新等步驟,達到數據、信息、方法、經驗以及人的思想的融合,形成高質量的知識庫。高校科研系統中的信息可能來源于不同數據源,存在數據異構的情況,知識質量良莠不齊、知識重復、知識間的關聯不夠明確等問題。因此知識融合非常有必要,需要對科研系統中的數據進行知識融合,實現信息、數據、經驗、方法以及人的智慧的大融合,形成有效知識庫[6]。在知識融合的過程中,實體對齊、知識加工是兩個重要的過程。實體對齊是從描述相同真實世界對象的不同知識圖譜中去識別實體。
知識加工是要去獲得結構化、網絡化的知識體系,因為信息抽取得到的事實表達并不等于知識。信息抽取后,原始材料中可以提取出實體、關系與屬性等知識要素。再經歷知識融合,消除實體指稱項與實體對象之間的歧義,得到基本的事實表達[7]。但是事實不等于知識,要想獲得結構化、網絡化的知識體系,知識加工是非常重要的一步。知識加工由三部分的內容組成,分別是本體建構、知識推理和質量評估。其中,質量評估針對的是現有數據結構,將符合標準的數據放入對應知識圖譜中,先檢測是否符合質量評估,不是所有的數據都能被知識圖譜所采用,需要確保知識圖譜當中所查詢到的知識是合理的。知識加工在整個圖譜構建的過程當中起了不可分割的作用,只有將數據進行加工與處理,進行質量評估后才能增強知識圖譜內容的可靠性與合理性。
知識推理是通過對已構建好的實體之間的關系的計算和對其三元組的語義進行分析,從而找到相互關聯的內容,獲取更新的知識或者相關結論,也可以擴展和豐富知識網絡圖譜。在知識圖譜中,知識推理可以是實體、實體之間的相互屬性值、實體之間的關系等。同時,知識推理還包括了實體之間的分類、關系識別、通過對圖的推理,對邏輯的推理等。例如<作者A,發表者,科研項目>和<作者B,發表者,科研項目>從而可以推理出<作者A,共同作者,科研項目>。
高校設計科研系統功能時,首先滿足的是學生和教師的信息采集和存儲,師生能夠在平臺上進行個人信息查詢。本文圍繞如何設計一個基于知識圖譜的高??蒲邢到y,在師生便捷查詢個人信息的同時,搜索相關信息時,也能查看關聯信息,同時一個成熟的知識圖譜也可以幫助我們更快的查詢出信息。知識圖譜可以分為知識引入、知識構建、存儲計算、知識展現、知識管理等功能。
高校科研系統圖譜的系統功能涵蓋個人管理、系統配置、數據統計分析等。個人管理包括個人中心、收藏、發布、自定義增刪改查等功能。系統配置可以在角色、用戶等不同領域進行配置。數據統計分析則在系統配套的寄出報表中進行展示。
根據大數據源系統中的結構化數據,可以構建不同的知識圖譜。首先,本體類型集合可分為【關鍵詞、學院、專著、專利、論文、研究機構、人員】,然后構建各種實體的屬性特征,體現實體與實體之間的相互關系。在實體管理中,可以通過探索實體名稱,搜索出所屬本體的名稱,生成一個大數據的知識網絡。從實體關系管理角度,實體與實體之間存在相互聯系,每個實體可以通過關系來尋找實體之間的關系,也可以通過找出關系特征詞,探索出實體與實體相互的聯系。
圖譜可視化技術主要包括了Raphael和particies.is兩種關鍵技術。這兩種技術可以形象地分析、解釋、模擬或者揭示隱藏在數據內部當中的特征與規律,也可以提高人類對于事物的理解記憶、觀察等方面的能力,用戶能夠更直觀地感受整體概念的形成。
圖譜可視化編輯。圖譜可視化編輯以可視化的方式進行圖譜編輯,降低構建難度,可進行概念、實體、屬性、關系、私有屬性、私有關系的編輯、知識圖譜列表展示、本體、實體及其關系展示。
圖譜探索支持針對實體的檢索與探索,可以結合用戶需求對檢索結果進行篩選,支持用戶對層數、實體個數、關系個數進行配置;支持知識用戶進行知識卡片展示的配置;支持圖片導出。在知識圖譜探索中,可以通過搜索指定的科研方向,探索出相關聯的科研人員,還可以通過一個具體的科研項目,找出共同的項目參與者。
知識圖譜構建完成后,適用于各種關系間的找尋,在人與人之間,通常屬于一對多或多對一的情況,人可以看作是一個實體,由很多的屬性特征點相互組成,人的屬性是多種多樣的,可以在知識圖譜上通過一個具體的屬性點,找到人與人之間的關系,即人的某個屬性具有相同或者相似的地方,如按照年齡聚合,可分為90后、00后人群等。人與科研成果之間往往存在多對一或者一對一的關系,科研成果從構思到最后實施成功,通常是多人共同努力的結果,闡述某個具體科研成果時,通過一個關系的屬性詞,從而找到實體與實體之間的關系,如參與者,則可以展示出一個具體的網絡結構圖。在大數據與最優化知識圖譜的作用下,能快速地找到一個實體關鍵詞下所相關聯的東西。在知識圖譜中,運用圖譜探索,在一個已經構建完成的圖譜中,指定一個本體屬性,如學院,再指定一個具體的實體名稱,如xx學院,點擊檢索,則關于某學院的所有相關研究都會在這個知識圖譜中展示出來。
運用知識圖譜,最為便捷的就是找尋實體與實體之間的關系,探索人與人,人與科研成果的關系,成果與成果的關系。通過這些關系快速查詢需要的數據,提高效率,解決高校科研系統管理難的問題。
在當今形勢下,科研工作在高校發展中是不可或缺的一部分,因此保證科研系統的高效性是非常重要的。知識圖譜可以創造出高價值如關系的表達能力強、可以模擬人類思考、分析、知識學習、反饋等方面。運用知識圖譜在高校科研系統中,可以有效解決知識雜糅亂序、對科研數據進行可視化的展示,科研系統的用戶和管理員也能更加高效地使用系統,提升了科研工作的效率和水平。