張金福, 劉 雪
(上海應用技術大學經濟與管理學院,上海 200235)
近年來,隨著人工智能技術和計算機圖形學的迅速發展,高校管理的信息化研究有了更多的技術支持與思路指引[1]。海量的高校管理數據是推進教育智能化的基礎要素[2],高校管理過程具有時空跨度大、涉及范圍廣等特點,在招生、教學、教師管理等方面產生了大量結構化與非結構化數據,這些大規模數據進行合理化利用,可為高校的科學管理與決策提供強有力的支撐。但這些復雜多形態的大數據存在碎片化、多源異構且層次多維的特點[3],數據集聚程度低,難以實現豐富的語義表達,無法滿足用戶獲取綜合知識信息的需求,阻礙了高校管理創新發展的進程。因此,高校管理數據分析的關鍵是從這些海量的孤島數據中抽取出可用度高的信息,構建一張相互關聯的信息結構網,有效架起高校管理數據孤島的關系橋梁,并通過對象之間的關系提供組織的整體視圖,加強頂層設計系統化,促進高校管理的規范化和科學化。
作為語義網絡的數據處理與關聯分析的關鍵技術,知識圖譜是一種對知識領域建模并使用圖形結構數據模型或拓撲來集成數據的知識庫,憑借其強大的語義處理能力,對海量信息進行知識抽取、融合和處理,形成結構化的語義知識網絡,增強其搜索引擎結果的正確反饋率[4]。通常用于描述存儲實體與實體之間相互關聯,在實現知識問答、智能化語義搜索等領域起著的基礎和橋梁作用,已成為大數據時代工程與科學研究領域的前沿熱點方向。根據在知識表示、獲取與應用方面的差異,可將知識圖譜劃分為通用知識圖譜(General-purpose Knowledge Graph:簡稱GKG)和領域知識圖譜(Domain-specific Knowledge Graph:簡稱DKG)兩大類。GKG的一些知名應用案例主要有德國馬普研究研制的YAGO[5]、采用結構化數據形式的Freebase[6]、2012 年發布的Google Knowledge Graph 以及國內百度知心、搜狗知立方和復旦大學知識工場實驗研發的CN-DBpedia 等[7],而聚焦于特定領域的領域知識圖譜也逐漸被重視,例如地理信息領域知識圖譜Geonames、“天眼查”的企業領域知識圖譜等[8]。
目前,國內外已有研究將語義技術應用于科研系統、機構知識庫等領域,實現知識的關聯與挖掘。Pujara等[9]利用由MusicBrainz 音樂社區,以及NELL項目中包含超過100 萬提取和70K 本體關系的真實提取集構成的合成鏈接數據語料庫,使用概率軟邏輯(PSL),展示了如何將實體及其關系的不確定性提取轉化為知識圖。Liu 等[10]基于社會分類的協同特性,獲取企業知識資源的個體知識標注數據,并從標簽中篩選出一些重要的主題,形成領域知識圖。然后將不同領域的主題進行相似度關聯,構建企業知識圖譜。此外,很多學者對知識圖譜技術在網絡安全、網絡輿情[11]、應急管理、地理信息領域和數字圖書館[12]等眾多垂直領域的應用進行了深入探究。例如,賈焰等[13]基于知識圖譜與網絡安全的概念來構建網絡安全知識庫,并在此基礎上,提出了一個基于網絡安全知識庫的五元組模型;杜志強等[14]針對自然災害應急領域中存在的"數據-信息-知識"轉化能力不足問題,圍繞自然災害事件、災害應急任務、災害數據、模型方法4 個要素,提出了自上而下和自下而上相結合的自然災害應急知識圖譜構建方法;張雪英等[15]結合地理知識的時空特征和知識圖譜的表達形式,提出了一種顧及時空特征的地理知識圖譜構建方法;陳曉慧等[16]首先在解析COVID-19 病例數據基礎上,利用知識圖譜技術提出了構建適應多樣化描述方式的COVID-19 病例活動知識圖譜,兼顧時空和語義特征研究傳染病傳播過程;雷潔等[17]通過總結分析當前科研檔案管理的技術與模式,構建出科研檔案管理知識圖譜;甘容輝等[18]認為全球高等教育已經全面進入信息化時代,智慧校園建設要緊跟信息技術的最新發展動態,高校應積極探索應用新一代信息技術,把握技術變革趨勢,聚力建設智慧校園,推動教育智慧化轉型。但當前關于知識圖譜在高校管理領域的應用研究仍然比較少,現有研究多是依托CNKI 期刊論文數據庫,使用文獻分析的方法,構建和分析我國職業教育研究群體[19]、高等教育研究學術群體[20]、教育技術學術群體可視化知識圖譜[21]和教育技術學者合著網絡知識圖譜[22];從構建技術上來看,袁滿等[23]人在對國內外教育領域內標準進行研究的基礎上,以系統理論為依據提出并構建出一個教育資源知識圖譜標準詞匯參考模型。楊博等[24]研究表明,相較于基于詞匯和規則的知識抽取,基于本體推理的抽取更有益于數據間隱含關系的挖掘和知識的融合。Kafkas S 等[25]基于本體論與統計方法相結合的方法,提出了一種利用文本語義間共現關系從文獻中挖掘基因-表型關聯的方法;陳曉燕等[26]以汽車領域評論語料為數據源,基于深度學習的領域本體構建方法,搭建起汽車領域本體架構。
基于領域知識圖譜構建的理論基礎及相關技術,本文旨在對我國高校管理數據知識圖譜的構建進行研究與設計,以深入揭示高校管理知識之間的關聯性、優化高校管理知識資源檢索和深度推理進程,為我國高校管理的知識研究提供理論研究框架,同時也為高校管理領域的精準決策提供資源支撐。
高校管理知識圖譜是以高校管理過程中產生的數據為基礎,以圖形化的直觀方式構建網絡知識表達模型,可為高校管理數據之間的關聯分析與復雜語義關系推理提供技術支撐。知識圖譜可將分散的、關聯度低的數據整合到一起,形成龐大的知識網絡,可以融合教師、校園地圖、學生與課程數據等與高校管理教學密切相關的數據資源,深入挖掘高校管理過程中數據之間的關聯關系和整體教學狀況。
知識圖譜的構建方式主要包括自上而下和自下而上2 種.前者主要是利用百度百科類網頁數據,抽取本體與模式,加入知識庫中,如利用維基百科為數據源的Freebase項目。而自底向上的知識圖譜構建,需要運用一定的數據挖掘技術,從已有開放性的數據源中提取出初始領域概念,再通過關聯規則構建本體,篩選后再加入,實現原有知識庫的優化擴充[27]。如Google的Knowledge Vault和微軟的Satori知識庫,均是依托于開放性的海量網頁數據,運用自動抽取資源的方式來構建、豐富和完善現有識庫的。
基于高校管理資源的領域性和特殊性,主要依據自下向上的知識圖譜構建技術構建了高校管理整體知識圖譜的框架如圖1 所示,框架圖自下而上主要包括4 個層級,分別為基礎數據層、圖譜構建層、信息解析層和人機交互層。首先,從各高校網站抓取基礎數據資源,運用知識抽取技術抽取從不同來源的數據資源中抽取數據集,形成高校管理的知識單元實體,將實體進行知識融合用于實體間的關聯分析,通過挖掘知識間的隱含關系,從語義層面實現高校管理數據知識的組織表達,形成高校管理的知識網絡。

圖1 高校管理知識圖譜整體框架
基礎數據層是構建知識圖譜的核心工作,主要存儲大量高校管理數據資源,如位置數據、教師數據、課程數據、學生數據與學?;厩闆r介紹等各類型數據集,更重要的是,基礎數據層具備將不同結構屬性的高校管理數據無縫銜接和一體化存儲管理的能力。由于高校管理數據具有相互交叉、重合度高的特點,數據之間存在較強的依賴性,因此將基礎資源層的數據庫設計為空間圖形數據庫,兼具結構化、半結構化和非結構化數據的存儲?;A資源層是高校管理產生數據的存儲基礎,為知識的提取提供了數據倉庫集。
知識單元層具有承上啟下的功能,高校管理數據知識獲取主要通過知識抽取規則,從基礎資源數據庫中獲取高校管理數據的屬性知識關系,著重于實體屬性之間的關聯分析,為高校管理的知識圖譜與本體構建提供數據資源。知識單元層的工作主要分為兩部分,首先是構建高校管理的本體,然后在本體的基礎上進行知識規則抽取。
(1)高校管理本體構建。基于高校管理的專業知識和數據資源,對高校管理的整體知識結構進行分析,確定高校管理的核心概念,從而形成概念體系。知識單元層采用自上而下的構建方式,定義了類、屬性、實體,通過對高校管理的類、屬性及其之間的關系進行分析,可構建高校管理本體類目層次圖,如圖2 所示。最終形成高校管理的知識邏輯體系,呈現出具有樹形結構的高校管理知識組織體系,即高校管理本體框架,高校管理的本體是開放集成的體系,從語義表達的層面來實現高校管理知識之間的關聯、共享與重復利用,在知識圖譜構建過程中具有重要意義。

圖2 高校教育本體類目層次圖
(2)知識抽取。信息抽取是一種自動化地從半結構化和無結構數據中抽取實體、關系以及實體屬性等結構化信息的技術,涉及的關鍵技術包括:實體抽取、關系抽取和屬性抽?。?8]。
高校管理的基礎資源中包括結構化數據、半結構化數據、非結構化數據和空間位置數據。知識抽取建立在基礎資源數據庫的基礎上,首先對知識單元中的實體、屬性和關系進行數據抽取,以此建立高校管理數據之間的關聯關系,基于高校管理的領域本體架構,采用機器學習中的多策略學習算法來自動獲取數據知識,利用多策略學習算法可以全面獲取知識并且可以剔除數據之間的冗余關系的特點,通過抽取顯著性較強的知識特征,來概括表達整體與局部的關鍵信息。結構化數據具有簡單易讀的數據結構,抽取容易且準確率較高,可通過D2R 映射將數據直接映射到RDF中的類和屬性,從而構建知識圖譜中的知識單元。半結構化數據雖然是結構化數據的一種表現形式,但不符合結構化數據的數據模型結構,可通過Wrapper (數據包裝器)來進行信息抽取,將數據還原為結構化數據,接下來對這兩類數據的抽取結果作統一處理,將其都加入種子集中。由于非結構化數據是純文本數據,可根據已有實體得出先驗知識,再對未知文本進行自動標注,從無監督學習或半監督學習轉換為有監督學習,采用遠程監督和基于模式相結合的增量迭代抽取方式。遠程監督工作的前提是假設兩個不同實體間存在某種聯系,因此任何含有這兩個實體的不同的短語或者語句都可能表達同一關系,通過自動標注種子集中的文本數據生產高質量的工作模式,將這些模式學習的新知識加入種子集中。通過這一過程的不斷迭代,直到學習不出新知識,結束此次任務執行。采用這種方式可完成高校管理知識單元的獲取。
(1)實體對齊。①通過知識抽取的關鍵技術,從不同來源的數據集中抽取出相對孤立的知識結構單元,得到很多分散、關聯度低的抽取圖譜。將這些孤立圖譜進行集成整合和知識融合的集中處理,得到完整的高校管理知識圖譜。考慮到抽取數據來源范圍大,包括結構化和非結構化數據,多種類型數據之間融合分析也面臨很大的挑戰,如實體命名不一致、多個實體對應一個詞語、實體屬性值缺失、實體屬性異常、實體與屬性多對多映射等,②數據質量也參差不齊,需要進行數據清洗得到合理有效的數據集。實體對其在解決這些問題時有著突出的優勢,實體對其可以識別過濾不同標簽屬性,找出其在現實世界中對應的唯一實體,并將實體集合融合為一個實體,并為其創建一個全局唯一標識屬性值,將實體對象集成到知識圖譜中。現階段,基于聚類的實體對其算法應用比較廣泛,可以將具有相似屬性的實體劃分到一類集合中,在此基礎上進行實體對齊。
(2)實體關聯構建。實體關聯是知識圖譜構建過程中的核心環節,是進行知識挖掘的重要基礎。
抽取出的實體(E1,E2,…)都具有一定的屬性值,如教師的屬性包括職稱、職務、年齡和學位等,以教師為例,實體屬性結構圖如圖3 所示。

圖3 高校某教師實體屬性示意圖
具有相同屬性值的任何兩個實體都可以通過其之間的狀態或屬性關系來建立聯系,形成多個三元組數據集,將具有關聯關系的多個實體進行集合聚類,可以構成具有多維度數據關系的可視化表達方式。圖4 即為高校部分實體關聯結構圖。結合高校管理數據中的實體、屬性與關系的多樣性和異構性,為了建立更為完整知識圖譜,對相對復雜的關聯規則除了要依賴高校管理的本體模型外,還需使用人工標注與推理等方法來保證知識圖譜模型的精度。

圖4 高校部分實體關聯結構圖
構建了實體、屬性和關系的關聯之后,數據資源庫成為一個包括基礎數據、特色數據和高校管理數據等的一個富含語義關系的知識庫,可以滿足不同客戶的需求并為其提供各類高校管理知識服務。
在信息解析層通過實體對其和實體關聯等關鍵步驟,構建了高校管理本體模型與富含語義關系的網絡知識庫,知識圖譜將高校管理中的實體及其屬性之間的關聯關系最大程度地展現出來,在此基礎上可以做語義搜索、輔助決策等很多應用開發研究。
(1)高校管理知識檢索。知識圖譜的底層是一個龐大的關聯知識庫,可以完成對高校管理的基本搜索服務,能對高校管理類專業術語進行查詢并對不同術語之間進行知識關聯,用戶可以通過知識圖譜系統的搜索得到直觀的可視化知識地圖。例如在搜索框輸入“高等代數”這一關鍵詞,可以得到高等代數這門課程的相關知識,包括授課教師、學分、選修的學生和開設專業等相關實體以及實體之間的關系。這樣更有利于用戶更加直觀、快速獲取所需知識,降低獲取不同類型數據的時間成本。
(2)高校管理知識發現。在知識發現這一應用場景下,以關鍵詞為驅動,可以實現以知識圖譜為基礎的具有相同屬性的知識單元的聚類關聯。例如,輸入教師A,知識圖譜會反饋一個以教師A為中心的可視化圖譜,呈放射狀分布,該教師的屬性展示為年齡、教授課程、職稱、碩/博導、研究領域與獲獎經歷等,通過點擊“研究領域”與“發表論文”等關鍵屬性,可以發現教師A 擅長的研究方向、發表過的論文和指導過的學生,就能對該老師的科研水平有一個大致的判斷,這能對學生的研究生報考與研究生導師的選擇提供一個可參考的決策支持。
(3)高校管理建設指導。數字化表達是高校管理知識圖譜的重要應用領域之一,可以對高校管理教學的建設與改革提供相關的輔助決策與指導,包括高校新興學科籌建、教師崗位培訓、學生培養計劃制定與完善、校園智慧智能化管理等,知識圖譜模型能將已有知識進行關聯重建,形成新的知識表達[29]。構建知識圖譜可以將校園信息、教師信息、專業信息與學生信息等不同類型數據進行關聯分析和統一處理,基于海量的高校管理數據分析形成全新的高校管理知識表達方法,可以挖掘更多高校管理過程中的問題,形成更科學、規范的決策。
大數據是推動高校管理全方位改革創新的重要力量,確立教育大數據的戰略地位,把握技術變革趨勢,聚力建設智慧校園,推動教育智慧化轉型,是新時代高校管理的重要趨勢[30]。本文旨在對高校管理知識圖譜的構建進行設計與研究,基于高校管理數據知識分布分散、異構多樣、結構復雜的特點[31],結合領域知識圖譜構建的技術方法,解析數據層中豐富的實體概念及屬性關系,實現知識的抽取與知識融合,初步構建了輕量級的高校管理知識圖譜體系架構;從語義關聯的角度實現高校知識資源的關聯和挖掘,促進數據資源的交換共享、有效流通,為高校管理知識組織研究提供科學框架和奠定理論基礎,拓展充分挖掘教育大數據潛在價值的思路,同時也期望為其他領域知識圖譜的構建提供一定的參考價值和借鑒意義。
高校管理的知識信息在實際應用中存在動態性,知識結構隨著科學研究的深入會不斷更新和變化,產生的數據也會隨之實時更新,所以定期篩查高校管理本體結構和知識庫信息,實現知識圖譜的迭代更新,對科學管理與決策有很大意義。關于高校管理知識圖譜的構建還處于初步探索階段,本文研究目標側重于對整體架構進行設計,其中各個層級的研究還不夠深入和完善,諸如只考慮了高校內部的各類知識關聯而弱化了影響高校管理的復雜社會環境,語義關聯的組織和挖掘還不夠深入和詳盡,期望后續有更多的學者關注和深入在這一領域的研究。