文/孫兆群,陸成松
(1.上海儀電人工智能創新院有限公司;2.上海海洋大學)
高校處于高端人才孵化、前沿科技策源、創新思維迸發的重要交匯點,肩負著人才培養、科學研究、社會服務、文化傳承創新、國際交流合作等重要責任和使命,是國家科技創新體系的重要組成部分[1]。學生作為高校教育活動的主要參與者,其學習和成長的過程情況與反饋,是判斷高校服務水平優劣和促進高校服務能力提升的重要參考指標和依據。堅持教育以學生為中心,以“發掘學生潛質、激發學生興趣、指導學生學習、成就學生價值”為基本目標,探索基于數據驅動的新型人才培養和教育治理模式,對促進學生全面高素質發展和提升高校服務能級具有重要意義[2]。
互聯網技術的迅猛發展,使人類依次經歷了以文檔互聯為主要特征的“Web1.0”時代和以數據互聯為特征的“Web2.0”時代,并正處于以知識互聯為基礎的“Web3.0”時代[3]。近年來,在《國家中長期教育改革和發展規劃綱要(2010—2020年)》[4]和《教育管理信息化建設與應用指南》等政策文件的指導下,高校在教學信息化、科研信息化、管理信息化等方面取得了顯著的成果,學校基礎數據、學生數據、教學數據、教職工數據、研究生數據、科研數據、財務數據、資產與設備數據等逐步匯聚。面對上述爆發式的海量數據,如何將碎片化、不連通、質量參差不齊的非結構化、半結構化數據轉化為高質量、連通性強的語義網絡,是當前高校面臨的主要挑戰。2012年,Google公司提出知識圖譜的概念[5],它是人工智能的重要組成部分,其建立的具有語義處理能力與開放互聯能力的知識庫,可在智能搜索、智能問答、個性化推薦等智能信息服務中產生應用價值[6]。
知識圖譜始于20世紀50年代,至今大致可分為三個發展階段:第一階段(1955—1977年)是知識圖譜的起源階段,在這一階段中引文網絡分析開始成為一種研究當代科學發展脈絡的常用方法;第二階段(1977—2012年)是知識圖譜的發展階段,語義網得到快速發展,“知識本體”的研究開始成為計算機科學的一個重要領域,知識圖譜吸收了語義網、本體在知識組織和表達方面的理念,使得知識更易于在計算機之間和計算機與人之間交換、流通和加工;第三階段(2012年至今)是知識圖譜繁榮階段,通過知識圖譜技術改善了搜索引擎性能。
本文面向高校場景,在高校數據中臺及第三方公開網站(如教育部官網、招聘網站等)所提供的海量數據的基礎上,結合語義搜索、智能推薦,以及爬蟲技術、中文分詞、反序索引庫等人工智能技術,通過構建資源調度引擎和知識圖譜引擎,賦能高校當前各類業務系統,達到學校系統前端體驗合理化、系統功能智能化、數據應用簡單化的效果,并提出知識圖譜驅動下的招生咨詢、學涯規劃、崗位匹配等場景應用方案。此外,通過本平臺對外提供語義檢索接口、圖譜檢索接口、關系網絡分析接口等公共接口,為高校其他應用服務場景的探索提供可能性。
面向海量異構數據融合分析與知識圖譜引擎運算需求,構建分布式基礎設施,實現對底層計算、存儲資源的高效調度與動態擴展,主要包含資源調度管理平臺、調度任務管理、鏡像和集群管理、任務調度平臺。資源調度管理平臺基于Kubernetes可以實現對CPU和GPU資源的靈活調度;調度任務管理實現對于人工智能訓練和推理任務的統一管理,并且可以通過配置文件的方式對任務進行統一、集中配置;鏡像和集群管理,系統包含有支持主流深度學習框架的鏡像,并且提供工具對鏡像進行靈活的定制,對于整個集群也有管理,可以根據需求靈活實現資源彈性釋放和申請。
資源管理調度可以靈活調度多種云資源,包括本地私有云、以微軟Azure為代表的公有云資源,以及聯合調度本地私有云和公有云資源的混合云場景。在運算資源不足(任務堆積)的情況下,可以向公有云申請運算資源,并將等待中的任務調度到新申請的運算資源中運行;在運算資源過剩(公有云資源閑置)的情況下,可以主動將運算資源歸還,以節省不必要的支出。
由于諸多原因,如工程建設周期過長或工程分期建設造成設備更新不及時等問題,高校的運算資源集群很難保證完全同構,即運算集群由不同廠商的不同型號的運算資源組成。異構資源管理調度引擎支持不同類型資源(CPU、GPU等)、不同廠 商(如Intel、Nvidia、AMD等)和不同架構不同型號的計算資源的統一調度,實現上層應用的無感知透明訪問。基于創新的運行環境支持,資源調度引擎能夠兼容對新興硬件(如FPFA和ASIC等)的支持,實現多種異構資源的高效利用及統一封裝,方便上層應用的使用及管理。如圖1所示。
隨著人工智能尤其是深度學習的日漸流行和普及,眾多云服務提供商紛紛推出帶有GPU等高性能運算資源的云主機,以此響應市場上對于運算資源的需求。其中典型的代表是Azure云提供的數據科學虛擬機(DSVM)和深度學習虛擬機(DLVM)。相對于自建運算資源集群,云資源可以幫助高校快速獲得并成功使用所需的運算資源,大大簡化部署、擴充和運維的難度,并且可以享受到最新的容器加速等增值服務。云資源管理調度引擎實現對多種云計算資源管理和調度,用戶可以像使用本地資源一樣高效快捷的使用云上的計算和存儲資源。
混合云資源管理引擎集成了混合云資源調度架構,能夠有效整合本地資源和公有云資源,實現統一調度和管理。可以針對業務場景需求,實現深度學習任務在本地資源與云端資源間動態遷移和負載均衡,保障高校業務的高效運營。啟動服務用于處理任務請求并提交至Hadoop YARN+AI引擎進行資源分配與調度。本地算力和云端算力通過Kubernetes集群進行統一管理和資源抽象。如圖2所示。
此外,本項目可與Azure智能云和科學計算資源深度集成,提供靈活可控的伸縮策略。用戶關聯Azure賬戶之后,可以在適當的場景下自動向Azure申請和歸還運算資源;可以根據用戶的任務類型和成本預算,靈活選擇合適的云計算資源和規模。

知識圖譜分為通用知識圖譜和行業知識圖譜,面向全領域的通用知識圖譜,如Wikipedia、Bing Satori等,其因強調廣度而關注更多的是實體,很難生成完整的全局性的本體層的統一管理,主要應用于面向互聯網的搜索、推薦、問答等業務場景;面向特定領域的行業知識圖譜,如Facebook社交圖譜、LinkedIn職場圖譜、Amazon商品圖譜,其有嚴格且豐富的數據模式、更高的準確度要求、更多關注實體屬性且具有顯著的行業意義,通常用于輔助各種復雜的分析應用或決策支持。
知識圖譜與一般知識庫最大的區別在于知識圖譜更側重于關聯性知識的構建,且具備一定的知識推理能力,更近似于知識系統。知識圖譜以(實體1、關系、實體2)或(實體、屬性、屬性值)的三元組形式來表示實體以及實體之間的關系,形成一張巨大的語義網絡圖,其中節點表示實體,邊表示實體間的關系或實體屬性。知識圖譜能使計算機理解人類的語言交流模式,從而更加智能地反饋用戶需要的答案[7],其體系架構包括數據抽取、知識抽取、知識融合、知識加工、知識推理應用等關鍵環節。
知識圖譜為高校數字資源建設、管理、服務提供了一個獲取、存儲、組織、管理、更新和展示的有效手段。因此,高校可利用人工智能技術整合校內外數字數據資源,構建基于本校特色的知識圖譜,為學校的智力、決策支持構建一個智能、高效的知識組織方式,形成信息技術與資源的新融合,幫助師生更加快速而準確地獲取自己需要的信息。知識圖譜的語義結構化數據,可以對大多數挖掘分析及機器學習進行特征提取和建模。可直接在圖譜的模型上,利用聚類進行推薦的計算。基于特征提取之后的結構,構建特征相似度的評估模型或分類算法,實現面向學習的推薦的組合算法。基于已經構建好的知識圖譜,完成問答功能與分詞推送,使用人員在鍵入問題后系統運用分詞搜索引擎技術獲取答案。
通過大數據和可視化技術,建立以關鍵詞為中心的知識體系,讓資源以結構化、可視化的方式呈現,讓知識的獲取更加快速、準確。基于知識圖譜引擎,高校信息分析和挖掘超越實體,將關系囊括其中,利用圖結構、實體關系的表述更符合客觀現實,使關系內生成為結構的一部分。面向高校的知識圖譜引擎功能架構,包括主題庫層、能力層和接口層三部分,如圖3所示。

主題庫層與高校數據中臺及第三方網站對接,可從系統中抽取業務數據和日志,經過清洗和治理后導入知識圖譜主題庫中。主題庫按照學生、教師、學科、專業等為關鍵主數據,可構建關系庫、索引庫、標簽庫、評分庫、模型庫、特征庫、FAQ庫、基礎信息庫等數據庫,為上層服務能力提供支撐。
能力層包括搜索引擎服務、推薦項生成、Schema管理、標簽計算、數據同步/導入、關系檢索子圖、指標評價體系構建等多種服務,以及匹配排序算法、NER算法、相似度算法等多種成熟算法。用戶亦可根據自己的場景需求自定義模型及相關服務,并支持便捷的模型和服務管理。

接口層面向第三方開發者,用戶可在后臺自定義生成知識圖譜的API接口,如語義檢索接口、關系網絡分析接口、圖譜檢索接口,以便針對學生綜合能力評價、學科發展潛力評估、教師教學質量評價等其他應用場景展開服務探索。
快速、精確掌握所報考院校的招生政策、專業分布、培養路徑、就業方向等情況對于眾多高考學子及家長選出稱心如意的專業而言尤為重要,通過電話、郵件等方式直接向高校一對一咨詢是當前相對高效、便捷的方式,然而這無疑給高校工作人員在短時間內造成巨大的壓力[8]。
基于本平臺所建設的能力,構建基于知識圖譜的智能招生咨詢系統,可以將考生與家長所關心專業信息、學科信息、就業信息等問題以圖結構進行存儲,并可利用本平臺提供的智能搜索服務,供考生和家長更便捷與高效地咨詢和檢索。系統根據用戶的自然語言問題描述,通過分詞搜索引擎,定位用戶問題或意圖,提取用戶問題或意圖相關的信息,組織生成針對用戶特定問題的回復,具體邏輯如圖4所示。
大學階段最重要的任務之一就是逐漸完成對從學生角色轉換到工作者角色的準備工作,大學教育是決定一個人成才與否的關鍵時期,將為畢業后離開象牙塔走向社會打下堅實的基礎。如何科學合理地安排自己的大學生活,為將來的就業和升學做好充足的準備,對于大學生而言至關重要[9]。
學生在考慮家庭因素(家庭經濟社會條件、父母期望等)的情況下,根據學生個人特質(性格、興趣、價值觀、能力、健康等)及生涯發展目標(達成什么成就、從事什么職業、過什么樣生活等),達成決策平衡并確立學涯目標。基于本平臺所建設的能力,針對大學生個體構建基于知識圖譜的新生個人畫像和基于知識圖譜的在校生個人畫像,通過使用平臺提供的圖檢索服務能力和匹配排序算法,匹配新生達到學涯目標所應制定的規劃維度和要素最優值,并利用平臺的推薦項生成服務,從德育、智育、體育、美育、勞育等方面進行推薦學涯規劃執行路徑方案,具體邏輯如圖5所示。


當前,由于經濟發展壓力增大、畢業生規模持續增加、疫情對就業的影響仍在持續等原因,高校畢業生就業形勢仍然嚴峻復雜[10]。面對上述問題,高校作為人才孵化培養基地,如何輸出滿足企業真實需求的人才是解決畢業生“就業難”和企業“找人難”等問題的關鍵所在[11],同時,將學校人才培養方案、學生已有綜合能力、用人單位招聘導向三者統一,是解決人崗不匹配現象的重中之重[12]。
基于知識圖譜引擎構建應屆畢業生就業能力畫像、已畢業學生就業情況畫像以及就業崗位需求畫像,通過利用平臺的關系檢索子圖服務能力(基于圖譜的多路徑召回和基于圖特征檢索)從已畢業學生的就業情況中檢索到適合應屆畢業生的相關崗位工作,并通過匹配排序算法與就業崗位需求進行匹配,確定市場上現有的類似崗位,進而將匹配結果反饋給應屆畢業生,以完成應屆畢業生的崗位匹配工作,具體邏輯如圖6所示。
本項目成果突破知識圖譜構建、知識圖譜推理、知識圖譜存儲及語義搜索、智能推薦、資源調度等關鍵技術,實現智慧校園搜索推薦交互及實現運營數據分析的智能化,大幅度提升用戶體驗及運營效率,并提出了在招生咨詢、學涯規劃、崗位匹配等場景中的解決方案。除此之外,利用平臺對外開放的接口能力組合,可實現在高校更多場景中的應用探索。