賴榮煊,鄒 順,吳文輝,吳欣澤
(1.國防科技大學信息通信學院,湖北 武漢 430015;2.中國人民解放軍31632 部隊,云南 昆明650000)
知識圖譜是一種利用圖模型描述知識并對客觀事物進行建模的技術方法,其以符號形式描述物理世界中的概念及其相互關系,基本組成單位是“實體—關系—實體”三元組,以及實體及其相關屬性—值對,實體間通過關系相互聯結,構成網狀的知識結構。
總體而言,知識圖譜本質上是一種用“圖”的形式描述客觀事物的語義網絡,由節點和邊組成,節點表示概念和實體,邊表示事物的關系和屬性,事物內部特征用屬性表示,外部聯系用關系表示。相比通用的關系型數據庫,知識圖譜具有高度結構化的特點,其組織知識的方式更接近人類大腦組織知識的方式,計算機也更容易處理。近年來,人工智能技術發展迅速,作為其中關鍵技術之一的知識圖譜被越來越廣泛地應用于搜索引擎、智能問答、個性推薦等多種場景,已成為國內外企業、研究院所甚至軍方研究的熱點。
知識圖譜按知識領域劃分,可分為通用知識圖譜和垂直領域知識圖譜。
(1)通用知識圖譜。通用知識圖譜不面向特定領域,包含了大量常識性知識,注重知識的廣度而不強調精度,其潛在使用者為普通用戶,主要應用于語義搜索、個性推薦等場景。具有代表性的大規模通用知識圖譜有YAGO[1]、DBpedia[2]、Freebase[3]、Wikidata[4]、NELL[5]、WordNet等,中文通用知識圖譜有Zhishi.me、SSCO、百度知心、搜狗知立方等。
(2)垂直領域知識圖譜。垂直領域知識圖譜面向特定領域,其基于行業數據構建,注重知識的深度與精度,所以又稱為行業知識圖譜,其潛在使用者為行業內的專業技術人員。也正是因為如此,垂直領域知識圖譜收納的知識需要具備一定的深度和完備性,才能充分發揮知識圖譜應有的作用。此外,垂直領域知識圖譜的專業性決定了其面對的數據具有相對嚴格與單一的數據格式。典型的垂直領域知識圖譜有中醫醫案知識圖譜[6]、GeoName[7]、Palantir[8]、中醫藥知識服務系統(TCMKB)、Open PHACTS[9]等。
作為人力、物力、財力、信息、時間五大資源中最重要的戰略性資源,人力資源在世界新軍事革命加速發展的浪潮中,在軍隊建設中的重要性日益凸顯。2015 年的軍改工作會議中指出,應加強軍事人力資源的集中統一管理,努力使軍事人力資源能夠轉化為實實在在的戰斗力。
人力資源管理是指運用現代化的科學方法,對與一定物力相結合的人力進行合理的培訓、組織與調配,使人力、物力經常保持最佳比例,同時對人的思想、心理和行為進行恰當的誘導、控制與協調,充分發揮人的主觀能動性,從而發揮最大能效。人力資源管理不僅要考慮組織目標的實現,還要考慮個人的發展,強調在實現組織目標的同時實現個人的全面發展。
軍事人力資源管理是指在國防軍隊的大背景下,以維護國家根本利益為最終目的的人力資源管理,所以軍事人力資源管理不僅是國家武裝力量的基礎,也是軍事潛力要素,直接影響國防安全和軍隊戰斗力。
軍事人力資源管理目標包括:①保證組織對人力資源的需求得到最大限度的滿足;②最大限度地開發與管理組織內外的人力資源,促進組織的持續發展;③維護與激勵組織內部人力資源,以最大限度地開發其潛能。
目前,中國人民解放軍現役軍隊人數總規模約為300萬,面對如此大規模的人力,如何對其進行高效管理是決定戰斗力高低的重要因素,關鍵時候甚至可以決定戰爭走向。本文旨在探究知識圖譜在人力資源領域的應用,致力于探索軍事人力資源高效、便捷的管理方式。
眾所周知,互聯網大數據具有“5V”特點,即:①數據量大(Volume)。大數據由分布在全世界各地的大量數據組成,體積從幾個TB 到幾個ZB,因此從采集到處理,再到存儲與計算,運算量都極其巨大;②種類與來源多樣(Variety)。主要分為結構化、半結構化和非結構化數據,包括文本、音頻、視頻、圖片、地理位置信息甚至工業上的工程文件等,多類型的數據對數據處理能力提出了更高要求;③數據價值密度相對較低(Value)。海量數據將不可避免地帶來數據冗余的問題;④數據準確性和可靠性較差(Veracity)。除數據冗余外,海量數據還會帶來數據沖突等問題,導致數據準確性和可靠性大大降低;⑤數據增長速度快(Velocity)。隨著各種傳感器的普及,以及微型計算機數量的爆炸性增長,無時無刻不在產生大量數據。
作為大數據的一種,軍事人力資源大數據由于其產生場景、應用場景以及面向用戶的特殊性而具有與互聯網大數據不同的幾個特點:
(1)高密級。軍事人力資源大數據包含關于整個國家的國防人力、物力、組織結構等極其重要的信息,密級程度極高。一旦發生丟失或泄密,將對國防安全造成不可估量的損失。
(2)數據價值密度高。由于軍事人力資源領域的數據在產生過程中會經過多次校準與核對,使得數據準確性和可靠性遠超過互聯網大數據,在應用之前甚至不需要進行過多的數據清洗處理。此外,軍事人力資源數據大多描述客觀事實或個體屬性,這些因素大大提高了數據價值密度。
(3)數據來源相對固定。軍事人力資源大數據主要來源于國防相關的組織、軍隊,描述對象也局限在與國防相關的人、組織、事件等。此外,由于其涉密性,導致數據體量雖大,卻大多集中在固定單位。
(4)數據耦合度高。軍事人力資源大數據內容覆蓋范圍相對集中,各業務部門所需數據不可避免有部分內容存在關聯,甚至可能出現內容重疊的情況,導致不同類數據之間的耦合度高于一般大數據。
在軍事發展的新階段,人力資源管理更加強調高度集約、統一管理,大數據技術也正是因其具有系統集約、精準、高效、便捷等特點,逐漸在軍事人力資源管理領域凸顯其重要作用,也為其帶來了新的發展機遇[10]。
目前,知識圖譜已廣泛應用于醫療、電商、金融、電力、教育等多個領域,如金融領域的信用評估、風險控制與反欺詐,以及醫療領域的智能問診等[11-12]。隨著軍事大數據的逐步積累,知識圖譜在軍事人力資源領域也發揮著越來越重要的作用[13-16]。
(1)軍事人力資源數據之間耦合度較高,不同數據之間往往有錯綜復雜的關聯,傳統數據庫不容易描述與存儲此類數據。相比于知識圖譜的數據存儲方式,傳統關系型數據庫具有聚合能力差、呈現方式不直觀、利用率低下、查找數據效率低等缺點,無法簡潔、直觀地存儲軍事人力資源大數據。相反,知識圖譜因其具有獨特的三元組知識表示方式,可以高效、簡潔地存儲高耦合度的數據,同時也更有利于從數據中提取知識。
(2)多維、多粒度數據可視化。例如,人力資源知識圖譜對個人的展示可從基本履歷、知識背景、人際關系、性格脾性等多個方面進行多維度的分析總結,也可從同一維度的不同粒度方面進行分析總結,最后通過可視化工具以2D或3D 方式進行展示。分析問題或個體/群體的任何角度都可以是一個或多個角度的交叉,根據維度數的不同,可分析出不同的潛在特性。同樣的,不同的分析粒度對總結結果的粒度也具有決定性影響。通過這種創建“萬維”動態報表的形式,知識圖譜可顛覆傳統數據展現技術需要由軟件人員事先一一定制再根據用戶指定條件實現可視化的方式[17]。
(3)有利于多源異構數據的統一管理。知識圖譜具有獨特的對現實事物的描述能力,通過知識圖譜的知識抽取技術和知識表示方法,可有效地將現有數據轉變為具有統一格式的知識,對于打破格式壁壘、解決數據孤島問題可起到重要作用。
(4)推動數據向知識、知識向行動的轉變。雖然人工智能技術給各個領域帶來了翻天覆地的變化,但目前的人工智能還處于弱人工智能階段,仍然脫離不了數據驅動、模型驅動的范疇,無法真正挖掘大數據蘊含的海量知識。知識圖譜技術本質上是一種結構化的語義網絡,旨在從數據中挖掘知識,并用圖的形式加以描述,其是推動數據向知識、知識向行動轉變的重要助力。
(1)數據源多源異構,數據清洗困難。軍事人力資源數據主要包括結構化數據(表格等)、半結構化數據(表格、制式文檔等)、非結構化數據(檔案材料、政策制度法規等)。數據來源成分復雜、結構各異,格式壁壘問題凸顯,導致了數據清洗處理成本增加、難以形成高效人力資源信息流等問題,給人力資源大數據利用造成了極大困擾。
(2)數據模式不盡相同,知識融合困難。知識融合是高層次的知識組織,使來自不同知識源的知識在同一框架規范下進行異構數據整合、消歧、加工、推理驗證與更新等,實現數據、信息、方法、經驗以及人思想的融合,形成高質量的知識庫。但在軍事人力資源領域,同一數據在不同用戶、不同使用場景、不同業務邏輯下的數據模式各不相同,甚至存在語義模糊、內容互斥等現象,數據擴展性差,維護與更新成本高,難以進行合理、高效的知識融合。
(1)基于增量數據的知識融合。軍事人力資源數據庫是在全量數據的基礎上,以增量數據的方式定期更新數據,以保證數據的可用性和準確性。軍事人力資源知識圖譜是在相關數據的基礎上,經過數據清洗、整合以及知識提取等過程而得到的語義網絡,同樣也需要通過增量數據的方式進行知識圖譜的擴展與更新。如何通過增量數據實現新知識與知識庫的高效融合及更新,是軍事人力資源知識圖譜構建的重要環節,也是軍事人力資源知識圖譜實現動態迭代的關鍵之一。
(2)數據字段屬性化嚴重情況下的實體關系抽取。關系抽取的目標是提取實體間的語義關系,其核心是將自然語言表達的關系知識映射到關系三元組上。傳統關系型數據庫中數據多以字段形式描述實體,數據內容注重描述實體屬性,以字段形式存儲在數據庫中,表間關系并不強,實體間關系不明確,導致數據對實體間的關系描述不清晰,甚至缺乏對關系的描述。例如,某人檔案涵蓋了其主要家庭成員關系,卻缺乏對其同事、上下級、同學等關系的描述,這些關系需通過對比他人履歷而得到。
因此,如何通過有限的屬性字段挖掘潛在的實體間關系,是構建軍事人力資源知識圖譜必須攻克的難題。
(3)準確、高效的知識推理方法。知識推理是指在現有知識基礎上,通過推理技術進一步挖掘隱含知識(知識補全)或自動檢測并糾正錯誤知識(知識勘錯/沖突檢測),從而擴展知識庫的過程。軍事人力資源數據在由傳統數據庫數據向知識圖譜轉化的過程中,受限于數據字段屬性化嚴重、部分數據無直接關聯,需要通過推理算法進行類別標注以及關系補全。研究準確、高效的知識推理算法,有助于推動現有數據向知識轉化,因此是軍事人力資源知識圖譜構建的重要方法之一。
此外,在與具體業務結合時,固定的業務邏輯、業務流程也是對現有知識的補充,有利于擴展知識推理的先驗條件。
(4)基于大圖的圖算法效率問題。傳統圖算法針對彼此獨立的“小圖”分別進行處理,盡管圖的數目可能較多,但通常不需要復雜的迭代過程,也不會產生大量消息,算法的時間開銷和空間開銷較低。
隨著相關數據的不斷產生,軍事人力資源知識圖譜不管是在知識廣度還是在深度上都不斷擴展,附著在頂點和邊上的各類屬性信息規模也隨之迅速增長。傳統圖算法因其本身的局限性難以做到既高效,又準確,已不再適用于軍事人力資源知識圖譜。因此,新的基于大圖的查詢處理、挖掘分析算法成為了最大程度利用知識圖譜的重要手段。
知識推理即利用現有知識,通過包括邏輯推理、知識表達、深度學習等在內的各種方法獲取新知識或總結出新結論,其在軍事人力資源領域的應用極具潛力,包括知識圖譜關系補全、數據一致性檢驗等,以下列舉幾個具體應用場景:
(1)人物關系挖掘。通過構建人際關系知識圖譜,可實現指定人物關系挖掘、人物關系強度評估等多種衍生應用[18-20]。指定人物關系挖掘,通過雙向搜索算法分別以指定人物為起點同時進行關系搜索,搜索路線成功對接時說明隱藏關系已找到。
(2)單位間關系挖掘。軍事人力資源數據對單位之間的關系通常未作過多描述,可對相關數據進行挖掘、分析與推理,獲取多個單位間的隱藏關系,如兄弟單位、上級單位、共同參加某次演習、項目往來(合作、分派、承接等)、相同主官等,最后通過可視化技術進行展示。
(3)數據不一致性檢驗。在知識不確定和不完整的情況下完成知識推理,以全量或增量方式對現有知識圖譜進行知識補全與知識勘錯。通過業務規則、常識性邏輯對現有數據或增量數據進行知識推理與檢測,查找驗證出不一致數據[21-23],如對人員檔案、科技報獎證明材料進行數據不一致驗證等。
基于現有知識圖譜抓取指定信息進行總結、分析與整理,最后進行可視化展示。
(1)人際關系圖譜構建。根據人員的家庭關系、教育背景、工作情況等數據生成人員關系知識圖譜,主要展示實體之間的關系,如家庭關系、同學關系、上下級關系、戰友關系、工作搭檔關系、師生關系等[18-20]。
(2)單位履歷圖譜構建。根據單位的網站內容(包括新聞、通知等板塊),利用事件抽取技術獲取單位成立至今的大事記、歷任領導班子等信息,最后通過可視化技術進行展示。
在軍事人力資源知識圖譜基礎上,利用數學建模、深度學習等多種方法分析數據,針對不同應用領域合理建模,從而解決實際問題,達到數據最大化利用、有效提高人力資源管理效率的目的。
(1)人物關系強度評估。挖掘實體潛在關系,結合現有實體屬性、關系等因素建立時間、關系種類、關系跳數等,并通過合理建模綜合評價人物關系強度[24]。
(2)個人垂直領域畫像。針對不同類別的人員(如高級領導干部、基層官兵、院校教員、科研機構研究人員等)劃分不同垂直領域,綜合個人教育程度、培訓情況、工作經驗、項目經驗、研究領域等方面信息,深層次挖掘對應垂直領域的個人畫像。具體可應用于個性推薦(如培訓指導、能力擴展建議、查找缺失能力項等)、編成推薦(如攻關團隊自動推薦、評審專家自動推薦)、干部成長路線規劃(發展方向)等[25]。
(3)人崗匹配。從現有數據庫中提取個人教育背景、培訓經歷、項目經驗、工作履歷等信息,總結提取性格、能力、素質、技能等多方面標簽。在預置崗位要求下進行相似度匹配,相似度高的說明更加適合該崗位。合理利用自然語言處理技術、深度學習、統計分析等方法,做到“人盡其才,物盡其用”[26]。
(4)職業發展規劃。傳統的軍事職業生涯規劃方法內容單一、手段欠缺、思想落后、規劃簡單、考察片面,造成人員逆淘汰,大量人員流失。在軍事人力資源大數據的強力支撐下,通過深度學習、圖神經網絡等技術總結分析同類型高層次人才的成長路線、成長事跡、獲得榮譽/獎項等事件,構建基于軍事人力資源大數據的知識圖譜,通過事件抽取、演化分析等技術生成職業成長路線以供選擇與參考[27]。
步入新時期,中國人民解放軍正進行全面改革,也是一次以最大程度激發軍隊戰斗力為目標的軍事人力物力合理重分配。隨著知識圖譜等人工智能技術的普遍應用,知識圖譜已成為互聯網知識驅動智能應用的重要方法。其有利于軍隊發揮最大合力,以及實現軍隊軍事人力資源管理的智能化、無人化,可為提升人力資源管理效率提供重要的技術支持。
目前知識圖譜在軍事人力資源領域的發展與應用仍有大片空白,未來的發展方向主要包括:
(1)由數據驅動到知識驅動的過渡。數據驅動的人工智能能夠不斷從新數據中學習,并適應外部環境變化,提供可靠的預測分析結果,卻無法實現從數據層次到更深層次的理解,這不僅限制了模型的通用性、魯棒性和可移植性,也增大了不同任務的實現難度。數據驅動的本質缺陷在于只能學習重復出現的片段,而不能學習具有語義的特征。
知識驅動的人工智能可對這些數據資源進行語義標注與鏈接,建立以知識為中心的資源語義集成服務。在大量知識資源的支持下,可通過概念推理、語義計算等方法發現新知識,實現類似人類的認知功能。
研究從大數據中挖掘隱含知識的理論與方法,將大數據轉化為知識,增強對軍事人力資源數據的內容理解,是知識圖譜發展的未來方向,也是軍事人力資源管理由數據服務向知識服務轉變的重要驅動力。
(2)軍事人力資源領域知識圖譜的應用,歸根結底是對軍事人力資源大數據的應用。如何針對軍事領域的特殊要求,研究特殊管控與處理技術是有效利用軍事人力資源大數據的“基建工程”,包括能適應數據快速增長及多變需求的數據存儲管理技術、知識自動挖掘/推理分析技術等。