龔海波 陸渝 劉波 劉小菁
廣西產研院人工智能與大數據應用研究所有限公司 廣西 南寧 530201
隨著人工智能和大數據技術發展日益成熟,以知識圖譜為代表的應用模式開始受到廣泛關注。知識圖譜是以結構化形式描繪實體以及其相關元素之間關系的語義網絡,包括語義、邏輯含義和規則,通過三元組即“實體-關系-屬性”集合的形式來描述事物之間的關系。知識圖譜在多個領域已有應用,如我們日常使用新聞資訊信息流、短視頻應用的智能推薦等都運用了知識圖譜。本文主要介紹知識圖譜的相關技術特點,以及結合柔性數據治理策略下的知識圖譜構建過程。
知識圖譜(Knowledge Graph)的概念由谷歌在2012年提出,是以結構化形式描述的知識元素及其聯系的集合,主要由實體、概念及其之間的各種關系組成的大規模語義網絡。
知識圖譜的實體可以是現實世界中獨立存在的具體對象,也可以是一種抽象概念,對應知識圖譜中的節點/頂點(Point/Vertex)。實體與實體之間的外部聯系,對應知識圖譜中的邊(Edge)。屬性是指實體內部的本質特征,是實體的固有特性,一般不體現在圖表征結構中,而是蘊藏在實體內部或關系內。
知識圖譜平臺可分為4層結構,即基礎服務層、存儲服務層、圖譜服務層、圖譜應用層,基于此模式下構建的知識圖譜平臺,可以支撐多種業務場景的應用。
1.2.1 基礎服務層?;A服務層主要提供平臺的服務器資源、網絡資源等底層的基礎服務能力。根據不同的場景特性,可以使用公有云、私有云或者混合云模式。為更好地與上層服務對接適配,應構建IaaS適配器實現多種服務模式整合與適配。
1.2.2 存儲服務層。存儲服務層實現知識數據的存儲相關服務。根據不同的數據類型,提供多種數據庫的存儲服務支撐,如非關系型數據MongoDB、關系型數據庫MySQL等?;诮y一、標準化和規范化的SQL語言,可以實現平臺存儲服務的國產化適配,如對達夢數據庫、人大金倉等國產數據庫服務商的數據庫產品實現兼容或切換。
1.2.3 圖譜服務層。圖譜服務是知識圖譜平臺的核心,實現了完整的數據匯聚處理、知識抽取、知識融合、知識加工等圖譜構建和應用過程。在此過程中,知識管理模塊實現監控和管理,保障知識圖譜構建全流程順利執行。此外,知識質量評估模塊負責對知識在使用過程中進行評估,從而實現知識的迭代更新,持續提升知識圖譜的服務質量。
1.2.4 圖譜應用層。依托圖譜服務層對知識數據進行融合和加工處理,圖譜應用層可以提供直觀可視化方式或符號形式的應用,支撐不同業務場景的需求。如基于警務大數據構建的知識圖譜,可通過鏈路預測、最短路徑等圖算法,深度挖掘實體復雜的網絡關系,應用在公安系統中實現嫌疑人行為的關聯分析。在個人消費者領域,基于知識圖譜可以搭建智能客服系統,通過分析用戶自然語言問題的語義,進而在已構建的知識圖譜中通過檢索、匹配和推理等方式,獲取正確答案,自動化、智能化解決用戶問題。
以政務大數據治理為例,現有政務數據治理和云服務平臺在系統構架擴展性、定制性(彈性)方面存在較大問題,使得系統難以修改和擴展,難以快速響應用戶/業務部門對功能的修改和功能擴展需求。
現有政務系統存在各部門數據共享及業務互通性差的問題,一是系統開發者對業務不熟悉,缺乏對各部門業務和數據的統一梳理。二是各系統在數據格式和標準上的不一致,導致互通和共享有困難。三是現有系統在技術構架上沒有一套能適應各種來源數據共享和互通方面的機制,對新的子系統的增加不能很好地融合。
柔性治理策略為解決數據治理難題帶來新的思路?!耙匀藶橹行摹钡恼嵝灾卫砝砟?,就是減少控制性手段,增加管理彈性。在政務數據領域,多元數據主體標準不一,存在較多模糊與不確定性。通過柔性治理策略,實現構建多元主體之間的動態的,扁平化、網絡化的關系結構,可以主動適應變化,支持柔性靈活的治理結構,實現動態平衡的治理生態。
柔性治理技術架構為處理這種柔性關系結構創造條件和平臺,有效支撐多主體之間更加快速有效的合作互動,也同時輔助實現多元主體在這種相互依賴關系中充分信息共享,資源交換,保障協作治理過程的開放、透明和包容,既實現協作的協同一致,又保持各自獨立性。
柔性治理從3個方面為上述難點提供解決方案:柔性流程管理、柔性功能定制、柔性數據管理。通過將基于流程模板化(及可視化)定制和自動化生成技術,對流程審批等流程管理功能進行快速定制和開發,實現數據治理流程服務的柔性定制開發;基于參數配置和腳本自定義的技術框架,快速實現對功能模塊的修改和自定義,實現柔性功能定制[1]。在柔性數據管理上方面建立一套過程數據和知識數據分離的數據存儲和管理構架,同時對業務數據進行解耦和關聯性分析,在對公用數據和專用數據進行分類的基礎上,建立適應各種業務數據的數據結構、數據存儲形態和數據交換標準及接口,解決數據交換和共享問題。通過使用柔性治理技術框架,結合微服務和松耦合技術構架,全面提高系統的定制能力、可擴展性和運行性能。
目前傳統大數據平臺難以真正落到應用的根本原因在于缺少智能化的手段,平臺匯聚的大量數據無法有效組織,缺少能像人腦一樣能夠理解數據內涵的知識引擎。知識圖譜則是構建這樣的知識引擎來實現大數據應用落地。通過提煉、萃取、關聯、整合數據,重組和鏈接各個數據單元之間的聯系,以類似人腦神經元細胞的方式呈現數據實體關系,知識圖譜已經成為知識引擎的核心,成為大數據落地應用關鍵技術之一。
知識圖譜構建和應用過程,主要分為4個階段,即知識匯聚階段、知識抽取階段、知識融合階段、知識加工階段,最終為各種場景下的應用提供知識服務能力。
數據是知識圖譜的基礎。數據類型包括結構化數據、半結構化數據和非結構化數據。在知識匯聚階段的主要工作就是通過數據處理技術實現數據的統一化,標準化和結構化。在實際應用中,多源異構的數據存在歧義沖突、噪聲大、質量不高等問題。不同來源的數據有著不同的質量,需要不同的數據加工方式。常用的數據加工技術包括數據結構化、數據識別、數據清洗和數據轉換等,如對于政策制度、法律文書、協議合同等長文本類型的半結構化數據,一般采用NLP技術實現關鍵信息的結構化處理;對于視頻、音頻等非結構化數據,則需要通過視頻分析、語義分割等技術實現結構化轉換。
知識抽取是構建知識圖譜“實體-關系-屬性”三元組的過程。主要包括實體抽取、關系抽取、屬性抽取、事件抽取等。通過以下步驟實現:①從數據集中識別出實體;②抽取實體之間的關系,形成關系網絡;③從不同的信息源中采集特定的屬性信息。目前知識抽取主要采用基于神經網絡的方法,如通過構建預訓練語言模型BERT進行編碼,并結合CNN、RNN等算法進行抽取。知識建模階段需要行業專家參與支持模式設計、業務場景構建等工作。在專家的指導下進行知識抽取和構建,若涉及文本抽取工作還需要行業專家進行數據標注,整個知識抽取流程不僅涉及知識圖譜算法,還涉及底層的圖數據存儲與數據治理、NLP文本抽取和語義轉換,同時各環節都需結合機器學習相關的底層人工智能技術,需要多個技術領域的專業人員協同合作。
因為知識抽取來源多樣,不同的來源得到的知識不盡相同,知識融合階段需要完成實體對齊、屬性融合、值規范化等工作,將來自不同的知識源的知識在同一框架規范下進行異構數據整合、消歧、加工、推理驗證、更新等步驟,達到數據、信息、方法、經驗以及人的思想的融合,形成高質量的知識庫。主要通過以下步驟進行[2]:①完成指示代詞與先行詞的合并;②完成同一實體的歧義消除;③將已識別的實體對象,無歧義地指向知識庫中的目標實體。實體沖突處理用來判斷知識庫中的同名實體是代表同一含義、是否有其他實體也表示相同含義,識別不同來源的同一實體。解決同名實體產生沖突和歧義,通常采用聚類法、空間向量模型、語義模型等。屬性歸一是識別同一屬性的不同描述。不同來源的數據值通常有不同的格式、不同的單位或者不同的描述形式。比如日期、地址等表達方式,這些需要規范化到統一格式。
知識加工的主要任務包括知識推理和知識質量評估。主要包括以下步驟:①構建知識概念模塊,抽取本體;②進行知識圖譜推理,通過知識推理識別和推斷出隱藏或未知的語義,并構建新的知識網絡;③對知識圖譜的可信度進行量化質量評估,評估過關的知識圖譜可以流入知識圖譜庫中存儲,評估不過關的知識圖譜需要返回數據環節進行調整,而后重復相同環節直到評估過關。
柔性治理的策略在知識加工環節應用尤為重要[3]。對于已經構建完成的知識圖譜,其知識網絡并非“剛性不變”的,需要實現柔性化機制,以適應知識網絡的迭代更新。在知識圖譜使用過程中,通過建立反饋模塊獲取知識更新要素,并結合知識加工流程,將更新的知識要素通過知識推理進行重新識別和推斷語義,以更新的知識網絡,最終實現知識圖譜的迭代更新。
知識圖譜在行業的落地應用需要有業務知識和技術背景的專業人員來實現。由業務專家參與支持模式設計、業務場景構建,與技術人員進行深入溝通,依托知識圖譜平臺,將業務與技術團隊協同推進,才能完成知識圖譜的構建和應用。
從知識圖譜的構建技術看,它經歷了由人工構建到自動獲取、構建的過程。人工構建是早期知識圖譜構建的主要方法,得益于結構化和半結構化數據的積累,結合特征工程機器學習算法,已經能夠逐步實現自動化構建知識。在一些數據質量要求較高領域,如醫療、安全和金融等,仍需通過人工審核保證準確性。這是知識圖譜技術發展需要經歷的一個過程,隨著知識圖譜持續增大,數據節點同步增加,邊和屬性同步會帶來幾何倍增長,人力方式已經無法支撐校驗知識圖譜的質量,這將要求技術演進逐步實現算法自動進行校驗,最終實現自動化構建。
知識圖譜目前已經廣泛應用于政務服務場景和企業服務領域。如在政務服務場景,依托物聯網感知設備構建的對大氣、水利、土壤等空天地環境監測網絡,通過海量原始數據的采集,構建知識圖譜[4]。應用知識圖譜實現可視化結構復雜的原始環境數據,梳理挖掘環保對象、環保流程、環保措施等數據之間的關系并轉化為知識庫,對環境數據進行實時、立體化監控,進行對環境質量趨勢的長期跟蹤和分析研判,對質量異常波動和各類環境污染事故做出預警,提升管理能力,輔助精準決策。
在企業服務方向知識圖譜也有廣闊的應用前景。例如針對制造型企業自身業務體系龐大,數據多元且知識結構復雜的特性,通過知識圖譜技術,將人力資源、生產車間、生產物料、機械設備、生產工藝等基礎數據進行知識抽取、建模、融合和加工,構建知識服務平臺,建立企業管理全流程知識圖譜,可以提高生產流程中問題的預見和解決能力,提升資源配置效率、生產效率和產品質量。
在個人消費領域,應用大數據進行精準營銷和服務的模式已經得到充分驗證。從產品設計、銷售到售后的過程中,利用信息化系統積累大量的用戶數據,基于知識圖譜的能力打通并與業務場景結合,利用數據驅動業務增長提高業務效率,是數字化賦能消費行業升級的一種新趨勢。隨著市場競爭性增加,商家希望通過增強對客戶的數據洞察能力,盡可能地準確理解和深度挖掘客戶的差異化需求,與自身產品和服務進行匹配,從而實現精準觸達,縮短獲客時間,降低營銷成本。基于知識圖譜技術匯聚多源客戶信息,構建客戶多維畫像和標簽體系,在個人及零售業務中,能將客戶的關系、事件、行為等進行關聯,在整個業務周期對客戶屬性進行動態、實時的描繪,深度分析客戶喜好,實現產品的精準匹配推薦,發掘出有價值的營銷線索。
綜上所述,以柔性治理策略下的知識圖譜將有效促進人工智能與大數據、物聯網等技術的融合發展,推動數據智能,從而實現產業智能化升級。