









摘 要 構建健身運動知識圖譜可以為人們科學運動提供直觀便捷的指導,對推動健身研究領域的發展和促進人們身體健康具有重要意義。而如何全面獲取科學健身運動的多模態知識,并進行系統的關聯和集成以及形成多模態知識圖譜,目前相關研究較少,且面臨著諸多挑戰。針對上述問題,利用自然語言處理、深度學習技術、視覺識別技術等,以人機結合的方式探索構建多模態科學健身運動知識圖譜。具體步驟包括:1)數據選擇和處理,確保知識圖譜的基礎數據可靠且全面;2)設計多模態知識體系,以整合文字、圖像等多種信息形式;3)運用關鍵技術獲取知識,特別是將運動視頻轉換為細粒度運動文本進行描述;4)構建可視化平臺,使知識圖譜更加直觀和易于使用。通過系統地關聯和集成多模態的健身知識,構建了一個包含豐富信息的健身運動知識圖譜。該圖譜系統不僅能夠有效地將運動視頻轉換為詳細的文本描述,還能可視化地直觀展示圖片、視頻等信息,為用戶提供易于理解和使用的科學運動指導。多模態科學健身運動知識圖譜的構建,為其在健身方面的應用提供了重要參考。這表明,多模態知識的獲取和集成是實現科學健身指導的重要途徑,能夠有效推動健身研究領域的發展以及促進人們的身體健康。
關鍵詞 多模態知識圖譜;知識獲取;科學運動
中圖分類號:G80-05 學科代碼:040302 文獻標志碼:A
DOI:10.14036/j.cnki.cn11-4513.2024.05.002
Abstract Constructing an exercise knowledge graph can provide intuitive and convenient guidance for scienti-fic exercise, significantly contributing to the development of the fitness course and the promotion of public health. However, there are currently few studies on how to comprehensively acquire multi-modal knowledge of scientific exercises and systematically integrate this knowledge to form a multi-modal knowledge graph. This task faces numerous challenges. To address these issues, we explore the construction of a multi-modal scientific fitness exercise knowledge graph using natural language processing, deep learning, and visual recognition techn-ologies in a human-machine collaborative manner. The specific steps include: 1) data selection and processing to ensure the reliability and comprehensiveness of the foundational data for the knowledge graph; 2) designing a multimodal knowledge system to integrate various forms of information, such as text, images, and videos; 3) empl-oying key technologies to acquire knowledge, particularly converting exercise videos into fine-grained textual descriptions; 4) building a visualization platform to make the knowledge graph more intuitive and user-friendly. By systematically relating and integrating multi-modal fitness knowledge, we have successfully constructed a fitness exercise knowledge graph rich in information. This graph not only effectively converts exercise videos into detailed textual descriptions but also intuitively displays the information through a visualization platform, providing users with easy-to-understand and user-friendly scientific exercise guidance. The construction of the multi-modal scientific exercise knowledge graph provides an important reference for the construction and appli-cation of knowledge graphs in the fitness field. This indicates that acquiring and integrating multi-modal knowledge is an essential approach to achieving scientific fitness guidance, which can effectively promote the development of the fitness course and enhance people's health.
Keywords multimodal knowledge graph; knowledge acquisition; scientific exercise
隨著社會的進步和生活水平的提高,體育健身成為人們追求健康生活的主要方式?!度窠∩碛媱潱?021—2025年)》和《關于構建更高水平的全民健身公共服務體系的意見》等政府文件的發布和落實,使得體育健身的社會氛圍愈加濃厚。近年來,國內外學者也從不同的角度和層次對科學健身運動的理論、技術等方面進行了深入的研究和探討,涉及體育學、運動醫學、計算機等多個學科領域,形成了一些有價值的研究成果[1-3]。然而,如何全面獲取這些科學健身運動的相關知識,并進行系統的關聯和集成,形成知識圖譜,目前相關研究還比較少,面臨著諸多挑戰。
知識圖譜及其相關技術是人工智能知識工程領域的發展方向之一。知識圖譜最初由Google提出,目的是優化搜索引擎反饋的結果和提高用戶搜索質量。知識圖譜構建技術則是利用自然語言處理、數據挖掘、機器學習等技術對海量數據進行加工和分析,從中獲取常識知識和領域知識,并用圖狀概念模型來描述這些知識,從而建構真實世界中的概念及其相互關系的技術。知識圖譜通常分為通用知識圖譜和領域知識圖譜。其中:通用知識圖譜不指向特定領域,會包含大量常識知識;而領域知識圖譜則指向某個具體的專業領域,強調知識的深度,包括該領域的特色知識。領域知識圖譜因具有更實際的應用場景而受到了廣泛的關注,目前多數應用于電商平臺、金融、科技情報、生物醫藥等相關領域[4-6],健身運動方面的知識圖譜構建工作還較為少見。
傳統的知識圖譜大部分以純文本形式表示,而健身運動方面有大量圖片、視頻等數據,其中豐富的多模態知識能夠更高效地幫助并指導科學健身,例如,在視覺模態中,運動實體的位置關系可以被輕易地識別。然而,這些多模態知識無法被傳統知識圖譜所包含。因此,將知識符號與文本之外的其他模態數據(如圖像、聲音等)關聯,即多模態化,對科學健身運動知識圖譜的構建具有重要意義。近年來,一些多模態知識圖譜陸續出現[7],大部分是在傳統知識圖譜的基礎上將一部分知識多模態化得到的多模態知識圖譜,并應用于推薦系統[8]、電子商務[9]、問答系統[10]等垂直領域,然而目前在健身運動領域還沒有知識多模態化的有效實踐。
構建科學健身運動多模態知識圖譜的工作面臨著諸多挑戰,其中,如何有效地獲取高質量的多模態健身運動數據、如何將這些異構數據進行融合并解決模態之間的不一致性和沖突、如何進行有效的跨模態推理、如何動態地更新知識圖譜,以及如何處理新出現的模態數據等問題都需要解決。針對上述挑戰,本研究利用自然語言處理與多模態處理技術探索構建科學健身運動多模態知識圖譜,文中將介紹該知識圖譜構建的總體方案、描述體系設計、知識獲取技術等。
1 研究現狀
1.1 多模態技術在運動領域的研究現狀
對人體運動的多模態研究開展已久,并產生了一些成果。這些成果主要研究視覺-文本多模態學習和運動-文本多模態學習。在視覺-文本多模態學習研究中,分析對象為包含著人體運動的圖片或視頻;而在運動-文本多模態學習研究中,運動是一種獨立的模態,可以實現與文本的對齊。
構建視覺信息與標注文本一一對應的數據集是視覺-文本多模態學習的基礎。根據涵蓋范圍不同,現有的視覺數據集可以分為通用數據集和專業數據集。通用數據集規模較大,廣泛涵蓋各個主題,如圖像數據集COCO、視頻數據集MSR-VTT等。這些數據集可以為表征學習提供豐富的知識,但在人體運動這一特定領域的任務上表現不佳。專業數據集只涵蓋某一細分領域的數據,適合在特定任務上改善模型表現,如只包含烹飪視頻的Youcook2數據集。近年來,有一些研究聚焦于運動領域專業數據集的構建和理解,如籃球賽、足球賽等集體性體育賽事的視頻數據集。一項細粒度運動視頻描述研究收集了2 000個籃球比賽視頻,人工標注構建數據集,并建立了自動生成比賽場實況的描述模型[11]。除了人工標注之外,還有一些研究使用現存的與視頻匹配的文本構建數據集,諸如比賽中的解說詞或直播平臺的實時評論[12]。這些研究更側重于運動場實況的整體描述,缺少對運動技術的深入研究。
運動-文本多模態學習研究包括人體運動圖像或視頻與文本描述的相互轉化等任務。例如:運動到文本的轉化,即運動描述任務,指的是給定運動圖片或視頻數據,通過模型生成對該運動圖片或視頻數據的文本描述;文本到運動的轉化,即運動生成任務,指的是給定文本,通過模型生成符合文本描述的運動表現,并將其可視化為圖片或視頻,有時會將運動的初始狀態、結束狀態或中間狀態作為約束條件。
人體運動作為一種單獨的模態,通常使用姿態提取獲得模型,并將其轉換為相對于父關節旋轉角的表現形式[13]。父關節是指在骨骼層次結構中位于某個關節(稱為子關節)上一級的關節,決定了子關節的參考系。近期的運動-文本多模態學習模型主要采用編碼器-解碼器結構,這些模型通常使用矢量量化變分自編碼器(VQ-VAE),可以將連續的運動表現轉化為離散的詞元。將運動表現轉化為詞元后,運動可以被視為一種特殊的語言,運動和語言之間的跨模態轉換則是一個機器翻譯問題[14]。隨著預訓練模型的變化,越來越多的研究將預訓練模型與運動-文本模型進行結合。例如:MotionCLIP在訓練運動自編碼器時將運動的特征空間與CLIP的特征空間對齊,使運動特征和對應的文本、圖片特征相接近[15];MotionGPT將運動自編碼器獲取的運動詞元和文本詞元混合,在T5模型的基礎上繼續預訓練,隨后在現有數據集的基礎上建立了一個運動-文本的指令數據集進行指令微調[16]。以上多模態技術都可以用于健身運動知識圖譜構建。
1.2 知識圖譜相關工作
知識圖譜的概念于2012年出現,最初用于優化搜索引擎反饋的結果。隨著相關技術的不斷發展,知識圖譜作為一種高效的知識表示形式,逐漸在各領域得到了廣泛的應用[17-18]。知識圖譜可以看作是結構化的語義知識庫,以符號形式描述物理世界中的概念及其相互關系,其基本組成單位是實體及其相關屬性構成的鍵值對,實體間通過關系相互聯結,構成網狀的知識結構。作為一種結構化的知識,知識圖譜在學術界和工業界都引起了廣泛的研究關注[17-18]。
知識圖譜一般分為通用知識圖譜和領域知識圖譜。相較于通用知識圖譜,領域知識圖譜指向某一特定領域,專業性強,較有權威性,知識表示相對困難,在構建過程中需要專家的深度參與。目前,領域知識圖譜大多應用于互聯網行業,研究內容主要是知識的獲取和表達等,而其余研究分布在礦產、汽車制造等行業。例如:葉帥結合礦產學科知識的組織結構,構建出煤礦知識圖譜的本體,形成了煤礦領域知識圖譜系統[19];魏卉子提出一種煤礦安全概念知識庫半自動化構建方法,為煤礦安全融合知識圖譜構建做了初步探索[20];袁芳怡將定量知識與定性知識相結合,建立了指向制造業的知識圖譜[21];許力基于網絡公開數據構建了汽車制造領域的知識圖譜[22]。
隨著多模態技術的發展,多模態知識圖譜成為新興研究熱點。根據不同的構建方法,一般將多模態知識圖譜分為2類:一類是將其他模態的數據如圖片、視頻視為文本實體或關系的屬性;另一類則是將各模態數據均作為獨立的實體節點。在將圖像作為實體的關系圖譜中,通常使用視覺模型提取知識。Neil使用預訓練的分類器為每個圖像標注單一標簽,并通過提取實體位置存在的啟發式規則分析視覺關系[23]。Gaia可以通過目標識別和細粒度分類提取新聞中的細粒度概念[24]?;贕aia的框架,Resin可以提取視覺新聞事件的概念,并在小規模數據基礎上將識別的相關視覺實體和概念作為基本元素[25]。
檢索也是多模態知識的重要獲取途徑之一。Image-Graph可以將知識圖譜中的實體作為查詢條件,在搜索引擎中搜索圖像[26]。在此基礎上,通過MMKG在多個知識圖譜中對準實體。為了使檢索獲取的圖像盡可能全面地反映實體[27],圖像的多樣性十分重要。因此,Richpedia訓練了一個額外的多樣性檢索模型來選擇多樣化的圖像,但其中的實體類別僅限于城市、景點和人物[28]。此外,有研究者認為,許多抽象實體無法可視化,所以應從最典型的可視化實體開始,迭代地挖掘其他相關的可視實體[29],然而Visual Sem的規模也遠遠不能滿足下游應用的知識需求。由此可見,為了滿足下游應用的需求,需要從不斷增長的海量互聯網數據中自動獲取知識。而如何自動而有效地獲取多模態數據,并從數據中識別多模態的實體、實體間關系以及實體的屬性值,是一個極具挑戰性的問題。
2 健身運動知識圖譜構建總體方案
本研究中構建的多模態健身運動知識圖譜,不僅可以作為知識庫服務于運動姿態糾正等任務,還能夠直接面向大眾,為大眾運動健身提供有效指導。因此,知識圖譜應當包含便于人類理解的細粒度描述文本,同時結合多模態信息,如圖片、視頻等,將運動技術直觀可視化。基于以上考慮,本研究設計了健身運動多模態知識圖譜構建的整體流程,如圖1所示。首先,針對科學健身運動技術指導和主動健康知識的檢索和推介需求,研究多模態知識圖譜知識0SdmY07ZUQh4P5k4DU7Y7u15+gawikITTUkzQQ6XwNk=體系的分類規范。在知識體系規范的基礎上,獲取相關的多模態健身運動技術數據,并研發健身運動知識、健身實體屬性和健身實體之間關系的知識抽取技術,將這些知識進行融合建立知識圖譜庫,最后將科學健身運動技術知識圖譜可視化呈現,從而可以滿足健身運動知識檢索和推介的需求。
具體而言,首先在理論層面結合體育專家和運動醫學專家的指導及專業知識,梳理和設計多模態健身運動知識體系。為了高效獲取大量的、高質量的多模態標注數據,可以使用機器學習方法和大語言模型輔以專家校對進行標注,從而加深知識圖譜構建的自動化程度。在多模態知識圖譜的構建過程中,通過實體抽取、關系抽取和屬性抽取可以逐步遞進地提取與健身運動技術相關的知識。其次是基于科學健身運動技術的知識檢索和智能推薦等需求,搭建知識圖譜可視化平臺,對科學運動健身多模態知識圖譜進行可視化展示。
3 健身運動知識描述體系設計
當前,體育運動領域的知識體系并沒有一個統一的規范,所以在設計健身運動知識圖譜的描述體系時,從實用角度出發,參考現在主流的運動知識分類標準,綜合考慮健身人群、健身方式、身體機能、運動損傷等因素,以運動技術為核心,以促進全民健身為目標,選擇了力量訓練、瑜伽、球類運動等運動類型,構建科學健身運動知識圖譜。
知識圖譜可以視為結構化的語義知識庫,主要用符號描述物理世界中的概念及其相互關系,知識表示形式通常為(實體-關系-實體)和(實體-屬性-屬性值)2類。本研究依據前人的工作也把知識圖譜定義為一個有向圖,可以形式化為六元組:G=<E,R,A,V,TR,TA>。其中:E表示實體集合;R表示關系;A表示屬性集合;V表示屬性值集合;TR=E×R×E表示實體關系三元組集合;TA=E×A×V表示實體屬性值三元組集合。在對實體進行多模態化時,可以在知識圖譜中融入圖片、視頻等多模態知識。
為了更好地定義和描述科學運動健身知識,本研究根據不同的健身運動的特點設計了知識圖譜的本體,定義了實體的種類、每個種類的實體具有的屬性、實體之間的關系集合等。以健身運動為例,構建多模態知識圖譜的體系,如圖2所示,針對健身運動的特點,以及根據需要在知識圖譜中融入多模態知識的要求,定義如表1所示的實體類型。
采用將圖片、視頻等其他模態單獨作為實體節點的方式構建知識圖譜,一方面可以確保不同模態具有同等作用,使知識圖譜能夠表示不同模態知識之間的關系,另一方面可以避免不同模態直接融合的錯誤。對于不同類型的運動,主要運動實體也會有所變化,如瑜伽和球類運動,其身體部位是重要的運動實體,而肌肉不是主要的運動實體。
基于上述運動實體的定義,針對健身運動界定運動實體之間的關系,見表2。
需要注意的是,這些實體和關系類型用于指導自動獲取知識,在知識獲取過程中,也會進一步調整知識類型。
4 健身運動知識獲取技術
4.1 數據來源
為了確保所獲取知識的專業性和廣泛性,需要采集多種來源的數據,由于結構化數據很難得到,一般只能獲得半結構化數據或非結構化數據。其中:半結構化數據來源于百科、專業運動健身網站等信息發布網站,這些網站已經對知識進行了歸納和整理,實現了一定的結構化,相對容易從中獲取需要的運動知識;非結構化數據則來源于書籍、論文、公開的健身運動網頁等,如《力量訓練與運動機能強化指導》《美國國家體能協會力量訓練指南》《老年人運動健身指南》。與此同時,還拍攝和錄制了一些專業化的運動動作,以確保獲得高質量的圖片、視頻等多模態數據。對于半結構化數據,根據數據源的結構解析數據,利用前文定義的運動本體框架即可提取所需知識。對于非結構化數據,則需要應用自然語言處理技術、大語言模型技術等自動獲取知識。
4.2 基于文本的知識獲取技術
非結構化文本是多模態知識圖譜構建的重要數據來源之一,而構建的核心在于從其中進行知識獲取。命名實體識別和關系分類是知識獲取的基礎任務。命名實體識別(NER)是指識別文本中的實體,并判斷其類型。通常最簡單的方式是利用規則得到文本中的實體,需要針對不同領域總結不同的規則,從而導致實體識別的召回率偏低。同時,實體在文中的表現形式也非常靈活,可以為扁平實體、嵌套實體和不連續實體[30-31]。例如,在“引體向上主要是練習背闊肌外側和上側”的文本中,“引體向上”為扁平實體,但是“背闊肌”和“背闊肌外側”同為身體部位,是2個嵌套的實體,“背闊肌上側”則為不連續實體。近年來,研究者通常用序列到序列生成式方法統一識別各種實體類型[32],即輸入要分析的語句,直接輸出若干個實體名稱及其類型。使用生成式方法識別命名實體一般存在訓練和預測目標不一致的問題,訓練使用交叉熵損失函數,而預測指標卻是準確率、召回率和F1,兩者之間存在差異。為了解決這個問題,本研究采用了一種基于重排序的序列似然校正方法[33],基于對比學習根據模型生成的候選項質量來校準模型的輸出,可以改善模型生成效果,增強實體識別的性能。在對文本完成實體識別、得到實體之后,關系分類能夠判斷一對實體之間的關系類型。如上例所示,“引體向上”和“背闊肌上側”已經被識別為實體,需要判斷兩者為“鍛煉”關系。運動領域的標注資源有限,難以使用監督學習方法。一種可能的方式是直接使用句法分析,通過分析句子結構并根據預定義規則判斷實體關系,但句法分析規則的局限性影響了關系分類的正確性??紤]到大語言模型在文本處理上的突出作用,嘗試使用大語言模型上下文學習方法對關系類型進行標注。由于不同運動類型的關系類型具有較大差異,大模型需要持續學習不同運動類型中的關系知識,這容易導致災難性遺忘問題。對此,本研究使用了基于解釋增強的增量式關系識別方法,運用大語言模型對數據集中的關系分類樣本標注解釋,通過知識蒸餾將大語言模型的推理能力遷移到持續學習的小模型中,該方法在公開數據集上的準確率可達到80%以上[34]。
4.3 基于多模態的知識獲取技術
為了給用戶提供更為直觀的運動指導,本研究中的知識圖譜融入了大量的多模態信息,這需要針對多個模態的數據來源進行知識獲取技術的研究,如圖片、視頻等??紤]到部分的數據來源于網絡,其形式為帶有圖片的文本,所以以下重點介紹結合圖片的多模態命名實體識別和關系抽取技術。同時,由于獲取的很多運動視頻缺少對運動技術的詳細文字描述,以下將介紹運動視頻到細粒度運動文本描述的生成技術。
4.3.1 多模態信息抽取
給定一段與運動相關的非結構化文本,相比直接對文本進行知識抽取以及引入與該文本直接相關的圖像信息作為輔助信息,有助于模型更好地從中識別運動相關的實體,或進行實體間的關系分類?,F有的方法主要側重于圖像和文本之間的直接交互,這種方法會同時受到語義間隔和模態間隔的影響。為了解決這個問題,本研究采用了一種基于夏普利值的對比對齊方法,捕捉圖像與文本對之間的語義和模態關系,從中獲得連貫有效的多模態表征,從而增強抽取多模態信息的功能。模型的整體架構如圖3所示。
將任務的輸入設定為一段文本t={t1,…,tnt}以及對應的圖片I,使用預訓練的大規模多模態模型對圖片生成描述c={c1,…,cnc}。該描述將作為方法中的重要中間橋梁,通過描述-文本和描述-圖片的對齊彌補文本與圖片之間的語義間隔和模態間隔。之后,使用預訓練的語言模型和視覺模型對文本、描述及圖片進行編碼,表示為下式:
xt,Ht,xc,Hc=Transformer([t;c] ) 1);
xv,Hv=ImageEncoder(I) 2)。
下一步,使用夏普利值進行描述-文本和描述-圖片的對齊。夏普利值源于合作博弈論[35],其是根據參與者各自在合作中的邊際貢獻,為參與者之間的總收益公平分配提供一種解決方案。在合作游戲中,假設有k個玩家,玩家集合表示為K={1,…,k},使用效用函數u:2k→R表示每個子集的玩家分配獎勵。玩家i的夏普利值計算公式如下:
?準i(u)=sK\{i})[u(S∪{i} )-u(S) ] 3)。
以描述-文本對齊為例解釋對齊的過程。具體為:輸入k個描述-文本對{(xac,xat ) }ka=1,首先將k個描述視為玩家K={1,…,k},將某個描述集合S(由若干描述組成,為K的一個子集)對文本xjt的語義貢獻定義為下式:
uj (S)=∑i∈Spisim(x jt,xic) 4);
pi= 5)。
有了如上定義后,可使用蒙特卡洛方法得到所有描述的夏普利值的近似{(uj),…,k(uj) }。使用對比學習的方法,最大化描述對齊對應的文本的邊緣語義貢獻,進而同時最小化描述對其他非匹配文本的語義貢獻。定義損失函數如下式:
Lc2t=-∑k j=1[j (uj)-∑i≠jj (uj)] 6)。
同理,可將所有的k個文本視為玩家,得到損失函數Lt2c,并定義語義對齊的損失函數如下式:
Lsemantic=(Lc2t+Lt2c) 7)。
類似地,進行描述-圖片對齊,損失函數如下式:
Lmodality=(Lc2v+Lv2c) 8)。
為了進行更為精細的跨模態融合,本研究設計了一種自適應注意力融合模塊,該模塊可根據2種模態的不同特征以及連接它們的上下文的相關性動態權衡不同特征在2種模態中產生的影響,從而增強實體識別和關系抽取的功能。
4.3.2 運動視頻到細粒度文本生成技術
在圖譜構建的過程中,本研究將運動視頻作為獨立的實體,并從網絡中收集了大量的運動視頻,但其中很多運動視頻沒有相應的文字描述,這會對用戶精確地掌握運動動作造成困擾。為此,本研究構建了細粒度人體運動視頻描述任務的對應數據集,并提出了一種使用大語言模型的解決方案。具體是:通過三維人體姿態識別技術捕捉視頻中人體的姿態,并將姿態轉換為視頻與文本之間的中間表示;隨后使用少樣本學習方法,命令大語言模型根據示例樣本和給定的中間表示生成人體動作的細粒度描述。方法的整體結構如圖4所示。
首先,使用MotionBERT[36]從給定視頻中提取三維人體運動信息。MotionBERT既可以確定每幀中人體骨骼關鍵點的三維坐標,也可以計算關節圍繞運動樹上父關節的局部旋轉。獲得人體關節三維坐標和局部旋轉后,得到如下2種表示方式作為視頻和描述文本的中間表示。
1)夾角表示。該方法假設人體的肢體為剛體,并直接計算人體不同肢體對之間的夾角。首先,定義一種人體坐標系統。將右髖至左髖的方向定義為Y軸,骨盆中心至腰椎的方向定義為Z軸,垂直于Y軸和Z軸方向定義為X軸。隨后根據關節的自由度將人體的關節分為2類,如果關節只有一個自由度,則計算關節連接的兩部分肢體之間的夾角;在其他情況下,計算肢體相對于人體坐標系各坐標軸的夾角。此外,使用人體相對于全局坐標系的跳躍、旋轉和平移建模運動。
2)泰特布萊恩角表示。泰特布萊恩角也稱為ZYX歐拉角,將3D坐標中的旋轉表示為圍繞z軸,y軸,x軸的3個連續旋轉。首先從MotionBERT中得到關節旋轉的四元數表示[36]q=[q ]T,根據相關研究[37],將其轉換為泰特布萊恩角表示為下式:
?準=arctan2(q-(q21+q22)) 9);
θ=arcsin(-)) 10);
ψ=arctan2(q(q22+q23))11)。
對第i個視頻的第t幀,使用上式計算所有關節的泰特布萊恩角Li,t∈R16×3。同時,取根節點(骨盆)在全局坐標系中的旋轉作為全局信息gi,t=[xr,yr,zr],將它們拼接后得到當前時刻的中間表示為:Ri,t=[gi,t,Li,t]。
憑借預訓練大語言模型的上下文學習能力3eC9Un0krmKkHR+gkaJWhQ==,分別根據以上2種中間表示設計提示詞,生成視頻描述。對于零樣本場景,提示詞由中間表示含義的描述(c)、任務提示(q)、注意事項說明(n)和各時刻中間表示序列(Ri)組成,可以表示為: Pi=[c,q,n,Ri] 。
對于單樣本學習,在零樣本提示詞的基礎上另外添加樣例R0和I0,表示為: Pi=[c,q,n,R0,I0,Ri]。
將提示詞輸入大語言模型,即可運用大語言模型生成細粒度的視頻描述文本,表示為=LLM(Pi) 。
最后,把生成的視頻描述作為圖譜中視頻的屬性,豐富圖譜內容。
5 健身運動知識圖譜平臺
為了便于用戶檢索知識圖譜的內容、了解健身運動知識,本研究設計并研發了知識圖譜可視化平臺。
首先,該展示平臺采用了前后端分離框架,后端使用了MySQL數據庫和Neo4j圖數據庫,完成了數據和知識的增刪查改等工作,并向前端提供API接口,前端接受后端Json數據對圖譜進行展示。該平臺在部署階段使用了Docker容器,顯著減少了運維調試的成本。
其次,該平臺界面分為“功能區”“檢索區”“展示區”3個部分。在“功能區”,用戶將看到本軟件具有的功能的入口。在“檢索區”,實體和關系按照不同的分類標準形成層級的樹形結構。用戶可在期望的分類下查詢或搜索所需要的實體和關聯知識。在“展示區”,該平臺將對用戶所選實體和相關關系進行展示?;谝陨希脩艨梢杂檬髽送蟿訉嶓w節點,查看圖譜的任意部分,還可以點擊實體節點,查看實體的屬性信息。對于視頻和圖片節點,用戶點擊該實體節點后,可以對視頻或圖片進行展示,還可以雙擊某個實體節點,對該實體的圖的結構進行擴展,可以圍繞該實體展示與該實體相關的知識。此外,該平臺支持將查詢結果以Json格式進行導出和對知識圖譜的增、刪、改等操作。
6 結束語
科學健身運動多模態知識圖譜的構建工作剛剛起步,本研究介紹了該知識圖譜構建的總體方案、知識獲取技術、多模態技術等。未來工作將繼續針對不同的健身運動類型,采用數據驅動的方法,利用自然語言處理、大語言模型、數據挖掘等技術進一步改進多模態實體和關聯知識的抽取,逐步完善科學運動健身知識圖譜平臺。同時需要考慮百科知識等外部知識數據,研究實體鏈接和對齊等技術與已有領域圖譜知識的關聯。
參考文獻:
[1] CHENG K, GUO Q, HE Y, et al. Artificial intelligence in sports medicine: Could GPT-4 make human doctors obsolete?[J]. Annals of Biomedical Engineering, 2023, 51(8): 1658-1662.
[2] SONG H, MONTENEGRO-MARIN C E, KRISHNAMOORTHY S. Secure prediction and assessment of sports injuries using deep learning based convolutional neural network[J]. Journal of Ambient Intelligence and Humanized Computing, 2021, 12: 3399-3410.
[3] NAIK B T, HASHMI M F, BOKDE N D. A comprehensive revi-ew of computer vision in sports: Open issues, future VjgHDkMHhwSJ/8unFqWSyA==trends and research directions[J]. Applied Sciences, 2022, 12(9): 4429.
[4] BAKAL G, TALARI P, KAKANI E V, et al. Exploiting semanti-c patterns over biomedical knowledge graphs for predicting treatment and causative relations[J]. Journal of Biomedical Info-rmatics, 2018, 82: 189-199.
[5] TENNAKOON C, ZAKI N, ARNAOUT H, et al. Leveraging biomedical and healthcare data[M]. New York: Academic Press, 2019: 107-120.
[6] VLIETSTRA W J, ZIELMAN R, VAN DONGEN R M, et al. Automated extraction of potential migraine biomarkers using a semantic graph[J]. Journal of Biomedical Informatics, 2017, 71: 178-189.
[7] ZHU X, LI Z, WANG X, et al. Multi-modal knowledge graph construction and application: a survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 36(2): 715-735.
[8] SUN R, CAO X, ZHAO Y, et al. Multi-modal knowledge graphs for recommender systems[C]//Proceedings of the 29th ACM international conference on information & knowledge managem-ent. New York: Association for Computing Machinery, 2020: 1405-1414.
[9] XU G, CHEN H, LI F L, et al. Alime mkg: A multi-modal knowledge graph for live-streaming e-commerce[C]//Proceedi-ngs of the 30th ACM International Conference on Information & Knowledge Management. New York: Association for Computing Machinery, 2021: 4808-4812.
[10] LI M, ZAREIAN A, LIN Y, et al. Gaia: A fine-grained multim-edia knowledge extraction system[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. Stroudsburg: ACL, 2020: 77-86.
[11] YU H, CHENG S, NI B, et al. Fine-grained video captioning for sports narrative[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 6006-6015.
[12] SUGLIA A, LOPES J, BASTIANELLI E, et al. Going for GOAL: A resource for grounded football commentaries[Z/OL]. (2022-11-08)[2024-02-15]. https://arxiv.org/abs/2211.04534.
[13] KANG H, LI Y, LIU D, et al. Human kinematics modeling and simulation based on OpenSim[C]//2021 International Confere-nce on Control, Automation and Information Sciences (ICCAIS). Piscataway: IEEE, 2021: 644-649.
[14] GUO C, ZUO X, WANG S, et al. Tm2t: Stochastic and tokeniz-ed modeling for the reciprocal generation of 3d human motions and texts[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 580-597.
[15] TEVET G, GORDON B, HERTZ A, et al. Motionclip: Exposing human motion generation to clip space[C]//European Confere-nce on Computer Vision. Cham: Springer Nature Switzerland, 2022: 358-374.
[16] JIANG B, CHEN X, LIU W, et al. MotionGPT: Human motion as a foreign language[Z/OL]. (2023-07-20)[2024-02-15] https://arxiv.org/abs/2306.14795.
[17] DONG X, GABRILOVICH E, HEITZ G, et al. Knowledge vault: A web-scale approach to probabilistic knowledge fusion[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: Association for Computing Machinery, 2014: 601-610.
[18] NICKEL M, MURPHY K, TRESP V, et al. A review of relationa-l machine learning for knowledge graphs[C]//Proceedings of the IEEE. Piscataway: IEEE, 2015, 104(1): 11-33.
[19] 葉帥. 基于Neo4j的煤礦領域知識圖譜構建及查詢方法研究[D]. 徐州:中國礦業大學,2019:1-81.
[20] 魏卉子. 煤礦安全融合知識圖譜構建研究[D]. 徐州:中國礦業大學,2020:1-88.
[21] 袁芳怡. 面向制造業的知識圖譜表示模型與構建技術研究[D]. 哈爾濱:哈爾濱工業大學,2019:1-63.
[22] 許力. 汽車智能客戶服務系統的設計與實現[D]. 綿陽:西南科技大學,2020:1-66.
[23] CHEN X, SHRIVASTAVA A, GUPTA A. Neil: Extracting vis-ual knowledge from web data[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE, 2013: 1409-1416.
[24] LI M, ZAREIAN A, LIN Y, et al. Gaia: A fine-grained multim-edia knowledge extraction system[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. Stroudsburg: ACL, 2020: 77-86.
[25] WEN H, LIN Y, LAI T, et al. Resin: A dockerized schema-guided cross-document cross-lingual cross-media information extrac-tion and event tracking system[C]//Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies( Demonstrations). Stroudsburg: ACL, 2021: 133-143.
[26] ORO-RUBIO D, NIEPERT M, GARCA-DURN A, et al. Answering visual-relational queries in web-extracted knowledge graphs[Z/OL]. (2019-05-03)[2024-02-15]. https://arxiv.org/abs/1709.02314.
[27] LIU Y, LI H, GARCIA-DURAN A, et al. MMKG: multi-modal knowledge graphs[C]//The Semantic Web: 16th International Conference, ESWC 2019. Cham: Springer International Publis-hing, 2019: 459-474.
[28] WANG M, WANG H, QI G, et al. Richpedia: A large-scale, comprehensive multi-modal knowledge graph[J]. Big Data Research, 2020, 22: 1-11.
[29] ALBERTS H, HUANG T, DESHPANDE Y, et al. Visual Sem: A high-quality knowledge graph for vision and language[Z/OL]. (2021-10-20)[2024-02-15] . https://arxiv.org/abs/2008.09150.
[30] LI J, FEI H, LIU J, et al. Unified named entity recognition as word-word relation classification[Z/OL]. (2021-12-19)[2024-02-16]. https://arxiv.org/abs/2112.10070.
[31] YAN H, GUI T, DAI J, et al. A unified generative framework for various NER subtasks[Z/OL]. (2021-06-02)[2024-02-16]. https://arxiv.org/abs/2106.01223.
[32] LU Y, LIU Q, DAI D, et al. Unified structure generation for un-iversal information extraction[Z/OL]. (2022-03-23)[2024-02-17]. https://arxiv.org/abs/2203.12277.
[33] XIA Y, ZHAO Y, WU W, et al. Debiasing generative named entity recognition by calibrating sequence likelihood[C]//Proc-eedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Stroudsb-urg: ACL, 2023: 1137-1148.
[34] XIONG W, SONG Y, WANG P, et al. Rationale-enhanced language models are better continual relation learners[Z/OL].(2023-10-10)[2024-02-17]. https://arxiv.org/abs/2310.06547.
[35] DUBEY P. On the uniqueness of the shapley value[J]. Intern-ational Journal of Game Theory, 1975, 4(3): 131-139.
[36] ZHU W, MA X, LIU Z, et al. Motionbert: A unified perspective on learning human motion representations[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2023: 15085-15099.
[37] BERNER P, TOMS R, TROTT K, et al. Technical concepts: Orientation, rotation, velocity and acceleration, and the SRM[S/OL].[S.I.]:[s.n], 2008: 39[2023-12-15]. https//sedris.org/wg8home/document.htm.