基于ChatGPT 的課程知識圖譜構建與可視化研究

2024-12-01 00:00:00黃少年李佩霖王煥然陳知新

電腦知識與技術 2024年31期

摘要：課程知識圖譜將課程中的知識點、概念、理論等以圖譜形式組織和展示，有助于促進個性化教學、推動課程教學的創新發展。針對現有課程知識圖譜構建過于依賴數據標注和專家知識的問題，文章提出了一種基于 ChatGPT 的課程知識圖譜自動構建與可視化方法。首先，通過課程資料的收集和預處理，歸納總結課程核心概念，構建課程本體模型。然后采用 ChatGPT 實現課程知識點實體、屬性和關系抽取，通過設計多輪問答提示模板，提升課程知識信息抽取的可靠性。最后，采用 Neo4j 圖數據庫實現課程知識圖譜的存儲和管理，提供用戶友好的界面與交互方式，直觀地探索與理解課程知識。實驗結果顯示，ChatGPT 在進行課程知識抽取任務上具有一定的可靠性和優越性，基于 ChatGPT 的課程知識圖譜構建方法為大語言模型在教育領域的應用提供了新的思路，具有應用前景和推廣價值。

關鍵詞：課程知識圖譜；信息抽取；ChatGPT；Neo4j

中圖分類號：G424 文獻標識碼：A

文章編號：1009-3044（2024）31-0148-04

開放科學（資源服務）標識碼（OSID）：

課程知識圖譜是以課程為核心的系統化、結構化知識網絡。它通過描述課程相關的實體、概念、理論及其之間的復雜關系，揭示課程知識的內在聯系與規律[1]。在課程教學實踐中，課程知識圖譜有助于教師更好地組織教學內容和設計教學方案；這也幫助學生更好地理解和掌握課程知識，形成完整的知識體系，從而促進教學效果的提升。

隨著 ChatGPT[2]的發布，生成式預訓練語言模型迅速推動了自然語言處理技術的進步，在金融、醫療、教育等多個領域產生了深遠的影響。已有研究表明，ChatGPT 在中文命名實體識別、關系抽取、事件抽取等信息抽取任務中取得了良好的效果[3-4]，這也為知識圖譜技術的創新發展帶來了新的機遇，為智能化知識圖譜構建、語義理解及可視化提供了新的可能。

數據結構課程是電子信息類專業的重要核心課程，其教學是培養學生扎實專業理論基礎的關鍵環節。因此，結合 ChatGPT 和 Neo4j 圖數據庫技術，形成數據結構課程知識圖譜自動構建和可視化的方法，對于電子信息類本科人才培養具有重要作用。

1 數據結構課程知識圖譜構建策略

構建課程知識圖譜的重點在于快速、準確地抽取課程中的知識點實體、關系以及屬性。本文首先構建數據結構課程的本體模型，定義課程概念體系；然后采用基于多輪對話的 ChatGPT 信息抽取方式，實現課程實體、關系以及屬性的抽取。最后，使用 Neo4j 數據庫進行知識圖譜的可視化展示。具體流程如圖1所示。

1.1 數據結構課程本體模型構建

本體模型[5]是一種領域知識的形式化表示方法，用于描述領域中類、概念、實體及其相互關系的語義關系。根據數據結構課程教學基本要求、權威教材以及課程相關教學名師的意見，歸納總結課程的核心概念，提煉知識實體、屬性及關系，構建課程的本體模型。具體內容包括：

1）課程核心概念體系。課程核心概念體系的提煉涉及課程核心實體。通過收集課程相關數據資料，包括教案、教材、習題及各類網絡資源，對數據源進行分類匯總，將數據結構課程的核心實體分為章節實體、概念實體和法則實體三類。其中，章節實體表示課程內容的組織結構，例如課程中的各個章節、主題等。概念實體表示課程中涉及的各種概念，比如隊列、樹、圖等。法則實體表示數據結構課程中的各種規則、定理和操作等。圖2展示了課程中《圖》這一章節的概念體系。

2）實體屬性定義。根據課程核心概念，總結課程實體的相關屬性定義。其中，線性表實體的屬性包括元素集合、元素類型、元素數量、有序性、增刪改查操作等。棧實體的屬性包括容量、棧頂指針、棧操作等。樹實體的屬性包括根節點、父節點、子節點、深度、類型等。圖實體的屬性包括頂點集合、邊集合、方向性、權重、度數、連通性等。算法實體的屬性包括穩定性、時間復雜度、空間復雜度等。

3）實體關系定義。基于課程內容和知識結構，建立實體之間的關系，包括包含關系、屬于關系、基本概念關系、存儲方式關系和應用關系等。其中基本概念關系描述某個概念實體是否為另一個實體的基本概念。

存儲方式關系描述一個實體在計算機中的存儲方式。同義關系描述具有相同含義的概念實體之間的關系。依賴關系表示某個實體依賴于其他實體。應用關系描述概念實體對應的實際應用。部分數據結構課程的實體關系建模如表1所示。

1.2 基于 ChatGPT 的知識圖譜構造

基于 ChatGPT 的課程知識圖譜構建的具體過程包括：數據采集與預處理、實體抽取、實體屬性抽取、實體關系抽取，以及基于 Neo4j 的知識圖譜構建與可視化。

本研究采用的課程資料來自多個渠道。其中，數據結構課程教案中的知識點被選作重要參考，教案由資深任課教師編寫，內容涵蓋數據結構的基礎知識和相關應用，具有一定的權威性和可信度。百度百科和維基百科提供了豐富的網絡知識庫資源，包括對數據結構相關概念、算法和應用的介紹。百度電子文檔則是從百度文庫等平臺獲取的，其中包含了多篇學術論文和兩本數據結構專業教材，包括嚴蔚敏的《數據結構（C語言版）》和李春葆的《數據結構》（C語言篇）習題與解析，以及多篇數據結構電子文檔。

1.2.1 基于 ChatGPT 的課程知識點實體抽取

使用 ChatGPT 進行信息抽取時，需要用到固定的模板。使用不同的模板，抽取效果可能有所不同。多輪問答模板有助于提升信息抽取的準確性和完整性，通過多輪次的交互問答，ChatGPT 能夠更深入地理解用戶的查詢意圖，并根據用戶的需求逐步細化和擴展抽取的信息范圍。本文設計了如下幾種不同效果的多輪問答模板：

模板1：“‘數據……’請提取出上述文本中的實體以便構建知識圖譜。”

模板2：“‘數據……’請根據上述文本，抽取出文本涉及的各類實體，包括章節實體、概念實體、法則實體。”

模板3：

Q1：“‘數據……’請根據上述文本回答下列問題。請抽取出文本中的各個實體，實體的類型至少包括：章節實體、概念實體、法則實體等。”

Q2：“請將文本抽取出來的實體以二元組格式輸出，多個實體用列表存儲。”

采用多輪問答模板進行實體抽取的測試樣例如表2所示。

1.2.2 基于 ChatGPT 的課程知識點實體屬性抽取

用于實體屬性抽取的多輪提示模板如下：

模板1：“‘數據……’請提取出上述文本中圖結構的屬性，以便構建知識圖譜。”

模板2：“‘數據……’請根據上述文本，抽取出文本中涉及的圖結構屬性，其中包括但不限于：頂點集合、邊集合、方向性、權重、圖的表示方法、算法與應用等。”

模板3：

Q1：“‘數據……’請根據上述文本回答下列問題。請抽取出文本中關于圖結構的屬性，屬性的類型至少包括：頂點集合、邊集合、方向性、權重、圖的表示方法、算法與應用等。”

Q2：“請將從文本中抽取的屬性以二元組格式輸出，多個屬性用列表存儲。”

采用多輪問答模板進行實體屬性抽取的測試樣例如表3所示。

1.2.3 基于 ChatGPT 的課程知識點關系抽取

用于實體關系抽取的多輪提示模板如下：

模板1：“‘數據……’請提取出上述文本中實體之間的關系，以便構建知識圖譜。”

模板2：“‘數據……’請根據上述文本，抽取出文本中涉及的實體之間的關系，其中包括但不限于：包含關系、屬于關系、基本概念關系、存儲方式關系、應用關系、依賴關系、同義關系、關聯關系等。”

模板3：

Q1：“‘數據……’請根據上述文本回答下列問題。請抽取出文本中各個實體之間的關系，關系的類型至少包括：包含關系、屬于關系、基本概念關系、存儲方式關系、應用關系、依賴關系、同義關系、關聯關系等。”

Q2：“請將從文本中抽取的關系以三元組列表格式輸出，多組關系用集合存儲。”

采用多輪問答模板進行實體關系抽取的測試樣例如表4所示。

2 數據結構課程知識圖譜構建實驗

本文將 ChatGPT 進行實體、屬性及關系抽取的結果與當前抽取效果較好的信息抽取模型進行比較，以分析信息抽取的效果。

2.1 評價標準

在知識抽取任務中，準確率（Precision）、召回率（Recall）和F1分數是常用的評價標準，它們用于衡量模型在提取文本信息方面的性能表現。

準確率（Precision）：衡量模型預測為正確的樣本數量與所有預測為正樣本的樣本數量之比。公式如下：

Precision = TP／TP + FP （1）

召回率（Recall）：衡量模型成功找到的正樣本數量與真實正樣本數量之比。公式如下：

Recall = TP／TP + FN （2）

F1分數：是準確率和召回率的調和平均，考慮到兩者之間的平衡關系。F1分數的高低反映了模型在準確率和召回率之間的平衡情況，是綜合評價模型性能的重要指標之一。公式如下：

F1 = 2 × precision × Recall／Precision + Recall （3）

2.2 課程實體抽取結果

針對數據結構課程知識點的實體抽取問題，筆者通過使用標注數據進行訓練，比較了 ChatGPT 與各類基線模型的抽取效果。實驗中使用的基線模型主要包括：Bi-LSTM [6] 模型、Bi-LSTM-CRF [7] 模型、BERT- CRF [8] 模型以及隱馬爾可夫模型（HMM） [9]。這些模型被廣泛用于命名實體識別和其他序列標注任務。除了傳統的深度學習模型之外，阿里通義千問作為類 ChatGPT 大語言模型，在多項任務中表現出色，顯示出廣泛的應用潛力。

使用基線模型和 ChatGPT 作為工具進行實體抽取的結果如表5所示。實驗結果表明，ChatGPT 在實體抽取任務中表現卓越，準確地捕捉到了數據結構課程的關鍵知識點。

根據實體抽取的實驗數據可以看出，在準確率、召回率和 F1 分數方面，ChatGPT 均表現出色，分別達到了 80.76%、77.77% 和 79.24%。相比之下，其他模型如 BERT-CRF、Bi-LSTM、Bi-LSTM-CRF 等在各項指標上的表現略遜一籌，而 HMM 模型在準確率上表現優異，但召回率和 F1 分數相對較低。阿里通義千問模型在準確率上表現不錯，但召回率和 F1 分數與 ChatGPT 相比略顯不足。ChatGPT 在抽取數據結構課程知識點實體任務中的優越性能，為數據結構課程知識圖譜的構建提供了可靠的支持和保障。

2.3 課程實體關系抽取結果

在關系抽取實驗中使用的基線模型包括：CASRE 模型[10]、GPLinker 模型[11]，以及阿里通義千問大語言模型。使用基線模型和 ChatGPT 進行課程知識關系抽取的結果如表6所示。

根據關系抽取的實驗結果，ChatGPT 模型在準確率、召回率和 F1 分數上均表現出較好的結果。然而，相對于 CASREL 和 GPLinker 模型，其在準確率上的提升空間依然存在，這主要是由于課程知識點之間的復雜關系所導致的。ChatGPT 模型具有高召回率和 F1 分數，這意味著它能夠更全面地識別實體之間的各種關系，對于構建準確且全面的知識圖譜至關重要。

2.4 屬性抽取結果展示

采用阿里通義千問大語言模型進行實體屬性抽取，并與 ChatGPT 的抽取效果進行了比較。使用基準模型和 ChatGPT 進行知識點屬性抽取的對比結果如表7所示。

3 數據結構課程知識圖譜可視化

在使用 ChatGPT 完成知識點實體、屬性和關系抽取后，需要對抽取到的課程知識進行可視化，以形成課程知識圖譜。本文采用 Neo4j 數據庫進行可視化呈現。Neo4j 是一種基于圖形理論的高性能圖數據庫，它以節點和關系的形式組織和存儲數據，其中節點表示實體，關系表示實體之間的連接。

Neo4j 采用了針對圖形數據庫的優化存儲和查詢算法，使其能夠高效處理復雜的圖形結構。通過 Cy? pher 查詢語言，用戶可以輕松執行各種圖形查詢操作，如查找節點、查找與節點相關聯的其他節點、查詢節點屬性等。

圖3展示了構建的部分知識圖譜的可視化界面。在該界面中，用戶可以查看各章節知識圖譜的全貌，并通過點擊個別實體節點來查看其特有的重要屬性。用戶還可以查詢具體的實體、關系以及實體屬性，使得課程知識圖譜的瀏覽直觀且便捷。圖4則展示了單個知識點的可視化結果。

與傳統的知識圖譜構建方法相比，基于 ChatGPT 的課程知識圖譜自動構建方法具備顯著優勢，因為它不需要訓練數據標注，也無須利用深度學習模型進行訓練，從而節省了大量的時間和資源。這一方法為大語言模型在智慧教育領域的應用提供了新的思路。

然而，利用 ChatGPT 進行知識圖譜自動構建仍然存在一定的局限性。由于不同課程知識點之間存在復雜的關聯關系，純粹依賴大語言模型實現零樣本知識抽取的可靠性還有待進一步提高。此外，知識問答的模板也需要進一步提煉和完善。

未來的研究方向之一是深入挖掘 ChatGPT 模型在課程知識圖譜構建中的潛力，探索更加有效的知識表示和關聯方法，以提高知識圖譜的質量和準確性。此外，可以進一步優化可視化工具，以提升用戶體驗，并探索更多交互式功能，以滿足不同用戶群體的需求。

基于 ChatGPT 的課程知識圖譜構建與可視化是一個復雜且富有挑戰性的課題。期待未來能夠在這一領域取得更多突破與進步，為教育智能化發展做出更大的貢獻。

參考文獻：

[1] 施江勇，唐晉韜，王勇軍，等.基于知識圖譜的新興領域課程教學資源建設[J].高等工程教育研究，2022（3）：15-20.

[2] OPENAI. ChatGPT：Optimizing Language Models for Dialogue [EB/OL].（2022-11-30）[2023-05-24]. https：//openai.com/blog/chatgpt.

[3] 鮑彤，章成志.ChatGPT中文信息抽取能力測評：以三種典型的抽取任務為例[J].數據分析與知識發現，2023，7（9）：1-11.

[4] WEI X，CUI X Y，CHENG N，et al.Zero-shot information extrac?tion via chatting with ChatGPT[EB/OL].[2023-05-24].https：//arxiv.org/abs/2302.02005.

[5] 李愛華，徐以則，遲鈺雪.本體構建及應用綜述[J].情報理論與實踐，2023，46（11）：189-195.

[6] 陳德鑫，占袁圓，楊兵，等.基于CNN-BiLSTM模型的在線醫療實體抽取研究[J].圖書情報工作，2019，63（12）：105-113.

[7] 翟社平，段宏宇，李兆兆.基于BILSTMCRF的知識圖譜實體抽取方法[J].計算機應用與軟件，2019，36（5）：269-274，280.

[8] 田梓函，李欣.基于BERT-CRF模型的中文事件檢測方法研究[J].計算機工程與應用，2021，57（11）：135-139.

[9] 沈同平，金力，黃方亮，等.隱馬爾可夫模型的優化及其用于多文本實體識別[J].安慶師范大學學報（自然科學版），2022，28（2）：31-35.

[10] WEI Z P，SU J L，WANG Y，et al.A novel cascade binary tag?ging framework for relational triple extraction[C]//Proceedings of the 58th Annual Meeting of the Association for Computa?tional Linguistics.Online.Stroudsburg，PA，USA：Association for Computational Linguistics，2020：1476-1488.

[11] WANG J H，YANG J.A three-stage pipeline for conditional en?tity and relation extraction[C]//2023 International Joint Con?ference on Neural Networks （IJCNN）.June 18-23，2023，Gold Coast，Australia.IEEE，2023：1-8.

【通聯編輯：唐一東】

基金項目：湖南省普通高等學校教學改革研究項目（HNJG-2021-0404，HNJG-2023-0795）；湖南工商大學教學改革研究項目（2023026）

電腦知識與技術2024年31期

電腦知識與技術的其它文章: 以創新人才培養為目標的信息類文獻綜述課程改革研究; 基于學習通的多維度評價體系在運動控制系統課程中的應用研究; 新工科教育體系下基于鴻蒙生態系統的移動應用開發課程革新與實踐研究; 人工智能時代大學非計算機專業項目引導式教學探索與實踐; 高職程序設計課程中“大組互助，小組結對”計算思維培養模式探究; 中職數字化生態課堂的構建與實踐探究