999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大語言模型的教育教學知識問答系統的設計

2025-02-21 00:00:00易云恒潘濟
現代信息科技 2025年2期

摘 要:研究旨在應對教育中的學生個體差異、教學資源限制及師生互動缺乏等問題,介紹了一種基于大型語言模型的創新型教育教學知識問答系統。該系統整合了課堂知識和網絡資源,構建了全面豐富的教學知識庫,并通過精細的數據清洗與分類處理提升了數據質量。為優化性能,研究團隊設計實現了高效的多模型檢索機制,確保系統在不同硬件環境下均能快速響應。系統不僅提高了響應速度,降低了基礎設施成本,而且適用于學校教育和黨課培訓等多個領域,對教育數字化轉型及創新產生深遠影響。

關鍵詞:大語言模型;人工智能教育;高效檢索模型

中圖分類號:TP311 文獻標識碼:A 文章編號:2096-4706(2025)02-0189-06

Design of Education and Teaching Knowledge Question and Answering System Based on Large Language Model

YI Yunheng, PAN Ji

(School of Rail Transportation, Southwest Jiaotong University Hope College, Chengdu 610400, China)

Abstract: This research aims to deal with the problems such as individual differences among students, limited teaching resources, and inadequate teacher-student interaction in education, and introduces an innovative education and teaching knowledge question and answering system based on Large Language Model. The system integrates classroom knowledge and network resources, builds a comprehensive and rich teaching knowledge base, and improves data quality through meticulous data cleaning and classification processing. To optimize performance, the research team designs and implements an efficient multi-model retrieval mechanism, which ensures the system could respond quickly in different hardware environments. This system not only improves response speed but also reduces infrastructure costs. It is suitable for multiple fields such as school education and party class training, and has a profound impact on the digital transformation and innovation of education.

Keywords: Large Language Model; Artificial Intelligence education; efficient retrieval model

DOI:10.19850/j.cnki.2096-4706.2025.02.036

0 引 言

傳統教育模式通常以教師為中心,采用信息單向傳授的教學方式,包括課堂提問和課后提問兩部分;而課后問答環節則通過手機應用、郵件、課程網站等渠道向教師尋求問題的解決[1]。課堂教學質量的高低與教師的教育教學能力、課程內容豐富度直接相關。學生被動接受知識,難以培養自主學習能力。更為關鍵的是這種單向傳授的教學方式使得教師難以掌握學生的學習進度、知識掌握情況,而部分學習能力較弱的學生由于跟不上教學進度對教學產生焦慮和抗拒情緒,喪失興趣和主動學習和動力。此外,傳統教育教學側重考查學生的記憶力與理解力,忽視對于創新能力的培養[2]。

大語言模型技術在教育領域的應用具有廣闊的發展前景和重要的意義[3]。該技術能夠為學生和教師提供更為個性化、高效的學習與教學體驗,有助于緩解教師的工作壓力,豐富教學資源,并提升學校的學生管理效率。將大語言模型應用于教育領域能住與優化教育流程,增強學習效果與教學質量,為師生雙方帶來便捷。

因此,基于深度學習模型的教育教學知識問答系統,以學習者為中心提供線上知識問答,有助力推動教學教育的改革[4]。

1 數據獲取與處理

基于大語言模型的教育教學知識問答系統的系統架構包括教學知識庫構建、數據清洗與分類、多模型檢索系統以及選擇并加載大語言模型等關鍵環節。

1.1 數據獲取

教學知識庫構建過程包括知識數據提取流程和課堂知識構建過程,教學知識庫構建流程如圖1所示。其中,知識數據提取為教學知識庫提供了豐富的數據來源,而課堂知識構建過程提取授課的語音,進一步擴充知識庫的內容。所有的知識將會經過整理和清洗寫入數據庫。

1.1.1 知識數據提取流程

數據采集采用Python中的Selenium框架[5]。Selenium框架支持對動態網站的爬取和數據提取,能夠在更廣泛的網站范圍內實時收集數據。數據主要來源于各大社區問答平臺,同時輔以百度百科、知乎等第三方教育網站的問答庫。為了高效地從這些不同網站中抓取數據,針對性地編寫了多個Python腳本。在數據抓取環節,采用了Selenium框架,它能夠模擬真實用戶的行為,依次從預設的URL列表中提取網頁鏈接并發起請求,從而精準地獲取網站中的知識數據。在數據采集后,進一步利用正則表達式對數據進行細致的清洗和過濾,以剔除特殊字符和數據噪聲,確保最終錄入知識庫的數據具備高度純凈性和準確性。

1.1.2 課堂知識構建過程

教師的課堂講解內容更全面、更完整,而且這些內容往往并未被教材或文檔所記錄。因此,將教師的課堂講解內容整合起來,可以極大地豐富教學知識庫,為學生提供更多元、更深入的學習資源。

STT(Speech-to-Text)技術[6]是一種基于深度學習的自然語言處理技術,可以將語音轉換為文本格式,將口頭描述實時轉化為書面形式,并提煉關鍵知識點,更好地分析和總結教師的授課內容,建立豐富且易于搜索的知識庫。

1.2 數據處理

針對教育領域的數據處理,由于教學知識數據具有復雜且多樣的特性,通常混雜著大量無效的信息和噪音,因此有必要對數據庫中的數據進行一次清洗。整體的清洗過程如圖2所示。

在對爬取的數據進行預處理操作時,需要采用一定的數據清洗規則和分類標準[7]。這一過程包括識別并剔除噪音、錯誤和不規則數據,去除HTML標簽、特殊字符以及數據中的重復項等。

1.2.1 關鍵詞提取

在構建教學知識庫的過程中,為了提高數據的檢索效率和精準度,采用了TF-IDF算法[8]對獲取的文章進行關鍵詞提取。TF-IDF(Term Frequency-Inverse Document Frequency)算法是一種統計方法,用于評估一個詞語對于一個文檔集或一個語料庫中的其中一份文檔的重要程度。通過TF-IDF算法,可以從文章中識別出那些能夠代表文章主題和內容的核心詞匯,這些詞匯就是關鍵詞。

具體來說,TF-IDF算法會計算每個詞語的“詞頻”(TF),即詞語在文檔中出現的次數,以及“逆文檔頻率”(IDF),即詞語在整個文檔集中的稀疏程度。一個詞語在文檔中的出現次數越多,且在文檔集中的出現頻率越低,其IDF值就越高,表明這個詞語在區分文檔內容方面的重要性越大。

提取關鍵詞后,將這些關鍵詞與相應的文章一同存入數據庫。這樣,當用戶在搜索特定知識點時,系統可以快速定位到包含相關關鍵詞的文章,從而提高用戶獲取信息的效率。通過TF-IDF算法的有效應用,不僅優化了知識庫的結構,還顯著提升了系統的用戶體驗。

1.2.2 數據庫設計

從課堂或網絡中獲取的數據,為了便于程序高效地查找和管理,應當被存儲在數據庫中。在本系統中,選擇了MySQL數據庫作為數據存儲的解決方案。MySQL因其穩定性、可擴展性和易用性而被廣泛應用于各種規模的系統中[9]。

為了組織和管理數據,將所有的表結構設計為包含三個基本字段:ID、Keyword、Text。每個字段的作用如下:

1)ID是一個唯一標識符,用于區分數據庫中的每一條記錄。它通常是一個自動遞增的整數,確保了每條記錄的唯一性,便于快速檢索和引用。

2)Keyword這個字段用于存儲從文章中提取的關鍵詞,這些關鍵詞是通過之前提到的TF-IDF算法計算得出的。關鍵詞的存儲為后續的搜索和檢索提供了直接的索引,使得系統能夠快速定位到與用戶查詢相關的數據。

3)Text這個字段用于存儲實際的文本內容,無論是從課堂錄音轉換的文本,還是從網絡爬取的文章,都會保存在這個字段中。文本內容是用戶查詢的最終目標,也是知識庫中最有價值的部分。

通過這種簡潔而高效的表結構設計,確保了數據庫的靈活性,同時也為程序的快速查詢和數據管理提供了便利。用戶可以通過關鍵詞搜索快速找到相關的教學資料,而程序也可以通過ID字段高效地進行數據維護和更新。這樣的數據庫設計不僅優化了數據存儲,還提升了系統的整體性能和用戶體驗。

2 知識問答系統

2.1 基礎結構

知識問答系統基于大語言模型,其包含兩類主要模型,一個是大語言模型,一個是檢索式模型,檢索式模型通常以text2vec_base_chinese作為基座模型[10],并以LangChain框架[11]實現對文本的檢索。多模型檢索系統的示意圖如圖3所示。

用戶向系統提出問題后,系統會提示用戶選擇所需模型。用戶僅需選擇一次,之后系統將自動沿用該選擇,無須用戶再次操作。若用戶選擇普通模型,系統將調用本地的大型語言模型;若選擇高級模型,則會接入如文心一言、通義千問等先進的大型語言模型。

選定模型后,該模型會分析用戶的問題,判斷是否需要借助檢索式模型。若無須檢索式模型,則直接給出答案;若需要,便將問題傳遞給檢索式模型以獲取相關提示詞。后經過分析得到問題是否需要使用檢索式模型的相關意見。

在實際實現中,僅需要對模型的意見進行TD-IDF關鍵字提取,隨后將關鍵字與預設的關鍵字進行余弦相似度比對,即可精準地分類出是否需要調用檢索式模型。關鍵字進行余弦相似度進行余弦相似度比較前可以使用Scikit-learn中的TfidfVectorizer或CountVectorizer來將文本轉換為向量表示。

最后,大型語言模型會依據這些提示詞來構建并給出回答。知識問答系統判斷流程圖如圖4所示。

2.2 檢索式模型

檢索式模型是知識問答系統的核心組件,其性能的好壞直接關系到系統能否精確抓取到相關知識。這類模型通常以text2vec_base_chinese為基座,通過先進的算法將用戶輸入的查詢語句轉換成文本向量[12]。隨后,這些向量會與知識庫中的文本向量進行余弦相似度計算[13],從而找出與用戶查詢最相關的文本信息。這種機制確保了系統能夠迅速、準確地提供用戶所需的知識。為了優化這一模型,提出以下改進方案:首先,檢索式模型接收用戶的輸入語句,并利用TF-IDF算法從中提取關鍵詞。接著,將這些關鍵詞與數據庫中每條數據的關鍵詞進行余弦相似度比較,選擇相似度最高的十條數據,并將其對應的文本內容合并,形成一份綜合知識文本。

隨后,再次利用text2vec_base_chinese模型,將用戶問題和這份綜合知識文本分別轉換為文本向量。通過計算這兩組向量之間的余弦相似度,選取最相關的十個段落。最后,將這些段落轉換為文字,整合后作為提示信息(prompt)反饋給大型模型,從而提供更精準、更全面的知識答案。這樣的優化流程旨在提高檢索式模型的精確度和效率,為用戶提供更加優質的知識檢索體驗,示意圖如圖5所示。

2.3 基于Gradio的可視化界面

Gradio是一個功能強大的Python可視化庫[14],其獨特之處在于,它賦予使用者無須編寫煩瑣的HTML、CSS和js代碼的能力,便可輕松構建出美觀且實用的用戶界面。通過Gradio,開發者可以迅速搭建起一個簡約而不失現代感的交互界面,直觀且易于操作,其中包括了用于顯示聊天記錄的清晰區域,便于用戶追蹤對話內容;用戶輸入區域設計得簡潔明了,方便用戶隨時輸入信息;此外,還提供了模型選擇功能,用戶可以根據自己的需求靈活選擇不同的模型進行交互。整個界面布局合理,既符合現代審美,又充分考慮了用戶操作的便捷性,使得用戶能夠便捷地進行交互操作,同時也大大提升了用戶體驗。

3 實現與實驗結果

3.1 開發環境

系統的軟件環境與硬件環境如表1和表2所示。

3.2 數據集展示

在具體實驗中,采用了Gradio作為前端界面,后臺則依托了強大的基礎大語言模型ChatGLM 4和ChatGPT 3.5。本模型提供了兩種模式:知識助手模式和原生模式。在原生模式下,模型會直接響應用戶輸入,不會進行任何額外的數據處理。

為了實現這一系統,以黨課為具體案例,構建了一個專為黨建教育設計的知識助手,稱之為“黨建助手”。為了確保數據的權威性和準確性,所有的數據集都來源于人民網黨建數據庫(http://jhsjk.people.cn/)。在遵守相關法律法規的前提下,從該數據庫中合法爬取了少量數據,用于研究和分析。數據集部分展示如表3所示。

3.3 對比實驗

本研究旨在評估基于大語言模型的教育教學知識問答系統的有效性。為實現這一目標,對比了黨建模式和原生模式下大語言模型的表現。專注于黨建知識數據庫中的內容,并以此為基礎設計提問,以全面觀察和分析不同大語言模型在應對這些問題時的性能。

為確保實驗的公正性和結果的可靠性,特別選擇了不依賴聯網搜索的ChatGLM-Pro作為基礎模型。這一選擇有助于更直觀地比較不同模式下的模型表現,排除了網絡搜索對實驗結果可能產生的干擾。

通過實驗,收集并整理了豐富的數據,詳細記錄了兩種模式下大語言模型的回答質量和準確性。這些數據不僅揭示了模型在不同模式下的性能差異,也提供了關于如何優化教育教學知識問答系統的寶貴見解。

實驗原始結果如圖6所示,通過對比分析,可以更深入地了解大語言模型在教育教學領域的應用潛力,以及黨建模式對模型性能的具體影響。這將有助于進一步探索和開發更高效、更智能的教育技術解決方案。

圖6通過科學對比的方式,深入探討了黨建助手與原生模式在回答黨建、政治及經濟領域相關問題時的表現差異。研究結果顯示,相較于原生模式,黨建助手在針對各類問題的回答中,展現出了更高的具體性、專業性和針對性。舉例而言,在回答有關黨建新聞的問題時,黨建助手能夠精準地提供相關的具體內容和方向,反觀原生模式,其回答則僅限于給出一般性的新聞獲取建議。同樣值得注意的是,在解讀政治類文章以及提出經濟領域學習要點的問題上,黨建助手的回答均表現出了更深的洞察力和全面性,其不僅能夠準確概括文章的核心主旨,還能為學習者提供切實可行的指導和建議。綜上所述,本研究表明,黨建助手在提供精確、專業的黨建及相關領域信息方面具有顯著優勢,這一發現對于相關領域的研究和實踐具有重要的指導意義。

4 結 論

本研究成功設計并開發了一款基于大語言模型技術的教育教學知識問答系統。通過巧妙運用Selenium技術,實現了廣域數據的全面收集,進一步與STT技術相結合,構建了一個內容更為豐富、結構更為完善的教學知識庫。此外,還采用了高級關鍵詞搜索和語義匹配方法,對文本進行了細致的分類和異常值處理,從而顯著提升了數據的可用性和可信度。

為了優化用戶體驗,特別是在硬件性能受限的環境下,特別設計了一個多模型檢索系統。這一創新舉措不僅大幅提高了檢索速度,還確保了檢索結果的準確性,為用戶帶來了更加流暢、高效的知識檢索體驗。

展望未來,計劃進一步完善和優化該知識檢索系統。首先,將繼續擴充教學知識庫,覆蓋更多學科領域,以滿足不同用戶的需求。其次,將致力于提升系統的智能化水平,通過引入更先進的算法和技術,實現更加精準的語義理解和匹配,從而提高檢索的精確度和效率。最后,將持續關注用戶反饋,不斷優化系統功能和用戶界面,力求為廣大教育者和學生提供更加全面、便捷、高效的知識檢索服務,助力教育教學事業的發展。

參考文獻:

[1] 朱衛平,林海,謝榕,等.智能問答系統在高校課程教學中的應用 [J].計算機教育,2019(10):23-26.

[2] 胡萍,蒲小瓊.基于“互聯網+”的互動式自主學習教學模式研究及應用 [J].高教學刊,2022,8(17):80-83.

[3] 張春紅,杜龍飛,朱新寧,等.基于大語言模型的教育問答系統研究 [J].北京郵電大學學報:社會科學版,2023,25(6):79-88.

[4] 賀超波,林曉凡,程俊偉,等.學習型社區賦能教育強國建設——基于在線學習者關系網絡分析視角 [J].中國電化教育,2024(6):38-45.

[5] 馮興利,洪丹丹,羅軍鋒,等.基于Selenium+Python的高校統一身份認證自動化驗收測試技術研究 [J].現代電子技術,2019,42(22):89-91+97.

[6] 付強,徐振平,盛文星,等.結合字節級別字節對編碼的端到端中文語音識別方法 [J/OL].計算機應用,1-8(2024-05-17).http://kns.cnki.net/kcms/detail/51.1307.TP.20240515.0955.004.html.

[7] 白星振,隋舒婷,葛磊蛟,等.基于滑動四分位和可行搜索圓算法的風速-功率異常數據清洗方法 [J].山東科技大學學報:自然科學版,2023,42(6):106-116.

[8] 蔣昊達,趙春蕾,陳瀚,等.基于改進TF-IDF與BERT的領域情感詞典構建方法 [J].計算機科學,2024,51(S1):162-170.

[9] 趙子晨,楊鋒,郭玉輝,等.基于Hadoop技術的加速器大數據安全存儲與高效分析系統設計 [J].現代電子技術,2024,47(8):9-17.

[10] 楊濱瑕,羅旭東,孫凱麗.基于預訓練語言模型的機器翻譯最新進展 [J].計算機科學,2024,51(S1):50-57.

[11] MORALES-CHAN M,AMADO-SALVATIERRA H R,MEDINA J A,et al. Personalized Feedback in Massive Open Online Courses: Harnessing the Power of LangChain and OpenAI API [J].Electronics,2024,13(10):1960.

[12] 郭順.詞和文本的表示與文本分類的研究 [D].大連:大連理工大學,2020.

[13] 武永亮,趙書良,李長鏡,等.基于TF-IDF和余弦相似度的文本分類方法 [J].中文信息學報,2017,31(5):138-145.

[14] FERREIRA R,CANESCHE M,JAMIESON P,et al. Examples and Tutorials on Using Google Colab and Gradio to Create Online Interactive Student-learning Modules [J].Computer Applications in Engineering Education,2024,32(4):e22729.

作者簡介:易云恒(1998—),男,漢族,四川達州人,專職教師,碩士,研究方向:自然語言處理;通信作者:潘濟(1998—),女,漢族,遼寧葫蘆島人,專職教師,碩士,研究方向:計算機本科教學。

收稿日期:2024-06-15

基金項目:四川省教育信息技術研究課題(kt202309286459124);西南交通大學希望學院2023年黨建研究項目(19)

主站蜘蛛池模板: 美女免费黄网站| 日本一本正道综合久久dvd| 青草精品视频| 欧美日韩国产精品va| 蜜臀av性久久久久蜜臀aⅴ麻豆| 免费一级α片在线观看| 国产美女一级毛片| 72种姿势欧美久久久久大黄蕉| 欧美日本在线观看| 高潮毛片免费观看| 999精品在线视频| 综合五月天网| 国产一级一级毛片永久| 免费看美女自慰的网站| 欧美福利在线| 国产精品亚洲精品爽爽| a级毛片免费看| 欧美日韩在线亚洲国产人| 亚洲美女操| 欧美亚洲一二三区| 国产SUV精品一区二区| 国产成人乱码一区二区三区在线| 三上悠亚一区二区| 国产成年女人特黄特色毛片免| 欧美一级在线看| 亚洲一区二区无码视频| 国产无码精品在线| 高清不卡毛片| 亚洲日本韩在线观看| 国产正在播放| 天天综合网亚洲网站| 中文字幕欧美日韩高清| 色天天综合久久久久综合片| 久久中文字幕2021精品| 午夜在线不卡| 亚洲免费福利视频| 国产精品嫩草影院av| 伊人成人在线视频| 亚洲欧美日韩精品专区| 亚洲精品第一页不卡| 五月婷婷丁香综合| 国产永久免费视频m3u8| 久草青青在线视频| 国产流白浆视频| 日本高清免费不卡视频| 日韩中文精品亚洲第三区| 久久免费成人| 成人国产免费| 欧美国产菊爆免费观看| 亚洲综合香蕉| 久久semm亚洲国产| 88av在线| 无码免费视频| 天天综合天天综合| 国产一区二区色淫影院| 在线国产毛片手机小视频| 亚洲看片网| 91福利国产成人精品导航| 色综合色国产热无码一| 在线观看欧美国产| 波多野结衣一区二区三区四区| 曰AV在线无码| 国产 日韩 欧美 第二页| 99在线视频免费| 久久男人视频| 亚洲国产欧美自拍| 欧美不卡视频一区发布| 爱色欧美亚洲综合图区| 久久精品国产精品青草app| 亚洲欧洲日韩久久狠狠爱| 亚洲成人网在线观看| 伊人激情久久综合中文字幕| lhav亚洲精品| 免费在线视频a| 亚洲欧美日韩中文字幕在线| 国产人前露出系列视频| 亚洲av片在线免费观看| 日韩美毛片| av在线5g无码天天| 国产性生大片免费观看性欧美| 国产精品视频公开费视频| av无码一区二区三区在线|