基金項目:安徽省高校自然科學(xué)重點項目“基于機器學(xué)習(xí)及區(qū)塊鏈技術(shù)的個性化教育數(shù)字資源共享推薦體系研究”(項目編號:2022AH052199);安徽省職業(yè)與成人教育學(xué)會教育教學(xué)研究規(guī)劃課題“后疫情時代高職院校信息化建設(shè)探索與實踐”(項目編號:Azcj2022222);中國職業(yè)技術(shù)教育學(xué)會-華為技術(shù)有限公司2024年度產(chǎn)教融合專項課題“大模型典型應(yīng)用場景研究-助管”(項目號:XHHWCJRH2024-02-02-01);安徽省高等學(xué)校質(zhì)量工程項目“全國職業(yè)院校數(shù)字校園建設(shè)試點校數(shù)據(jù)治理體系建設(shè)研究與實踐”(項目編號:2023jyxm1299);安徽省高校自然科學(xué)重點項目“基于人工智能技術(shù)的高等職業(yè)院校數(shù)據(jù)分析平臺建設(shè)研究”(項目編號:2024AH052018)。
摘要: 在當前數(shù)字化時代,高校非結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)出顯著的增長趨勢。高校面臨諸多挑戰(zhàn),包括數(shù)據(jù)存儲策略的選擇、索引技術(shù)的應(yīng)用與標記方法的確定。大模型技術(shù)在高校非結(jié)構(gòu)化數(shù)據(jù)分析領(lǐng)域具有廣闊的應(yīng)用前景。在對大模型技術(shù)進行概述的基礎(chǔ)上,介紹了高校非結(jié)構(gòu)化數(shù)據(jù)的特點,分析了大模型技術(shù)在高校非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的應(yīng)用,包括數(shù)據(jù)預(yù)處理、模型訓(xùn)練與部署等,并進一步探究了大模型技術(shù)在高校非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的應(yīng)用挑戰(zhàn)。
關(guān)鍵詞: 大模型[A3]" 高校 非結(jié)構(gòu)化數(shù)據(jù) 數(shù)據(jù)分析
Research on the Application of Large Model Technology in the Field of Unstructured Data in Higher Education Institutions
TAO Yunxian[A4]"g1 ""WANG Jun1 ""LI Quanxiang2
1.Wuhu Vocational Technical University, Wuhu, Anhui Province, 241000 China; 2. Wuhu City Urban Operation Management Service Center, Wuhu, Anhui Province, 241000 China
Abstract: In the current digital era, unstructured data within higher education institutions is exhibiting a significant growth trend. Higher education institutions are confronted with numerous challenges, such as selecting data storage strategies, applying advanced indexing technologies, and determining effective tagging methodologies. Large model technology has broad application prospects in the field of unstructured data analysis in higher education institutions. Based on an overview of big model technology, this paper introduces the characteristics of unstructured data in higher education institutions, analyzes the application of big model technology in the field of unstructured data in higher education institutions, including data preprocessing, model training and deployment, and further explores the application challenges of big model technology in the field of unstructured data in universities.
Key Words: Large model; Higher education institutions; Unstructured data; Data analysis
隨著信息技術(shù)的迅猛發(fā)展,高校作為知識傳播和科研創(chuàng)新的重要場所,積累了海量的非結(jié)構(gòu)化數(shù)據(jù)[1]。這些數(shù)據(jù)包括但不限于教學(xué)視頻、學(xué)術(shù)論文、學(xué)生作業(yè)、社交媒體討論等,上數(shù)據(jù)以文本、圖像、音頻、視頻等多種形式存在,蘊含著豐富的信息和價值。然而,如何高效地存儲、管理、分析和利用這些非結(jié)構(gòu)化數(shù)據(jù)成為高校面臨的重大挑戰(zhàn)。大模型技術(shù)以強大的數(shù)據(jù)處理和學(xué)習(xí)能力[2],為解決這一問題提供了新的可能。本文將深入探討大模型技術(shù)在高校非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的應(yīng)用,包括數(shù)據(jù)收集與預(yù)處理、模型構(gòu)建與優(yōu)化、應(yīng)用場景與效果評估等方面。
1 大模型技術(shù)概述
大模型是指訓(xùn)練參數(shù)規(guī)模龐大、網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜的深度學(xué)習(xí)模型。通過在大規(guī)模數(shù)據(jù)集上進行訓(xùn)練,能夠?qū)W習(xí)到豐富的知識和特征表示,從而在各種任務(wù)中表現(xiàn)出色。大模型有以下特點。一是巨大的參數(shù)規(guī)模。大模型通常包含數(shù)十億甚至數(shù)百億的參數(shù),能夠捕捉到數(shù)據(jù)中的細微差異和復(fù)雜模式。二是強大的數(shù)據(jù)處理能力。大模型能夠處理海量的非結(jié)構(gòu)化數(shù)據(jù),從中提取有用的信息和特征。三是深度學(xué)習(xí)能力。大模型采用深度學(xué)習(xí)技術(shù),能夠自動學(xué)習(xí)數(shù)據(jù)中的規(guī)律和特征,實現(xiàn)自動分類、識別、預(yù)測等功能。
2 高校非結(jié)構(gòu)化數(shù)據(jù)的特點
2.1 形式多樣
非結(jié)構(gòu)化數(shù)據(jù)涵蓋了文本、圖像、音頻、視頻、網(wǎng)頁內(nèi)容、傳感器數(shù)據(jù)等多種形式。在高校環(huán)境中,非結(jié)構(gòu)化數(shù)據(jù)包括但不限于學(xué)術(shù)論文、教學(xué)課件、課堂錄音、視頻講座、學(xué)生作業(yè)、科研項目資料、校園監(jiān)控視頻、社交媒體上的校園相關(guān)討論等。
2.2 信息量大
由于現(xiàn)代數(shù)字設(shè)備的廣泛使用,非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生速度快且數(shù)據(jù)量巨大。在高校,隨著在線教學(xué)、遠程會議、數(shù)字化圖書館等應(yīng)用的普及,非結(jié)構(gòu)化數(shù)據(jù)的生成量更是呈現(xiàn)爆炸性增長趨勢。
2.3 格式復(fù)雜
與結(jié)構(gòu)化數(shù)據(jù)不同,非結(jié)構(gòu)化數(shù)據(jù)沒有固定的格式或組織結(jié)構(gòu),這使數(shù)據(jù)的存儲、檢索和分析變得更加復(fù)雜。在高校中,不同來源的非結(jié)構(gòu)化數(shù)據(jù)往往具有各自獨特的格式和存儲方式,增加了處理的難度。
2.4 價值密度低
雖然非結(jié)構(gòu)化數(shù)據(jù)信息量大,但價值密度相對較低,這意味著在大量的數(shù)據(jù)中,只有部分是有價值的或需要被關(guān)注的。在高校中,如何從海量的非結(jié)構(gòu)化數(shù)據(jù)中提取出有價值的信息是數(shù)據(jù)管理和分析面臨的一大挑戰(zhàn)。
2.5 隱私保護要求高
高校非結(jié)構(gòu)化數(shù)據(jù)中往往包含大量的個人隱私信息,如學(xué)生個人信息、教師科研成果等。因此,在處理這些數(shù)據(jù)時,必須嚴格遵守相關(guān)法律法規(guī)和道德規(guī)范,確保數(shù)據(jù)的安全和隱私保護。
3 非結(jié)構(gòu)化數(shù)據(jù)存儲、索引和標記
高校非結(jié)構(gòu)化數(shù)據(jù)存儲、索引和標記是非結(jié)構(gòu)化數(shù)據(jù)管理的重要組成部分,對提高數(shù)據(jù)利用效率具有重要意義。
3.1 非結(jié)構(gòu)化數(shù)據(jù)存儲
高校非結(jié)構(gòu)化數(shù)據(jù)存儲面臨的主要挑戰(zhàn)是數(shù)據(jù)形式多樣、信息量大、格式復(fù)雜等問題。為了解決這些問題,通常采用以下存儲策略:一是文件系統(tǒng)與數(shù)據(jù)庫結(jié)合,即數(shù)據(jù)庫表中存儲文件的具體路徑或鏈接;二是利用數(shù)據(jù)庫的大對象字段直接存儲非結(jié)構(gòu)化數(shù)據(jù)[3-4]。隨著數(shù)據(jù)量的增長,大量高校越來越傾向于采用分布式存儲和云存儲技術(shù)來存儲非結(jié)構(gòu)化數(shù)據(jù)[5]。這些技術(shù)能夠提供高可用性和可擴展性,滿足高校大數(shù)據(jù)存儲的需求。
3.2 非結(jié)構(gòu)化數(shù)據(jù)索引
索引是非結(jié)構(gòu)化數(shù)據(jù)檢索和查詢的關(guān)鍵技術(shù)[6]。通過建立索引,可以顯著提高數(shù)據(jù)檢索的效率和準確性。非結(jié)構(gòu)化數(shù)據(jù)索引技術(shù)有全文索引、圖像和視頻索引、跨模態(tài)索引等。(1)全文索引是將非結(jié)構(gòu)化數(shù)據(jù)中的文本信息提取出來,建立全文索引。通過全文索引,用戶可以通過關(guān)鍵詞快速定位到相關(guān)文檔。(2)圖像和視頻索引利用圖像和視頻處理技術(shù),提取關(guān)鍵幀、特征向量等信息,建立圖像和視頻索引。該索引可以用于圖像和視頻內(nèi)容的快速檢索和識別。(3)跨模態(tài)索引針對包含多種類型數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù)集合,建立跨模態(tài)索引。跨模態(tài)索引能夠關(guān)聯(lián)不同模態(tài)的數(shù)據(jù),實現(xiàn)跨模態(tài)的檢索和查詢。
3.3 非結(jié)構(gòu)化數(shù)據(jù)標記
數(shù)據(jù)標記是非結(jié)構(gòu)化數(shù)據(jù)處理的重要環(huán)節(jié),有助于提高數(shù)據(jù)的可讀性和可解釋性[7]。常見的非結(jié)構(gòu)化數(shù)據(jù)標記方法有人工標記、自動標記、半自動等。(1)人工標記通過人工閱讀和理解非結(jié)構(gòu)化數(shù)據(jù),對數(shù)據(jù)進行標記。這種方法準確度高,但成本也較高。(2)自動標記利用自然語言處理、圖像識別等技術(shù),自動對非結(jié)構(gòu)化數(shù)據(jù)進行標記。這種方法效率高,但可能需要一定的訓(xùn)練和優(yōu)化才能達到較高的準確度。(3)半自動標記結(jié)合人工標記和自動標記的優(yōu)點,先由自動標記算法對數(shù)據(jù)進行初步標記,再由人工進行修正和補充。這種方法既提高了效率,又保證了準確度。
通過采用合適的存儲策略、索引技術(shù)、標記方法,可以顯著提高非結(jié)構(gòu)化數(shù)據(jù)的利用效率和分析準確性。
4 大模型技術(shù)在高校非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的應(yīng)用
大模型技術(shù)在高校非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的應(yīng)用前景廣泛且深入。本文從數(shù)據(jù)預(yù)處理、模型訓(xùn)練與部署、應(yīng)用場景、效果評估方面進行詳細分析。
4.1 非結(jié)構(gòu)化數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是非結(jié)構(gòu)化數(shù)據(jù)分析的前提和基礎(chǔ)。通過預(yù)處理,可以提高數(shù)據(jù)質(zhì)量,為后續(xù)的分析和挖掘工作提供有力支持。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、格式轉(zhuǎn)換、數(shù)據(jù)增強等過程[8]。(1)數(shù)據(jù)清洗目標是去除非結(jié)構(gòu)化數(shù)據(jù)中的噪聲和無關(guān)信息,如廣告、水印、重復(fù)內(nèi)容等,這有助于提高數(shù)據(jù)的純凈度和準確性。(2)格式轉(zhuǎn)換將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的格式,以便于后續(xù)的處理和分析。例如:將不同格式的圖像和視頻轉(zhuǎn)換為統(tǒng)一的分辨率和編碼格式。(3)對于圖像和視頻等非結(jié)構(gòu)化數(shù)據(jù),可以通過數(shù)據(jù)增強技術(shù)來生成更多的訓(xùn)練樣本,提高模型的泛化能力。例如:對圖像進行旋轉(zhuǎn)、縮放、裁剪等操作來生成新的圖像樣本。
在數(shù)據(jù)預(yù)處理階段,通過利用自然語言處理中的分詞、去停用詞、詞性標注等技術(shù),可以對文本數(shù)據(jù)進行預(yù)處理;通過利用圖像識別中的目標檢測、圖像分割等技術(shù),可以對圖像數(shù)據(jù)進行預(yù)處理;通過利用語音識別中的語音轉(zhuǎn)文本、噪聲消除等技術(shù),可以對音頻數(shù)據(jù)進行預(yù)處理。預(yù)處理操作有助于提高數(shù)據(jù)的質(zhì)量和分析的準確性。
4.2 模型訓(xùn)練與部署
4.2.1 預(yù)訓(xùn)練與微調(diào)
大模型通常在大規(guī)模通用數(shù)據(jù)集上進行預(yù)訓(xùn)練,以獲取基本的語言理解和生成能力。針對高校非結(jié)構(gòu)化數(shù)據(jù)的特定任務(wù),可以對預(yù)訓(xùn)練模型進行微調(diào),以適應(yīng)特定領(lǐng)域和任務(wù)的需求。
4.2.2 模型部署與優(yōu)化
訓(xùn)練好的大模型可以部署在高校的計算平臺上,提供實時或批量的數(shù)據(jù)分析和處理服務(wù)。通過持續(xù)優(yōu)化模型參數(shù)和架構(gòu),提高模型的性能和效率。
4.3 應(yīng)用場景
4.3.1 個性化學(xué)習(xí)助手
個性化學(xué)習(xí)助手作為智慧教育的重要組成部分,依托大模型技術(shù)的強大分析能力,為每位學(xué)生量身打造專屬的學(xué)習(xí)路徑。學(xué)習(xí)助手不僅可以根據(jù)學(xué)生的歷史學(xué)習(xí)數(shù)據(jù)、測試成績和興趣偏好智能推薦適合的學(xué)習(xí)資源、課程和視頻講座,還能夠利用先進的自然語言處理技術(shù),與學(xué)生進行實時互動,解答學(xué)習(xí)中的疑惑[9]。
4.3.2 學(xué)術(shù)文獻推薦與分析
在學(xué)術(shù)文獻領(lǐng)域,大模型技術(shù)憑借強大的數(shù)據(jù)分析和處理能力,不僅能夠全面分析學(xué)術(shù)論文的內(nèi)容摘要、關(guān)鍵詞、作者信息、引用關(guān)系等多元數(shù)據(jù),構(gòu)建出復(fù)雜且精準的知識圖譜,還能夠根據(jù)用戶的研究方向和興趣點,智能推薦相關(guān)的最新研究成果和經(jīng)典文獻。這種個性化的論文推薦服務(wù)能夠幫助科研工作者快速獲取所需信息,并節(jié)省大量的時間和精力。同時,大模型還能夠?qū)φ撐牡馁|(zhì)量、影響力進行客觀評估,通過引用次數(shù)、被引速度、作者聲譽等多維度指標,為科研工作者提供科學(xué)的評價依據(jù),助力研究決策。
4.3.3 教學(xué)質(zhì)量評估
教學(xué)質(zhì)量評估是提升教育質(zhì)量的關(guān)鍵環(huán)節(jié)。大模型技術(shù)通過對課堂錄音、視頻等非結(jié)構(gòu)化數(shù)據(jù)的深度挖掘,為教學(xué)質(zhì)量評估提供了全新的視角和方法。通過提取出教師的教學(xué)風(fēng)格、語言表達、互動能力等關(guān)鍵特征,以及學(xué)生的參與度、注意力集中程度等反饋信息,為教學(xué)質(zhì)量的客觀評估提供了有力依據(jù)。這種基于數(shù)據(jù)的評估方式不僅更加客觀、公正,還能夠及時發(fā)現(xiàn)教學(xué)中存在的問題和不足,為教師提供針對性的改進建議,促進教學(xué)質(zhì)量的持續(xù)提升。
4.3.4 學(xué)生行為分析
大模型技術(shù)能夠全面追蹤和分析學(xué)生在校園內(nèi)的各種行為數(shù)據(jù),為學(xué)生行為分析提供豐富的信息來源。通過對圖書館借閱記錄、在線學(xué)習(xí)行為、課外活動參與情況等數(shù)據(jù)的深入挖掘,可以深入了解學(xué)生的學(xué)習(xí)習(xí)慣、興趣偏好、社交能力等多方面的信息。這些信息不僅為個性化教學(xué)提供了科學(xué)依據(jù),還可以輔助學(xué)生管理部門更好地了解學(xué)生的需求和問題,制定更加科學(xué)合理的管理策略。例如:針對學(xué)習(xí)動力不足的學(xué)生,學(xué)校可以制定個性化的激勵措施,激發(fā)他們的學(xué)習(xí)興趣;對于興趣廣泛的學(xué)生,學(xué)校可以提供更加豐富的課外學(xué)習(xí)資源,滿足他們的求知需求。基于學(xué)生行為分析的教學(xué)和管理方式能夠提高教育的針對性和有效性,促進學(xué)生全面發(fā)展。
4.3.5 校園安全管理
在校園安全管理方面,大模型技術(shù)可以發(fā)揮舉足輕重的作用。通過對校園監(jiān)控視頻等非結(jié)構(gòu)化數(shù)據(jù)的實時分析,能夠及時發(fā)現(xiàn)并預(yù)警異常事件,如人員聚集、打斗、入侵等。智能監(jiān)控可以提高校園安全事件的響應(yīng)速度和處理效率,能夠有效預(yù)防潛在的安全隱患,為師生創(chuàng)造一個更加安全、和諧的校園環(huán)境。同時,大模型能對校園安全數(shù)據(jù)進行長期跟蹤和分析,揭示出安全問題的規(guī)律和趨勢,為學(xué)校制定長期的安全管理策略提供數(shù)據(jù)支持。
4.4 效果評估
對于大模型技術(shù)在高校非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的應(yīng)用效果評估,可以從以下幾個方面進行。一是準確性。評估模型在特定任務(wù)上的準確率、召回率等指標,以衡量模型的性能表現(xiàn)。二是效率。分析模型在處理非結(jié)構(gòu)化數(shù)據(jù)時的響應(yīng)時間、吞吐量等指標,以評估模型的計算效率和處理能力。三是實用性。根據(jù)用戶反饋和實際應(yīng)用情況,評估模型在解決實際問題中的實用性和有效性。
5 大模型技術(shù)的應(yīng)用挑戰(zhàn)[A5]
5.1 數(shù)據(jù)隱私與安全
高校非結(jié)構(gòu)化數(shù)據(jù)往往涉及個人隱私和敏感信息,如學(xué)生的個人信息、學(xué)術(shù)成果等。在應(yīng)用大模型技術(shù)時,如何保障數(shù)據(jù)的隱私和安全是一個重要的問題[10]。需要采取有效的技術(shù)手段和管理措施,確保數(shù)據(jù)的合法收集、處理和使用;同時還需要加強用戶的數(shù)據(jù)安全意識教育,提高用戶的數(shù)據(jù)保護能力。
5.2 技術(shù)成熟度與可解釋性
盡管大模型技術(shù)在高校非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的應(yīng)用已經(jīng)取得了一定的進展,但技術(shù)成熟度和可解釋性方面仍存在不足。大模型通常包含數(shù)十億甚至數(shù)百億的參數(shù),其決策過程和預(yù)測結(jié)果往往難以解釋和理解。這可能導(dǎo)致用戶對大模型的信任度降低,影響其在實際應(yīng)用中的推廣和使用。因此,可以進一步提高大模型的技術(shù)成熟度和可解釋性,增強用戶對大模型的信任度。
5.3 教育資源的整合與共享
高校非結(jié)構(gòu)化數(shù)據(jù)通常分布在不同的部門和系統(tǒng)中,如何有效地整合和共享這些資源是一個重要的問題。可以加強跨部門和跨學(xué)科的協(xié)作與合作,共同推動教育資源的整合,建立標準的數(shù)據(jù)接口規(guī)范,實現(xiàn)跨域異構(gòu)系統(tǒng)間的數(shù)據(jù)互聯(lián)、互通、共享。
6 結(jié)語
隨著大模型技術(shù)的不斷發(fā)展和完善,其在高校非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的應(yīng)用前景將更加廣闊。未來,可以期待更多創(chuàng)新性的應(yīng)用案例出現(xiàn),同時也需要關(guān)注數(shù)據(jù)隱私與安全、依賴性與自主思考能力培養(yǎng)等問題,確保大模型技術(shù)在高校非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的應(yīng)用始終發(fā)揮正面效應(yīng)并符合倫理規(guī)范。
參考文獻
[1]安然,儲繼華,洪先鋒.面向非結(jié)構(gòu)化數(shù)據(jù)的情報分析方法體系框架研究[J].情報理論與實踐,2024,47(2):143-150.
[2]吳砥,李環(huán),陳旭.人工智能通用大模型教育應(yīng)用影響探析[J].開放教育研究,2023,29(2):19-25,45.
[3]尚玉明,薄屹楠,鄧暉,等.醫(yī)院信息化建設(shè)之醫(yī)療設(shè)備網(wǎng)絡(luò)需求分析[J].中國醫(yī)院建筑與裝備,2019,20(3):68-74.
[4]單松輝.基于CTI的電力語音綜合服務(wù)系統(tǒng)的設(shè)計與實現(xiàn)[D]. 上海: 上海交通大學(xué),2011.
[5]劉超.計算機網(wǎng)絡(luò)安全存儲中運用云計算技術(shù)的思考[J].網(wǎng)絡(luò)安全和信息化,2023(3):122-124.
[6]李征宇,趙卓峰.基于軌跡大數(shù)據(jù)時空分布的索引與查詢方法[J].南京航空航天大學(xué)學(xué)報,2022,54(3):528-536.
[7]沈梟麒.基于地理標記數(shù)據(jù)的城市人類活動時空語義可靠性建模[D]. 徐州: 中國礦業(yè)大學(xué),2023.
[8]閆佳和,李紅輝,馬英,等.多源異構(gòu)數(shù)據(jù)融合關(guān)鍵技術(shù)與政務(wù)大數(shù)據(jù)治理體系[J].計算機科學(xué),2024,51(2):1-14.
[9]周云銳.人工智能背景下高校英語智慧教學(xué)創(chuàng)新路徑探究[J].現(xiàn)代英語,2023(23):29-31.
[10]趙月,何錦雯,朱申辰,等.大語言模型安全現(xiàn)狀與挑戰(zhàn)[J].計算機科學(xué),2024,51(1):68-71.