李驍天 胡良平 尚熙明 陳榮志



關鍵詞:體育科學研究;大型語言模型;ChatGPT;重塑;應用
在信息爆炸的今天,數據成為了科學研究的重要基石。如何高效、準確地從海量數據中提取有價值的信息,已經成為當代科研工作者面臨的重大挑戰。這一挑戰并不僅僅局限于傳統的自然科學領域,體育科學研究也同樣面臨如何從海量數據中提取有價值的信息的問題。近年來,隨著大型語言模型(large-scale language
model,LLM)的發展與應用,我們看到了解決這一問題的可能性。然而,大型語言模型并不只是一個解決問題的工具,它更是在悄無聲息中改變并重塑著體育科學研究。本文將以OpenAI公司發布的大型語言模型——ChatGPT為例,深入探討這一現象。ChatGPT的發布,逐步展現出人工智能在輔助科研工作方面的強大潛力。經過海量文本數據的訓練,ChatGPT能夠與用戶進行流暢的對話,并生成看似類人、智能的文本。2023年3月14日.ChatGPT升級為GPT-4.0.并增設了應用市場(plug-in),使其成為了一個功能豐富的生態系統,允許研究人員根據任務需求從市場中選擇對應的插件應用。此進展無疑標志著“AIl.0到AI2.0”的新契機已經來臨。對于體育科學研究而言,ChatGPT式的啟發性內容生成、對話情景理解、序列任務執行、程序語言解析與人工智能生成內容(AIgenerated content,AIGC)的到來,勢必將引起體育科學研究一場數智化的變革。
大型語言模型的采用對體育科學研究提供了一種全新的研究工具。借助ChatGPT的功能,研究者能夠更有效地從海量的體育相關數據中提取有價值的信息,從而對運動員的身體狀況、運動表現等進行深入分析。此外,通過程序語言解析與AIGC的功能,研究者甚至可以模擬各種體育競技場景,為運動員的訓練和比賽提供數據支持。然而,大型語言模型不只是帶來了研究優勢,更是在改變并重塑著體育科學研究。例如:大型語言模型在文獻分析、定量分析、定性分析以及可視化技術等各個方面都產生了深遠的影響。體育科研工作者必須認識到,大型語言模型也給體育科學研究帶來了一些挑戰和問題,主要有如何有效地處理和分析大規模的數據,模型的不透明性如何影響我們對研究結果的理解和評價。
本文將深入探討這些問題,并以此為契機,進一步理解大型語言模型在體育科學研究中的應用和影響,同時也將關注使用這些模型可能帶來的挑戰和問題。通過本文的探討,希望能為未來的相關研究提供一些啟示,以更好地利用這些強大的模型,推動體育科學研究的發展。全文框架如下:首先,概述大型語言模型的發展及其形式;其次,對大型語言模型給體育科學研究帶來的優勢和機遇展開探討;再次,詳細分析大型語言模型如何重塑體育科學研究;最后,結合重塑繼而探討大型語言模型在體育科學研究中的局限、挑戰,以及對未來研究的啟示。
1大型語言模型概述
1.1大型語言模型的發展演進
大型語言模型是人工智能(AI)的一種技術,它是一種利用自然語言處理(natural language process-ing,NLP)技術來理解、生成和處理人類語言的機器學習模型,這類模型直接可以用人類自然語言進行對話,而不需要編程。其發展可以追溯到20世紀50年代的計算機科學重要分支——自然語言處理,側重于編程使計算機理解和生成人類語言,重點是如何讓計算機處理和理解人類語言。在大型語言模型發展的早期階段,它是基于N-gram統計語言模型來運行的,但該模型存在數據稀疏性和泛化能力差的問題,無法很好地處理復雜的自然語言任務。隨著統計學、計算機硬件技術的發展,大型語言模型迎來了第2個發展階段,即采用循環神經網絡(re-current neural networks,RNN)、長短期記憶網絡(long short-term
memory,LSTM)等構架。隨著深度學習和神經網絡技術的發展,學者Vaswani于2017年首度提出了transformer架構,這是第3個發展階段的標志性事件。Transformer架構完全依賴自注意力(self-attention)來計算輸入和輸出序列表示的深度學習相關的神經網絡架構,它解決了RNNs和LSTM等模型在處理長序列數據時存在的梯度消失或梯度爆炸的問題,同時也克服了CNNs等模型對于序列長度的限制,逐漸使得它成為自然語言處理領域的主要技術之一。在Vaswani提出Trans-former之后的2年里,出現了包括Open AI的大型預訓練語言模型機器人即GPT(generative pre -training transformer)、GPT-2、GPT-3/GPT-3.5、GPT-4和Google的Bard采用的BERT(bidirection-al encoder representations from transformers)與LaM-DA(language model for dialogue
applications)等大型語言模型。這些模型機器人都是通過在大量文本數據上進行預訓練,獲得豐富的語言知識和語義信息,能夠處理龐大的數據集并生成人類自然語言。模型在問答系統、機器翻譯、文本摘要等任務中取得了非常好的效果,逐漸在科學研究應用場景中具備了廣泛潛力。
1.2主流常見大型語言模型
當前大型語言模型除了人們所熟悉的ChatG-PT、Bard等之外還有ChatSonic、Jasper AI、The NewBing(Bing AI)、CoPilot和Claude等十多種。參閱國內外學術期刊中的大型語言模型文獻,本文選擇ChatGPT、Bard、Claude、The New Bing及Sage作為本節分析對象(見表1)。這幾類模型都在大量的文本和代碼數據集上進行了數年的訓練及完善,意味著它們都能進行富有信息性和吸引力的對話,能很大程度上改變人們獲取信息的方式。它們還可以生成不同的創造性文本格式,如詩歌、代碼、劇本、音樂作品、電子郵件、信件等。Open AI有GPT -3.5和GPT-4 2種模型,也是當前應用最多的大型語言模型。GPT-4是目前最新的、功能較全的模型,比其他類型模型擁有更大的數據集,并在模型內容參數方面進行了微調,這意味著它更有可能生成準確且與更廣泛主題相關的文本。Bard由Google開發,集合了LaMDA和BERT 2種模型技術。Bard已被用于生成研究論文、文獻的文本;Bard可以聯網,因而信息準確性會更高;它與github進行整合,代碼輸出、分析的能力更強大。截至2023年7月,Bard支持40種語言且可以上傳文本、圖片進行分析。總體而言,ChatGPT在對寫作提示的復雜度評估方面與市場占有率略高于Bard(Experiment)。
Claude+和Claude Instant由Anthropic開發,都基于GPT -3語言模型。Claude+的特點是支持長文本及大型視頻的解析;Claude-instant設計用于學術研究應用,可以快速響應指令,生成準確且與研究主題相關的文本。Sage由POE開發,主要用于學術研究應用,在學術論文的數據集上進行了微調,這就表明著它更有可能生成準確且與研究主題相關的文本。該模型在通用目的的文本和代碼數據集上進行了微調。這就表明它著可以用于多種任務,翻譯語言和編寫不同種類的創意內容,但主要特點是輔助寫作。
本文后續以ChatGPT-4為例進行討論,因為截至2023年7月ChatGPT-4的插件應用中約有近700多個,且數量還在不斷更新中。這些插件主要以訪問網絡獲取各類型信息、執行復雜的計算、與第三方服務交互的形式擴展了ChatGPT功能,極大提升了體育科學研究的效率與效果。
1.3大型語言模型的特點與功能
現階段大型語言模型特點之一即上文提及的采用無監督學習的技術進行模型訓練。通常模型被訓練成預測給定的一系列詞語之后會出現的下一個詞,這意味著他們在訓練數據中并未給出明確的標簽或答案,而是學習根據前面的單詞提供的上下文來預測句子中的下一個單詞,從而在生成一段語言時,可以模擬人類語言的復雜性和連貫性,因而又稱為概率語言模型。大型語言模型的特點之二就是“大型語言模型”中的“大型”,是指模型有上億的參數。參數是訓練數據中模型學習的部分,并用于進行預測。例如:GPT-3截至2022年9月最后的訓練數據有1750億個參數,GPT-4截至2023年3月最后的訓練數據有100萬億個參數,Bard截至2023年5月最后的訓練數據有1370萬億個參數。大型語言模型的特點之三就是模型信息量巨大。GPT-4的內容來源主要是從互聯網上獲取的大量文本數據。這些數據可能來自各種不同的源頭,包括但不限于書籍、新聞文章、網頁、科技論文、博客、論壇帖子等。截至2021年9月,OpenAI的模型如GPT-3和GPT-4是基于廣泛的互聯網文本進行訓練的。大型語言模型的特點之四就是高級語言生成。在大型語言模型訓練的過程中,這些文本數據被用來教會模型如何理解和生成人類語言。模型從這些數據中學習語言的模式,如單詞和短語的常見組合、句子的結構,以及在特定上下文中使用特定語言的習慣等。大型語言模型可以生成連貫、自然的文本,幾乎與人類產生的文本無法區分。這使得它們在很多應用中有巨大的價值,如在寫作助手、聊天機器人或自動郵件響應等場景中生成文本。
要弄清楚使用大型語言模型的功能,那么需要先弄清楚大型語言模型能做什么。學者吳軍認為大型語言模型主要用于:第一,信息查詢,過去搜索引擎Baidu、Google是給出有答案的網頁鏈接,但現在ChatGPT是直接給出結果;第二,信息濃縮與編輯,這主要是專業人員使用。上述大型語言模型任務的核心:一個是理解自然語言,明白人的意圖;另一個是產生自然語言的文本,滿足人的要求。簡言之,就是信息形式轉換、根據要求產生文本和信息精簡。上述主要用途可以反映出,大型語言模型在自然語言理解與內容生成方面具有以下幾項能力,即啟發性內容生成能力、對話情景理解能力、序列任務執行能力、程序語言解析能力。最后,由于ChatGPT的底層模型是在英文文本數據集上進行自主學習,故而采用英文提問的準確性,要比其他語言問答的準確性更高。
2大型語言模型應用到體育科學研究中的優勢與機遇
2.1大型語言模型應用到體育科學研究中的優勢
體育科學研究使用大型語言模型具有較大的優勢。第一,在當前的跨學科科研環境下,數據分析已經成為常見的研究方法之一。大型語言模型可以處理和分析大量的定性數據(文本)和定量數據,它可以幫助研究者解讀復雜的數據集,幫助學者從數據中發現隱藏的模式和數據趨勢,并提供有關數據背后的含義。這對于數據驅動的研究和實證研究非常有價值,可以幫助研究者做出準確的結論和推斷。第二,大型語言模型可以提供快速而準確的信息檢索和知識獲取。作為預訓練生成的智能語言模型,它可以回答各種學術領域的問題,并提供相關的背景知識和文獻引用。這使得研究者能夠更高效地獲得所需的信息,節省大量的時間和精力。第三,大型語言模型具有強大的多語言處理能力,它能將研究成果翻譯成不同的語言,使學者可以更方便地獲取和理解其他語言的研究成果,拓寬研究視野。這里多語言處理不僅是不同語種間科研成果的翻譯,還可以實現與各種計算機語言的對話。第四,論文寫作是體育科研工作的核心環節,且非常耗時。大型語言模型可以在寫作過程中為研究人員提供建議和提示,如提供論文結構的建議,或者根據前文生成接下來的句子。大型語言模型還可以作為一個高效的文字編輯工具,特別是在英文方面可以自動檢查并修正語法、拼寫和標點錯誤等,甚至可以對文章的流暢性和邏輯性進行修改和優化。大型語言模型能夠輸出連貫、自然的文本,具有一定類人語言特性。在某些特定情景下可以借助大型語言模型自動生成科研文章的初稿,節省研究人員的寫作時間。第五,大型語言模型可以幫助體育科研人員增強知識儲備,降低知識使用門檻。國外學者使用ChatG-PT和Bard,為運動員制訂了為期4周個性化四周的下肢預防損傷訓練方案(包括有氧熱身、動態拉伸、訓練和冷卻等)。大型語言模型不僅能夠滿足在運動訓練中具備一定學識和文化水平的教練員、科研人員和管理人員的需求,還可以適用于文化程度相對較低的運動員。運動員可以通過自然語言交互的方式,與大型語言模型進行交流,幫助他們識別運動動作,獲取運動技能,并提供實日寸的反饋和指導。第六,大型語言模型能幫助快速撰寫體育新聞和提供熱點體育資訊分析,可以根據體育目標人群的興趣偏好自動生成指向性廣告內容,從而提高營銷工作的有效性。GPT-4已經擁有了多模態的內容輸出和處理功能。2023年5月,ChatGPTAPI的發布已經應允第三方將GPT植入自己的商業服務中,這意味著GPT將使AIGC的體育新聞制作能力實現質的飛躍。此外,大型語言模型可通過分析偏好、行為和歷史記錄等粉絲數據,進而根據每個粉絲的需求和興趣生成定制報道內容和信息推薦,如體育比賽看點、門票促銷、獨家商品優惠等,以增加與粉絲的情感聯系,提供良好消費體驗。
2.2大型語言模型給體育科學研究帶來的機遇
大型語言模型,如ChatGPT,已經在自然語言處理、機器翻譯、語音識別等領域取得了顯著的成果。這些技術的應用,為體育科學研究提供了強大的工具和技術支持,從而提高了研究效率和準確性,推動了體育科學研究的進程。具體來說,大型語言模型為體育科學研究帶來了發展機遇。第一,大型語言模型可以有效提升體育科學研究工作的效率與質量。通過利用其強大的分析和生成能力,研究人員能夠快速查找及整理文獻資料,減輕繁重的信息篩選工作。例如:ChatGPT利用啟發性內容生成能力可以生成研究提綱、研究報告等,能夠減輕研究人員的寫作負擔,使其將精力集中在實驗和創新上。第二,科研工作者可以通過與大型語言模型的交互,進行頭腦風暴和創新思考,發現新的研究領域和問題。例如:大型語言模型可以提供新的觀點、領域交叉的啟發和潛在的研究方向,幫助研究者拓展新的研究領域。第三,大型語言模型具有一定的自然語言理解能力,可以被用于體育科學研究中不同的學科領域知識的學習與運用,推動跨學科研究。例如:它可以幫助運動訓練專家理解認知神經科學,從而推動體育神經管理科學的發展。第四,使用大型語言模型的過程本身就是人工智能的研究機遇。研究人員可以通過與其互動,探索和理解人工智能模型的工作原理,例如:它是如何理解和生成語言的,以及它的優點和局限在哪里。這些理解可以進一步幫助科研人員構建具有體育科學研究專業特色的大型語言模型。第五,大型語言模型能理解和生成多種語言的文本,這在進行跨學科、跨語種研究時非常關鍵。用ChatGPT來翻譯和解析其他語言的學術資料,就可以提供多學科的視角。第六,大型語言模型可以幫助研究者創建豐富、引人入勝的可視化效果,幫助研究人員更好地理解和解釋他們的數據,使得體育科學研究中的結果可視化變得可能。第七,大型語言模型將推動“即時體育知識服務”的出現,即在運動訓練中可以提供個性化、高效、實時、全面的教學指導和服務。有研究表明,大型語言模型在提升運動員競技技能、改善團隊績效等方面有顯著的積極作用。隨著大型語言模型不斷迭代完善,它將為體育科學研究帶來巨大的機遇。下文從大型語言模型的3個核心任務、4項核心能力擴展到文獻閱讀、視頻分析、實證定量分析、定性分析、定制研究框架、激發體育科學研究的創意展開,詳細討論大型語言模型如何重塑體育科學研究。
3大型語言模型對體育科學研究的重塑
3.1大型語言模型對體育科學研究中文獻分析的重塑
第一,大型語言模型通過信息形式轉換和信息精簡,借助強大插件(Xpaper、Scholar AI、NextPa-per. ai等)功能,能夠通過搜索、分析龐大的文獻數據庫,快速、準確檢索相關文獻,提供相關文獻的摘要和關鍵信息,借助人工智能圖形插件(Show Me)構建文獻的思維導圖并進行分析(見圖1—圖2)。第二,ChatGPT可以通過信息精簡對海量文獻進行自動摘要和信息提取。以往我們在文獻學習過程中,需要耗費大量時間閱讀和整理大量的文獻,提取其中的關鍵信息。ChatGPT及其采用GPT-3.5技術的文獻閱讀網頁插件(ChatDOC、ChatPDF等)能夠通過深度學習技術,高效生成概覽和提取關鍵信息,還可以定位到具體頁碼提出的關鍵信息,高效地獲取所需的文獻知識。第三,由于體育科學研究屬于多學科交叉融合性的研究,需要閱讀大量外文、不同學科的文獻。ChatGPT具有信息形式轉換、根據要求產生文本和信息精簡功能,可以實現對多語言的支持和跨學科融合。通過自然語言處理和對話情境理解能力,能夠幫助研究人員跨越語言障礙,獲取和理解不同時期、不同語種和不同領域的體育科學研究的成果,促進體育科學研究間的交流和合作。例如:使用ChatGPT可以同時閱讀多個不同語言種類的文獻,同時可以聯網進行查閱,對互聯網、學術期刊論文進行融合閱讀學習。第四,通常進行一項研究的初期階段,學者需要快速、高效地概覽大量文獻,并從中找到符合要求的文獻。如前所述,ChatG-PT能夠快速地掃描和總結大量的文本,它們能夠提供文章、書籍和論文的簡潔摘要,方便研究者決定是否值得閱讀全文,整合、綜述篩選出來的文獻,可以生成更全面、準確的知識綜述,從而更好地了解相關研究領域的現狀和前沿。第五,ChatGPT通過信息精簡、信息形式轉換還能夠挖掘文獻之間的關系,快速分析文獻間的相互引用關系,幫助研究人員建立知識網絡和關聯圖譜,促進跨文獻的綜合分析和理解。
3.2大型語言模型對體育科學研究中定量分析的重塑
定量研究是體育科學研究中重要的方法之一,它是基于數理統計方法的研究,多采用描述性統計分析、推斷性統計分析和數據挖掘等,能夠提供深度的洞見并證明某些因果關系。許多體育科學研究需要處理大量的數據,如大型全民健身問卷調查數據、中小學生體育鍛煉參與問卷數據、國民體質測試數據、社交平臺上關于體育話題數據、社群關系中的體育參與影響數據、運動員的表現數據、大型商業體育賽事數據和比賽結果甚至觀眾的反饋等。這類數據數量大,變量多,不僅需要研究人員具備深厚的數理統計方法的知識,還需要不同統計分析數據編程知識,且分析時間較長,不易出成果。GPT-4具有強大的數據處理能力,可以把數據上傳到Chat-GPT的在線分析平臺(Python分析為主),它擁有較多的數據代碼的插件,能夠實現自然語言與數據代碼間的交互,插件商場中已有多個代碼自動撰寫的插件,可以使用代碼撰寫、文獻閱讀、網頁分析3個插件同時工作。體育科學研究中的實證定量研究不再受本地計算機算力的局限,可以實時、快速、高效地進行諸如決策樹(decision trees)、支持向量機(support vector machines.SVM)、線性回歸(linearregression)、邏輯回歸(logistic regression)和神經網絡(neural
networks)等監督、無監督機器學習分析,并根據研究中的要求進行繪制統計圖表并撰寫簡單的數據分析報告。ChatGPT能夠在客觀分析數據的同時,以清晰、簡潔的文字為學者提供概括與解釋,從而為研究人員提供分析結果、趨勢的預探析,加快研究進程。此外,可以借助ChatGPT根據要求產生文本、信息精簡的功能,幫助學者快速理解、學習各類統計模型,使用統計軟件進行分析。最重要的是,ChatGPT具有一定程序語言解析能力,可以根據要求生成數據分析代碼,并給出每行代碼的幫助解釋,可以將代碼從一種編碼語言翻譯成另一種編碼語言,可以捕獲編碼中的拼寫錯誤或違反基本語法的行為,極大地降低了體育科研工作者學習定量研究的門檻。圖3展示了ChatGPT-4根據體育科研工作者的要求寫的一段Python神經網絡運算的代碼,圖4展示了ChatGPT-4對每行代碼的解釋。更重要的是在實際操作過程,假如Python出現運行錯誤,ChatGPT-4根據錯誤運行信息,可以及時糾錯。這個神經網絡運算代碼可能存在錯誤的地方,這對于完全不了解Python、神經網絡的研究人員來說極大地提高了研究效率。
3.3大型語言模型對體育科學研究中定性分析的重塑
常見的定性研究有訪談、焦點小組、現象學、扎根理論、民族志和口述史等。定性研究的目的是理解人類行為和經驗的復雜性和多樣性,通常采用更具開放式、靈活性的方法,以便研究者可以深入了解參與者的觀點和經驗,從而獲得更全面、深入的理解。
體育科學研究中的定性研究常涉及文本材料、音頻材料、視頻材料的分析,但更多以前兩者為主。第一,ChatGPT通過信息精簡能快速、準確地從文本材料中識別和提取關鍵信息,如文本中的主題、觀點、論據等。研究人員使用ChatGPT的API接口,訓練專門的定性研究話題的模型,使模型內容可以更加聚焦,使其能夠識別和標記潛在的主題或感興趣的體育定性研究議題。可以根據已經訓練的ChatGPT模型提供對文本材料的獨特分析視角,ChatGPT可以協助解釋結果,生成復雜構念的研究摘要,并幫助以更易于理解的方式將研究結果呈現給科研工作者,如借助思維導圖形式展現研究結果。雖然這不能完全替代學者在這個復雜任務中的工作,但是在主題分析的初始階段,可以簡化研究人員的工作量。需要強調的是,GPT-4借助強大的自然語言處理能力,加之具有處理各種語言的能力,可以簡化文本分析過程。第二,大型語言模型可以為體育定性研究提供新的視角和方法,文本分類研究是其他學科定性研究的常用方法之一,通過聚類和分類技術,它們可以幫助研究人員發現文本數據中的隱藏模式,或者幫助人們理解復雜的問題與現象。通過生成模型,甚至可以模擬社會互動,以預測和理解這類現象與關系。具體來說,ChatGPT在以下幾個體育科學研究領域中可以重塑定性研究。體育法規政策研究能借助ChatGPT進行信息精簡,可以從大量的體育政策法規文件中快速提取相關信息,基于給定主題或在多輪對話過程中識別的上下文信息,生成有啟發性和創意性進而獲得有價值的研究材料。
在研究不同時期、不同語種奧林匹克運動的文件時,ChatGPT可以通過信息形式轉化、信息精簡,進行跨語種的奧林匹克研究,將不同歷史時期奧林匹克運動中相關的文件進行思維導圖呈現。在體育新聞學研究中,賽事中運動員采訪文稿是常見的體育新聞研究重要素材之一,ChatGPT可以迅速歸納出訪談材料中出現的關鍵詞和主題,幫助新聞工作者聚焦體育新聞研究中的重點。體育新聞輿情研究中,ChatGPT還可以分析社交媒體上、網站中評論中人們對體育賽事、體育事件的情感和觀點,幫助研究者了解人們的態度和觀點。體育民族志研究將體育作為一種文化現象進行研究,要求研究者進行田野調查、參與觀察和口述史訪談,會收集到大量的文本、音頻數據等非結構化數據。ChatGPT的信息精簡、對話情景能力在這方面具有一定優勢,已有研究采用其對人格預測、情感分析等任務進行了探索。在體育心理學研究中,ChatGPT分析運動員和教練之間的對話文本,運用文本分類能力,對運動競技狀態預測、情緒分析、團隊配合等任務進行分類,改善教練員執教能力與提升運動員競技技能。
3.4大型語言模型對體育科學研究中可視化技術的重塑
可視化分析在理解和解釋復雜的體育科學研究數據和概念方面發揮著重要作用。然而,創建高質量的可視化內容通常需要大量的時間和專業知識。ChatGPT-4已經開放了關于分析視頻、圖片的大量插件,這有利于體育科學研究可視化研究。學者認為ChatGPT研究的可視化方面具有顯著的優勢。體育訓練學領域中,有大量體育競技賽事、訓練的視頻,這部分視頻需要體育科研工作者花費大量的時間進行觀看、分析。ChatGPT可以用于創建交互式的可視化工具。這些工具可以讓用戶通過自然語言與數據進行交互,從而更好地理解數據。ChatGPT可以幫助研究人員解釋復雜的數據集。例如:分析足球比賽視頻,提取視頻中雙方進攻、防守路線時間軸上的關鍵信息,并生成文本,進而構建數據集,將數據統計分析和可視化,轉化為使用Jupyter的編程問題;在城市公共體育服務研究方面,城市公共體育設施地理信息圖表可以有交互元素,允許用戶向ChatGPT提問關于特定地標或全民健身基本的問題。此外,定性研究中,研究人員經常需要觀看大量田野調查的視頻,如對體育愛好者訪談視頻、晨晚練點中群眾參與體育活動中對話的視頻,可以利用ChatGPT-4提供的視頻分析插件,總結、提煉視頻中的信息,再使用其他插件進行表格、思維導圖等研究任務。還可以使用詞云圖插件進行文本數據可視化,給研究者提供一個直觀的概覽,可以大大節省時間,提高研究的效率。在上文提到的實證定量研究中,ChatGPT可以幫助我們更好地理解和解釋數據,借助強大的插件系統還可以將數據生成可視化的數據,這有助于研究人員更好地理解數據的模式和趨勢。統計學有大量模型概念和公式,這部分概念、公式對于僅將統計學作為研究工具使用的體育科研工作者來說有一定的難度。ChatGPT可以對概念進行解釋,輔助以圖示能直觀地解釋概念(見圖5~圖6)。
社交網絡分析結合了機器學習、可視化等多個方法,它可以幫助研究者深入了解人們之間的關系和互動方式。ChatGPT借助自然語言技術進行信息形式轉換、對話情景理解、程序語言解析。例如:可以利用ChatGPT幫助研究者自動抽取微信的聊天記錄中關于體育活動、體育參與、體育組織關鍵詞、實體和話題,并通過網絡分析工具構建出體育組織、體育活動中人際關系網絡圖,了解不同群體之間的體育活動、組織的互動方式和信息傳播路徑。ChatG-PT可以快速、準確地進行結果的可視化呈現,能提升研究效果與效率。最后,知識視頻學習是體育科技工作者的學習方式,但是會耗費大量的時間,ChatGPT強大的視頻分析能力,可以快速對視頻的內容進行文字內容展示,并可以精確定位視頻中不同知識點的時間,從而有針對性地學習。
頂尖期刊的論文基本都把結果可視化作為一個優秀論文的核心指標之一,在學術圈里流傳這樣一句話,一圖抵千字,足見研究結果可視化的重要性。ChatGPT在體育科學研究中的可視化方面具有以下優點。首先,使信息圖表更具動態性和交互性,從而提高用戶的參與度和留存率,且可以不斷進行修改、完善。其次,ChatGPT使創建交互式信息圖表變得更容易。憑借其先進的語言生成能力,ChatGPT可以幫助自動化創建交互元素的文本和對話的過程,從而節省研究人員的時間和資源。此外,ChatGPT還可以通過提供易于理解的自然語言解釋和概括,使信息圖表更易于被讀者所理解。
4大型語言模型應用到體育科學研究中的局限與挑戰
4.1大型語言模型給體育科學研究帶來的局限
大型語言模型給體育科學研究帶來的局限主要由體育科學研究的特殊性和模型設計中自身缺陷所致。第一,盡管ChatGPT具有多語言支持和跨學科融合能力,但對于某些特定領域或語種的文獻,可能會存在語言障礙或理解困難。例如:研究導引養生功法對身體健康的影響,采用ChatGPT對相關的文獻進行查閱和分析。眾所周知,中國傳統養生文化源遠流長,作為一個特定研究領域有自己獨特的術語、技巧和理論,并且在這個領域中的文獻大都是中文文獻。雖然ChatGPT具有多語言支持,但它可能無法提供準確的理解和翻譯。如此使用ChatGPT杏詢、閱讀和理解文獻將有很大局限。第二,雖然ChatGPT可以自動提取文獻中的關鍵信息,但是它無法理解這些信息的深層含義或上下文關系,這是它基于統計模型和模式匹配的工作原理導致的。第三,ChatGPT的信息主要來源包括互聯網和學術期刊論文,但并不能保證所有相關數據的質量和準確性。使用ChatGPT時,研究人員仍然需要審查和驗證數據的可靠性。另外,因為它的輸出可能受到訓練數據偏見的影響,其提供的文獻摘要或關鍵信息可能會有偏差。此外,如果需要進行深度的文獻分析,如理解文獻的研究方法、設計或論證邏輯,Chat-GPT可能也會有所不足。第四,大型語言模型在訓練數據中并未給出明確的標簽或答案,而是學習根據前面的單詞提供的上下文來預測句子中的下一個單詞。這個訓練過程通常在互聯網文本的各種范圍內完成。然而,模型并不知道具體哪些文件在他們的訓練集中,也無法訪問任何專有數據庫、分類信息、機密信息或個人數據(除非在對話過程中有人與它們分享這些數據),從而造成大型語言模型的工作方式數據“黑箱”工作方式。第五,在使用大型語言模型進行定量研究時,首先可能會遇到的局限性是其無法替代專業統計知識和數據分析技能。雖然ChatGPT可以生成數據分析代碼并提供代碼的解釋,但是它無法像專業的統計分析師那樣理解和解釋復雜的統計模型和結果。另外,盡管ChatGPT可以處理大量數據,但是對于某些特定類型的數據,如非結構化數據或者復雜的數據,會遇到困難。第六,盡管ChatGPT可以幫助研究者提取視頻中的關鍵信息和創建交互式的可視化工具,但是它不能完全替代人類對體育訓練和比賽的理解和洞察。如對比賽策略和運動員心理狀態的理解就需要具體的專業知識和體育科研工作者的直覺。
4.2大型語言模型給體育科學研究帶來的挑戰
大型語言模型給體育科學研究帶來的挑戰,體現在實際應用可能會遇到的問題,第一,雖然Chat-GPT可以生成具有邏輯連貫性的響應,但它無法解釋自己的推理過程,這對于需要理解和解釋結果的體育科學研究可能是個挑戰。例如:如何提高Chat-GPT的理解能力以使其能夠更好地理解文獻的深層含義和上下文關系;如何更好地利用ChatGPT的多語言支持和跨學科融合能力以促進跨語言和跨學科的研究。第二,大型語言模型如ChatGPT的訓練依賴于大量的文本數據。這些數據的質量、內容和偏差都會直接影響模型的表現。模型可能還會學習并復制互聯網上的錯誤信息。在實際應用中,如何提高ChatGPT在數據處理和分析方面的準確性和效率是一個重要的挑戰。對于復雜的數據分析任務,如多元線性回歸、主成分分析或者神經網絡分析,ChatGPT可能需要更深入的訓練和優化才能得到可靠的結果。另外,定量研究涉及大量的數據,因而數據的質量、完整性和一致性也是一個重要的挑戰。第三,雖然ChatGPT具有高效處理文本的能力,并能提供視角和分析方法,但它對于音頻和視頻材料的處理能力有限。在分析教練和運動員的訪談視頻或錄音中,ChatGPT可能無法理解和處理非語言的信息,如肢體語言、面部表情和語調等。此外,ChatG-PT的理解和解釋能力還無法達到人類的水平,對于復雜、抽象和難以量化的概念,如體育精神、公平競賽等,ChatGPT可能無法準確捕捉和作出反應。特別是ChatGPT可以生成具有邏輯連貫性的響應,但它無法解釋自己的推理過程。這對于需要理解和解釋結果的體育科學研究是一個極大的挑戰。第四,在體育科學研究中,研究結果的可復現性是非常重要的。然而,大型語言模型是一個語言概率模型,由于大型語言模型的輸出受到諸多因素(如模型的初始狀態、指令輸入的細微變化等)影響,其結果可能并不總是可復現的。第五,雖然,Open AI的GPT-4推出了海量的應用,這正在降低使用大型語言模型的難度,但對于一些缺乏計算機科學背景的社會科學研究人員來說,技術門檻可能依然是一個挑戰。第六,雖然大型語言模型具有巨大的潛力,但不能過分夸大其能力。它們并不能解決所有問題,對它們的期待需要建立在對其能力和局限的理解基礎上。對于大型語言模型生成的結果,既有可能過于依賴其輸出,也有可能對其過于懷疑。同時,過度依賴大型語言模型可能會削弱科研工作者的創新能力和批判思維能力。如何找到適當的平衡,既利用模型的優點,又避免對其結果的盲目信任,也是一個挑戰。
必須清醒認識到大型語言模型的使用中還面臨諸多挑戰,如隱私和數據倫理問題,模型的可解釋性、缺乏統一的規范,如何在科研中正確、高效、倫理地使用等。因此,需要在應用大型語言模型的同時,不斷探索并解決這些問題;充分利用這些模型作為工具來輔助研究,而不是完全依賴它們,以實現更加創新和可持續的體育科學研究。
5大型語言模型應用給體育科學研究帶來的啟示
大型語言模型在體育科學研究中,盡管面臨某些局限和挑戰,但其對科研工作者的啟示卻不可忽視。首先,隨著大型語言模型的不斷優化,其在提升文獻研究的效率和準確性方面的優勢日漸顯現。這不僅打破了語言和學科的壁壘,還為多學科交叉的體育科學研究提供了可能。其次,大型語言模型的運用將改變定量研究的工作方式。特別是Open AI于2023年7月上旬發布了Code interpreter,它結合了數據自動分析、報告撰寫、圖片分析于一身,被視為GPT-4.5時代來臨。這會鼓勵體育科研工作者更廣泛地使用大數據和計算機輔助的研究方法,使得數據分析結果更為直觀,降低使用數據分析工具的學習難度,進一步推動體育科學研究更加依賴科學研究范式。再次,隨著大型語言模型的泛化能力增強,其在體育科學研究的多領域應用將有力推動體育學科的跨學科研究發展。這要求體育科學研究者重新審視傳統的研究方法,如采訪、觀察等,并探索如何將這些傳統的研究方法與大型語言模型相結合。另外,隨著GPT-4等大型語言模型的API接口逐漸開放,科研工作者和開發者能夠在各類應用程序中利用其強大的語言模型能力,這使得AI技術在體育科學研究中的作用日益凸顯,同時也為體育科學研究提供了新的發展機遇。最后,隨著大型語言模型技術的深入發展,大型語言模型將由執行單一任務向執行多模態任務(MLLM)轉變,這將大大拓展了獲取知識的范圍,包括文本、圖像和聲音等多種模式,使其能夠在上下文中進行學習,并遵循給定的指令。在此背景下,體育科學研究的理念、模式和工具將會經歷重大的轉型。
維特根斯坦的名言“語言的邊界就是思想的邊界”揭示了語言在塑造理解世界的方式中的決定性作用。借此視角,可以重新審視大型語言模型對體育科學研究的影響,它們不僅是一種功能強大的工具,也是一種可以擴展思維邊界的媒介。對于體育科研工作者來說,未來的差異可能更多地來自于如何構建和利用大型語言模型來推動在體育科學研究中的思考和創新。