999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

思政創(chuàng)新與大語言模型“幻覺”

2025-08-04 00:00:00曾建光尤瀾濤嚴(yán)江南楊勛黃海波
關(guān)鍵詞:幻覺思政文本

一、引言

隨著數(shù)字技術(shù)的持續(xù)發(fā)展與廣泛應(yīng)用,經(jīng)濟(jì)社會中的數(shù)據(jù)總量以及計(jì)算機(jī)數(shù)據(jù)分析能力均呈現(xiàn)指數(shù)增長態(tài)勢。與此同時(shí),非結(jié)構(gòu)化數(shù)據(jù)已成為當(dāng)前數(shù)據(jù)生態(tài)系統(tǒng)的主要組成部分(Liuetal.,2020)。IDC的調(diào)查報(bào)告顯示:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù)。然而,這些復(fù)雜的包括文本數(shù)據(jù)在內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)卻極具信息價(jià)值(Gentzkowetal.,2019)。現(xiàn)有研究發(fā)現(xiàn),企業(yè)定期報(bào)告的文字部分透露出的信息在預(yù)測企業(yè)破產(chǎn)(Mayewetal.,2015)、信用評級(Donovanetal.,2021)和資本市場收益(Musluetal.,2015)等方面發(fā)揮了重要作用。文本信息逐漸受到經(jīng)濟(jì)學(xué)、管理學(xué)領(lǐng)域研究者的廣泛關(guān)注。2017年,諾獎得主羅伯特·席勒(RobertJ.Shiller)在美國經(jīng)濟(jì)學(xué)會的主題演講中,提出應(yīng)將“敘事”作為經(jīng)濟(jì)學(xué)研究的核心要素,他強(qiáng)調(diào)對經(jīng)濟(jì)行為的研究不應(yīng)僅局限于理性客觀的數(shù)據(jù)信息,還應(yīng)重視社會、文化及政治等敘述性信息,在這些敘述性信息中,文本作為敘事的重要組成部分,具有不可忽視的作用(Bochkayetal.,2022)。

作為重要敘事的文本大數(shù)據(jù)具有來源多樣化、數(shù)據(jù)量增長快和高頻等特征,為經(jīng)濟(jì)學(xué)和社會學(xué)的研究提供了新的分析視角(沈艷等,2019),為使用計(jì)算機(jī)領(lǐng)域自然語言處理方法(naturallanguageprocessing,NLP)相關(guān)的算法提供了各種應(yīng)用場景(如:Li,2010;Das,2014;Loughranamp;McDonald,2016;Gentzkowetal.,2019;Bochkayetal.,2023)。盡管非結(jié)構(gòu)化文本大數(shù)據(jù)的運(yùn)用極大地拓寬了經(jīng)濟(jì)學(xué)和社會學(xué)的實(shí)證研究領(lǐng)域,但也帶來了新的問題和挑戰(zhàn)。其局限性主要體現(xiàn)在以下兩個(gè)方面:其一,當(dāng)前的NLP算法在處理非結(jié)構(gòu)化文本數(shù)據(jù)時(shí),往往忽略了語法和詞序,導(dǎo)致難以結(jié)合上下文情景對文本信息進(jìn)行系統(tǒng)性的理解。例如,許多基于詞袋模型(BagofWords)或TF-IDF(TermFrequency-InverseDocumentFrequency)的方法雖然能夠捕捉詞匯頻率,但無法有效處理復(fù)雜的語義關(guān)系和句子結(jié)構(gòu)(Manning,Raghavan,amp;Schütze,2008)。這種局限性使得NLP技術(shù)在處理需要深入理解背景和上下文的文本時(shí)表現(xiàn)不佳。其二,經(jīng)濟(jì)學(xué)研究本質(zhì)上無法脫離特定的文化和政治背景,而這些背景因素對文本數(shù)據(jù)的理解提出了更高的要求。具體而言,經(jīng)濟(jì)行為和政策往往受到社會、文化和政治環(huán)境的深刻影響,這使得單純依賴NLP算法來解析和分析文本數(shù)據(jù)變得復(fù)雜且具有挑戰(zhàn)性(Rodrik,2015)。例如,在不同文化背景下,相同的詞語或表達(dá)可能具有不同的含義,這對算法的泛化能力提出了嚴(yán)峻考驗(yàn)。

從早期的簡單統(tǒng)計(jì)模型到現(xiàn)代的神經(jīng)網(wǎng)絡(luò)模型,技術(shù)經(jīng)歷了逐步迭代和演化,顯著提升了人工智能(AI)在自然語言處理(NLP)領(lǐng)域的能力。這一系列技術(shù)進(jìn)步不僅推動了NLP的發(fā)展,還使得這些模型在理解和生成復(fù)雜自然語言方面變得更加精準(zhǔn)和高效,因此,生成式人工智能,特別是大語言模型(LargeLanguageModels,LLMs),在近年來取得了突破性進(jìn)展(Korinek,2023)。大語言模型為文本分析領(lǐng)域帶來了一場前所未有的變革。不同于以往基于規(guī)則的人工智能,LLMs能夠參與到復(fù)雜的邏輯推理,理解自然語言的提問并生成自然語言的回答(OpenAI,2023a)。因此,大語言模型(LLMs)能夠高效地訪問和利用非結(jié)構(gòu)化數(shù)據(jù)。這使得原本對自然語言處理技術(shù)而言難以處理的文本數(shù)據(jù),成為了LLMs的重要數(shù)據(jù)來源。這些豐富的數(shù)據(jù)資源不僅支持LLMs進(jìn)行復(fù)雜的邏輯推理、理解并生成自然語言,還使其能夠在多種應(yīng)用場景中協(xié)助完成人類的工作任務(wù),并展現(xiàn)出對社會現(xiàn)象深刻的洞察力和新穎的解釋能力(Korinek,2023)。也就是說,人類產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)成為了LLMs的“養(yǎng)料”,幫助其發(fā)展、進(jìn)化,再“反哺”到人類的生產(chǎn)工作當(dāng)中。

2022年11月,由OpenAI開發(fā)并發(fā)行的大語言模型ChatGPT一經(jīng)上線就火爆全網(wǎng),在信息處理方面展現(xiàn)出了近乎“無所不能”的能力。僅僅5天就超過百萬用戶注冊,兩個(gè)多月后月活用戶破億。由此,大語言模型引起了廣泛的學(xué)術(shù)研究和應(yīng)用討論。現(xiàn)有研究表明,大語言模型在應(yīng)對數(shù)學(xué)、編碼、財(cái)務(wù)、醫(yī)學(xué)、法律、心理學(xué)等多領(lǐng)域新穎且困難的任務(wù)的時(shí)候,哪怕沒有任何特殊提示,也已經(jīng)驚人地達(dá)到了接近人類的水平(Bommaritoetal.,2023;Bubecketal.,2023;Niszczotaamp;Abbas,2023;鄭世林等,2024;曾晨語等,2025)。最近的一項(xiàng)研究也提出以大語言模型處理財(cái)務(wù)文本,結(jié)果發(fā)現(xiàn)大語言模型相較于其他機(jī)器學(xué)習(xí)算法,的確能夠更好地處理財(cái)務(wù)文本(Huangetal.,2022)。

雖然大語言模型表現(xiàn)出了強(qiáng)大的文本分析能力,但其在經(jīng)濟(jì)學(xué),特別是政治經(jīng)濟(jì)學(xué)這類特殊領(lǐng)域,是否仍能展現(xiàn)出強(qiáng)大的分析能力尚不得而知。一方面,在經(jīng)濟(jì)、會計(jì)和金融領(lǐng)域,新聞文章、財(cái)報(bào)電話會議、美國證券交易委員會文件以及社交媒體上文本的在線可用性為應(yīng)用大語言模型技術(shù)提供了充足的素材(Loughranamp;Mcdonald,2016);而思想政治教育相關(guān)的內(nèi)容包含了大量自然語言組成的文字內(nèi)容,這正是大語言模型學(xué)習(xí)的強(qiáng)項(xiàng)(Niszczotaamp;Abbas,2023)。因此,大語言模型極有可能在未來的思政改革創(chuàng)新中提供一些不可思議的協(xié)助和見解,從而促進(jìn)政治經(jīng)濟(jì)學(xué)的傳播和發(fā)展。基于中國特殊的國情和獨(dú)特的文化,《中華人民共和國憲法》規(guī)定:“在馬克思列寧主義、毛澤東思想、鄧小平理論、‘三個(gè)代表’重要思想、科學(xué)發(fā)展觀、習(xí)近平新時(shí)代中國特色社會主義思想指引下,堅(jiān)持人民民主專政,堅(jiān)持社會主義道路,堅(jiān)持改革開放,不斷完善社會主義的各項(xiàng)制度,發(fā)展社會主義市場經(jīng)濟(jì)。”因此,我國全部的經(jīng)濟(jì)生活都處在思想政治教育的指導(dǎo)之下,思想政治教育對我國經(jīng)濟(jì)和社會的發(fā)展有著舉足輕重的作用。此時(shí),大語言模型能否識別具有思政含義的文本內(nèi)容對于精準(zhǔn)解讀我國經(jīng)濟(jì)信息尤為重要。

實(shí)際上,大語言模型已被證明表現(xiàn)出涉及種族、性別、宗教和政治取向上內(nèi)容的偏見(Motokietal.,2023)。那么,在中國情景下,由于中國文化與思政的獨(dú)特性和發(fā)展性(張申和趙家杰,2023),現(xiàn)有大語言模型的訓(xùn)練數(shù)據(jù)可能并不完全包含或符合我國主流意識形態(tài)和價(jià)值取向的內(nèi)容,無法充分闡述我國當(dāng)下的主流意識形態(tài),這將會弱化大語言模型對正確價(jià)值觀的判斷。更為重要的是,中國思政的動態(tài)發(fā)展和不斷創(chuàng)新,這對大語言模型的思政類文本分析能力提出了更為嚴(yán)峻的挑戰(zhàn),即產(chǎn)生“大語言模型幻覺”。大模型幻覺是指大語言模型在信息處理過程中偶爾產(chǎn)生一些看似合理,卻答非所問、偏離常識的輸出,這一現(xiàn)象的存在使得大語言模型在生產(chǎn)生活中應(yīng)用的可靠性受到一定程度的損害(Huangetal.,2023),例如,在醫(yī)學(xué)領(lǐng)域,大語言模型可能生成錯(cuò)誤的診斷導(dǎo)致健康風(fēng)險(xiǎn)(Paletal.,2023)。鑒于思政主要通過自然語言進(jìn)行表述,并在不斷創(chuàng)新發(fā)展的過程中積累了大量文本數(shù)據(jù),一個(gè)關(guān)鍵問題隨之浮現(xiàn):大語言模型(LLMs)在處理這些自然語言數(shù)據(jù)時(shí),是否也會產(chǎn)生所謂的“幻覺”現(xiàn)象?如果確實(shí)存在這種現(xiàn)象,那么不同大語言模型在處理思政相關(guān)文本時(shí)的表現(xiàn)又會呈現(xiàn)怎樣的差異?基于此,本文以大語言模型在思政能力測評的得分作為大語言模型理解思政創(chuàng)新能力的代理變量,以大語言模型訓(xùn)練集截止日期前一個(gè)月百度搜索指數(shù)均值作為大語言模型訓(xùn)練集思政創(chuàng)新程度的代理變量,研究發(fā)現(xiàn),隨著思政改革創(chuàng)新發(fā)展水平的提高,大模型“幻覺”越嚴(yán)重。

本文的研究貢獻(xiàn)在于:第一,鑒于思政在培養(yǎng)公民正確思想觀念、增強(qiáng)企業(yè)社會責(zé)任意識以及促進(jìn)經(jīng)濟(jì)穩(wěn)定發(fā)展方面的重要意義,本文旨在為人工智能時(shí)代重視思政教育并進(jìn)一步發(fā)揮其在經(jīng)濟(jì)指導(dǎo)中的作用提供理論參考。為了全面落實(shí)立德樹人的根本任務(wù),我們需要將思政要求內(nèi)化到各行各業(yè)的各個(gè)方面和各個(gè)環(huán)節(jié)中去。這就要求我們積極深化課程思政改革,構(gòu)建全員、全過程、全方位育人的大格局。這也要求大模型的開發(fā)者和管理者需要與時(shí)俱進(jìn),及時(shí)跟進(jìn)思政的發(fā)展和創(chuàng)新。

第二,在思政改革創(chuàng)新愈發(fā)重要以及大語言模型應(yīng)用迅速擴(kuò)展的背景下,本文前瞻性地探討了大語言模型在應(yīng)對思政改革創(chuàng)新中的能力和潛在問題。考慮到我國國情下對思政因素的綜合優(yōu)先考慮,研究發(fā)現(xiàn)當(dāng)前的大語言模型在處理思政創(chuàng)新任務(wù)時(shí)存在顯著的“幻覺”現(xiàn)象,也即盡管大語言模型在自然語言處理領(lǐng)域取得了顯著進(jìn)展,但在應(yīng)對思政改革創(chuàng)新時(shí)仍存在較大挑戰(zhàn)。這一發(fā)現(xiàn)表明,現(xiàn)有大語言模型的研發(fā)寬度有待提升,并且在未來的研究和開發(fā)過程中,必須充分融入思政元素,重視思政的創(chuàng)新發(fā)展,以促進(jìn)大語言模型在思政領(lǐng)域的性能提升,確保其在我國的應(yīng)用具備更高的適應(yīng)性、準(zhǔn)確性和深度,推動大語言模型與思政教育的有機(jī)結(jié)合,為經(jīng)濟(jì)社會的全面發(fā)展提供堅(jiān)實(shí)的支持。

第三,盡管已有文獻(xiàn)表明大語言模型在理解和生成自然語言時(shí)的超強(qiáng)能力,但大多處于英文語境和部分中文語境。其中采用的中文語境大多來自于新聞媒體,但是,由于新聞媒體為了更好地吸引讀者,他們會根據(jù)報(bào)道內(nèi)容的不同而采用不同的表達(dá)方式,導(dǎo)致過于注重?cái)⑹露急娌蛔恪榱擞行Э疾齑笳Z言模型的自然語言能力,本文將測試問題僅限定在思政這一包含豐富中文文本的領(lǐng)域,由于思政的文本內(nèi)容更強(qiáng)調(diào)自然語言表達(dá)的思想性、邏輯性、嚴(yán)謹(jǐn)性和思辨能力,在一定程度上更能有效反映大語言模型在中文自然語境中的能力。這一中文自然語言場景的實(shí)證結(jié)果充分表明,支持中文的大語言模型的訓(xùn)練集需要重視并提升思政內(nèi)容的占比,唯有這樣才能真正提升中文大語言模型的能力,減少“幻覺”。

第四,本文基于大語言模型的開發(fā)者屬性和外部可訪問性進(jìn)行了異質(zhì)性檢驗(yàn),研究發(fā)現(xiàn),國內(nèi)研發(fā)者以及公開訪問的大模型的“幻覺”較少,這些結(jié)果表明文化差異和大語言模型的公開透明可能是引致基于中文自然語言的大語言模型“幻覺”的原因。為弱化大語言模型“幻覺”、促進(jìn)大語言模型發(fā)展,我們可能需要做好大語言模型相關(guān)的治理工作。最后,本文將研究范圍拓展到更多學(xué)科領(lǐng)域,探究思政改革創(chuàng)新帶來的溢出效應(yīng),促進(jìn)大語言模型增加更多的具有中國特色的思政創(chuàng)新,以更好地理解自然語言的發(fā)展。

本文接下來的部分安排如下:第二部分是文獻(xiàn)回顧、理論分析及研究假設(shè)的提出;第三部分是數(shù)據(jù)來源與研究設(shè)計(jì);第四部分是實(shí)證結(jié)果與分析;第五部分是研究結(jié)論。

二、文獻(xiàn)回顧、理論分析與研究假設(shè)的提出

(一)文獻(xiàn)評述

1.大語言模型發(fā)展

正如維特斯坦所言:語言的界限,就是我們世界的界限。語言是人類表達(dá)思想、構(gòu)建事實(shí)邏輯的基本工具,并伴隨人的一生不斷發(fā)展演變。對自然語言處理的研究幾乎貫穿整個(gè)通用計(jì)算機(jī)歷史,自第一臺計(jì)算機(jī)誕生之初,計(jì)算機(jī)領(lǐng)域的研究者們就希望實(shí)現(xiàn)人機(jī)間的高效溝通,即計(jì)算機(jī)能夠理解人類自然語言的含義的同時(shí)也能使用自然語言表示反饋。從技術(shù)的發(fā)展歷史來講,之前的NLP研究大致經(jīng)歷了從理性主義到經(jīng)驗(yàn)主義再到深度學(xué)習(xí)的三個(gè)歷史階段(車萬翔等,2023),但都沒有走出監(jiān)督學(xué)習(xí)的范式,即根據(jù)特定任務(wù),給定監(jiān)督數(shù)據(jù)來設(shè)計(jì)模型進(jìn)行推斷。語言模型就是在給定詞序列的情況下求解句子的聯(lián)合概率分布,但由于句子組合的可能性數(shù)量由句子的長度和詞數(shù)共同決定,導(dǎo)致模型參數(shù)量以冪指數(shù)的形式增加。為了解決這一問題,研究者提出了n元語言模型(n-gramlanguagemodel)這一簡單模型,利用句子是從左向右生成的特點(diǎn),進(jìn)行鏈?zhǔn)椒纸猓们皀-1個(gè)詞進(jìn)行條件概率估計(jì),大幅降低了語言模型的參數(shù)量。然而,該方法存在數(shù)據(jù)稀疏性這一典型缺點(diǎn),即當(dāng)n較大時(shí),語料中并不存在這種組合,導(dǎo)致其估計(jì)概率為零。隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展與進(jìn)步,利用深度學(xué)習(xí)來解決語言模型中不足的研究成為熱點(diǎn)。其中具有代表性的工作是Bengio在2003年提出的前饋神經(jīng)語言模型(FeedForwardNeuralLanguageModel),具有低維緊密、蘊(yùn)含語義等優(yōu)點(diǎn),為詞向量的發(fā)展和應(yīng)用打下基礎(chǔ)(Bengioetal.,2003)。此外,一些其他的神經(jīng)網(wǎng)絡(luò)也在語言模型中得到很好的利用和發(fā)展,如循環(huán)神經(jīng)網(wǎng)絡(luò)(Mikolov,2010)、長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(Sundermeyeretal.,2012)和卷積神經(jīng)網(wǎng)絡(luò)(Phametal.,2016)。

隨著神經(jīng)網(wǎng)絡(luò)研究的深入和計(jì)算機(jī)算力的提升,研究者們發(fā)現(xiàn)嵌入式詞表示和使用大規(guī)模無標(biāo)注文本進(jìn)行預(yù)訓(xùn)練能夠很好提升語言模型性能。鑒于此,ELMo(EmbeddingfromLanguageModels)、BERT(BidirectionalEncoderRepresentationsfromTransforms)和GPT(GenerativePre-Training)等基于預(yù)訓(xùn)練方法的大語言模型應(yīng)運(yùn)而生。這些算法在解決文本分析方面表現(xiàn)出了出色的能力。例如,ELMo對雙向長短期記憶模型進(jìn)行大規(guī)模預(yù)訓(xùn)練,解決了傳統(tǒng)詞向量在不同上下文背景中,無法解決一詞多義的問題(Petersetal.,2018)。2020年5月,OpenAI發(fā)布了包含1750億個(gè)參數(shù)的GPT-3模型,進(jìn)一步優(yōu)化了在自然語言文本理解和生成方面的能力,能夠流暢地完成翻譯、問答、完形填空以及一些需要即時(shí)推理的任務(wù)(Brownetal.,2020)。根據(jù)微軟Build2023開發(fā)者大會①公布的GPT訓(xùn)練步驟,包含預(yù)訓(xùn)練(Pretraining)、有監(jiān)督微調(diào)(SupervisedFinetuning)、獎勵建模(RewardModeling)和強(qiáng)化學(xué)習(xí)(ReinforcementLearning),谷歌團(tuán)隊(duì)進(jìn)一步對基于單向的語言模型進(jìn)行了改進(jìn),證明了使用雙向的預(yù)訓(xùn)練效果更佳,并提出了遮擋語言模型MLM和預(yù)測下一個(gè)句子的任務(wù)兩種新的NLP任務(wù)(Devlinetal.,2019)。

2.大語言模型測試

GPT的成功對傳統(tǒng)自然語言任務(wù)范式是顛覆性的,摒棄了傳統(tǒng)手工設(shè)計(jì)的特征和結(jié)構(gòu),使得大語言模型在各類任務(wù)情景下都具有良好的表現(xiàn),可以說是通用人工智能的雛形(Bubecketal.,2023)。大語言模型正朝著人類萬能協(xié)助者的角色不斷發(fā)展(Kasnecietal.,2023;Thirunavukarasuetal.,2023)。如今,針對大語言模型在不同專業(yè)領(lǐng)域的表現(xiàn),研究者們開展了許多的研究。在醫(yī)學(xué)領(lǐng)域,ChatGPT在零提示的情況下通過了美國醫(yī)學(xué)執(zhí)照考試(USMLE),表明ChatGPT能夠執(zhí)行和處理復(fù)雜與醫(yī)療和臨床信息相關(guān)的多項(xiàng)復(fù)雜任務(wù)(Kungetal.,2023),且ChatGPT-4的性能表現(xiàn)顯著高于ChatGPT-3.5(Norietal.,2023)。在物理領(lǐng)域,West(2023)使用力學(xué)概念清單(ForceConceptInventory)分別測試ChatGPT-3.5和ChatGPT-4在回答有關(guān)運(yùn)動學(xué)和牛頓動力學(xué)的概念物理問題時(shí)的表現(xiàn),結(jié)果表明ChatGPT-3.5得分可以匹配或超過完成一學(xué)期大學(xué)物理的大學(xué)生得分的中位數(shù),而ChatGPT-4的表現(xiàn)則已經(jīng)達(dá)到與專業(yè)物理學(xué)家無法區(qū)分的程度(West,2023)。同時(shí),在包含大量數(shù)字計(jì)算的財(cái)務(wù)金融領(lǐng)域,ChatGPT-3.5能夠獲得66%的分?jǐn)?shù),而ChatGPT-4則得到了近乎完美99%的分?jǐn)?shù)(Niszczotaamp;Abbas,2023)。除此之外,還有許多學(xué)者關(guān)注不同大語言模型在不同學(xué)科領(lǐng)域中的表現(xiàn),包括通信領(lǐng)域(Guoetal.,2023)、系統(tǒng)文獻(xiàn)檢索(Wangetal.,2023)、數(shù)學(xué)和邏輯推理(Friederetal.,2023;Pardosamp;Bhandari,2023;Shakarianetal.,2023)等。總而言之,由于大語言模型在NLP方面展現(xiàn)出來的巨大潛力,研究者們對大語言模型在教育、醫(yī)療、人機(jī)交互、科研等不同領(lǐng)域的能力產(chǎn)生了日益濃厚的興趣(Changetal.,2023;Liuetal.,2023),并且我國許多的科技公司、高等院校和研究院也在構(gòu)建自己的大模型,如阿里的通義千問、百度的文心一言、騰訊的混元助手、華為的盤古大模型、清華大學(xué)的ChatGLM-6B等②。

盡管大語言模型在各類任務(wù)中大都表現(xiàn)出色,但其在應(yīng)用中仍存在一個(gè)重要問題且已經(jīng)得到研究者們的關(guān)注,即“幻覺”。所謂大語言模型“幻覺”指的是輸出與源輸入無關(guān)的或者完全無意義的內(nèi)容(Filippova,2020;Jietal.,2023)。例如,當(dāng)你輸入“今天的星座走勢”時(shí),大語言模型會回答“今年屬龍的人會走運(yùn)”這樣看似合理,但卻答非所問的問題。具體來說,大模型“幻覺”主要包括“事實(shí)幻覺(FactualityHallucination)”和“忠誠幻覺(FaithfulnessHallucination)”兩種類型。其中,事實(shí)幻覺包含事實(shí)不一致和事實(shí)捏造兩種情況,主要是大語言模型在交互中生成與現(xiàn)實(shí)生活中的知識不一致的內(nèi)容或完全捏造一些事實(shí)進(jìn)行回答。而忠誠幻覺則包括回答不一致、內(nèi)容改變和邏輯錯(cuò)誤三種情況,主要是大語言模型在回答已經(jīng)給出提示內(nèi)容或限制了背景的問題時(shí),其輸出的答案內(nèi)容與源輸入內(nèi)容出現(xiàn)答非所問、篡改前提條件、邏輯不符合常識的情況(Huangetal.,2023)。無論是哪一種幻覺,其都嚴(yán)重影響了人類對人工智能的信任和應(yīng)用。

總而言之,盡管已有大量研究對大語言模型在不同任務(wù)中的能力進(jìn)行了評估,但這些研究大多基于英文文本語境進(jìn)行開發(fā)和驗(yàn)證。相比之下,專門針對中文文本語境設(shè)計(jì)和開發(fā)的大語言模型仍然較少,這在一定程度上阻礙了我國在該領(lǐng)域的開發(fā)與應(yīng)用進(jìn)展。同時(shí),鑒于中文文本具有詞義變化靈活、單句信息密度高等特點(diǎn)(Sunetal.,2019),并考慮到在思政引領(lǐng)所有學(xué)科發(fā)展方向的總體方針下(Ansellamp;Lindvall,2013),以思政改革創(chuàng)新為背景,對大語言模型在中文語境下的性能進(jìn)行測試顯得尤為必要。這種測試不僅有助于提升大語言模型的研發(fā)寬度和深度(Clarketal.,2019),還能確保其在復(fù)雜多變的中文應(yīng)用場景中的有效性和可靠性。

(二)理論分析與假設(shè)提出

根據(jù)上文的綜述,隨著算法和計(jì)算機(jī)算力的發(fā)展,現(xiàn)有的不同類型的大語言模型皆已能夠較好地理解并生成自然語言的文本,在執(zhí)行NLP任務(wù)時(shí)表現(xiàn)出出色的能力。因此,大語言模型處理以中文自然語言闡述的思政也自然可以有良好表現(xiàn)。一方面,我國思政課程中往往包含密集的文字內(nèi)容,且以理想信念、理論知識和價(jià)值理念等大量抽象的內(nèi)容為主(王學(xué)儉和石巖,2020),是對實(shí)際生產(chǎn)生活和頂層思想建設(shè)的高度概括。這一類文本內(nèi)容具有高度概念化、信息含量大的特點(diǎn),極具中文自然語言特色。有研究表明,與處理數(shù)字信息相比,處理自然語言正是大語言模型的強(qiáng)項(xiàng)(Niszczotaamp;Abbas,2023)。另一方面,OpenAI團(tuán)隊(duì)的JaredKaplan(2020)等研究了語言模型交叉熵?fù)p失方面的經(jīng)驗(yàn)規(guī)模定律(ScalingLaws),即隨著數(shù)據(jù)集大小、模型大小和訓(xùn)練時(shí)長的指數(shù)增加,模型性能隨之提升。因此,最直接的提升模型性能的方法是擴(kuò)大訓(xùn)練數(shù)據(jù)集規(guī)模。隨著數(shù)字技術(shù)的高速發(fā)展和應(yīng)用落地,我國網(wǎng)民規(guī)模已達(dá)10.79億,每日產(chǎn)生ZB級的數(shù)據(jù),其中大多為文本數(shù)據(jù),這為大語言模型捕獲整個(gè)世界知識進(jìn)行大規(guī)模預(yù)訓(xùn)練提供了便利。進(jìn)一步地,2022年4月,習(xí)近平總書記在中國人民大學(xué)考察時(shí)作出三個(gè)關(guān)鍵的重要指示,為思政課程改革創(chuàng)新指明了方向,隨后國務(wù)院印發(fā)《關(guān)于新時(shí)代加強(qiáng)和改進(jìn)思想政治工作的意見》、中共中央辦公廳及國務(wù)院辦公廳印發(fā)《關(guān)于深化新時(shí)代學(xué)校思想政治理論課改革創(chuàng)新的若干意見》、中共中央辦公廳印發(fā)《關(guān)于加強(qiáng)新時(shí)代馬克思主義學(xué)院建設(shè)的意見》等文件開啟了思政改革創(chuàng)新的新一輪浪潮。這一系列的政策指導(dǎo),在互聯(lián)網(wǎng)引發(fā)熱烈的分析和討論,從而留下大量文本痕跡,包括信息發(fā)布、討論、問答等,使得大語言模型的訓(xùn)練集規(guī)模和內(nèi)容發(fā)生變化,獲取更多與思政改革創(chuàng)新的知識,這可能提升大模型處理思政問題的能力。據(jù)此,本文提出研究假設(shè)H1a:

H1a:思政創(chuàng)新發(fā)展水平越高,大語言模型的思政能力更強(qiáng)。

人類的語言是用以溝通和思想表達(dá),不同的語言在思想的表達(dá)上在歷史的發(fā)展過程中形成了自己獨(dú)特的方式,特別是具有幾千年歷史的中文。采用中文自然語言來傳達(dá)思政理念也自然遵循中文的語義邏輯。疊加了中文語義表達(dá)的復(fù)雜性和思政創(chuàng)新的表達(dá),這給大語言模型增加了一定程度的難度,容易形成“幻覺”。大語言模型“幻覺”產(chǎn)生的原因來自大語言模型構(gòu)建的整個(gè)流程,也就是說在研發(fā)一個(gè)大語言模型之前的任何步驟或元素產(chǎn)生的任何一點(diǎn)“錯(cuò)誤”都會導(dǎo)致大語言模型“幻覺”的產(chǎn)生,主要包括數(shù)據(jù)、訓(xùn)練和推理等重要的部分。在數(shù)據(jù)方面,由于大語言模型通過大量爬取互聯(lián)網(wǎng)數(shù)據(jù)作為預(yù)訓(xùn)練數(shù)據(jù)集,而這些來自互聯(lián)網(wǎng)的數(shù)據(jù)往往質(zhì)量參差不齊,一些質(zhì)量較差、過時(shí)的信息,甚至完全錯(cuò)誤的信息在互聯(lián)網(wǎng)中反復(fù)傳播會影響大語言模型對問題的理解和解答(Kandpaletal.,2023;Linetal.,2022)。而思政課程內(nèi)容具有極強(qiáng)的時(shí)代性,其內(nèi)容涉及一定時(shí)間、一定地域范圍的思想觀念、政治觀點(diǎn)、道德規(guī)范,需要滿足“因事而化、因時(shí)而進(jìn)、因勢而新”的理念,也即思政內(nèi)容一直處于創(chuàng)新過程中(成桂英和王繼平,2019)。因此,在思政創(chuàng)新發(fā)展水平較高時(shí),會誕生更多與思政相關(guān)的新內(nèi)容,而在高度數(shù)字化的今天,這些用自然語言表達(dá)的內(nèi)容會在互聯(lián)網(wǎng)上不斷重復(fù)報(bào)道、提問以及回答,這些信息的發(fā)布大多在首次發(fā)表時(shí)由人工撰寫,而后被加工后不斷轉(zhuǎn)載,當(dāng)這些信息在初期出現(xiàn)錯(cuò)誤時(shí),極有可能導(dǎo)致其在互聯(lián)網(wǎng)上被大量復(fù)制,從而影響大語言模型的思政能力。同時(shí),創(chuàng)新會促使更多新的思政理論、論述、案例等的產(chǎn)生,但其在訓(xùn)練集中所占比例較低甚至不存在,出現(xiàn)“長尾知識(Long-tailKnowledge)”的情況(Kandpaletal.,2023;Mallenetal.,2023),所以若訓(xùn)練數(shù)據(jù)集更新不及時(shí),大語言模型在回答思政問題時(shí)極易產(chǎn)生“事實(shí)幻覺”。另外,當(dāng)數(shù)據(jù)集中的兩類信息總是相伴出現(xiàn)時(shí),大語言模型會將他們識別為同類信息,從而出現(xiàn)問此答彼的現(xiàn)象(Hernandezetal.,2022;Kangamp;Choi,2023;Lietal.,2022)。例如,“恩格斯”在數(shù)據(jù)集中總與“馬克思”同時(shí)出現(xiàn),當(dāng)詢問“馬克思”的相關(guān)問題時(shí),大語言模型會回答“馬克思”的相關(guān)內(nèi)容。

在模型訓(xùn)練方面,現(xiàn)有的大語言模型通常基于TransformerModel架構(gòu),這一架構(gòu)的核心在于單向生成式解碼器,實(shí)際上就是根據(jù)上文預(yù)測下一個(gè)出現(xiàn)的詞語,這種方式能夠使用任意的文本數(shù)據(jù)對大語言模型進(jìn)行訓(xùn)練,并具有更好的跨語言和跨領(lǐng)域泛化能力(Chenetal.,2023)。但其缺點(diǎn)也相對明顯,阻礙了大語言模型獲取上下文復(fù)雜聯(lián)系的能力,潛在地增加了“幻覺”產(chǎn)生的可能性(Lietal.,2023)。而與思政有關(guān)的文本內(nèi)容是對實(shí)踐和理論的高度凝練,上下文之間具有高度的邏輯聯(lián)系,如果大語言模型僅僅采用單向閱讀的方式對思政文本進(jìn)行輸入和輸出,大語言模型“幻覺”產(chǎn)生的可能性將大幅增加。思政有關(guān)的問題在回答時(shí)恰恰需要結(jié)合時(shí)代背景進(jìn)行作答,沒有固定答案,具有一定的主觀性。思政改革創(chuàng)新可能會加重這一主觀性,從而導(dǎo)致在作答思政題目時(shí)以犧牲真實(shí)性為代價(jià)來迎合題干。特別是涉及思政這類非常依賴上下文的問題時(shí),大語言模型會以犧牲真實(shí)性為代價(jià)達(dá)到安撫人類情緒的目的(Perezetal.,2023;Sharmaetal.,2023)。這些錯(cuò)誤回答甚至?xí)粩嗉觿。a(chǎn)生滾雪球效應(yīng)(Zhangetal.,2023)。最后,在推理方面,大語言模型能夠生成令人驚訝的高度創(chuàng)新性和多樣化的文本,其原因在于解碼過程中引入的隨機(jī)抽樣。然而這種能力的代價(jià)就是“幻覺”風(fēng)險(xiǎn)的增加(Chuangetal.,2023),思政改革創(chuàng)新可能增大了隨機(jī)抽樣范圍,導(dǎo)致答非所問的情況。同時(shí),大語言模型也存在過度自信的問題,主要表現(xiàn)在大語言模型過分關(guān)注部分生成的內(nèi)容,且優(yōu)先聚焦于臨近的詞語,為了文本輸出的流暢性而忠實(shí)于上下文、偏離原始內(nèi)容,導(dǎo)致“忠誠幻覺”問題(Chenetal.,2023;Liuetal.,2023)。同樣地,思政的創(chuàng)新發(fā)展可能引入了大量具有創(chuàng)新性的文本,而大語言模型并不能真正理解這些問題,在生成輸出文本時(shí),從基于問題回答轉(zhuǎn)向基于流暢和創(chuàng)新,從而導(dǎo)致指令遺忘,生成毫不相關(guān)的回答。據(jù)此,本文提出研究假設(shè)H1a的競爭性假設(shè)H1b:

H1b:思政創(chuàng)新發(fā)展水平越高,大語言模型思政能力更弱。

三、數(shù)據(jù)來源與研究設(shè)計(jì)

為了驗(yàn)證以上假設(shè),本文選取Huang等(2023)開發(fā)的中文大語言模型評估基準(zhǔn)平臺為研究對象。截止到2023年10月12日共有81個(gè)大語言模型提交了測試結(jié)果。

為了檢驗(yàn)H1a和H1b,本文將待檢驗(yàn)的回歸研究模型設(shè)定為模型(I)。

模型(I)中的被解釋變量為中文大語言模型評估的思政能力分?jǐn)?shù)的自然對數(shù)(LnScore),我們主要采用兩個(gè)指標(biāo)作為其思政能力的代理變量,分別是馬克思主義基本原理得分的自然對數(shù)(MarxScore)和毛澤東思想和中國特色社會主義理論體系概論得分的自然對數(shù)(MaoScore)。另外在還采用三個(gè)指標(biāo)作為進(jìn)一步測試來測度其思政能力分?jǐn)?shù),分別為:高中政治得分的自然對數(shù)(HighP)、初中政治得分的自然對數(shù)(MiddleP)和思想道德修養(yǎng)與法律基礎(chǔ)得分的自然對數(shù)(Moral)。

模型(I)的核心解釋變量為思政創(chuàng)新(Innovation),采用每個(gè)大模型訓(xùn)練集截止日期的前一個(gè)月百度搜索“馬克思主義”的平均搜索指數(shù)的自然對數(shù)(Marx1M)和每個(gè)大模型提交測試的前一個(gè)月百度搜索“毛澤東思想”的平均搜索指數(shù)的自然對數(shù)(Mao1M)作為代理變量。本文認(rèn)為,當(dāng)社會發(fā)展和時(shí)代變遷帶來新問題、新挑戰(zhàn)和新需求時(shí),人們對思政內(nèi)容的關(guān)注和探索也會相應(yīng)增加。高搜索量在很大程度上反映了人們對思政問題的關(guān)注、思考和討論,進(jìn)而推動了思政內(nèi)容的創(chuàng)新。

模型(I)的控制變量包括大語言模型開發(fā)者和大語言模型本身的特征變量。模型(I)中的變量定義具體如表1所示。

四、實(shí)證結(jié)果與分析

(一)描述性統(tǒng)計(jì)與相關(guān)系數(shù)表

樣本總共包括81個(gè)大語言模型的相關(guān)數(shù)據(jù)。其中,除大語言模型的邏輯學(xué)能力和數(shù)學(xué)能力外,其余變量相對穩(wěn)定,這與上文論述相符,大語言模型傾向于NLP,在邏輯和數(shù)字處理能力方面則存在較大參差。5個(gè)衡量大語言模型思政能力的代理變量的中位數(shù)均大于均值,呈現(xiàn)小幅的左偏分布,這表明存在個(gè)別大語言模型的思政能力明顯低于其他大語言模型。是否為同一團(tuán)隊(duì)(Peer)、是否由大學(xué)開發(fā)(Univer)、是否有公開網(wǎng)址(Address)、是否采用人工標(biāo)注(Zero)的均值分別為0.593、0.160、0.543、0.321,表明較多的中文大語言模型開發(fā)者來自非大學(xué)機(jī)構(gòu)的同一團(tuán)隊(duì)開發(fā)者開發(fā)且采用無人工標(biāo)注的訓(xùn)練集數(shù)據(jù)并擁有公開可用網(wǎng)址。表明表2報(bào)告了參與回歸的樣本中全部變量的描述統(tǒng)計(jì)信息。

表3報(bào)告了Pearson和Spearman的相關(guān)系數(shù),其中上三角為Pearson相關(guān)系數(shù),下三角表示的是Spearman相關(guān)系數(shù)。思政改革創(chuàng)新水平的兩個(gè)代理變量均與大語言模型思政能力的五個(gè)代理變量呈現(xiàn)顯著負(fù)相關(guān)關(guān)系,表明在思政改革創(chuàng)新水平較高的時(shí)候,大語言模型的思政能力相對較低,這初步驗(yàn)證了研究假設(shè)H1b。另外,三項(xiàng)大語言模型開發(fā)者的特征變量Peer、Univer、Address與大語言模型思政能力幾乎不存在顯著相關(guān)關(guān)系。

(二)基準(zhǔn)回歸結(jié)果與分析

表4匯報(bào)了模型(I)按照大語言模型聚類的OLS回歸結(jié)果。第(1)列和列(3)分別為沒有控制其他控制變量的回歸結(jié)果,回歸系數(shù)分別為0.215和0.267,在5%和1%水平上顯著。列(3)和列(4)為添加了其他控制變量的回歸結(jié)果,回歸系數(shù)分別為0.144和0.157,在1%和5%水平上顯著,這表明思政創(chuàng)新發(fā)展水平越高,大語言模型的思政能力越差,從而驗(yàn)證了本文的研究假設(shè)H1b,拒絕了競爭性假設(shè)H1a。從實(shí)際意義上看,思政創(chuàng)新發(fā)展水平每提升一單位,大語言模型思政能力就弱0.144或0.157。這可能是由于思政創(chuàng)新發(fā)展帶來的新表述、新理論、新案例等增加了過時(shí)回答、錯(cuò)誤帖子重復(fù)發(fā)布、長尾知識以及過度自信等問題,加大了大語言模型通過單向閱讀對思政文本進(jìn)行學(xué)習(xí)理解的難度,從而導(dǎo)致大語言模型“幻覺”更頻繁地出現(xiàn)。

(三)穩(wěn)健性檢驗(yàn)

1.替換解釋變量

由于采用大語言模型訓(xùn)練集截止日期前一個(gè)月的百度搜索平均指數(shù)作為思政創(chuàng)新發(fā)展水平的代理變量可能受到上月偶然沖擊事件的影響,從而影響研究結(jié)果的穩(wěn)健性,我們將思政創(chuàng)新發(fā)展水平的代理變量替換為每個(gè)大模型訓(xùn)練集截止日期前一年百度搜索“馬克思主義”的平均搜索指數(shù)的自然對數(shù)(Marx1Y)和每個(gè)大模型訓(xùn)練集截止日期前一年百度搜索“毛澤東思想”的平均搜索指數(shù)的自然對數(shù)(Mao1Y)。第(1)和(2)列為替換解釋變量后的回歸結(jié)果,回歸系數(shù)分別1.417和3.460,仍在10%和5%的水平上顯著,表明本文對假設(shè)H1b驗(yàn)證結(jié)果存在一定的穩(wěn)健性。

在基準(zhǔn)回歸中,我們使用大語言模型訓(xùn)練集截止日期前一個(gè)月的百度搜索指數(shù)的自然對數(shù)作為思政創(chuàng)新發(fā)展水平的代理變量,為避免取自然對數(shù)對回歸模型系數(shù)和顯著性的影響,我們使用大語言模型訓(xùn)練集截止日期前一年和前一個(gè)月的百度搜索“馬克思主義”和“毛澤東思想”的平均搜索指數(shù)作為解釋變量。回歸結(jié)果如表6所示,替換被解釋變量后,大語言模型思政能力與思政創(chuàng)新發(fā)展水平依然呈現(xiàn)顯著負(fù)相關(guān),表明本文結(jié)果具有良好的穩(wěn)健性。

2.替換被解釋變量

同時(shí),僅使用大語言模型在馬克思主義基本原理、毛澤東思想和中國特色社會主義理論體系概論測試中的得分作為被解釋變量也有可能對模型結(jié)果的解釋引入混雜因素。我們將被解釋變量分別替換為大語言模型在高中政治、初中政治、思想道德修養(yǎng)與法律基礎(chǔ)測試中的得分,結(jié)果如表7所示。回歸結(jié)果顯示大語言模型思政能力與思政創(chuàng)新發(fā)展水平依然呈現(xiàn)顯著負(fù)相關(guān),再次證明了本研究結(jié)論的穩(wěn)健性。

(四)異質(zhì)性分析

1.國外模型與國內(nèi)模型

由于中文和英文在語法、詞性和行文上差異顯著,以及中文詞語間并沒有自然空格的原因(Zhouetal.,2023),要想準(zhǔn)確把握中文文本的意思,必須采取一套針對中文的自然語言處理方式。同時(shí),語言的表達(dá)與本土文化有著緊密的聯(lián)系,非母語者哪怕對一門外語進(jìn)行長時(shí)間的學(xué)習(xí),也不能完全參透其中的含義,或在表達(dá)時(shí)存在歧義(Albrecht,2023)。并且,已有研究者表明大語言模型在對中文的理解仍然存在不足(Y.Lietal.,2023)。因此,來自國外的開發(fā)者或公司可能在對中文語境下的文化理解上存在不足,而思政內(nèi)容擁有大量的中文長難句,且這類涉及政治、意識形態(tài)的內(nèi)容往往極具文化特色,這可能導(dǎo)致來自國外公司或開發(fā)者開發(fā)的語言模型在思政問題時(shí)能力較弱。因此,為了印證這一猜測,我們設(shè)置變量Foreign,當(dāng)模型是國外公司或開發(fā)者開發(fā)的,F(xiàn)oreign為1,否則為0。同時(shí),在模型(I)中添加變量Foreign以及它和思政創(chuàng)新發(fā)展水平的交乘項(xiàng)Mao1M×Foreign,回歸結(jié)果重點(diǎn)關(guān)注交乘項(xiàng)的符號及顯著性。表8列示了回歸結(jié)果,無論在馬克思主義或是毛澤東思想的回歸列交乘項(xiàng)均顯著為負(fù),這表明來自國外的開發(fā)者或公司的大語言模型在回答思政有關(guān)問題時(shí),“幻覺”現(xiàn)象更加嚴(yán)重。

2.大語言模型的外部可訪問性

另外,大語言模型的外部可訪問性也可能會影響到大語言模型的思政能力。基于信息不對稱理論(Akerlof,1970;Stiglitz,1977),當(dāng)大語言模型不具備外部可訪問性時(shí),大語言模型開發(fā)者與使用者之間信息不對稱程度加大,更有可能導(dǎo)致道德風(fēng)險(xiǎn)問題。開發(fā)者可能在模型構(gòu)建過程中偷工減料,甚至弄虛作假,提交測試的回答來源于非大語言模型作答,從而影響對大語言模型的能力的評價(jià)。另外,基于信號傳遞理論(Spence,1973),大語言模型的開發(fā)者或公司為了獲取更多的融資機(jī)會,會積極對外發(fā)布自己開發(fā)的大語言模型,然而大語言模型開發(fā)所需的時(shí)間、費(fèi)用和技術(shù)都具有較高門檻,開發(fā)者或公司也有動機(jī)對提交的測試弄虛造假。為驗(yàn)證大語言模型的外部可訪問性在思政創(chuàng)新發(fā)展水平對思政能力負(fù)向影響中的作用,我們在模型(I)外部可訪問性和思政創(chuàng)新發(fā)展水平的交乘項(xiàng)Mao1M×Address,回歸結(jié)果重點(diǎn)關(guān)注交乘項(xiàng)的符號及顯著性。表9列示了回歸結(jié)果,無論在馬克思主義或是毛澤東思想的回歸列交乘項(xiàng)均顯著為負(fù),這表明具有外部可訪問性的大語言模型在回答思政有關(guān)問題時(shí),“幻覺”現(xiàn)象更加頻發(fā),這也許表明了外部不可用的大語言模型存在弄虛作假的可能性。

(五)進(jìn)一步分析

我們進(jìn)一步討論思政創(chuàng)新發(fā)展水平對大語言模型的影響是否會溢出到其他學(xué)科問題上。因此,我們分別向大語言模型提交社會科學(xué)和所有學(xué)科的測試,變量SocialScience表示社會科學(xué)的綜合得分,變量Avg表示所有學(xué)科的綜合得分,結(jié)果如表10所示。列(1)、列(2)兩種對思政創(chuàng)新發(fā)展水平的度量皆對大語言模型社會科學(xué)類的回答能力產(chǎn)生了負(fù)向影響,列(3)、列(4)則表明這種負(fù)向影響也會溢出到所有學(xué)科的作答當(dāng)中。這可能是由于思政內(nèi)容包含了大量文字內(nèi)容,在思政這一學(xué)科范圍的錯(cuò)誤文本影響了大語言模型對整個(gè)自然語言體系的正確理解,從而產(chǎn)生了溢出效應(yīng)。這種對溢出效應(yīng)覆蓋了幾乎所有學(xué)科,而對大語言模型的應(yīng)用對所有學(xué)科又是未來的重要趨勢,若不能及時(shí)發(fā)現(xiàn)、探究、解決這類普遍的“幻覺”現(xiàn)象,則可能引發(fā)人類對大語言模型的不信任,減緩大語言模型的應(yīng)用落地;或者使用者完全沒有意識到這種大語言模型的“幻覺”,過分信任大語言模型的回答,也有可能累計(jì)出重大的經(jīng)濟(jì)后果。

五、研究結(jié)論

五、研究結(jié)論隨著我國互聯(lián)網(wǎng)的迅速普及,民眾不僅能夠便捷地獲取信息,還可以自由發(fā)布和傳遞信息,成為信息的生產(chǎn)者。這種現(xiàn)象在互聯(lián)網(wǎng)上產(chǎn)生了大量由自然語言構(gòu)成的非結(jié)構(gòu)化數(shù)據(jù),為構(gòu)建基于大規(guī)模互聯(lián)網(wǎng)文本訓(xùn)練的大語言模型提供了便利條件。然而,互聯(lián)網(wǎng)空間的高度自由化也導(dǎo)致了大量低質(zhì)量或垃圾文本信息的存在,這些信息污染了大語言模型的數(shù)據(jù)集,影響了其性能和可靠性。此外,大語言模型的訓(xùn)練模式和推理機(jī)制本身的特點(diǎn),也限制了其在理解和生成自然語言方面的表現(xiàn),特別是在處理涉及政治制度、意識形態(tài)和文化理論等復(fù)雜背景的文本時(shí)。本文結(jié)合我國實(shí)際情況,在強(qiáng)調(diào)思政改革創(chuàng)新的時(shí)代背景下,研究了思政創(chuàng)新發(fā)展水平對大語言模型思政能力的影響,揭示了大語言模型在中文語境下的“幻覺”情況。研究發(fā)現(xiàn):首先,隨著思政創(chuàng)新發(fā)展水平的提高,大語言模型理解思政創(chuàng)新的能力越差;其次,在開發(fā)者或者公司國別屬性和外部可訪問性的情景之下,思政創(chuàng)新發(fā)展水平對大語言模型思政能力的影響更加負(fù)面,也即來自國外開發(fā)者或公司的大語言模型和具有外部可訪問性的大語言模型在思政測試得分情況上更受到思政創(chuàng)新發(fā)展水平的影響;最后,思政創(chuàng)新發(fā)展水平對其他學(xué)科存在溢出效應(yīng),當(dāng)思政發(fā)展水平越高時(shí),大語言模型回答其他學(xué)科問題的能力也會下降。以上結(jié)果經(jīng)過多重穩(wěn)健性檢驗(yàn),為評估、分析、應(yīng)用大語言模型能力提供了新視角和經(jīng)驗(yàn)證據(jù)。本文的研究可能具有如下的政策啟示:

第一,鑒于大語言模型在生成內(nèi)容時(shí)可能出現(xiàn)的“幻覺”現(xiàn)象(Benderetal.,2021),使用者應(yīng)當(dāng)對其提供的信息保持謹(jǐn)慎態(tài)度。盡管許多學(xué)者將大語言模型視為通用型機(jī)器人的雛形,并認(rèn)為其未來發(fā)展方向是成為人類的全能型助手,但當(dāng)前階段,必須正視并尊重這些模型存在的“幻覺”問題(Brownetal.,2020)。無論是政府、企業(yè)還是個(gè)人,在利用大語言模型進(jìn)行咨詢或決策支持時(shí),應(yīng)對模型輸出的信息進(jìn)行審慎評估,特別是在涉及重大決策和關(guān)鍵概念時(shí),應(yīng)通過人工核驗(yàn)確保信息的準(zhǔn)確性和可靠性(Clarketal.,2019)。

第二,為了提升大語言模型在思政特別是思政創(chuàng)新方面的精準(zhǔn)性和發(fā)展性理解,應(yīng)加強(qiáng)與政府、企業(yè)之間的合作。當(dāng)前,由于數(shù)據(jù)集、訓(xùn)練和推理等方面的局限,高創(chuàng)新水平的思政內(nèi)容對大語言模型的回答能力提出了更高的要求。因此,后續(xù)的大語言模型發(fā)展應(yīng)在這些關(guān)鍵領(lǐng)域進(jìn)行針對性調(diào)整,特別是在構(gòu)建高質(zhì)量的數(shù)據(jù)集方面(Sunetal.,2019)。為此,建議由政府牽頭,聯(lián)合行業(yè)協(xié)會,共同創(chuàng)建事實(shí)準(zhǔn)確的開源訓(xùn)練數(shù)據(jù)集,以促進(jìn)大語言模型的發(fā)展并推動經(jīng)濟(jì)進(jìn)步。

第三,鼓勵本土大語言模型研發(fā),開發(fā)深度融合我國國情的大語言模型。本文研究發(fā)現(xiàn),來自國外開發(fā)者或公司的大語言模型在應(yīng)對思政改革創(chuàng)新時(shí),能力表現(xiàn)更差,這可能是由于對我國文化理解不透徹導(dǎo)致的,同時(shí)也引入了許多不可觀察的混雜原因。因此,應(yīng)加強(qiáng)本土大語言模型的研發(fā)。

第四,支持大語言模型開發(fā)透明化,實(shí)現(xiàn)大語言模型研發(fā)的全民監(jiān)督。大語言模型毫無疑問是最近投資界的最大熱點(diǎn),也是未來經(jīng)濟(jì)生產(chǎn)方式變革的推動力。但有些企業(yè)可能借著大語言模型研發(fā)的幌子吸引投資者投資,這會導(dǎo)致資本市場的錯(cuò)配,影響我國經(jīng)濟(jì)發(fā)展。因此,對參與大語言模型開發(fā)的企業(yè)應(yīng)施行更嚴(yán)厲的監(jiān)督,增強(qiáng)大語言模型的外部可訪問性。

第五,結(jié)合多種分析手段,輔助大語言模型應(yīng)用于政治經(jīng)濟(jì)學(xué)研究。政治經(jīng)濟(jì)學(xué)的文本信息不同于普通文本信息,其中涉及大量的政策制度、思想意識和文化背景,多個(gè)維度的相互作用構(gòu)成了邏輯極度嚴(yán)密的信息集。因此,大語言模型可能無法準(zhǔn)確地解讀和分析思政文本中的深刻含義和細(xì)微差別,難以把握我國的經(jīng)濟(jì)發(fā)展規(guī)律。由此可見,對這一領(lǐng)域的研究,需結(jié)合理論分析、政策研究等,進(jìn)而更全面地探索政治經(jīng)濟(jì)學(xué)領(lǐng)域中的問題和關(guān)聯(lián),并為研究者提供更準(zhǔn)確的預(yù)測和決策支持。

猜你喜歡
幻覺思政文本
公共協(xié)同視域下思政實(shí)踐活動教學(xué)的資源整合與效能提升
大中小學(xué)思政課一體化建設(shè)的課程觀創(chuàng)新研究
破解“幻覺”難題助力金融智能健康發(fā)展
鄭小林:新一代人工智能趨勢與挑戰(zhàn)
新時(shí)期學(xué)校思政課建設(shè)的新形勢
人工智能為何會產(chǎn)生幻覺?
有意義且有意思: 思政課堂教學(xué)樣態(tài)探索
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 国产一级毛片yw| 色偷偷男人的天堂亚洲av| 国产精品免费露脸视频| 亚洲一区波多野结衣二区三区| 亚洲一区国色天香| 毛片基地美国正在播放亚洲| 偷拍久久网| 国产亚洲欧美日本一二三本道| 特级毛片8级毛片免费观看| 欧美午夜理伦三级在线观看| 韩国福利一区| 国产99久久亚洲综合精品西瓜tv| 国产97视频在线| 国产精品色婷婷在线观看| 国产精品中文免费福利| 国产免费久久精品99re不卡 | 成人亚洲天堂| 片在线无码观看| 日韩欧美91| 色AV色 综合网站| 91口爆吞精国产对白第三集| 99久久性生片| 成年人国产网站| AV在线麻免费观看网站| 成人小视频在线观看免费| 国产福利免费视频| 久操线在视频在线观看| 99re在线观看视频| 婷婷成人综合| 国产综合另类小说色区色噜噜 | 精品免费在线视频| 久久久久青草大香线综合精品| 欧美激情网址| 91久久国产综合精品| 国产97视频在线观看| 亚洲男人的天堂久久香蕉| 成年人免费国产视频| 国产精品亚洲一区二区三区z | 久久美女精品| 女人18毛片水真多国产| 国产后式a一视频| 一本色道久久88综合日韩精品| 国产精品免费福利久久播放 | 白浆免费视频国产精品视频| 在线国产三级| 老司机午夜精品网站在线观看| 国产va视频| 欧美不卡视频在线观看| 国产熟女一级毛片| 精品少妇人妻一区二区| 亚洲成肉网| 欧美自慰一级看片免费| 国产激爽大片高清在线观看| 日韩欧美中文在线| 国产福利影院在线观看| 精品国产电影久久九九| 六月婷婷综合| 真人免费一级毛片一区二区 | 在线亚洲精品自拍| 日韩大片免费观看视频播放| 国产欧美一区二区三区视频在线观看| 国产白浆一区二区三区视频在线| 狠狠做深爱婷婷综合一区| 亚洲国产91人成在线| 国产欧美精品午夜在线播放| 久久夜色精品| 日本a∨在线观看| 亚洲国产成人无码AV在线影院L| 五月婷婷激情四射| 亚洲男人在线天堂| 色呦呦手机在线精品| 日韩高清成人| 日韩色图区| 97精品国产高清久久久久蜜芽| 再看日本中文字幕在线观看| 天天色综网| 成人精品在线观看| 久久福利网| 免费无遮挡AV| 亚洲国产成人在线| 91在线播放免费不卡无毒| 日韩高清在线观看不卡一区二区|