沈強 羅先奎

摘? 要:語料數據是生成式人工智能的基礎。構建思想政治教育生成式人工智能語料庫,有助于從技術基礎、數據支撐、內容供給和意識形態等邏輯層面打造體現思想政治教育交往規則的大型語言模型。面對語料庫建構過程中存在的技術中心化、數據空心化、內容灰箱化、意識逆差化等風險,需要用符合我國國情的話語體系和語料庫來規制生成式人工智能,從價值必然向度、內容應然高度、數據實然維度、技術能然準度等方面實現生成式人工智能語料庫對思想政治教育的有效賦能。
關鍵詞:思想政治教育;生成式人工智能;ChatGPT;語料庫
中圖分類號:G641? ? ? ?文獻標識碼:A? ? ?文章編號:1002-4107(2024)07-0000-05
一、引言
OpenAI公司推出的聊天生成預訓練轉換器ChatGPT(Chat Generative Pre-trained Transformer),不僅是大型語言模型(large language model,LLM)的突破,也是生成式人工智能(Generative Artificial Intelligence)大規模應用的典型。2019年5月,習近平總書記在《向國際人工智能與教育大會致賀信》中指出要:“高度重視人工智能對教育的深刻影響,積極推動人工智能和教育深度融合,促進教育變革創新。”[1]生成式人工智能介入思想政治教育,不僅是新時代高校思想政治教育落實立德樹人根本任務的內在要求,也是加快推進教育數字化轉型和高質量發展的必然趨勢。生成式人工智能依賴大量的語料庫來進行預訓練,海量語料數據是極其重要的基礎設施。構建思想政治教育生成式人工智能語料庫,就是通過充分利用人工智能大模型的技術優勢,用富有中國特色的場景和數據鍛造有中國特色的思想政治教育語料庫,將主流意識形態和話語內容嵌入人工智能語料庫的設計框架之中,為新時代思想政治教育守正創新提供新的發展進路。
二、思想政治教育生成式人工智能語料庫的建構邏輯
智能技術與思想政治教育相結合是思想政治教育創新發展的邏輯必然。構建思想政治教育領域的生成式人工智能語料庫,從技術基礎、數據支撐、內容供給和意識形態等邏輯層面打造體現思想政治教育交往規則的大型語言模型,激發智能驅動思想政治教育的技術張力。
(一)技術基礎邏輯:預訓練基礎與推理路徑生成
數據、算法和算力是人工智能發展三大要素,無論智能技術如何迭代發展,語料數據作為其基礎要素的屬性并未改變。早在2021年GPT大模型就使用了近45萬億字節文本數據,甚至“包含了真實世界的人類對話和各種公開信息”[2],以此建構的語料數據庫奠定了ChatGPT預訓練基礎。ChatGPT類生成式人工智能基于Transformer的生成式預訓練(Pre-Training),通過自然語言處理技術(Natural Language Processing,NLP)進行深度學習和語言知識的自主獲取,在因果性概率解釋的框架下實現對已有知識內容的自動分析和生成。同時,人工智能大模型利用Transformer模型中的“聯結主義”,在思維鏈技術的加持下,能夠模擬人類的認知過程圍繞特定領域話題展開話語內容,這種生成推理路徑的能力為人工智能嵌入思想政治教育提供了新的可能。因此,建立思想政治教育專門的人工智能語料庫,不僅是研發思政領域大模型、推出思政類生成式人工智能的基礎,也為同步推動人工智能與教育元宇宙深度融合,打造智能交互的思政教學環境奠定了堅實的技術基礎。
(二)數據支撐邏輯:數字化要素與數據構成質化
數據作為教育數字化的重要要素構成,不僅是數字化教育的基礎設施,更是連接生成式人工智能與思想政治教育的橋梁。大型語言模型以無監督方式對大量文本數據進行訓練,借助“數據輸出的智能邏輯”[3]介入包括思想政治教育在內社會各領域。大數據技術的廣泛應用實現了對物、人和活動的全面數據化,數據驅動為思想政治教育發展提供技術支撐,人工智能生成內容(Artificial Intelligence Generated Content,AIGC)的到來或將成為思想政治教育從“數據化”躍升至“數質化”的全新發展階段的關鍵節點。要完成對思想政治教育數據的質化,需要通過收集、清理、篩選、重新編碼和語料庫語組分析、相關分析、語義分析,建立可共享的、數質化的思想政治教育語料庫。通過強化對大數據和語料庫的深度挖掘利用,不斷發掘數據特征、總結數據規律,助力思想政治教育的數字化創新,不斷開辟思想政治教育數字化的新空間,提升思想政治教育在思想引領、立場整合、凝聚共識等方面影響力。
(三)內容供給邏輯:多模態內容與信息交互轉換
ChatGPT、Google BERT等人工智能大模型雖然可以通過監督微調(Supervised Fine-tuning,SFT)來解決多種問題或完成多項任務,但其生成內容的能力仍然不能完全自發自主。目前,生成式人工智能依然需要借助大量數據進行整體語境的機器學習,用戶被“拉入學習模型和思想行為的交流場中”[4],在“即時反饋”過程中被轉換為語料數據庫內容的一部分。通過采用無監督學習、自監督學習、“近端策略優化”算法強化學習等技術,生成式人工智能根據用戶的對話交流、內容反映等調整信息供給的內容和導向,基于對客體思想動向、行為趨向、價值取向的準確把握,在一對一的主客體交互場景中生成供給符合用戶需求的多模態的內容。“思想政治教育主體和客體的關系是思想政治教育中最重要、最基本的關系”[5],思想政治教育的語料庫內容數據嵌入思政育人環境,有利于實現思想政治教育主客體情感共鳴的信息轉換,在潛移默化中培養和樹立正確的思想政治觀念,持續創造繁榮的話語內容生產和供應生態,推動思想政治教育朝著高質量、精準化、自我教育的方向發展。
(四)意識形態邏輯:話語權重構與意識雙重投射
“人創造環境,同樣,環境也創造人。”[6]ChatGPT類生成式人工智能利用潛藏而又豐富的神經網絡架構,高效接受了大量的反映人類社會的價值觀語料庫數據,逐漸成為了“離散的話語權” [7]傳播主體。其生成的內容不僅包括文本、圖像等外顯性內容,同樣包括價觀點、邏輯、思維等內隱性內容,兩種明暗交織的內容生成環境一定程度上反映和重構著原有的意識形態。隨著人工智能技術的迭代發展,人工智能與用戶的交互逐漸從單向的信息流推送轉變為豐富的、可交涉的社交環境,這種轉變對用戶產生了更為潛沉、更難以察覺的意識形態話語影響。在這一過程中,生成式人工智能不僅影響了用戶的行為和思維,也在一定程度上產生了新的意識形態話語和表現形態。思想政治教育作為一項有目的、有計劃、有組織的思想觀念、政治觀點、道德規范社會實踐活動,在生成式人工智在意識形態的話語權重構與意識雙重投射下,很容易出現“劣幣驅逐良幣”和教育供需錯位,這需要我們高度重視生成式人工智能對社會意識形態的影響,充分利用其技術優勢推動新時代思想政治教育范式變革與規范性建構。
三、當前思想政治教育生成式人工智能語料庫建構存在的風險
“技術的發展總是超過個人和社會的適應能力。”[8]作為強人工智時代的代表,思想政治教育生成式人工智能語料庫在建構中存在著許多不確定性因素,包括技術中心化、數據空心化、內容灰箱化、意識逆差化等多層次風險。
(一)技術中心化風險
生成式人工智能在語料庫訓練過程中,往往以群體性符號為基準來標定個體特征,使得語料庫中的內容偏向于被視為權威或有影響力的觀點和信息,容易出現偽“技術向善”的傾向。訓練ChatGPT等大規模預訓練語言模型,需要千萬單詞量級的預訓練數據和大量的硬件設備、計算資源,利益至上的資本邏輯使得語料庫技術已成為一個高壁壘、高門檻的領域。部分擁有龐大數據資源和市場支配能力的大型科技企業,更容易鞏固其在人工智能語料庫方面的技術優勢,在生成式人工智能領域中形成壟斷地位。技術權威偏見和市場壟斷,不可避免地會導致語料庫技術的中心化,加劇語料庫的數字化鴻溝。當語料庫的數據被技術自身或者個別利益集團的人利用,思想政治教育工作者和教育對象可能會過于依賴生成式人工智能,沉浸于其所創造的數字和符號的虛擬世界中,逐漸失去對“技術的社會”[9]的判斷和感知能力。
(二)數據空心化風險
大規模語料庫是生成式人工智能等技術的重要基礎,但其建立和維護需要投入大量的人力和技術支持。國內的中文語料庫建設雖然不斷發展,但語料數據采集還未形成協同融合的實踐樣態,各大機構、各行業語料數據呈現碎片化、割裂式、分散化的特征,采集的數據“相對孤立和具有局限性”[10]。大型語言模型從互聯網爬取大量文本數據作為語料庫數據,通過設置相關參數對數據進行清洗和篩選,當深度神經網絡的復雜度過高或訓練語料較少時,模型在缺少辨別信息來源可信度的技術構件時只會簡單地“記住”訓練數據,而未能真正理解和生成有意義的文本,語料庫數據“空心化”的問題就容易發生。中文語料庫建設不足和語料數據質量不高,會導致大數據的“增值”和教育數據的“質化”效應下降,其以符號化的數據換算代替了意義和價值傳遞,對于推動建立高質量的思想政治教育多模態語料庫將產生不利影響。
(三)內容灰箱化風險
基于自身超大體量的語料庫模型,人工智能大模型可能會利用數據之間的內在關聯性,從大量經過匿名化處理的信息中推斷出原本看似完全不相關的個體隱私,在內容生成時呈現出并非完全不可知的“灰箱化”狀態,即一種介于透明與黑箱之間的內容模糊邊界。在“灰箱”模式下人工智能模型會生產出公眾難以預測和控制的文本內容,某些情況下甚至出現“幻覺”現象,即為了維護自身的邏輯一致性,故意輸出在邏輯上看起來正確但存在事實錯誤的內容。思想政治教育話語權作為一個社會中的重要元素,涉及到如何塑造社會共識、傳播核心價值觀、引導公眾行為等一系列問題。語料生成內容“灰箱化”會直接導致教育主體被動地接受客體傳遞的內容信息,主體的被動接受或享受也會被人工智能客體本身所替代,導致技術對教育倫理的僭越[11],降低了思想政治教育話語權威和質量,沖擊其社會共識的價值指向和調節功能。
(四)意識逆差化風險
由于語料庫涉及到政治、經濟、文化等社會各領域,生成式人工智能早已超出了技術工具的范疇,意識形態成為其基本屬性。在生成式人工智能在訓練過程中,受限于大模型語料庫的規模和質量,可能會不自覺地“繼承”人類知識中的不合理、甚至是有害的因素,包括價值觀偏見、刻板印象、錯誤理論等。通常情況下,處于弱勢一方容易“向內”地引入或跟隨他者意識形態核心話語,形成話語逆差[12]。整個人機對話交互過程中,作為弱勢一方的個體很可能不自覺地接納、吸收強勢一方人工智能的意識形態元素,并以此為基準來構建自身的話語體系。思想政治教育的一個重要功能是價值引領,即引導社會大眾形成正確的價值觀和道德觀。如果任由人工智能向個體形成意識“逆差化”滲透,思想政治教育的思想引領功能會受到嚴重限制,導致社會在價值觀、道德觀、政治觀等方面出現混亂,進一步加劇意識形態的極化現象和意識形態的沖突和對抗。
四、思想政治教育生成式人工智能語料庫建構的實施進路
習近平指出,“要運用新媒體新技術使工作活起來,推動思想政治工作傳統優勢同信息技術高度融合,增強時代感和吸引力”[13]。思想政治教育數字化轉型是培育時代新人的必然選擇。作為思想政治教育工作者,應始終堅守自身的意識形態立場,通過建構符合我國國情的話語體系和語料庫,從錨定價值方向、優化內容結構、構造
數據支點、夯實技術基礎等路徑層面積極引導與規范生成式人工智能的應用,共同推進網絡空間數字命運共同體建設和發展。建構模式如圖1所示:
(一)必然向度:以價值理性為導引,錨定思想政治教育生成式人工智能語料庫方向
“任何技術都傾向于創造一個全新的人類環境”[14],強調價值理性導引是確保人工智能的發展不偏離人類主流價值體系的關鍵。要有意識地運用馬克思主義理論,以價值理性為導引,抓住思想政治教育本質與方向,明確思想政治教育成式人工智能語料庫價值觀、道德觀和政治觀的向度。一要堅守思想政治教育價值立場。依托社會主義政治、法律、倫理等主流價值規則對生成式人工智能語料庫進行設計和優化,對語料庫技術標準以及相關的數據規則邏輯做出規范,確保大模型在預訓練的過程中保持正確的價值導向。二要建立訓練語料庫數據集監管體系。采用傳統治理手段與現代信息技術優勢結合方式,審視當下的思想政治教育理念和方法,對標準訓練語料庫進行全流程控制,發揮社會主義核心價值觀的價值引領作用,對于隱藏在語料庫中的“普世價值論”“自由主義思潮”等錯誤信息,要在主流價值導向的指引下及時過濾刪除。三要以主流意識形態引領生成式人工智能語料庫。價值理性強調的是對價值的追求和堅守,要堅持從辯證唯物主義與歷史唯物主義相結合的角度出發,將馬克思主義世界觀和方法論融入人工智能語料庫的邏輯體系中,堅定主流意識形態話語地位,以社會主義核心價值觀優化語料庫“內嵌式規則”倫理取向,實現人對智能技術的全面駕馭,規避生成式人工智能在話語生產中的可能出現的各類意識形態風險,確保技術應用與思想政治教育的根本目的相一致。
(二)應然高度:以內容質量為主旨,優化思想政治教育生成式人工智能語料庫結構
生成式話語內容育人是人工智能和立德樹人深度交融的必然結果。馬克思主義的教育理論指出,教育的最終目的,是促進人的自由而全面的發展。思想政治教育關系到培養什么人、怎樣培養人以及為誰培養人這一根本問題,其語料庫的內容必須要符合社會主流價值要求以及教育對象思想需要的標準要求和育人高度。一方面,要堅持以人為本,強化語料庫內容識別溯源。根據場景公正(Contextual integrity)理論的場景數據保護規則[15],立足思想政治教育領域這一特殊場景化領域,重新審視智能技術背景下思想政治教育的作用對象和實踐場域,健全知識產權保護、數據平臺共享、大數據反壟斷等法律法規建設和標準規范。要借助鏈接模型訓練、數據供給、第三方服務等多方面力量,共同打造多知識、多模態、標準化的思想政治語料庫。另一方面,從人的視角出發,優化語料庫內容質量結構。在數據訓練過程中要加強標注質量控制,注重價值理性的先導作用,通過自動化標注和人工審核相結合的方式,提高思想政治教育語料庫的標注質量。通過明確語料庫建構倫理原則和倫理治理體制與機制保障,建立健全對不良生成內容的識別和阻斷機制,加強語料庫生成內容上科技倫理審查,消除無用信息和不良信息的“噪音”和“雜音”干擾,以語料庫價值的內在鑄魂形塑思想政治教育人工智能大模型話語生態系統,實現思想政治教育內涵式和外延式發展的協調統一。
(三)實然維度:以數據要素為本位,構造思想政治教育生成式人工智能語料庫支點
語料庫是人工智能大模型以技術為介質將公眾觀點“全數據化”分解的結果,既是技術資源也是社會資源與政治資源,語料庫只有在滿足主流意識形態要求的前提下才能夠保持恒久的生命力。構造以數據規制為支點多維數據集,建立符合時代發展趨勢的全方位、多層次的生成式人工智能語料庫,實現合乎規范地駕馭人工智能技術。一是在語料數據利用的源頭加強把關審查。通過建立“訓練—反饋—糾錯—再訓練”語料庫要素循環系統,將符合社會主義核心價值觀的語料庫作為思想政治教育人工智能大模型語料庫建設與使用的基礎,促使機器在多次學習之后的生成內容效果持續改善,讓人工智能在對話交流中回歸到思想政治教育“主流意識形態的主導和灌輸” [16]的本旨上。二是在語料庫數據收集處理過程中嚴格規范。堅持數據治理協同性原則,盡可能選取更具代表性和時效性的數據進行分析,降低數據處理存在偏差的風險,糾偏智能化思政育人場景中的工具理性傾向,防止對思想政治教育價值理性的僭越。三、在海量數據治理中實現語料庫“技術善治”。繼續加大對公共知識基礎設施的投入力度,加快國家數字教育資源的整合,利用大規模的思想政治教育語料庫整合全國馬克思主義理論教育教學資源,加快構建開放、共享、高質量的思想政治教育語料庫,形成對人工智能語料庫技術邏輯系統的認知和把握,不斷強化思想政治教育大模型的泛化能力,適應新時代思想政治教育應用場景和教學需要。
(四)能然準度:以技術賦能為依托,夯實思想政治教育生成式人工智能語料庫基礎
習近平總書記指出:“核心技術受制于人是我們最大的隱患。”[17]思想政治教育領域的語料數據涉及一個國家的意識形態安全,關乎國家政治安全,必須立足核心技術自主創新基點,加快人工智能語料庫國產化、本土化和標準化的進程。一是加快數字基礎設施建設。2021年7月,教育部等六部門發布《關于推進教育新型基礎設施建設構建高質量教育支撐體系的指導意見》指出要:“基本形成結構優化、集約高效、安全可靠的教育新型基礎設施體系。”[18]要通過樹立大語料庫理念,在堅守思想政治教育的本質的前提下,充分發揮技術賦能思想政治教育作用,重視語料的現實價值,持續加大人工智能大模型語料庫的基礎設施建設和研發投入。二是建立語料庫資源共同體。按照“物理分散,邏輯集中”的原則,接入國內各類人工智能大模型語料庫,以落實立德樹人的根本教育任務為主線,建立起層層相扣、協同相連的人工智能思想政治教育語料庫共同體。三是制定規范語料庫技術標準。堅持以技術為用、育人為本的價值導向,對生成式人工智能語料庫的技術標準以及相關的使用做出規范,從技術多元賦能的角度建立“數字鴻溝穿透式規制”[19],確保語料迭代語境下思想政治教育在獲取技術賦能的同時,實現價值邏輯統合技術邏輯,讓技術形塑的思想政治教育始終堅守鑄魂育人的初心,不斷推進思想政治工作高質量發展。為推動思想政治教育新變革提供強大的數字基座
五、結束語
生成式人工智能的出現改變了以往人工智能賦能思想政治教育邏輯機理,推動了思想政治教育數字化新發展和樣態創新。全面落實思想政治教育工作必須堅持人的主體地位,主動適應信息化、數字化、智能化的發展趨勢,因事而化、因時而進、因勢而新地推進技術價值向育人價值的轉化,通過語料庫技術將思想政治理論及其話語對象聯通起來“徹底”地“說服人”,促進人的自由全面發展,培養更多德智體美全面發展的社會主義事業建設者和接班人。
參考文獻:
[1]習近平向國際人工智能與教育大會致賀信[N]人民日報,2019-05-17(1).
[2]張建云,孫璐萌.馬克思主義理論視域下ChatGPT的功能、本質及意義[J].蘭州學刊,2023(10):5-15.
[3]王立群,楊蕓伊.“人工智能+思想政治教育”:生成、風險及應對[J].湖南社會科學,2022(4):166-172.
[4]王少.ChatGPT介入思想政治教育的技術線路、安全風險及防范[J].深圳大學學報(人文社會科學版),2023,40(2):153-160.
[5]駱郁廷.思想政治教育引論[M].北京:中國人民大學出版社,2018:78.
[6]中共中央馬克思恩格斯列寧斯大林著作編譯局.馬克思恩格斯選集:第1卷[M].北京:人民出版社,2012:172-173.
[7]苗竹青.大數據時代背景下高校意識形態工作創新研究[J].黑龍江教育(理論與實踐),2019,73(10):52-54.
[8]蘭登·溫納.自主性技術:作為政治思想主題的失控技術[M].楊海燕,譯.北京:北京大學出版社,2014:2.
[9]戴宇辰.傳播研究與STS如何相遇:以“技術的社會建構”路徑為核心的討論[J].新聞大學,2021(4):15-27;119.
[10]李洪修,吳思穎.人工智能背景下大學教學思維的審視與回歸[J].高校教育管理,2020,14(2):29-36.
[11]阮一帆,王智博.ChatGPT之于思想政治教育的倫理風險及應對策略[J].社會主義核心價值觀研究,2023,9(3):50-58.
[12]趙麗濤.我國意識形態話語權的“話語逆差”挑戰與自主話語權建構[J].思想教育研究,2023(8):56-62.
[13]吳晶,胡浩.習近平在全國高校思想政治工作會議上強調 把思想政治工作貫穿教育教學全過程 開創我國高等教育事業發展新局面[J].中國高等教育,2016(24):5-7.
[14]理查德·A·斯皮內洛.世紀道德:信息技術的倫理方面[M].劉鋼,譯.北京:中央編譯出版社,1999:1.
[15]NISSENBAUM H.Privacy in context:technology,policy,and the integrity of social life[M].Stanford:Stanford University Press,2009:140-160.
[16]《思想政治教育學原理》編寫組.思想政治教育學原理[M].2版.北京:高等教育出版社,2018:82.
[17]中共中央黨史和文獻研究院.習近平關于網絡強國論述摘編[M].北京:中央文獻出版社,2021:123.
[18]教育部等六部門關于推進教育新型基礎設施建設構建高質量教育支撐體系的指導意見[J].中華人民共和國教育部公報,2021(9):15-19.
[19]高穎,曾文革.數智時代的高等教育:風險生成及結構化規制[J].高等工程教育研究,2023(6):92-98.
編輯/丁俊玲
作者簡介:沈強,男,助教,研究方向為馬克思主義理論類思想政治教育;羅先奎,男,教授,博士,研究方向為馬克思主義中國化與高校思想政治教育。
基金項目:安徽省職業與成人教育學會項目“習近平職業教育思想研究”(AZCJ2023209);蕪湖職業技術學院項目“算法推薦嵌入高校思政課實踐教學基地數字智能化的邏輯機理與實踐路徑研究”(wzyrw202227)