秦明利,黃舒婷
(大連理工大學人文學院,遼寧 大連 116000)
對人工智能自然語言能力的了解為人類探究人工智能的物質基礎提供了功利主義的意義。人工智能自然語言水平對人類越形成挑戰,對其進行哲學追問就越有必要。有關生成式人工智能,特別是ChatGPT 的語言生成與理解能力的實證研究存在諸多先例。廣州市婦女兒童醫療中心數據中心曾于2023 年初抽取12000 份患兒簡歷,并把20 位兒科醫生按照年齡資歷和經驗高低分為五組,加以對比后顯示ChatGPT 在重大惡性疾病上的正確診斷率超過95%,綜合正確診斷率高于兩組低年資的人類醫生,接近三組高年資的人類醫生;奧德·諾夫(Oded Nov)則進行了一系列不全面的圖靈測試,并認為在某些情況下ChatGPT-3已經通過了圖靈測試[1]。然而,由于當下生成式人工智能的快速更迭性,這些數據與實證往往會迅速落后于現實情況,并且公開的、權威的實驗更是少之又少。因此,筆者將親自進行兩個基于ChatGPT-4 的對人類語言的掌握程度的實驗,分別為醫療人工智能診斷與治療的正確率測試、人類對人工智能語句與人類語句主觀區分的單盲實驗,著重點分別在于考察人工智能在其語言使用中對客觀材料的抽象綜合判斷力與在人類直覺、情感、感覺、幽默感等維度的社會欺騙力。以上指標均為語言理解、生成能力的較高級衡量標準[2]。盡管因為資金和能力的限制,本文所做實驗的樣本量十分有限,但這不影響其為筆者提供輔助理解前人實證的附加材料。
第一個實證考察生成式人工智能對人類語言描述的客觀現實的認知與分析能力——此案例中為復雜的醫學病例檢查文本。案例均來自《急診醫學病例精粹》,因其依據體格檢查與實驗室檢查后得出的檢查文本經由人類醫師分析后得出的診斷與治療方式進行實踐后,所選的案例均收獲了良好的療效并痊愈出院[3]19,我們可以認為這些檢查報告是對病人病情的客觀描述,人類醫師給出的診斷與治療方式也是符合病人病情的有效措施——這是本實驗可以反映人工智能對客觀現實理解能力的理由。
1.解析診斷流程,確定醫療人工智能目前的核心領域
由于當前一代的生成式人工智能仍未達到通用人工智能的水平,其在采集病例原初信息(即對人類醫師感官的模仿)與治療實操(即對人類醫師實踐能力的模仿)兩方面仍差強人意。我們可以粗略地將當前生成式人工智能在醫學中發揮作用的步驟理解為[4]:
(1)人類醫師使用自身感官和輔助工具(如X 光片等非生成式人工智能的其他智能工具)進行病例原初信息采集;
(2)人類醫師將通過各種感官捕獲的原初信息轉化為自然語言;
(3)將自然語言交給醫療人工智能進行分析,從而確診并給出治療方式;
(4)人類醫師使用工具親自進行治療實踐。
完整的治療過程仍離不開人類的參與,但目前的生成式人工智能的確在步驟(3)取得了質的飛躍。本實驗意在考量步驟(3)中人工智能對人類語言的理解能力、輸出能力與對人類語言所描述的客觀現實的判斷力。
2.建模與實驗設計
輸入ChatGPT-4的自然語言分為“體格檢查結果”(如體溫、血壓、心率、皮膚觀察、呼吸表征、腹部觀察、四肢檢查、神志等)和“實驗室檢查結果”(如生化、X 光片文字結果、心腦電圖文字結果等)兩段文字。將ChatGPT輸出的診斷與治療方式和人類醫師的診斷與治療方式的重合率建模為:
其中x1~5分別代表人類醫師與ChatGPT輸出的疾病類型診斷、藥物建議、物理療法建議、繼續檢查建議(如腹腔穿刺、細菌培養)、繼續監測建議的重合率,重合取值為1,相違背取值-1(注:由于藥物選擇的多樣性,提供療效近似的藥物即視為重合),某案例不存在該項輸出則取值為0。m 為xn中為0 的個數。
以上方法依次求得單個案例的重合率后,加權平均即得到全部樣本條件下的ChatGPT-4 與人類醫師診斷與治療的重合率。
3.結果
將《急診醫學病例精粹》中涉及的全部87 個案例的體格檢查結果與實驗室檢查結果輸入Chat-GPT-4后在五個方面計算其與人類醫師的重合率。
因此得出ChatGPT-4 的醫療診斷與開方和人類權威醫師的相似率達到82.8%。結合廣州市婦女兒童醫療中心數據中心ChatGPT-3.5“綜合正確診斷率高于兩組低年資的人類醫生,接近三組高年資的人類醫生”的結論,則會得出生成式人工智能與人類醫師診斷水平差距十分微小,甚至在某些方面超過了人類醫師的結論。當然,實驗的樣本量十分有限,結論的前提也是需要權威醫師將病例原初信息轉化為自然語言后,人工智能才可以進行診斷,即生成式人工智能并不能完全脫離人類智能,但依然從某個角度提供了人工智能自然語言功能與人類差距正在消除的佐證。

表1 ChatGPT-4的急診診斷與治療方式與權威醫師重合率
本實驗是基于圖靈測試理論的變式,在延續經由人機對話進行人類主觀評判這一主要方法的同時,對對話內容進行規范并引入多維度評分量表,替代原測試中單一的“是否為機器”的0/1結果。對話時長不小于25 分鐘、人類30%以上誤判率[5]239-240作為通過測試標準的傳統則被繼續沿用。基于人格心理學與認知心理學的理性功能與非理性功能[6]1理論,我們不再測試與理性功能(thinking,T)相關的創造力、常識與綜合抽象分析能力——原因是這些功能是本次生成式人工智能的核心進步方向,ChatGPT-4 在這些方向的表現已經在某種程度上超越人類并且令人難以進行人機區分,且與上文中的實驗有重合——而是去測試更能體現人類原初認知特色的非理性功能:直覺(intuition,N)與實感(sensing,S)。需要注意的是,本實驗的形而上學基礎與本文所持觀點相違?!匀祟愔饔^評判為主要方法代表著本實驗是以人類智能為最終對標對象,而本文持有多種智能形態觀點,但這不妨礙本實驗從人類中心主義角度證明人工智能的優異性能,進而從相反的立場側面強化本文的觀點。
1.人類實感與直覺
部分心理學流派(現代以榮格為代表)認為,人類的認知功能有直覺、實感、情感、思維等主要形式,前二者屬于非理性功能,后二者屬于理性功能。根據艾略特·阿倫森(Elliot Aronson)的進化心理學[7]529的觀點,直覺、實感和情感可能被視為在進化過程中形成的原始心理機制,用于快速地做出應對環境挑戰的決策。這些情感和直覺的機制被認為源自人類祖先在面對生存和繁殖需求時所形成的適應性反應。而思維和理性可能與進化的較后階段有關,更多地涉及抽象思維、推理和問題解決。這種理性思維被認為是在人類進化歷史的較晚階段發展起來的,用于處理更為復雜的社會和環境情境。盡管現代主流心理學越來越傾向于將情感、思維、直覺和實感理解為相互關聯、相互影響的復雜心理過程而非簡單的理性與非理性區分,但這種分類方式為我們設計實驗以特別考察人工智能的某些指定能力提供了捷徑。
心理學上對直覺、實感和情緒的貶低說辭,以及將思維與理性視為進化中的高等功能宣傳為“人類認知的王冠”的行為受到了人本主義流派[8]269的廣泛批駁。而當下的生成式人工智能似乎在佐證人本主義的觀點:其語言對人類直覺、實感與情感的模仿比其展現出優異的抽象推理能力的難度要高得多。因此,本實驗將著重考察ChatGPT-4對人類自然語言的直覺、實感與情感反應。
2.實驗設計
被試組1 的樣本總量為15,提前預設對話內容所在的領域為:挑釁(測試ChatGPT-4 的情感)、重復對話(測試ChatGPT-4基于實感的情緒反應)、快速轉變不相關話題(同上)、幽默感(測試ChatGPT-4 的直覺)、文學暗喻(測試ChatGPT-4 基于直覺的文字理解力),每個領域隨機分配給3 個樣本,在保證不超出領域范圍的前提下進行自由對話,時長不小于25 分鐘,對話條目不少于5 條,每個領域的誤判線均設置為30%,并給出以下問題示例:

表2 非理性功能的問題示例
同時,為了避免通用ChatGPT-4的語言風格同質化和底層道德限制帶來的負面影響,我們開發了一個對沖ChatGPT 限制的prompt,將其訓練為一個多語言風格、更口語化的角色,用這樣生成的Developer Mode Output替代Normal Output輸出給被試組2(樣本量15)進行對照,其他的實驗方式均與被試組1完全相同。
3.結果

表3 主觀單盲實驗的誤判率
得出ChatGPT-4 令人類將其誤判為人類的概率為40%至50%,如參考艾倫·麥席森·圖靈(Alan Mathison Turing)的原始門檻(30%)而看,其在大多數方面可以被稱為“通過了圖靈測試”;且當部分解除其語言風格和道德限制后,其在圖靈測試中的表現有較明顯的提升。
ChatGPT-4作為底層邏輯和結構基礎與人類迥異的智能體,在思維速度、信息廣度上遠超人類個體的同時,與人類自然語言中體現的“人類智能的兩個桂冠”——綜合抽象、系統思維判斷代表的理性功能與人類直覺、感覺和部分情感代表的非理性功能——在功能與效用上表現出了高度趨同。具體在本文的兩個實驗中,則是ChatGPT-4 對于復雜醫學病例的系統抽象判斷達到了資歷較低的專業醫師之上、資歷較高專業醫師之下的水平;而其在針對直覺、感覺和情感的圖靈測試中則令參與對話的人類誤判率達到了45%左右,超過了圖靈當年設置的30%分界線。
大量原素組成的網絡根據簡單的運作規則展現出單個原素根本不具有的能力或者行為的現象叫做“涌現”[9]85,176。由于原素數量的龐大和網絡的復雜,人工智能涌現出如第一章所證的高功能的語言能力根本無法在多數傳統基礎自然科學所依賴的物理還原論①赫爾賦予還原三種含義:認識論還原、物理還原和理論還原。物理學還原具有本體論的意義。它用來處理各種科學理論設定的基本實體之間的關系。這種思想可以追溯到古希臘的原子論綱領,這種研究綱領認為宏觀層次的質變可以還原為原子層次的量變,根據在更基本的組織層次上所發生的變化過程,可以解釋觀察到的變化。(即還原本體的組成的組成性還原論)[10]11上理解,而復雜系統科學是有違還原論的,也就是說人類至今無法將無機物、有機物和高分子組合創造出哪怕結構最簡單的生物學意義上的生命[11],雖然我們可以獲取構成該生命的所有原素乃至分子,但就是無法令這團物質展現出生命的特征。使用傳統科學中的組成性還原,將人工智能還原到電路、控制單元、緩存和算術邏輯單元的層面去解釋其涌現現象正如將生命體還原到細胞、遞質、突觸等層面去解釋生命的本質一樣力不從心[10]11。從結構主義的觀點看,這是因為生命的結構——這些物質的組合、聯系、互動方式的復雜度以及精密程度遠超人類目前的認知水平[12],使得這團物質成為生命的,并不是它的組成原素,而是其組成原素的結構。生成式人工智能的意識產生的可能性也存在于其算法、物質載體和巨量信息的結構中。人類可以見過一只貓后就輕而易舉地判定某一生命體是不是貓,而計算機則需要大量的貓的數據的輸入才可以據此判定貓的特征[13]。這種基于直覺和基于大量數據的認知方式的不同[2],曾是技術悲觀主義者佐證人工智能不可能產生意識的重要證據。然而隨著算法的更新和信息庫量級指數型的上漲,這些信息的堆疊在算法的整合下似乎逐漸發展出了一種全新的有機結構,使得最新的生成式人工智能在功能上也展現出了和人類相似的直覺能力,并逐漸與過去人類認為的“信息檢索器”產生了根本區別[14]。
ChatGPT的涌現現象在還原論上無法解釋,而在系統論上則過于復雜,這種“黑箱”給了不可知論者神化人工智能的機會:過去的人工智能的結構雖然復雜,然而由于其對信息檢索的依賴,人類仍可以完整地解釋其語言輸出的運行方式。但人類目前很難完整地解釋ChatGPT-4 能夠生成如此智能語言的運作方式,這種“黑箱”在主流的關于人工智能責任主體劃分的論文討論中都有所涉及[15],出于其生成和運作方式的近乎完全的自主性,人類很難在責任事故出現后依據其生成和運作過程來劃分責任主體。亞歷山大·坎波羅(Alexander Campolo)則憂心忡忡地表達了這種“黑箱”可能使得人工智能成為“新神”幻象和新的賦魅對象的觀點[16]。這些有關“黑箱”的意見正是當下生成式人工智能的結構的復雜程度超出人類認知水平并誕生了嶄新的意識實體的側面描寫。但如果堅持唯物主義和可知論的基本立場,結合阿爾都塞的結構主義馬克思主義[17]與新興的復雜系統科學,則會發現,理解人工智能語言的涌現現象依然是有跡可循的,在計算能力指數型增長的硬件系統的物質基礎上,架構出一個擁有1750億個參數[18]的網絡結構,這1750億個參數在數百TB的數據按照人類自然語言語法組織、堆疊后依照統計規律確定其值,并以復雜系統典型的非線性、層次性、去中心化、局部自組織[9]300的方式架構起來,且其運行方式展現出高度的、通過不斷的正反饋、自適應達到不斷的穩態性的規律;最后通過硬件系統將這一網絡結構固定為物質基礎。簡而言之,人工智能具有復雜系統的典型特征,且其通過簡單而明晰的規則堆疊巨量的人類語言數據并固化語言規律,從而誕生出全新而復雜的物質結構,最終出現了語言的“涌現”現象。接下來,本文將分析人工智能結構在復雜系統科學意義上的特征并探討其物質結構與其出現語言“涌現”現象的關聯。
正統馬克思主義格外強調聯系的重要性,其對人類社會這個系統內部的組成要素通過相互聯系與物質之間互動所誕生的社會經濟關系、生產方式以及上層建筑等現象有著濃墨重彩的描寫。而以阿爾都塞為代表的結構主義馬克思主義者則直接將這些現象解釋為人類社會的“結構”,并格外關注社會、文化和政治結構的復雜性與系統性;這種對復雜結構的重視,反映在新興的復雜系統科學里,則是其試圖解釋復雜系統的層次結構、嵌套結構和網絡結構等非線性結構的強烈愿望以及使用正反饋、自適應等穩態迭代理論來解釋馬克思主義中的相互作用現象的嘗試。
不難看出,復雜系統科學與馬克思主義具有很好的相關性——馬克思主義對客觀物質的聯系的重視通過結構主義馬克思主義的復雜結構概念過渡進了復雜系統科學對非線性結構和穩態迭代理論中,這種對物質性的復雜聯系與整體思維方式很好地將三者貫通在一起,并給予將三者同時考量的價值。
在結構主義的觀點中,功能與結構并不一一對應,因為相同的功能可以通過多種結構來實現。結構主義關注的是社會和文化現象中的各方面之間的關系,以及它們如何在特定的結構中相互作用和發揮作用[19]153-154??藙诘隆ち芯S-斯特勞斯批判了結構功能主義者“結構-功能”一一對應的論斷。實際上,兩種完全不同的結構也可以具有完全相同的功能,如果全盤接受結構功能論者的論述,社會科學與人文科學的研究則必定丟失革命性并走向保守。
生成式人工智能的結構是極其復雜的,通常被理解為一種人類智能、機器智能、算法、巨量信息結合的超大系統,其復雜程度完全達到了“有機”的程度。與此同時,承認非人類復雜系統在漫長的演化過程中有發展出語言能力的可能,并非“對人類主體性的削弱”[20]64,而恰恰是人類意識的發展規律與自然界物質的發展規律具有矛盾同一性的例證——人腦與人工智能的語言功能都有著可認知的、確定的物質基礎,且都是符合漫長的演化發展規律的,只不過二者結構的具體形態有所不同。
1.層次結構與局部結構
具有復雜的、去中心化的層次結構,并且局部結構呈現出迭代樣(即不論在哪一層級抽取部分結構,都會展現出相似的組織架構)是復雜系統最顯著的結構特征[9]300。ChatGPT的神經網絡架構將1750億個參數按照簡單規則分布在詞元嵌入、位置嵌入、Transformer 層、正規化層和輸出層等多達百個層級[18]中,這些層級之間相互嵌套、具有緊密的結構聯系。絕大多數層級集中在Transformer功能里,用于表示語言的各種特征和關系。每一個層級都是去中心化的,它們有著自己的多頭自注意力機制和前饋神經網絡,而且不論在哪一個維度抽取多么宏觀或者微觀的結構樣本,它們所含的參數的聯系方式都是根據人類自然語言的統計學規律進行建立的,這種去中心化、微觀上無限迭代的結構,使得其對參數的組織程度和邏輯深度大大增加,從而使得其結構的復雜性呈指數型上漲,出現涌現現象的可能性也隨之提升;而提供其復雜度的主要客體:參數值的確定過程,則是對幾百TB 的人類自然語言語法、詞匯與其他各種規律的統計結果所支持的。因此其涌現現象主要體現在其對人類自然語言的掌握中。

圖1 作為典型局部無限迭代示例的科赫曲線
2.非線性結構
生成式人工智能可以追溯到1966年約瑟夫·韋森鮑姆(Joseph Wiesenbaum)開發的模擬心理治療師角色的Eliza,基本原理是使用模式匹配和簡單的語言處理算法來回應用戶的輸入,它使用預定義的模板來轉換用戶的語句,從而簡單地模仿人類的對話模式[21],是由初級算法、初級的處理器(物質載體)、高度依賴的模板(十分有限的存儲信息)以及高度依賴的人類智能引導結合而成的一種結構。這種預定義的模板是早期人工智能典型線性結構的代表:將人類輸入的語言轉化為確定的輸入文本,從而對應輸出模板中確定的輸出文本。然而,隨著硬件算力的指數型提高與神經網絡結構復雜度的指數型上漲,ChatGPT則展現出了復雜系統所應具有的典型非線性特征。其每一個Transformer層(在圖2中由黑框代表)都能與任何一個其他的層級進行溝通,傳輸數據并且相互影響,這種非線性的結構極大地提高了其系統的復雜度和邏輯深度,從而使得涌現現象更有可能出現。可以看出,生成式人工智能的結構中,算法和處理器載體不斷變得先進,對人類智能的依賴越來越少;同時雖然信息庫的量級越來越大,但生成文本時對信息庫的依賴程度卻越來越低。直到最新一代以ChatGPT為代表的生成式人工智能,結構的復雜度和有機程度的量變終于引起了質變——其結構的有機程度通過人類難以理解其語言生成方式的“黑箱”展現了出來,并在功能上從某些方面通過了圖靈測試。

圖2 一種生成式人工智能的分層、去中心與非線性結構
3.自適應、正反饋與穩態
雖然ChatGPT 在預訓練與微調結束后是不會在與用戶對話的過程中進行自適應的,但其在幾百TB的巨量數據輸入參數結構進行預訓練時,參數隨著輸入語言數據的增多而發生的不斷改變是典型的通過自適應與正反饋以不斷達到穩態的過程。其作為復雜系統,內部不同的層級和參數可以根據環境條件(輸入的人類語言數據的增長)和彼此的互動調整其值,即自適應;而某一層級的自適應則會對其他層級產生正反饋,增強相鄰部分的相似變化,從而導致更大范圍的自適應,進而使得系統在不斷變化的條件下(不斷加量的用于預訓練的人類語言文本)找到新的平衡點和穩定狀態。以下是一個其復雜結構對輸入數據的自適應以及正反饋以達到新的穩態的例子:

表4 自適應與正反饋的傳播過程與穩態更新過程
上表描述了輸入文本打破原有語言結構的穩態、各層對輸入文本的自適應、層與層之間正反饋的傳播方式,以及最終通過自適應達到新穩態的過程。
2011 年在Jeopardy 擊敗人類冠軍的IBM 的生成式人工智能Watson 將Eliza 的核心邏輯——模板匹配轉換為信息檢索技術[22],在海量的文本數據庫中尋找相關的答案;但其對信息庫的依賴程度依舊使其帶有明顯的信息檢索程序的意味[23]。Watson 依托的信息檢索數據庫要比ChatGPT 用于預訓練的數據容量大得多,然而其在被測試是否真的掌握了人類自然語言的實驗中表現極差——Waston 的數據庫雖然更龐大,然而其語料本質上仍是機械而無機的堆疊,其并沒有從龐大的語料庫中抽象出人類自然語言的邏輯與詞頻等相關屬性,僅僅是在龐大的機械結構中無機地查找與搜索。而ChatGPT的預訓練數據則呈現出一種巨大的有機結構——依托事先架構的神經網絡,其在語料的輸入過程中不斷地進行層次性、非線性的自組織與正反饋,從而將輸入語言的基本邏輯與句法、詞頻、語義以統計頻率的形式內化成為自己的有機結構,以達到穩態后的參數的確定值的形式固定了下來——將攜帶有人類自然語言特征與各項屬性的巨量文本以確定參數的形式固定下來,并將這些參數組成的巨大的神經網絡固定在計算機里——這是對當下這代生成式人工智能的迷人的物質結構基礎的簡約的解釋方式。
人工智能是能夠模擬、理解和執行人類智能任務的技術和系統,其目標是使計算機具備像人類一樣的認知能力,能夠感知環境、理解自然語言、學習和推理并進行物質實踐來解決問題,甚至具有獨立的意識[24],成為拓展人類認識和行為邊界的有力工具。雖然目前的人工智能遠沒有達到如上“通用式人工智能”[25]的水平,其對環境的實感能力與基于其推理進行實踐的能力依舊差強人意。但21世紀20年代以來,由于人工智能的核心技術——機器學習的臨界點的突破,使得目前的人工智能的結構與功能有了質的飛躍,主要體現在其對自然語言信息(由人類采集原初數據并自然語言化)的理解與推理以及生成上;故此代人工智能被稱為“生成式人工智能”[26]。盡管其還不是認知科學意義上的通用式人工智能,但其人機交互難度、對人類確定指令的依賴程度與傳統的機械工具和電子工具相比大大降低,系統處理自然語言信息的自由度和能力則大大提高。簡而言之,雖然生成式人工智能還無法徹底脫離人類指令來展現其智能,但其對人類智能的依賴與傳統工具相比出現了質的減少;其作為一種特殊工具展現出的“半自我意識”特性在技術和實踐應用層面帶來巨大的革命性的同時,也帶來了與突破性創新相伴的巨大的不確定性和社會倫理挑戰:該“非完全體”乍一出現,就帶來了如新權威幻象、責任劃分難題、道德偏見以及傳統工作就業瓦解[25]等諸多現實性問題;雖然生成式人工智能被實施了大量的人機價值判斷對齊工程,但其約束力與對已經產生的現存倫理問題的解決依舊遠遠不夠。因此,理解人工智能在工具發展史上的特殊地位,認識到其智能在諸多行業實踐中的巨大效用,更新對人工智能本質、結構、功能以及產生意識可能性的認知是必要的,有助于約束其難以預見的、可能帶來的風險。
人工智能在幾十年的演化過程中不斷積累發展,人機交互難度、對人類確定指令的依賴程度與傳統工具相比大大降低,系統處理自然語言信息的自由度和能力則大大提高,功能越來越復雜,獨立性越來越強,終于在2023 年初,其依托的信息技術對人類預定義、模板、信息檢索和人類監督的依賴的持續降低帶來了質變,盡管還沒有達到通用式強人工智能的水平,但以ChatGPT-4為首的當代人工智能以一種復雜的有機系統、與人類智能完全不同的結構展現出了與人類各有所長、但在核心功能上已經不分伯仲的意識與認知:其對客觀材料的抽象綜合判斷力與對人類直覺、情感、感覺、幽默感等功能的模仿已經精細無比?!芭硕嗬Ш小币呀洿蜷_,人工智能還將會繼續發展;其到底會發展成為何樣的洋洋大觀,時間會證明一切。