摘" "要: 圖靈測試中一個長期被忽視的問題是,測試者對機器與人的“不可區分”性判定需要訴諸直覺,這將不能避免任意性。分析圖靈后來改進的經驗判據,測試者的直覺應當包含了“人具有人格實誠性”的預設。有趣的是,這一預設的基礎也包含在塞爾漢字屋論證的深度改進版本中。同時,人格實誠性預設同德雷弗斯的論證也是一致的,都要求人應當具有深度的語形理解能力。因此,即使像ChatGPT這樣基于深度學習的人工智能能夠模擬人格實誠性,也不具有人的智能,從而并不代表人工智能的新階段。
關鍵詞: ChatGPT;圖靈測試;實誠性難題;深度漢字屋;語形理解
中圖分類號:TP18" "文獻標識碼:A 文章編號:1004-8634(2025)01-0115-(09)
DOI:10.13852/J.CNKI.JSHNU.2025.01.011
目前正處于熱點之中的ChatGPT,是近幾年來關于人工智能持續熱度的第二波高峰,上一波的起始點是2017年AlphGo戰勝圍棋冠軍;它們代表聯接主義路線的全面成功。根據人工智能所取得的成果,我們可以將其技術發展劃分為如下幾個階段:第一階段是思想探索階段,大致從20世紀30年代到50年代,其代表性成果是圖靈設想的計算機器(圖靈機),以及他所提出的與之相關的哲學性原則即圖靈測試;同時,馮·諾伊曼在計算機科學方面的基礎性貢獻也可以看作人工智能的一個基礎。第二階段是浪漫主義的階段,其起點應是人工智能1956年的達特茅斯峰會。這一時期,研究者們興奮地預想,人工智能能夠很快地實現并超過人的智能。在這一階段,關于人工智能的各種理論都涌現出來并基本成型,而主要技術路線也被確立。第三個階段是冷靜階段。由浪漫主義階段發展到20世紀80年代初期,卻沒有什么值得稱道的技術成就,而持久的哲學攻擊也讓人沮喪。伴隨這種沮喪,更致命的是政府支持力度的明顯減弱。從今天的角度回過頭去看,其特點是各發展路線在技術方面的漸進性積累。而它的限制方面則表現在應用場景的缺乏,由于這種缺乏,其主要發展集中于符號主義路線,而代表其頂峰的成就則是1997年深藍戰勝國際象棋冠軍。第四個階段是基于互聯網發展而到來的、蓬勃的應用階段。這個階段的突出特點是執行聯接主義路線,基礎是基于互聯網的大數據應用場景及其所催生的技術進步,其中,卷積神經元技術在基礎上的突破使得預先訓練或深度學習成為可能。AlphaGo是這個階段第一個引起廣泛的社會性矚目的成就。ChatGPT的出現向我們提出了一個階段劃界問題:目前的ChatGPT是第四階段的另一個高峰,還是開創了一個全新階段?或許,我們可以把這個問題消極地推給一個搪塞性口號:“讓時間去檢驗!”但即便如此,當時間給出答案之后,其中必然存在一個劃界性的判據。到那時,這個判據將以命題的方式呈現出來。既然如此,為什么我們不可以依據背景所提供的證據事先對這個判據作出預測性的分析呢?
不過,必須指出的是,本文的主要目的并不是直接回答這個問題,這個問題的提出只是一個導引,而對這個問題的回答也僅僅是本文主要論證的一個自然而然的副產品。本文的主要目的是重新考察圖靈測試的困境。這種考察不是像塞爾漢字屋論證所反駁的那樣:即使人工智能通過圖靈測試,也可能不具備人的智能——塞爾的反駁是讓步性的或后果性歸謬:從結果的不可接受性反推前提的困境。筆者的方案是首先指出圖靈測試本身存在問題,即“測試者直覺的任意性”的問題,然后論證這個問題同塞爾漢字屋反駁的深度版本具有一致性。為了讓讀者事先有一個明晰的線索,筆者把本文的思路預先展示如下:首先,圖靈測試初始意圖是讓判定對象(人工智能)的行為處于明晰狀態以便科學地考察思想或智能——但這個原則需要訴諸測試者的直覺,難以避免其中的任意性。于是,圖靈本人推出了一個經驗性判據,雖然這個經驗判據有確定的測試時間標準和比率標準,但其“不可區分”的判別依然依賴于測試者的直覺——這種直覺是含混性,并不能克服其任意性。然后,如果將測試者的直覺更明晰一些,那么,其中應當包含了“人具有人格實誠性”的要求,而這個要求的基礎蘊含在塞爾漢字屋反駁的深度預設中,即漢字屋中的塞爾具有語形理解能力,而這種能力是人格實誠性的基礎。最后,我們將論證人格實誠性要求同德雷弗斯的反駁也是一致的。因此,即使目前基于深度學習的人工智能能夠模擬人格實誠性,它也不是人的智能,ChatGPT并不代表人工智能的新階段。
一、圖靈測試的實誠性難題
判斷ChatGPT是否開創了一個新時期,有兩個方面的回應:技術的和哲學的。
與人工智能技術應用在社會層面的熱鬧場面相比,真正從事人工智能基礎研究的科學家似乎并沒有那么興奮,雖然其進展所表現出來的能力令人驚艷,但距離人工智能的初心似乎依然遙不可及。就技術而言,同AlphaGo相比,似乎沒有本質性突破,其中最重要的是大語言模型(LLM)的使用——讓人工智能能夠同普通用戶進行日常交流,而不再像以前只服務于專業需求。因此,在淺層次的直觀上,這樣的人工智能看上去更像普通人類的活動,而不再那么像專業性的工具——專家也開始思考,它是否可以算作一類通用人工智能(AGI)。
如上一波熱鬧一樣,有深度的哲學思考依然是邊緣性的——事實上,由于哲學問題的普遍性、恒久性或超前性,目前似乎也難以提出新的哲學問題。即使相關的思考在哲學上有所推進,它與人工智能的相關性反倒不再那么緊密,而更多屬于一個獨立的哲學領域,如心靈哲學(或者是更有新意的智能哲學)。但是,如果人工智能在技術上并沒有本質的突破,那么,其在哲學方面的回應就會顯得重要起來。例如,ChatGPT是否能夠通過圖靈測試?是否可以克服漢字屋困境?
一般性的圖靈測試基于1950年圖靈原初設計的機器對人的模仿游戲:在測試者不知道受試者是機器還是人的情況下,機器通過模仿人的反應,試圖誘導測試者相信自己是一個人。1 圖靈設計這個測試的目標是哲學的,他相信,如果機器能夠通過這樣的測試,那么機器就具有思考能力。這樣的答案比哲學家的思辨顯然要簡明得多。圖靈測試可以更為簡單地表述為:如果測試者無法區分同自己互動的對象是人還是人工智能,那么,人工智能就通過了圖靈測試。
圖靈模仿游戲的原初設計是語言的問答互動,這一點特別適用于現在ChatGPT的測試。不過,圖靈本人也不拒絕人工智能可以像人那樣活動,從而更真實地同人互動。例如,它可以擁有人的身體、皮膚、語音等外部特征,它也可以有知覺和基于知覺的“內部”反應,并能夠模仿人表達出內在的“感受”。我們假定不久的將來,ChatGPT可以擁有這樣的特征,至少,她可以在虛擬世界中擁有自己的替身(avatar),并同我們的替身互動。
那么,我們真的能夠將與你互動并通過一般性圖靈測試的人工智能認定為人嗎?對這個問題的回答涉及圖靈測試的內部結構。
一般性圖靈測試的問題是不要求問題之間有內部結構的,因為它并不要求對問題的回答同人類受試者一模一樣(事實上也不可能做到這樣),而只是要求無法區分——從語言的角度看,只要答是所問即可。例如,你可以問它更喜歡生活在北京還是上海,它的答案可以是“北京”也可以是“上海”,還可以是“同等喜歡”或“同等不喜歡”。這樣,只要它回答的每一個問題沒有語法錯誤,就可以視為通過測試。因此,目前關于ChatGPT那些稀奇古怪的回答,僅從語法上看,都可以看作通過了測試,即使其在內容上是錯誤的或莫名其妙的——盡管概率很低,真正的人類也可能會有類似的回答。
正因為圖靈測試無法要求一模一樣的反應,實際的圖靈測試就會有主觀的經驗因素,即訴諸測試者的個人直覺,而不同測試者對同樣的回答可能會有不同的認定。這意味著圖靈測試本身包含了一個問題,即究竟什么是不可區分性?或者說,測試者對機器同人“不可區分”的標準是什么?
圖靈于1952年在一次BBC的廣播中提出一個經驗性標準:在5分鐘對話中,如果超過30%的測試者無法判定測試對象是機器,就可以認定該機器已經通過測試,擁有人類智能。1 按照這個標準,基于深度學習技術的人工智能在2015年就已經被認為通過了測試。2 因此,功能更加強大的ChatGPT能夠依據經驗標準通過圖靈測試幾乎是肯定的。
我們要追問的是,這樣的經驗標準蘊含什么樣的哲學問題?這個標準依然不關注人工智能的內部結構,這一點同圖靈的方法論經驗主義或外在主義是一致的——這種外在主義也是圖靈測試被歸屬于功能主義的主要依據。圖靈方法論的高妙之處在于,盡最大可能確保作為研究對象(的人工智能)的明晰性和確定性,而將不明晰推卸給測試者方面。
不過,這個經驗性標準同圖靈提出圖靈測試概念時的最初想法并不一致。圖靈在作出模仿游戲描述之前的開篇,就已經拒絕了通過對“思維”和“機器”這樣的語詞含義進行定義的方式,來回答“機器能夠思維嗎”的問題。他認為“這種態度是危險的”,最終會導致以蓋洛普統計調查的方式來決定這個問題的答案,“但這是荒唐的”。3這表明,圖靈最初是拒絕他后來提供的經驗性判據的——事實上,也有人認為,這些被看作圖靈測試之經驗性判據的東西根本就不是一個判據,而只是圖靈對人工智能發展之預測的一部分4 ——圖靈在原始論文中確實給出過這樣的預測:“我認為,在大約50年的時間內……使得它們在演示模仿游戲時達到這樣出色的程度:經過5分鐘的提問,一般提問者作出正確判斷的機會不會超過70%。”5
圖靈沒有給出關于經驗標準之“危險”和“荒唐”的理由。筆者推測,這些經驗標準是高度情景依賴的,在不同人群中選取的測試者(如兒童、普通成年人和心理學家),其統計結果可能是不同的,從而答案也不相同,尤其是在如此短的時間(5分鐘)內作出的判斷。這種易變性顯然會無情地挫敗圖靈希望確保明晰性和確定性的方法論企圖。
這個我們可以稱為“測試者困境”(Problem of Tester)的難題還可以用人工智能本身作為測試者的方式更明晰地展示出來。假設我們用GPT4作為測試者去判斷GPT3的對話,那么,其判斷準確率將會相當高(如高于90%)。也就是說,在這樣的測試者那里,GPT3依然不能通過圖靈測試。而如果我們反過來用GPT2去測試GPT3,那么準確率可能會非常低(如低于20%),這樣一來,GPT3就會被認定為已經通過圖靈測試了。
在我們看來,經驗標準雖然看上去更“科學”,卻掩蓋了其中的哲學問題。讓我們從想象的但更符合常識的交往活動出發,來看看我們會如何判別一個人。誠然,我們最初是從生物學外形上來判別一個對象是否是一個人的,但這種判斷顯然是粗糙的;如果你接觸的對象有不同群組,每一群組在外形上幾乎無法區分,更像批量生產的產品,你肯定會毫不猶豫放棄這一標準。這時,你會轉向智力方面的判別,如對象處理事務的能力。但如果你發現所接觸的大多數對象智力方面非常可靠,對相同事情幾乎能夠作出相似的反應,你可能會放棄當下作出判別的嘗試而傾向于在長期交往之后再做判斷。最后,除非接觸的對象具有特定(或穩定)的和可預測的行為特征,否則你不會將它當作人來看待。當我們以這種方式來判別一個人的時候,我們的判別方式將十分接近正常交往中對特定人的判別,如判別張三是張三。這就是說,只有當我們能夠判別一個人是某個特定個體的時候,我們才能夠判別他是人。
我們之所以構造上述過程來判別人工智能是否是人,是希望能夠排除單純以辨別物的方式來辨別人。我們辨別物的方式通常是通過單純的和機械的物理特征或標記來加以辨認的,但這種方式顯然不能滿足圖靈測試的最初設想。例如,人工智能完全可以模仿和篡改那些物理特征和物理標記。因此,要判別一個對象是否是人,最本質的方式只能依賴人的特征,即品質的穩定性。
在日常交往中,我們所接觸的人都是具有特定人格或品質的人,他們的行為具有相當程度的可預測性,也就是說,每個人都具有他的身份或同一性。因此,人們可能要說,品質或人格穩定性的哲學基礎是人格同一性。如果我們接受這個觀點,那么問題立即出現:哲學上很難辯護人格同一性的概念,1因此,這個品質穩定性標準是成問題的。
不過,品質的穩定性與人格同一性并不完全相同,人格同一性作為形而上學概念,其必要條件是計數的同一性(Numerical Identity),這是一種形式的同一性(如邏輯同一性)。但我們在日常生活中依據品質穩定性判定一個人時,更關注屬性的同一性(Properties Identity),并不會面對那些極端的例外。另外,品質穩定性的一個重要特征是行為的可預測性,而人格同一性概念似乎并不必然要求這一點。
筆者建議將這種基于品質穩定性和行為可預測性的人格特征判別標準稱為“實誠性”(Integrity)。
應當指出的是,即使在圖靈測試的經驗標準中,實誠性要求也在我們的判斷中起了作用。那些被我們憑直覺判定為無法通過圖靈測試的人工智能固然存在答非所問的語法問題,但這僅僅是非常初步的測試,而影響我們直覺判斷的更復雜的東西是基于人工智能缺乏實誠性,即那些人工智能看上去不像一個人:雖然一個人工智能的每個回答可能沒有邏輯問題,但從相關問題的整體上看,其回答不太可能同時出現于日常生活中的人類身上。例如,一些答案可能表明它具有熱情外向的性格,而另一些回答則表明它是一個沉郁壓抑的性格——但由于這些答案之間并不存在直接的邏輯沖突,一般性圖靈測試不可能排除之。至于測試的經驗標準,也只能排除明晰的分型混亂,畢竟5分鐘時間的問答具有太大的偶然性。
筆者將圖靈測試及其經驗標準所面臨的判定難題稱為“實誠性難題”。
二、實誠性與深度漢字屋
圖靈試圖維護機器是否能夠思考問題的明晰性和確定性,將含混性和不確定性歸置到測試者的判定直覺中。但是,我們的論證已經表明,圖靈測試的實誠性難題實際上又逆轉了圖靈將內容問題推卸為形式問題的嘗試,重新把難題還原到人工智能本身的內容性上。
人工智能如何維持其人格的實誠性,涉及人格的經驗性類型,如心理學分型,因此,人工智能要具備特定心理分型,就需要基于經驗的訓練,而達到這個要求需要語義的介入。包含語義能力的人工智能已經屬于人的智能,按照塞爾的漢字屋論證,僅僅通過一般性圖靈測試的人工智能不具備語義能力,從而不具備人的智能。這就是說,我們從圖靈測試及其經驗標準所面臨的困難間接地達到了塞爾的漢字屋論證結論。1
不過,正如筆者曾經論證過的,塞爾的漢字屋論證雖然結論上是成立的,但其論證過程卻存在瑕疵。2
塞爾漢字屋論證的基本過程是:設想不懂漢語的塞爾被關在一個小屋子里,屋子同外界有一個可以遞進遞出字條的窗口;又假設,屋子的抽屜或墻壁上布滿了漢字,塞爾借助一本英文說明書可以將漢字組織為句子,然后根據遞進來的字條上的問題給出答是所問的漢語回答并遞出去。整個過程塞爾本人并不需要懂漢語,而外面的測試者則會認為塞爾是懂漢語的——這也是圖靈測試基本原理所認可的。
漢字屋論證最大的問題是英文說明書是否可以編寫出來。按照塞爾的論證,人工智能基于程序語言,僅僅是語法結構,沒有語義學,因此,為了確保這本說明書編寫出來,就不能是漢英字典或英漢字典,因為字典是有語義的。除字典方式外,另一種極端方式是用記號標記所有問題語句和答案語句并使得它們對應起來,然后依據這個對應關系找到漢字組成答案語句并遞出。但這種方式的困難是,漢語語句具有無限性,這就意味著說明書無法完整編寫出來。
合適的方式必須能夠將有限的漢字組合為無限的語句,語法是達成這一目標的最恰當的方式。這就需要塞爾通過英語說明書理解漢語語法的基本詞匯,如邏輯常項“不”“和”“或”“是”(“屬于”);同時,為了避免答非所問,進一步地則包括語詞的詞性,疑問詞類型差異(如“何地”“何時”“什么”“誰”)、漢語語句一般性組織方式等。由于作為變元的語詞可以替換而不影響答案的合理性,塞爾幾乎不能由此確定變元語詞的含義;同時,雖然塞爾可以識別與此關聯的疑問句類型,但無法知道其具體類型(如“何時”與“何地”存在差異,但不知道它們的具體含義,因為無法識別答案中的地點名詞和時間名詞)。
塞爾將他對漢語的理解類比人工智能對語言的理解,因此,他得出結論,由于他不能理解漢語,所以人工智能就不能理解語言。但是,“塞爾不能理解漢語”的結論是含混的,他確實不能完全理解漢語語義,但是他可以通過說明書理解漢語語法詞匯的語義,他至少以不同于中國人的方式理解漢語語法。我們可以說,塞爾部分地理解了漢語或以最小的方式理解了漢語。
從這個類比出發,貌似可以得到另一個類比:由于塞爾可以通過英語說明書理解漢語語法,人工智能就能夠通過程序理解其語言的語法。因此,如果塞爾部分理解了漢語,那么,人工智能也就能夠部分理解語言。
然而,這個類比是成問題的,人工智能不可能部分理解語言。塞爾能夠通過說明書部分理解漢語(語法),有一個因果條件,即塞爾本人具備理解能力,能夠理解英語說明書。塞爾對英語的理解能力是其理解漢語語法的初始因果力,沒有這個初始因果力,塞爾不可能理解漢語語法。但是,人工智能完全不具備這個初始因果力,因此這個延伸的類比不可能成立。
誠然,為了徹底避免塞爾理解語法詞匯(如邏輯常項),可以設計更復雜的指令。例如,將這些語法詞匯置于墻上特定位置并被遮住,塞爾必須通過特定的舞蹈去取下這些文字并置于句子中,當句子送出屋子之后才自動打開。很顯然,不同的語法詞匯,其所獲取的舞蹈動作必須是不同的(否則無法區分它們)。
我把添加了這個設計的“漢字屋”思想實驗稱為“深度漢字屋”。那么,在深度漢字屋里,塞爾是否理解了漢語語法呢?答案是肯定的,如果塞爾愿意,他完全能夠通過不同的回答理解不同舞蹈的含義。因此,采取深度漢字屋徹底避免塞爾理解漢語語義的方式不可能成功。
事實上,塞爾以舞蹈形式理解漢語語法的方式更接近人類母語學習中的語法理解行為。人類在語言學習中的語法理解并不是首先制定規則或進行規則學習,恰恰是通過語義學習而默會的。自然語言學習最典型的情況是母語學習。當我們學習母語的時候,我們可以從不學習語法,直接學習語義,在學習過程中通過模仿和教學者的語義糾正來習得語法。習得母語的人,即使是一個文盲,也能夠以非常流暢的方式進行會話交流。自然語法完全不同于語言學家的語法,它不是寫下來的規則,而是對語詞及其意義的身體性操作或運算。一個人理解了自然語法,意味著他在語言交流中獲得了一種熟練的傾向和模式。在這個意義上,我們無須懷疑一個人對語法的理解能力。
那么,同語義理解相比,語法理解在經驗形式上具有什么樣的特征呢?
根據弗雷格的語義學三角,符號、意義和指稱構成了基本框架。在這個模型中,語法屬于符號關系,也稱為語形關系或語形學(Syntax)。與弗雷格旨趣不同的是,自然語言的語形并非普遍的,而是具有廣泛的多樣性,不同的自然語言有不同的語法形式,盡管它們有共同的基礎形式(即弗雷格所追求的普遍語法)。
在一個熟練的語言交流氛圍中,當一個人說“那個房子后面有一株重瓣櫻”時,我們的關注點必定不是語形,不是這句話如何說,是英語還是漢語,組成它的文字如何寫,是否主謂結構,等等。我們關注的是,這句話是什么意思?這棵樹在房子后面什么位置?重瓣櫻是什么樣子?等等。也就是說,我們關注的是表達式的意義和指稱——只有當我們沒有聽清楚或不明白它的意思時,才會去關注句子的語形。從心靈哲學的角度看,在語言交流中,我們明晰意識到的是語言的意義和指稱,而語形結構及其語法本身則不需要被明晰地意識到。
因此,從心靈哲學的角度看,自然的語法理解并不需要對語形及其語法規則的明晰覺知,它是一種模糊的經歷(Experencing)——明晰的語法規則不過是語言學家通過反思總結出來的,是語義化了的形式。在自然語言理解中,語義才是明晰的經驗(Experiences)。
語言理解中的語形和語法結構的模糊化經歷基于長期的訓練,是一種習性的(Habit)結果。事實上,任何一種習性在它操作和運行時都是模糊的,是熟練的身體動作,如熟練的舞蹈、流暢的工具使用,等等。
語法理解的不明晰性和習得性可以同人格的實誠性聯系起來。通常,一個正常的成年人不但具備理智能力,也會具備可識別的習性品質。即使一個人在整個生活中從不反思自己的行為,只是模仿周圍人或遵循社會規范行動,他的理智能力也會在他成年時將自己塑造成特定的人,這是一個人成熟的標志。在整個成長過程中,這個人可能從不需要明晰地意識到他是一個什么樣的人,這就構成了亞里士多德意義上的第二天性(或自然)。這種不自覺的習得品質就構成了他的實誠性。從語言學的角度看,實誠性是一種廣義上的自然語法現象,一個人的實誠性就是他自己的語形結構——筆者在其他地方論證了言語德性也是這樣一種實誠性的語言表現。1
三、實誠性模擬的理解性困境
到目前為止,我們已經發現,本文所提出的關于人工智能的實誠性難題將圖靈測試同其反對意見(“漢字屋”思想實驗)關聯起來了。本文這一部分將論證,人格實誠性要求同德雷福斯的反駁具有一致性。
在論述這個結論之前,我們先回答本文的導入性問題:目前基于神經網絡或深度學習技術的聯接主義路線是否已經回應了漢字屋反駁?
塞爾本人對聯接主義有一個簡單的回應——事實上,塞爾漢字屋論證中對符號主義(圖靈機)、聯接主義(神經網絡的模擬大腦)和行動主義(機器人)都有明確的回應。聯接主義強調,如果計算機不是以程序的方式輸入輸出漢語,而是模擬中國人回答問題時大腦的狀態,那么,這樣的機器就可以懂漢語。塞爾以水管的連接來替代神經元的連接,每一段水流的連接都對應于大腦中的一個突觸,在整個系統裝配起來之后,使得在全部應有的激發產生(即所有水管閥門都正確打開)之后,漢語答案就會在系統末端輸出。但這里并沒有漢語理解。
塞爾的這個回應過于簡單,甚至是武斷的:即使塞爾反復強調模擬大腦沒有復制大腦的因果力,且大腦因果力必須經過進化并通過細胞形態獲得,但這種因果力如何作用于人的智能卻是含混不清的。一個有效的反駁必須建立在深入了解正方論點的基礎上。然而,在塞爾提出漢字屋反駁的那個時代,聯接主義尚未成為主流學說,且該領域幾乎沒有取得值得一提的重要成果。
現在的人工智能專家似乎傾向于認為,基于深度學習的人工智能已經具備了語義信息,因為它能夠隨時得到外界的信息、將外界對象確認為指稱——這符合塞爾所要求的外部語義學。誠然,ChatGPT完成的工作遠不像圖靈測試那樣僅僅滿足答是所問,而是對外部對象具有精確的判定能力。那么,這是否就是一種真正的語義理解能力呢?
先讓我們以一個簡單的例子來展示一下深度學習是如何工作的。假設有一張白紙,上面分布著n個黑點。操作者將這張紙掃描進計算機,并對其進行初始判定,即確認這是一張具有如此這般特征(或描述)的紙;如果再次掃描這張紙,機器會將它判定為之前的那張紙。現在,我們對該紙張作出足夠多的處理(這些處理也可以通過算法讓計算機在內部自行處理),如撕去一個角、挖掉一個位置、弄皺、更換不同的角度,等等。計算機算法會根據點的分布規律計算它們之間的相似程度(基于條件概率或貝葉斯概率),并判定為同一張紙。也就是說,計算機通過算法自動生成了這些相似關系數據。現在,外部操作人員將同一張紙作出不同于之前任何處理的新處理,計算機將以精確的方式判定它們是同一張紙——當然,如果處理過于極端(如撕成的每個碎片只包含不超過一個黑點)以致無法判定,它可能將其判定為不同的紙張。這些新的判定將作為學習內容“記錄”在內部。這樣的處理方式越多,計算機進行正確判定的能力就越強。
在計算機內部,輸入數據是分層次的。紙張外部處理所獲得的直接數據處于第一層次,以特定標準處理第一層次數據之間的關系數據將處于第二層次,依次升級層次。由于低層次數據會被多次使用(根據不同算法標準)生成高層次數據,因此,這些數據結點之間會形成交叉的網絡。究竟構成多少層次,有多少網絡結點,取決于算法要求和輸入,其過于復雜的生成性使得操作者無法清楚計算機內部網絡的具體結構。
這種數據方式類似神經元的活動。以觸覺為例,當我們皮膚的一個感受器接受外界刺激后,這些信息會被分解并通過輸入神經纖維輸送到不同的低級中樞神經元細胞體中進行處理,而每個低級中樞產生的信息流又會被再次分解輸送到高級中樞,高級中樞則將各低級中樞的信息進行新的組合。這樣就形成了神經網絡。
那么,這種聯接主義網絡結構的運行是否可以還原為漢字屋呢?將上述例子中的圖像數據替換為漢語文字數據,情況會復雜一些,畢竟文字之間的相似性比圖像復雜。文字尤其是語句之間的關系需要基于符號主義的邏輯操作來處理。讓我們設想塞爾所在的漢字屋有一面類似中醫藥店的屜子墻,底層的每個屜子塞滿了來自外界的各種文本。塞爾并不知道這些文本的含義,也不理解漢字語詞和語句的意義。但塞爾有著驚人的計算能力和記憶力,可以快速識別漢字之間的語形異同。他依然擁有一本英文說明書,憑借這本說明書的指令,他可以處理不同漢語語詞和語句之間的邏輯關系。這樣,如果底層屜子的文本足夠多,他就可以根據說明書和不同算法構造新的文本或產生新的數據,并將其放置在高一層次的抽屜中。根據這種處理,他可以寫出新的漢語文章來。這些新的文章又可以作為輸入文本,放置于底層空置的屜子。像塞爾的漢字屋構想一樣,這里還有許多細節需要補充。但如果經典漢字屋里的塞爾能夠給出對外界問題的回答,那么,這種改進的漢字屋也同樣可以滿足外界提出的要求——如果他暫時滿足不了外界要求,他可以給出一個搪塞性的理由,就像目前許多聊天人工智能所做的那樣。總之,他可以做得像一個懂漢語的人那樣好,甚至更好。在上述整個過程中,塞爾依然是不理解漢語的。也就是說,漢字屋對強人工智能的反駁在原則上依然成立,ChatGPT的智能即使具有通用性,也不是真正的人的智能。
由于ChatGPT的深度學習功能,看上去能夠精確地實現“語義功能”,那么,它是否可以滿足我們提出的實誠性要求呢?讓我們設想一個陪伴式的人工智能。這個人工智能一開始同用戶相處的時候,只是完成用戶指令的任務,這些任務可能并不預測用戶基于個人風格的需求,甚至有時候還會做出一些讓用戶感到陌生的“行為”,即使這些行為從人類行為來看并不那么出格。當它同用戶相處一段時間之后,它可以根據自己的算法調整、選擇和強化自己的行為傾向以適應用戶的需求。可以設想,它的調適能力甚至可以比人類更快更有效。此時,該人工智能將顯著地形成自己的行動風格和穩定的“品質”。很顯然,這樣的人工智能已經滿足實誠性的外在要求。
然而,滿足實誠性外在要求的人工智能并不具備第一人稱意義上的實誠性,其穩定“品質”的形成并不是基于實踐的理解。人類形成穩定品質和人格實誠性的過程是一個基于深度漢字屋的過程。
在塞爾以簡潔明快的方式反對強人工智能之前,哲學家德雷弗斯已經喋喋不休了許多年并形成了系統的反對意見。1 總體上來說,德雷弗斯的意見來自現象學和存在主義。核心觀點是:人作為“在世存在”(Being-in-the-world),其意識的產生是高度語境性的,不可能以科學研究的方式去客觀理解。2 這種哲學的表述即使包含某些深刻的洞見,也顯得含混模糊,這大概是其論述多年仍然不被看好的原因。
深度漢字屋機制可以將語境性理解更清楚地表達出來。
在前述弗雷格語義三角中,意義和指稱的關系構成塞爾所強調的語義,具有心靈哲學的明晰性——誠然,塞爾更強調指稱的外部性,它基于一種語義外在論的觀點。語形通常指語詞符號,但包括更多的東西,如語言交流時的手勢(Gesture)——由此,我們可以將語形延伸到表情、語氣等更廣泛的東西。
這里要提出的問題是,德雷弗斯所強調的語境處于語義學三角的哪個部分呢?
讓我們考察這樣一個語句表達式:“我相信玫瑰花是紅色的。”在這個帶有命題態度的語句中,其中的命題內容是“玫瑰花是紅色的”,按照弗雷格的意思,它是語句的意義,而該語句的指稱是該命題對應的事態(或者就是命題本身構成的思想)。在這個句子里,“我相信”作為命題態度,通常構造了一種(相信)語境。這個語境顯然不是句子的意義(即命題內容),也不是句子的指稱,那么,在語義三角中,它就只能是句子語形成分了。事實上,當我們在日常交流中,通常不必說出“我相信”這幾個語詞,僅僅通過我們說出“玫瑰花是紅色的”的語氣和表情(屬于更廣泛的語形因素),會話者就能夠理解說話者對命題處于相信狀態。因此,語境屬于語形成分是符合語義三角的結構的。
要深刻而清晰地表述德雷弗斯的立場,還必須涉及意義與語形之間的關系。
塞爾反駁強人工智能的基本觀點是,人工智能只有語形而沒有語義,單純的語形不足以產生語義,因此,人工智能沒有理解能力。3 聯接主義者丘奇蘭德夫婦在回應塞爾反駁時指出,語形和語義的區分并不是絕對的,僅僅是一個經驗問題。4 雖然我也反對強人工智能,但我贊同丘奇蘭德關于語義和語形的相對性觀點。
那么,語形(包括語境因素)和語義是如何相互作用的呢?當我們初學語言時,我們將語形當作內容來學習,如發音的準確性和書寫的正確性,遣詞的合適性(語法例示),等等。但是,也如前述,當我們熟練之后,我們無須特別意識到或覺知到這些語形因素,它們像上手的工具一樣,處于不被明晰意識到的狀態;我們最初進行語言表達時的語氣、表情、手勢,莫不如此。按照存在主義的觀點,這些狀態在我們意識產生之前就已經作為世界的組成部分作用于我們的生存狀況。在日常交流中,大部分語言成分在我們明晰地意識到它的時候,它是語言的語義性成分,而在我們沒有明晰意識到其內容時,它們是作為語境因素存在的(所謂字里行間或話外之意)。這就是語形和語義的相對性。
這里描述的語境理解過程,像我們的語形理解一樣,是一種深度理解活動。更為重要的是,這種理解活動的形成,即語言的熟練化,始終伴隨著身體的因果力作用。語言學習塑造了我們大腦的神經系統,甚至是我們身體的肌肉系統;反過來,身體因果力也在塑造我們的語言學習活動。語形同語義之相對化的本質就是心靈同身體的相互作用。這個論證和結論將塞爾關于大腦因果力的觀點清晰化了:大腦的因果力塑造的是廣義的(或深厚的)語形能力——這是一種深厚語形(Deep-thick syntax)的觀點。關于人類智能中的語形習得能力,筆者還將在其他地方更詳細地作出探討。
回到人工智能,當前人工智能基于四個假設,其中的生物學假定和心理學假定主張:在生物學上,大腦和心靈分別類比計算機硬件和軟件;在心理學上的心靈活動基于離散符號或表征,是以算法規則運行的離散計算。1 如果將生物學類比運用到人類智能的形成過程中,那么,前面描述的心靈和身體的相互作用在人工智能中應該體現為軟件和硬件的相互作用,即軟件可以而且應當參與硬件的塑造,反之亦然。然而,即使是在基于深度學習的人工智能中,也存在著神經網絡的生成過程,這種生成只是在軟件內部完成的過程。在任何意義上,計算機的硬件并不參與軟件的塑造,更為重要的是,計算機的軟件也不參與硬件的重塑。
人類人格實誠性的形成是一種廣義的語形理解能力獲得過程,如果現存人工智能并不具備任何語形理解能力,那么,它們所模擬的實誠性也不會是真正的人格實誠性。由此,我們的終極結論是,即使是像ChatGPT這樣令人驚艷的人工智能,它也不是真正的人的智能,它僅僅代表的是弱人工智能的又一個高峰。
The Problem of Personality Integrity of Artificial Intelligence
YAN Qingshan
Abstract: The Turing Test has long overlooked the issue that the tester’s judgment of “indistinguishability” between machines and humans relies on intuition, which inevitably introduces subjectivity. Analysis of Turing’s later empirical criteria suggests that the tester’s intuitions should incorporate the presupposition that “humans possess genuine personality integrity”. It is interesting to note that the basis of this presupposition is also reflected in a more refined version of Searle’s Chinese Room Argument. Meanwhile, the presupposition of personality integrity aligns with Dreyfus’ argument, which emphasizes that a person should have deep morphological comprehension. Thus, even if AI like ChatGPT, which is based on deep learning, can simulate genuine personality integrity, it does not possess true human intelligence and therefore does not signify a new stage in AI development
Key words: ChatGPT; the Turing Test; the problem of personality integrity; Chinese Room Argument; morphological comprehension
(責任編輯:蘇建軍)
基金項目:國家社科基金一般項目“哲學人類學核心主題的分析性論證”(23BZX119)
作者簡介:顏青山,華東師范大學哲學系教授,博士生導師(上海 200241)。
1 A. Turing, “Computing Machine and Intelligence”, Mind, 1950, 59(236) : 433-460.
1 R. M. French, “The Turing Test: The First Fifty Years”, Trends in Cognitive Science, 2000, 4(3): 115-121.
2 B. M. Lake, R. Salakhutdinov, J. B. Tenenbaum, “Human-level Concept Learning through Probabilistic Program Induction”, Science, 2015, 350(6266): 1332-1338.
3 圖靈:《計算機器與思維》,載博登編:《人工智能哲學》,劉西瑞、王漢琦譯,上海譯文出版社2001年版,第56頁。
4 O. Graham, D. Dowe, “The Turing Test”, Stanford Encyclopedia of Philosophy, 2003(Apr 9)/2021(Oct 4), Sec. 4.3-4.4.
5 圖靈:《計算機器與思維》,載博登編:《人工智能哲學》,第68頁。
1 德里克·帕菲特:《理與人》,王新生譯,上海譯文出版社2005年版。
1 J. R. Searle, “Minds, Brain and Programs”, Behavioral and Brain Science, 1986, 3(3):417-457.
2 顏青山:《深度漢字屋與通用人工智能的兩難》,《上海師范大學學報(哲學社會科學版)》2018年5期。
1 顏青山:《論言語德性》,《社會科學》2015年10期。
1 H. Dreyfus, What Computer Can’t Do: a critique to artificial reason. New York: Haper amp; Row Publisher, 1972.
2 顏青山:《分析哲學與現象學融合的三條路徑》,《云夢學刊》2018年5期。
3 王佳:《對塞爾“中文屋”兩種論證形式的考察》,《科學技術哲學研究》2010年5期。
4 P. M. Churchland, P. S. Churchland, “Could A Machine Think?”, Scientific American, 1990, 262(4):34.
1 顏青山:《對待人工智能的選言命令式:“機心難題”及其規范性解決》,《社會科學》2018年12期。