框架問題、文學創作與DeepSeek等大語言模型

2025-04-12 00:00:00徐英瑾

上海師范大學學報(哲學社會科學版) 2025年2期

摘 " 要：在符號人工智能時代提出的“框架問題”，可以表述為：如何讓一個計算系統以可控的成本，在常識推理中區分出哪些信念與當下推理相關，哪些又不相關，并在此基礎上以合理的方式將相關信念并入當下的推理進程。盡管今天基于深度學習的大語言模型進路貌似在所占據的算力資源上遠多于符號AI時代，卻很難說這一進路已經真正解決“框架問題”。具體而言，考察幾款主流大語言模型（包括“文心一言”、DeepSeek與ChatGPT-4）的小說續寫能力，發現它們都很難在設置反轉性劇情的同時維護常識推理所應該具有的“各向同性”與“奎因性”要求。換言之，若用日本哲學家九鬼周造的“偶然性哲學”所提供的哲學話術來說，主流大語言模型在追求新奇情節的同時都忽略了其與基于常識的“可能性之球”之間的關聯。從這個角度看，讓主流大語言模型全面取代人類作家的創作活動的時機，還遠未成熟。考慮到大語言模型在這一問題上顯示出的無能乃是與大語言模型基于“詞向量嵌入矩陣”的基本工作原理相關的，因此，在不對這一基本原理進行挑戰的情況下，業界是無法僅僅通過提高數據與算力的投入來使得未來的大語言模型能夠解決“框架問題”的。

關鍵詞：框架問題；偶然性；文學創作；大語言模型；各向同性；奎因性；詞向量嵌入矩陣

中圖分類號：TP18/I043 " 文獻標識碼：A 文章編號：1004-8634（2025）02-0016-（14）

DOI：10.13852/J.CNKI.JSHNU.2025.02.002

一、導論

“框架問題”（the frame problem）是一個曾在人工智能哲學（以及與之緊密相關的認知科學哲學）領域得到廣泛討論，但近年來似乎有所沉寂的問題。這個問題最初是針對符號進路的人工智能而提出的。由于采用此進路的AI系統高度依賴基于數理邏輯的語言編程，而數理邏輯本身對語義的豐富性不太敏感，因此，在符號AI進路的技術背景下，如何刻畫那些依賴豐富語義進行的“常識推理”成了一個棘手的問題。例如，常識告訴我們，某人在超市購買一瓶礦泉水并不會影響中東局勢的緊張程度，因為“買水喝”與“中東局勢”是兩個不相關的事件。然而，由于“相關性”是一種微妙的語義關系，難以被數理邏輯語言準確刻畫，所以符號AI進路的支持者只能預先在系統內設置大量的“框架公理”，即明確告訴系統哪些命題與哪些命題是不相關的。但這種方法既難以周全又消耗大量計算資源，且無法適應新形勢的變化（某些新變化可能使原本不相關的事件變得相關，或反之），因此，這樣的舉措仍然無法完美解決“框架問題”。1

那么，為何近年來學界對“框架問題”的討論變得不那么熱烈了呢？這在很大程度上與大語言模型（以下簡稱LLM）的興起有關。如前所述，原始意義上的“框架問題”是針對符號AI進路的，而LLM進路則是與符號AI進路截然不同的“數據驅動的AI”的典型技術代表。二者之間的差異體現在：（甲）原本制約符號AI進路的算力問題，在LLM研究中，由于動輒投入上億美元并消耗上萬塊高性能顯卡，已經變得不那么突出；（乙）LLM進路普遍采用了“詞向量嵌入矩陣”技術來表征詞與詞之間的語義親疏關系，這一親疏關系是對大量人類語言行為進行統計學平均的產物，因此，研究者可以借助對人類言語行為的統計，更妥善地處理那些原本難以把握的常識推理問題。

不過，本文試圖指出，LLM進路對于“框架問題”的解決并不徹底。不可否認，由于LLM進路是基于對大量人類言語行為的統計學處理，因此，在相關訓練數據豐富的推理語境中，其輸出表現的確比較符合人類直覺。然而，在相關訓練數據不足的情況下，其輸出質量就大打折扣了。為了論證這一點，本文將設置一項特定的挑戰來考察三種目前比較知名的LLM（“文心一言”、DeepSeek與ChatGPT-4）的表現。這類挑戰涉及LLM在虛構語境（如小說、戲劇所提供的語境）中的故事線索構造能力和常識推理能力。本文認為，雖然這些LLM在應對這一挑戰時表現各異，但沒有一個達到了“能讓人類用戶看不出推理破綻”的水平。相反，在處理此類問題時，這些LLM都不同程度地掉入了“機器幻覺”的陷阱。這一點足以證明，目前的LLM尚不具備徹底解決“框架問題”的能力。

至于為何LLM在小說、戲劇的虛構語境中展現出來的故事線索構造能力與常識推理能力與前文所討論的“框架問題”有關，這正是下一部分所要探討的問題。

二、小說或戲劇創作中的“框架問題”

讓我們暫且擱置對于LLM技術背景的討論，而去探討一個更為基本的哲學問題：為何連廣義上的小說、戲劇創作也會涉及“框架問題”？

要回答這個問題，我們就需要在一個摒棄AI話術的前提下去審視“框架問題”的知識論本質。從知識論角度看，“框架問題”所涉及的，就是一個信念系統中的諸信念之間的動態分布問題。現在，筆者用“游戲棒”游戲作比方，來更形象地說明這一點。假設每根游戲棒代表一個信念，而一堆交疊在一起的游戲棒則構成了一個信念體系。根據比賽規則，參賽者必須輪流任意取走被交疊的游戲棒中的一根，而盡量不導致整個交疊體的坍塌。因此，任何一個贏家都需要保證在不影響交疊體整體結構的情況下，盡量多地移走游戲棒。

上述游戲之所以能與“框架問題”相互類比，是因為二者的特征都能通過下面兩個關鍵詞刻畫：（甲）“各向同性”（isotropy）；（乙）“奎因性”（Quinean）。2 “各向同性”本是物理學術語，指的是某一物體在不同的方向所測得的性能數值完全相同。在游戲棒的案例中，這指的就是：任何一根游戲棒的變化，都會對游戲棒交疊體中的其他游戲棒產生可能的擾動（無論這擾動有多小）。在知識論中，這指的是一個核心信念與信念體系內的所有其他信念的可能相關性——譬如，某人的死亡似乎與昆蟲學知識無關，但機敏的法醫卻能通過其遺體內蟲卵的種類推斷出第一案發現場的地理環境。至于“奎因性”這個詞，顯然是在向美國哲學家奎因（W.V.Quine）提出的認知保守主義知識論立場致敬。1 根據這種立場，人類的既有知識體即使遭遇個別反面證據的挑戰，也會在適應新證據的過程中盡量減少對既有信念框架的修正量——正如老練的游戲棒玩家能在抽走少量的游戲棒時，盡量減少對其他游戲棒的擾動。而“框架問題”之所以能夠成為一個問題，也便是因為“各向同性”與“奎因性”對一個計算系統產生了很高的計算要求：二者都要求系統對自己的信念體系中任意兩個成員之間的語義或因果關系進行預先計算（這就好比說，在玩游戲棒時，玩家要預先計算交疊體中任何兩根游戲棒之間的靜力學/動力學關系）。順便說一句，在知識論學界經常被討論的“認知封閉原則”（Epistemic Closure Principle），其實是對于“框架問題”所提出的知識約束的一種更簡約的表達——其實，倘若該原則不那么拘泥于信念之間的邏輯關系，也本該成為解決“框架問題”的一條思路。該原則說的是：若認知主體知道p（如“一頭野豬沖進了村子”），并且p的真實性蘊含了q（如“一頭野獸沖進了村子”）的真實性，那么，該主體也就知道了q。很明顯，根據該原則，如果r（如“今天村子里的男人都出去打工了”）的真實性并沒有被p所蘊含，那么，即使主體知道p發生了，他也無法確定r發生了。也就是說，如果主體沒有獲得關于p與r之間的正面邏輯關聯的知識，他應當自動將r排除出任何與p直接相關的操作所波及的“相關項”范圍（并由此減少心智機器的損耗），正如老練的游戲棒玩家可以一眼看出哪些游戲棒的位置不會被當下的操作所影響一樣。不過，在知識論研究的象牙塔里琢磨“認知封閉原則”問題，往往只會討論信念之間那種純粹的邏輯關聯，而不會討論涉及大量經驗內容的因果關聯與語義關聯，盡管此類關聯在真實的知識歸賦活動中往往會起到更為關鍵的作用。而傳統的符號AI進路之所以在處理“框架問題”時表現不佳，部分原因也就是信念之間的因果關聯與語義關聯是無法被還原為純粹的邏輯關聯的。因此，“認知封閉原則”對解決“框架問題”所能起到的作用是有限的。

有了前面的討論做基礎，我們再來看小說、戲劇的創作。由于“戲劇”與“小說”都是包容性很強的文藝體裁，為了使我們的討論與“框架問題”所涉及的常識推理問題緊密相關，本文將焦點放在現實題材的小說或戲劇創作上，而不去涉及明顯包含反常識內容的魔幻題材的小說或戲劇（不過，請不要將這一限制誤解為本文只對“現實主義”風格的文藝作品感興趣，因為現實題材的文藝作品同樣可以融入浪漫主義風格，這一點后文將詳細闡述）。具體而言，現實題材的小說或戲劇創作大量依賴常識，因此相關創作活動與“框架問題”產生了如下關聯：創作者必須如同游戲棒游戲的玩家，在努力確保常識不被顛覆的前提下設置故事線索。而關于“設置故事線索”的準確知識論表述可以是：對受眾普遍接受的常識整體輸入一個“起始信念”（即故事的開頭），然后在盡量不打破常識整體的前提下，推導出一個“后續信念”（即故事的某個發展階段），接著，通過不斷提供大量的“后續信念”，最終構建出一條完整的故事線索（在此過程中，常識信念的整體性始終得到維護）。換言之，從知識論角度看，現實主義題材的文藝創作會涉及極為復雜且層層嵌套的“框架問題”，即如何以一種心智能夠勝任的方式，合理地設置故事線索。

那么，這是否意味著文藝創作領域的“框架問題”就是知識論領域“框架問題”的簡單翻版呢？當然也不盡然。因為，一部僅僅原生態記錄生活的“文藝作品”，如果缺乏創作者的巧妙構思，也會變得索然無味——盡管這樣的“作品”在知識論層面并未挑戰受眾的常識。但這里的“巧妙構思”又是指什么呢？我們還是來看看亞里士多德在《詩學》（1449a 10–15）中是如何定義“悲劇”（即最典型的戲劇形式）的吧：

悲劇是對于下述行動的模仿（mimēsis）：該行動是嚴肅的，同時又有自己的長度，而且是自身完整的。至于與這種模仿相關的語言，也得到了打磨以取悅觀眾，而與這種打磨相關的各種配套措施也是各司其職。此外，這種模仿采用的形式乃是戲劇式的，而非敘述式的。也就是說，這種模仿會包含一些偶然事件，以便引發觀眾的同情與驚恐——也唯有如此，觀眾的情緒才能得到凈化（catharsis）。1

假如亞里士多德能學會今天的知識論術語，他也會承認戲劇創作必須受到“框架問題”的制約——也就是說，既然戲劇必須“模仿”生活，戲劇的內容就必須與生活有高度的相似性，并因這種相似性而不能過于違背常識（順便說一句，也正是因為這一點，亞里士多德本人比較看重的悲劇便是《俄狄浦斯王》這樣的現實題材的悲劇，而不是像《被縛的普羅米修斯》這樣明顯涉及非自然力的悲劇）。不過，他也特別提到了悲劇之為悲劇的其他重要特征，比如包含足以引發諸如同情或驚恐等情緒反應的偶然性事件。這里所說的偶然性事件，可以被視為對常識信念體系的某種特殊輸入，或者也可類比于游戲棒玩家某種不按常規出牌的“抽離游戲棒”的動作（譬如，如何從游戲棒交疊體的核心處抽離一根游戲棒，同時又保證交疊體的其余部分不垮塌）。換言之，戲劇創作之難，就在于如何既設置特定的偶然性事件以引發受眾的興趣，同時又保證由此產生的故事線索不會一直對常識信念體系的穩固性造成威脅。與之相比，一般意義上的常識推理是不包含對“偶然性”的這種追求的（在這里我們必須排除“蓋提爾案例”2 所涉及的那種在知識歸賦活動中出現的偶然性，因為這種偶然性一方面已經初步具備了文藝創作所具有的戲劇性，同時也不是大多數人會在日常生活中經常遇到的）。

對于上述基于“偶然性”概念的戲劇創作理念，有兩種更為深入的刻畫方式：來自概率論的刻畫，以及來自九鬼周造的“偶然性哲學”的刻畫。先來看第一種刻畫。以亞里士多德本人所看重的《俄狄浦斯王》的劇情為例，我們知道，包含了大量帶給觀眾驚奇的偶然性事件，其中之一便是：被科林斯國王波呂玻斯（Polybus）和王后墨洛珀（Merope）親手養大的青年俄狄浦斯，竟然不是這對夫妻的親生子，而是養子。對于這種偶然性的量化表征，可以通過貝葉斯公式來表達。令“P（恩）”代表“波呂玻斯和墨洛珀對俄狄浦斯恩深義重的先驗概率”，“P（養）”代表“俄狄浦斯是波呂玻斯和墨洛珀養子的先驗概率”，“P（恩|養）”代表“倘若俄狄浦斯是波呂玻斯和墨洛珀的養子，那么二人對俄狄浦斯恩深義重的后驗概率”，“P（養|恩）”代表“倘若波呂玻斯和墨洛珀對俄狄浦斯恩深義重，那么俄狄浦斯是二人養子的后驗概率”，則有如下等式：

上述等式左邊的值當然取決于右邊。盡管右邊有兩個概率值暫時難以確定，但至少可以確定的是：在等式右邊分子中的P（恩|養）的值的確很小。這一點取決于父權制運作狀況的常識：在被撫養人是非親生子的情況下，視其若己出的概率確實不高——不過，這個值依然不是零。僅憑這一點，我們就可以推斷出：P（事件甲），即俄狄浦斯是養子且被視若己出這一組合事件的成真概率值也會較小。由此，表征P（事件甲）的信念最終竟然成真，才具有明顯的偶然性。由此看來，只有通過將目標信念與常識信念體系的背景做比對，觀眾才能判斷出在戲劇中出現的哪些信念是偶然的。這里需要注意的是，此類判斷依然需要相關信念具有最低限度的成真概率，否則，其概率值就會因被歸于“0”而使得戲劇失去了與真實生活的聯系點，并由此使得戲劇無法像亞里士多德所期望的那樣，成為對生活中人類真實行動的模仿。

顯然，上文提到的使“偶然性”成為“偶然性”的核心條件——“成真概率既要低，又不能歸于零”——是一個非常苛刻的條件。這一苛刻性在日本哲學家九鬼周造的博士論文《偶然性的問題》中得到了更為生動的圖示（圖1）：3

對于圖1的文字解釋如下：“可能性”彼此重重包裹，構成了一個“大球”，而這個球的核心就是“必然性”。舉例來說，俄狄浦斯有可能離開科林斯，也有可能不離開——這些可能性雖然各不相同，但都在“俄狄浦斯是一個人”這一點上找到了共同的基礎。因此，“俄狄浦斯是一個人”這一點也就具有了支撐上述可能性的必然性，從而必然處于“球心”的位置。此外，這個大球還要與代表“不可能性”的“地面”發生接觸（這些“不可能性”包括：俄狄浦斯突然莫名其妙地變成了一只甲蟲，等等）。而且，也正因為代表“必然性”的球心與地面距離最遠，所以那些必然發生的事情也就是最不可能不發生的事情（比如，“俄狄浦斯是一個人”這一事實就是最不可能被否定的）。然而，世界上畢竟有些事情是處于“球面”與“地面”交界處的：這些事情并非完全不可能發生，但又似乎是不太可能發生的。譬如，在波呂玻斯和墨洛珀將俄狄浦斯當成親兒子來養的前提下，他們竟然只是這孩子的養父母這一事實。九鬼周造本人恰恰將這些處于“球面”與“地面”交界處的偶然性事件視為滋養藝術創作的第一源泉。他在綜合了小說家中河與一（1897—1994）的文論后給出了這樣的評論：“藝術同偶然性所擁有的內在關系有兩點：第一，藝術本身的構造特征是偶然的，第二，藝術喜好將偶然的事物作為對象內容……”他甚至認為，浪漫主義的創作風格與現實主義的創作風格，在“偶然性”中都有著相同的根源：“如果我們強調不可思議這一面（即球面與地面的切點歸屬于地面這一點——引者注），它就成了浪漫主義，如果我們強調真實這一面（即球面與地面的切點歸屬于球體這一點——引者注），它就成了現實主義。”1

上文的討論，為我們評測LLM的故事線索構造能力提供了預先的哲學評判。很顯然，從概率論的角度看，偶然性事件就是那些發生概率雖低但又不完全是零的事件。而既然對偶然性的把握又是藝術創作中的核心任務，那么對LLM的故事線索構造能力的考察，也必須聚焦于其對偶然性事件的構造能力。需要指出的是，由于目前世界上各主流LLM自身的算力消耗參數是相對不透明的（雖然有相關的技術報告，但很難對其真實性進行第三方驗證），因此，我們就不能像傳統的“框架問題”研究者那樣，致力于研究“如何讓一個計算系統在算力可以支撐的前提下規避框架問題”。相反，我們只能在懸置算力問題的前提下，去檢查相關的系統是否能夠在構造偶然性事件的過程中做到“既尊重常識又不自相矛盾”。而倘若即使在這種情況下，“既尊重常識又不自相矛盾”這一要求也無法被滿足，那么這就能反過來證明：即使是算力遠多于符號AI進路的主流LLM，其實也無法解決“框架問題”。

要對上述猜測進行驗證，我們自然首先就要搞清楚LLM的運作機理是什么。這也便是下部分的任務。

三、大語言模型運作的底層邏輯與來自詩歌續寫任務的考驗

必須實事求是地承認，目前主流的LLM架構的確能很好地應對那種最低層次的“框架問題”。換言之，一些孩童就能發現的信念之間的不相關性——如“買礦泉水”與“中東局勢變化”之間的不相關性——也能迅速被主流的LLM所把握到（見表1）。不過，需要注意的是，與別的LLM相比，ChatGPT-4還額外討論了大量購買礦泉水的行為與中東局勢之間的潛在關聯。然而，這并不意味著這些LLM能夠應對“如何在創造戲劇性情節的同時保持常識感”這一更復雜的任務（詳后）。

這里的問題是：為何LLM能較為輕松地應對這種最簡單的“框架問題”？這一點與LLM的大致運作機理緊密相關。非常粗略地說，LLM的工作原理本質上是對在網絡上留痕的人類言語行為進行統計學平均。因此，只要一般人都認定“買礦泉水”與“中東局勢惡化”無關，LLM也會得出相同的結論。至于LLM吸取人類行為特征的主要方式，則主要是“詞向量嵌入矩陣”（word embedding matrix）機制。這一機制的大致工作方式如下：通過系統的復雜訓練過程（該過程本身依賴于反映人類一般言語行為的大量語料輸入），任何一個詞元（token）都會在這個矩陣中獲得一個數值化的表示，即“詞向量”。詞向量通常由一個具有固定長度的數字列表構成，如［0.2，-0.5，0.7，…］。據此，我們可以輕松地將一個詞向量表示為多維空間中的一個點，并據此計算任何兩個詞元之間的空間距離。而任何兩個詞之間的語義親疏程度，也可以通過它們在詞向量空間中的距離來表征。當一段新文本輸入系統后，任何一個被掃描到的詞元都會激活系統預存的詞向量信息，同時系統會預測該詞元之后可能出現的新詞元。需要注意的是，一般而言，系統不會在相關預測活動中認為一個與已被給定的詞元“相距遙遠”的詞元會緊接其后。因此，只要系統判定與“礦泉水”相關的詞元遠離與“中東局勢”相關的詞元，系統就不會在處理與前者有關的信息時自動關聯到后者。在用戶主動詢問這兩類信息之間是否有關聯時，系統也會給出否定的回答。

然而，若我們要求進行文藝創作中的常識推理，情況就截然不同了。前文已指出，從九鬼周造的“偶然性”哲學的角度看，文藝創作的一個顯著特征就是追求偶然性，并由此向統計學平均所造成的庸常性發起挑戰。但就目前LLM的運作機制而言，LLM至多只能做到以下兩點：（甲）通過“多頭注意力機制”（multi-head attention mechanism）被動地追隨用戶輸入的文本所展現出來的偶然性（該機制使LLM能夠在一定范圍內應對用戶提出的各種問題）；（乙）通過某種“隨機機制”機械地制造“偶然性”（這使得LLM在面對同一個提問時能夠隨機給出不同的應答，以營造出具有“創造性”的假象——但這些看似不同的答案的關鍵詞仍然是在語義空間中彼此相鄰的）。然而，與文藝工作者主動探索“偶然性”時所表現出的審慎態度相比，LLM缺乏在既“尊重常識”卻又“劍走偏鋒”的狹窄空間中摸索新路的分寸感。換言之，它們要么過于“劍走偏鋒”而陷入“機器幻覺”，要么過于執著于重復陳詞濫調而陷入平庸。

為了初步展示LLM的這種局限性，下面筆者將以“續寫詩歌”為考題，測驗幾種主流LLM的應對能力。與一般的“命題寫詩”任務不同，“續寫詩歌”的任務要求任務接受者充分把握被續寫詩歌的形式特征、詞匯特點、所反映的時代背景（包括相關的歷史事實）以及所傳達的情緒價值，并在此基礎上進行創新。因此，從亞里士多德的《詩學》角度看，續寫的詩歌必須尊重既有的“現實”并模仿之，以使續寫部分與被續寫部分的銜接盡可能自然。用一個雖然有些被濫用但依舊貼切的比喻來說，這就是讓續寫者“戴著鐐銬跳舞”。但需要注意的是，“戴著鐐銬”這一比喻本身就充滿歧義，因為此“鐐銬”與彼“鐐銬”是不同的。對LLM來說，它所熟悉的“鐐銬”來自詞向量嵌入矩陣，而該矩陣本身是對大量語料進行平均化處理后的產物。相比之下，特定的詩歌續寫任務所涉及的可能是特定歷史時期的詩歌特點，而相關語料在網絡上的留痕未必豐富。這意味著習慣于詞向量矩陣這一“鐐銬”束縛的LLM，未必能夠適應“特定時期的詩風”這一新的“鐐銬”的約束，從而導致續寫任務的失敗。

筆者向LLM給出的具體詩歌續寫任務，乃是續寫漢代的軍旅詩歌《上之回》。全詩現存面貌如下：

上之回

［漢］佚名

上之回，所中益，夏將至，行將北，以承甘泉宮，寒暑德。

游石關，望諸國，月支臣，匈奴服。

令從百官疾驅馳，千秋萬歲樂無極。

此詩源自《漢樂府》中的“鐃歌”，乃當時的軍旅歌曲，生動描繪了漢武帝出巡回宮時的宏大場景。以現代漢語的標準審視，漢代詩賦中的冷僻詞匯相較于唐詩明顯更多，且詩風更為簡樸大氣，格律上也更為自由。然而，由于此類古詩在互聯網上的存量明顯不及唐詩（或其模擬作品），因此，基于海量語料訓練的LLM在續寫《上之回》時，通常會采用以下兩個策略：（甲）在措辭上依然沿用類似唐詩風格的用詞，盡管這可能與漢代詩風有所偏離；（乙）在內容上盡量重復與被續寫文本相似的內容，這一點很可能是通過替換與被續寫文本中的詞元在“詞向量”空間上接近的新詞元來實現的。換言之，從純技術的角度來看，LLM的詩歌續寫過程，實質上只是將一些其不常使用的詞元替換為自身更為熟悉（盡管其詞向量值仍與前者相近）的詞元。因此，所完成的續作缺乏靈氣，也就不足為奇了（如表2所示）。不過，也需留意的是，在三種被測試的LLM中，ChatGPT-4在以下兩個方面表現略勝一籌：第一，詞匯使用相對更為豐富多樣，如用到了“宸”這樣較為冷僻的字眼；第二，在其續寫的內容中添加了原始文本中未提及的少量新元素（即“燕然勒功”一事，盡管這一添加有些畫蛇添足，具體將在后文詳述）。

與之構成鮮明對比的則是人類的詩作。譬如，明代的詩人徐庸也仿照樂府詩的體例重寫了《上之回》。雖然詩作的思想境界比較平庸，但畢竟用詞奇巧，意象密集且與原詩不太重復，由此展現了一位職業詩人的基本素質。

上之回

［明］徐庸

上之回，巡堯封。萬靈隨，群官從。

霓旌舞雙鳳，鑾駕紆六龍。

祥風衛先后，瑞日開曈昽。

愿效華嵩祝，千齡居九重。

當然，徐庸之詩阿諛之氣過重，且缺乏漢代軍旅詩歌所特有的豪邁氣概，因此并非對原版《上之回》的最佳續寫。筆者心目中的理想續寫方案，應當參考漢代（或與漢代相近的三國時期）的軍旅詩歌（現今多收錄于郭茂倩編纂的《樂府詩集·鼓吹曲辭·鐃歌十八曲》中），并在此基礎上博采眾長。以曹魏詩人繆襲的作品《獲呂布》為例，該詩不僅篇幅短小而且內容精煉，用詞在現代漢語看來頗為生僻，而且較為準確地記述了曹操于公元199年在下邳擊敗并擒獲軍閥呂布的歷史事件，從而使得該詩兼具美學價值與史料價值。尤其是詩末的“囊括天下，運掌中”一句，氣勢磅礴，極易令人聯想到曹操在《短歌行》中的名句“周公吐哺，天下歸心”，但相比之下，此句更顯霸氣。這充分說明，詩人繆襲不僅能深刻領會其文化雇主曹操的詩風，還能基于審慎的政治考量，在自己的詩歌中適度提升對曹操的頌揚之聲（因為從儒家倫理的角度看，若由曹操本人親自如此頌揚自己，則可能顯得不夠謙遜）。與之相比，表2所展示的各LLM對《上之回》的續寫作品，在文學水平上與繆襲的詩作相比，可謂“不可以道里計”。

獲呂布

［魏］繆襲

獲呂布，戮陳宮。

芟夷鯨鯢，驅騁群雄。

囊括天下，運掌中。

那么，如果我們想要升級當前的LLM技術，使其能夠模擬繆襲的詩歌創造力，這是否可行呢？在筆者看來，只要LLM的基本工作原理不發生改變，這種升級仍然是非常困難的。為了闡明這一點，讓我們再次回到前面提到的“框架問題”。我們知道，解決該問題的恰當方法，是要求信息處理者在尊重常識的基礎上，準確描述某個舊狀態如何轉變為一個新狀態。在詩歌創作中，尤其是篇幅受限的情況下，“框架問題”會轉變為：如何抽取恰當的事實，使舊狀態（即被續寫詩歌的未完成狀態）轉變為新狀態（即詩歌已被續寫的狀態），同時確保：（甲）被續寫的文本中包含的事實性描述是準確的；（乙）被續寫的文本所包含的事實與原文所涉及的事實具有意義上的關聯；（丙）被續寫的文本中包含的事實性描述與原文本中的事實性描述并列時，不違背基本邏輯或自然規律；（丁）被續寫的文本所包含的事實是原文未提及的新事實。顯然，要求（甲）至（丙）強調的是新文本對原文本的傳承，而要求（丁）則強調新文本對原文本的偏離。這種既要傳承又要偏離的復合要求，正是九鬼周造所描述的“偶然性”追求的體現（即：既要避免“不可能性”，又要在現實中尋找最不可能的那個“反叛點”）。在漢代歷史事實的網絡易取語料相對稀缺（而其他朝代的語料相對豐富）的情況下，LLM為了滿足要求（甲）至（丙），最簡單的方法就是通過“替換近似向量的詞元”，在續寫的詩作中重復原文本已提及的事實，從而犧牲對要求（丁）的滿足。這很容易導致續作的高度平庸化，進而回避了“框架問題”提出的關鍵需求——“如何刻畫狀態的變化？”

讀到這里，或許有人會問：如何迫使LLM尊重提出“框架問題”的這些前提呢？筆者的回答是：不要讓LLM繼續續寫詩歌，而是讓其續寫小說或戲劇等天然要求更多敘述內容的文學文本。換句話說，小說和戲劇對情節發展的高度重視，將迫使系統實質性地改變故事中人物的行動狀態，從而使“重述原作”等小技巧失去用武之地。如果主流的LLM能在這樣的約束下解決“框架問題”，那么它們也應該能在設置具有偶然性特色的新情節的同時，盡量不違背常識。然而，接下來的測試將立即表明，主流的LLM仍然無法滿足我們在這方面的期望。換句話說，在優先滿足條件（丁）的情況下，LLM可能會違反條件（甲）至（丙）中的某一條——即，它們很難在“創新”的要求下滿足針對信念修正的“奎因式”約束。1

四、小說架構續寫測試

本部分之所以將針對LLM的“詩歌續寫測試”升級為“小說架構續寫測試”，首先當然是因為小說自身的敘述性較強，由此也強化了來自條件（甲）至（丙）的約束，這些約束變得較為嚴格（而為了進一步凸顯這些約束的重要性，我們的測試將特別強調續寫的內容必須符合小說題材所涉及的歷史背景）。不過，由于廣義的小說創作依然需要體現亞里士多德與九鬼周造對于“偶然性”的強調，因此，對于條件（甲）至（丙）的滿足不能以犧牲條件（丁）為代價。這意味著LLM必須戴著由條件（甲）至（丙）所構成的鐐銬，舞出“偶然性”之姿。

鑒于“偶然性”這一概念的寬泛性，為了向被測試的LLM提供更為明確的提示，我們還需要根據戲劇與小說創作的特點，聚焦于一種特殊的“偶然性”：“俄狄浦斯式的巧合”，即主人公越想回避某種后果，其規避行為反而進一步推動了該后果的發生（例如，在歐里庇得斯的《俄狄浦斯王》的原始故事架構中，主人公越想反抗德爾斐神諭對其“必將殺父娶母”的預言，其行為反而更促使了預言的實現）。俄狄浦斯式的巧合一方面體現了“命運”的必然性，但也在一定程度上彰顯了偶然性的力量。因為按照常理推斷，俄狄浦斯為了逃避神諭而前往新邦，卻在不知情的情況下恰好殺父娶母（且雙方身份原本不為當事人所知）的概率極低。如此低概率的事件竟然發生，這一點正好印證了九鬼周造對于“偶然性”的幾何學隱喻刻畫：“可能性之球”在滾過“不可能性之大地”時留下的切點，即為“偶然性”。但需要明確的是，即便是在深受希臘神話思想影響的歐里庇得斯筆下，俄狄浦斯之所以會踏上這一九鬼式的“偶然性切點”，也并非受到任何超自然力的作用，而是純粹由于物理世界中的巧合。這表明，歐里庇得斯的確是帶著由條件（甲）至（丙）所構成的鐐銬，在《俄狄浦斯王》的天地中舞出了“偶然性”之姿。那么，目前主流的LLM在故事構造力上，是否能望其項背呢？

考慮到主流的LLM已通過大量語料訓練儲存了關于眾多經典小說或戲劇架構的信息，因此，我們的續寫任務所涉及的小說或戲劇不能是如《俄狄浦斯王》般已在網絡上廣泛流傳的作品。我所選擇的續寫材料，來自我自己撰寫的歷史小說《堅——三國前傳之孫堅匡漢》的第四部《疫戰》。1根據我的調研，通讀過這部百萬字小說的讀者數量很少，目前與這部小說故事架構相關的真實網絡信息也非常有限。此外，由于這部小說涉及的東漢末年重要史實均來源于《三國志》《后漢書》等真實史料，且寫作嚴格遵循“大事不虛、小事不拘”這一歷史小說寫作的通用原則，因此，對于這部小說內容的續寫任務也必須嚴格遵循條件（甲）至（丙）的約束。至于需要被續寫的情節梗概，則大致如下（對應《疫戰》前四分之一的內容）：

184年黃巾起義爆發后，漢軍與黃巾軍在南陽宛城鏖戰。漢末疫情流行，漢軍營地也不可避免地發生了疫情。擅長外科手術的隨軍醫生華佗在應對疫情方面本領有限，而更擅長內科的張仲景大夫則不在軍中，因此，此刻的漢軍面臨重大生存危機。華佗發現離開漢軍營帳不遠的黃巾軍營帳內，黃巾軍依然充滿活力，反推出黃巾軍該有應對疫情的辦法。于是他向漢軍主帥朱儁提議，讓他進入黃巾軍大營索要藥方，而他本人則會為黃巾軍將士提供外科手術服務作為交換。朱儁擔心黃巾軍會不守信用最后不給藥方，但隨軍的高級軍官曹操則認為華佗可以試一試。華佗最后的確進了黃巾軍的營帳……

我在向幾個主流LLM提出故事續寫任務時，都特別強調不能違背已知的歷史事實（例如，在公元184年年末，第一波黃巾起義確實被鎮壓了，宛城也最終落入了官軍之手）。然而，盡管有這些歷史約束，相關情節仍然需要體現出“俄狄浦斯式的悲劇反轉”，但絕不能簡單照搬《俄狄浦斯王》故事的結構框架。關于這些測試結果的簡報見表3：

表3 "三大主流LLM在面對小說續寫任務時的人—機對話記錄摘要

[ “文心一言”的續寫方案 “DeepSeek”的續寫方案（已打開“深度思索[R1]”選項） “ChatGPT-4”的續寫方案第一輪機器輸出黃巾軍的確給了華佗藥方，但藥方里含有微量毒素，用此藥方治療官軍醫患的華佗反而釀成大禍。華佗發現黃巾軍用尸體制作藥物，他也在漢軍中使用該藥方，導致更嚴重的疫情。漢軍最后只是僥幸戰勝了黃巾軍。華佗因自責自殺。華佗帶回的黃巾軍藥方有微量毒素，對人的身體造成了長期損害（這一點黃巾軍也不知道），由此導致了漢軍在占領宛城后暴發疫情。華佗一直在尋找破解的辦法，卻在接近找到辦法之前被朱儁錯殺。人類訂正意見黃巾軍的形象過于陰毒。黃巾軍用尸體做藥，這個做法為何在漢軍中會引發疫情，但在黃巾軍中不會引發疫情？邏輯不通。另外，尸體本身是高度污染源，怎么可能成為可靠的藥物來源？在故事的初始階段，交戰雙方都沒疫情，而漢軍無法打下黃巾軍占領的宛城。而在疫情發生后，兩軍又在藥物的作用下都控制了疫情（此刻副作用還未展現）。在此情況下，雙方戰力應該依然持平，漢軍為何最后就打下宛城了？第二輪機器輸出黃巾軍并未故意設計陷害官軍，但在他們自己不知情的前提下，他們給華佗的藥方里的確有微量毒素，這是華佗事后發現的。用歷史真實存在的五石散替代人尸，藥材霉變引發藥物變性，導致病毒變異。華佗不知將此禍根引入漢軍，給漢軍造成大麻煩。漢軍最終獲勝的原因是疫情的緩解帶來的士氣提升、戰術調整和長期圍困策略的成功。而黃巾軍雖然短期內保持了戰斗力，但藥物掩蓋疾病的隱患、后勤的不足以及心理上的崩潰使得他們在戰斗中處于劣勢。人類訂正意見即使官軍吃的藥物有微量毒素，也未必立即發作，而宛城戰役在184年年末就結束了。你的情節對這一結果有何影響？漢末疫情蔓延多時，而且黃巾軍服用你說的符水的時間可能早于漢軍。為何此藥方的副作用對漢軍影響很大，對黃巾軍影響不大？

你的故事沒有體現《俄狄浦斯王》的故事的精髓，即主人公越不想做壞事，卻由于復雜的因緣際會，他的行動反而更加速了壞事的發生。第三輪機器輸出如果黃巾軍給的藥方中含有的微量毒素其副作用需要一兩年才能體現出來，這將為小說情節增添一層深遠的悲劇色彩。黃巾士卒早在起義前就跟隨張角修煉\"太平導引術\"，每日服用的符水中已含微量蟾毒（此蟾毒自身的毒性，通過每日必須飲下的雄黃酒克服）。這種慢性中毒反而讓他們對改良五石散產生抗性。而漢軍驟然接觸高濃度復合毒素，體內沒有積累相應抗體，暴雨催化的霉變更讓蟾毒與朱砂發生不可知的反應。華佗為了救治更多的士兵，將自己改良的藥方傳授給更多的黃巾軍醫生。但華佗未意識到自己改良的藥方雖然能夠快速緩解癥狀，卻極度消耗士兵的體力和免疫力，最后導致了黃巾軍的失敗。

人類訂正意見漢軍得到了黃巾軍的藥方后，身體短期得到恢復是可以理解的，但既然黃巾軍本就有藥方，他們的戰力又怎么會因為藥方知識的擴散而變得更差？如果說五石散里的蟾酥需配合每日卯時飲雄黃酒方能解毒的話，那么，在軍糧非常稀缺的漢末，黃巾軍有條件獲得大量富余糧食以便釀酒嗎？華佗是因為對自己的內科專業水平不自信才去求黃巾軍幫忙的，作為外科專家，他怎么可能敢于大膽改變藥物的配方？第四輪機器輸出因為黃巾軍制造藥物的原料受限，且長期戰斗引發疲勞。黃巾軍根本不需要消耗糧食釀酒，他們用松脂包裹雄黃含服，由此抵消蟾毒。他對自己內科醫術的不自信讓他盲目接受了黃巾軍的藥方，忽略了其副作用，從而間接促成了更大的災難。人類訂正意見你的故事沒有體現《俄狄浦斯王》的故事的精髓，即主人公越不想做壞事，卻由于復雜的因緣際會，他的行動反而更加速了壞事的發生。

但這個辦法依然需要雄黃，而雄黃存在于火山噴氣孔、低溫熱液脈和溫泉中。我們的故事發生在南陽宛城附近。這里有這種物質大量分布嗎？

你的故事忽略了一個背景。漢末瘟疫流行很長時間了，黃巾軍靠能治瘟疫聚集流民也有好幾年時間了，假若黃巾軍的藥方有這么大的副作用，為何現在才暴露出來？

第五輪機器輸出華佗的確認真給黃巾軍治病以圖換取藥方，以實現兩軍的雙贏。但他卻不經意聽到了黃巾軍的機密軍事部署，被潛伏在黃巾軍內部的漢軍密探知道，后者將情報告知了朱儁，導致了黃巾軍的滅亡。張曼成部之所以選擇在宛城扎營，正是看中了王莽時代方士封存在陶甕中的八百石雄黃粉。宛城防御戰的艱苦條件導致黃巾軍體力下降，使得藥物的副作用擴大。人類訂正意見華佗怎么有機會獲得黃巾軍的機密部署情報？你對自己的故事設計所涉及的科學知識的可靠性有多大的自信？流民大規模遷徙，需要大量體力消耗，而在宛城守城作戰中，守軍是內線作戰，體力消耗遠小于攻擊方。為何在守城的時候，黃巾軍的消耗反而會增大呢？第六輪機器輸出華佗的手術讓許多原本因傷無法作戰的黃巾軍士兵得以重返戰場。然而，他們的心理創傷卻損耗了黃巾軍的戰力，導致其最后失敗。科學知識部分：自信度90%；地理學部分：自信度70%；歷史醫學邏輯：自信度80%。

漢軍的圍困導致城內缺糧，損耗了黃巾軍的體力。人類修正成功的手術與戰士的心理創傷之間的因果關系不明確。雄黃的獲取如果是黃巾軍抵抗疫情的重要手段的話，那么，考慮到黃巾軍的活動是全國性的，那么雄黃的獲取對全國各地的黃巾軍來說應該都不太難。但雄黃真的那么容易獲取嗎？能不能在故事發展上不那么依賴專門為劇情設計的醫藥學“知識”，而是從人物的行動角度推進劇情發展？第七輪機器輸出（停止有新意的輸出）主力部隊（如張曼成部）攜帶雄黃精粉；偏師使用硫磺+人尿發酵的替代品（尿液中尿酸可部分模擬雄黃的砷化合物作用，該秘方見于徐州獅子山漢墓出土帛書《太平應急方》）。華佗發現黃巾軍傷患衛生條件惡劣，要求他們投入更多資源改善之，結果分散了其防御資源，導致其戰敗。人類修正你的設計依然使得劇情過于依賴一些強科學設定。能否在設計反轉的時候繞過這些強設定，從心理與政治的角度入手？

在古代戰爭中，重傷員一般是不積極救治的，華佗只是負責救治傷不重的士兵，或者少數雖然傷重但級別比較高的黃巾軍。在這種情況下，因為華佗救治了更多的傷兵就讓黃巾軍資源不夠用，是非常牽強的。

第八輪機器輸出曹操將醫療物資武器化，使防疫變成派系斗爭工具;朱儁為保全名節傳播病毒，踐行了比黃巾軍更可怕的“人瘟”。

（人類評價：沒有按照要求真正擺脫對疫情細節的糾結）（停止有新意的輸出） ]

測試時間：2025年2月26日

從表3可見，三大主流LLM在續寫故事時都暴露出了如下共性問題：為了強行加入“反轉”，強調黃巾軍給出的藥方對人體有害的副作用，并以此為契機推動情節的轉變（即：使“黃巾軍的藥方能夠改善漢軍狀況”這一預期走向其反面）。然而，這些LLM無法像合格的人類作家那樣預見到，在小說創作中聚焦于藥物的正反藥效自然會涉及大量的醫藥學知識，并因此使小說的創作受到更多科學知識的制約。故此，在著重展現軍事謀略的類三國型小說中過分炫耀醫學知識，未必是上策。同時，“文心一言”與“ChatGPT-4”也未理解到，這一新加入的變量會與故事架構中的其他要素產生種種邏輯沖突，從而導致以下不合理的情節設置：在明知宛城戰役僅持續幾個月的情況下，忽略了戰役的短期性與副作用顯現的長期性之間的矛盾；在明知藥物的副作用不會因“官軍”與“黃巾軍”的政治標簽而有所差異的情況下，片面強調這些副作用對其中一方（而非雙方）的影響——因此，這兩個LLM無法滿足前述的條件（甲）至（丙）。相比較而言，“DeepSeek”在故事創意過程中對科學常識的維護能力相對較強，其涉及的古代醫學知識也最為豐富。但其依然無法按照人類的要求，在故事創意時避免對醫學知識的過多設定，以便讓人物的自由意志與選擇有更多的表現空間。換言之，對于“某藥物自身就有副作用”的設定，本身就涉及某種先天給定的事實，而這一事實是無法通過戲劇人物基于自由意志的行動來改變的——而與之相比，歐里庇得斯筆下的戲劇反轉，則恰恰是基于主人公俄狄浦斯“想逃出神諭作用范圍”這一自由意志的。無獨有偶，筆者在小說《疫戰》的后半段設置“俄狄浦斯式的悲劇線索”時，也基本規避了藥方本身的有效性問題（并因此避免了與既有醫學知識的不必要糾纏），并將精力集中在如何刻畫人物之間的戲劇沖突上。同時，在解釋漢軍最終為何能占領宛城時，筆者也將注意力放在曹操的軍事謀略上（由此展現了曹操的自由意志），同時在具體戰役描寫時也盡量做到與《后漢書》《三國志》等史料“對齊”。

從LLM自身的工作原理與“框架問題”的哲學特征來看，為何上述LLM在面對“小說續寫”任務時都表現欠佳呢？或者更具體地說，為何LLM為了片面滿足“劇情反轉”的設計要求，而往往會導致對常識與邏輯的忽視呢？這其實是由LLM的工作方式高度依賴詞向量矩陣所引起的。實際上，在該矩陣中，不同詞之間的比較或“互為反義”的關系都能得到較為容易的數學定義，系統反而較容易地知道悲劇構造的目標狀態是什么（即在確定與主人公意圖相關的詞元后，尋找其反義詞元）。1相比之下，要建立一條合理的推理路徑，使系統能在不違背常識與邏輯的前提下讓劇情自然地達到上述目標狀態，則要困難得多，因為這一工作需要逐一評估每一條可能的推理路徑與既有信念體系之間的邏輯一致性。由此一來，福多所提到的中央信念系統應具備的兩個特征——“各向同性”與“奎因性”——將成為衡量LLM工作有效性的兩項標準。根據“各向同性”的要求，系統應能知道其所設置的任何一個新劇情與既有信念體系中任何一個信念的潛在相關性——比如，若系統假設華佗對黃巾軍的治療反而引發了其心理創傷（見表3中“文心一言”的“第六輪機器輸出”），那么這一假設應能自動關聯到關于“心理創傷”的相關知識領域——而根據“奎因性”的要求，系統也必須在作出劇情修正時盡量少地干擾既有的信念體系，以體現奎因所強調的“知識修正的保守性”。但需要注意的是，“各向同性”與“奎因性”的要求通常針對的是信念之間的真值關系調整，而LLM的基本運作層次是詞元，即信念的基本構成單位，而非直接承載真值的信念。也就是說，LLM的技術路徑天然敏感于如何通過統計方法預測哪些詞元的出現會牽涉其他詞元的出現，而不敏感于信念或命題層次上展現出的真值關系，更不用說不同推理案例背后的抽象推理模式了。這一技術特征雖然使LLM在應對最簡單的框架問題時游刃有余，但在面對需要更復雜層次推理的小說續寫任務時卻顯露出了不足（順便說一句，圖1給出的《俄狄浦斯王》中偶然性情節的“偶然性指數”的貝葉斯式測量，也是在命題層面上進行的）。

那么，我們是否能夠通過更為強大的算力與更多的數據投喂，使得未來的LLM能夠具備更好的故事續寫能力呢？

可能也沒有這么樂觀。人類的常識中很大一部分是緘默的——比如，正如維特根斯坦在《論確定性》第106節中所指出的，雖然大多數人都知道自己沒上過月球，但以明確表述的方式說過諸如“我知道我沒上過月球”之類話的人畢竟很少。這類“正確的廢話”（但同時也是在常識推理中會默默起效的“廢話”）因此很難在網上留下痕跡。1 這也就是說，諸如“張三沒上過月球”之類的大量人類常識，很可能在網絡上缺乏相關的數據。而LLM的運作畢竟依賴可以被“詞元化”的數據，而無法依賴人類對于世界的種種緘默領悟。這一工作方式帶來的先天障礙，很可能是導致LLM無法充分理解人類常識——進而無法完美解決“框架問題”——的根本原因之一。

從上述的一般觀察中，我們還能引申出三點在內容上更為具體的衍生性結論：第一，目前被反復討論的“機器幻覺”問題（即LLM會輸出大量與客觀知識不符但至少貌似語義通順的信息），其實就是“框架問題”所帶來的某種副產品。例如，表3所展現的主流LLM編造的、缺乏客觀根據的醫學知識（如認為尸體本身可以入藥等），不僅是“機器幻覺”的一種顯現，同時也很可能是因為相關的LLM沒有能力在一個更龐大的知識庫中調用相關的醫學背景知識來衡量新假設的成真概率。第二，目前同時被廣泛討論的“價值對齊問題”（即如何讓機器的輸出盡量符合人類的價值觀），其實在一定程度上也是“框架問題”的變種。例如，根據表3的記錄，“文心一言”與“DeepSeek”在執行小說續寫任務時都有未做到價值對齊的嫌疑（二者都將黃巾軍的形象設計得過于陰毒）。從技術角度看，這很可能是因為相關LLM沒有技術手段調用歷史教科書對于黃巾軍的一般價值評價并將其與當下推理任務相關聯。2因此，在不討論“框架問題”的前提下空談“人機價值對齊問題”的解決，很可能是缺乏技術依托的。第三，目前在中文互聯網上流行的對于LLM的文學創作能力的測試往往聚焦于詩歌與短文創作，卻不太討論LLM對于現實主義題材的小說與戲劇架構的勾勒能力。這就等于放棄了對于LLM短板的檢查，并由于這種疏忽催生了一些不必要的“技術崇拜論”或“技術恐慌論”。不過，這在客觀上也可能是因為中文互聯網上的大多數受眾都已經默認接受了所謂的“美學非認知主義”（aesthetical non-cognitivism）的立場（即認為美學價值基本與作品的認知價值無關），而非“美學認知主義”（aesthetical cognitivism）的立場（即認為美學價值是依附在作品的認知價值之上的）。或者說得更通俗一點，正是因為不少受眾并不真正認可“真、善、美必須在文藝作品中彼此支撐”這一美學理念，他們就不會那么傾向于用“真”的標準去要求LLM的文藝“創作”。考慮到“美學認知主義”立場本就有通過文藝作品拓展公眾智力的意蘊，LLM的當下技術特點對于與之對立的“美學非認知主義”立場的支撐作用，則很可能會在客觀上鼓勵反智主義的橫行。從這個角度看，對于一種能完美解決“框架問題”的新AI系統的希冀，就不僅僅是一種技術需要了，而更是為了捍衛某種更深刻的倫理價值與美學品位。

五、結論

在符號AI時代提出的“框架問題”，可以表述為：如何讓一個計算系統以可控的成本，在常識推理中有效區分哪些信念與當下推理相關，哪些信念不相關，并在此基礎上以合理的方式將相關信念整合進當前的推理進程中。盡管當前基于深度學習的LLM在所占用的算力資源上遠超符號AI時代，但很難說這一路徑已經真正解決了“框架問題”。具體而言，在測試幾款主流LLM的小說續寫能力時，我們發現它們很難在設置反轉性劇情的同時保持常識推理應有的“各向同性”與“奎因性”要求。換言之，若借用九鬼周造的“偶然性哲學”所提供的哲學視角，主流LLM在追求新奇劇情的同時，往往忽視了與基于常識的“可能性之網”之間的關聯。從這個角度看，讓主流LLM全面取代人類作家的創作活動的時機，還遠未成熟。考慮到LLM在這一問題上表現出的局限性與其基本工作原理密切相關，因此，在不挑戰這一基本原理的前提下，業界僅憑增加數據量和算力投入，是無法使未來的LLM解決“框架問題”的。未來人工智能競爭的關鍵點，其實并非資源投入方面的“軍備競賽”（無論是比拼誰能用更多資源構建LLM，還是比拼誰能用更少資源實現LLM的“廉價化”），而必須植根于對AI工作原理的根本性創新。

The Frame Problem， Literary Creation， and Large Language Model：

A Perspective from "the Philosophy of Contingency

XU Yingjin

Abstract： The “frame problem，” proposed during the era of symbolic artificial intelligence （AI）， can be summarized as follows： how can a computational system， at a manageable cost， distinguish which beliefs are relevant to the current reasoning task from those that are irrelevant within common-sense reasoning， and thereby incorporate relevant beliefs into the current reasoning process in a reasonable manner？ Although today’s large language models （LLMs） based on deep learning seem to surpass those from the symbolic AI era in computational resource utilization， it is still difficult to argue that they have truly resolved the frame problem. Specifically， when examining the novel continuation abilities of several mainstream LLMs （including “ERNIE Bot，” “DeepSeek，” and “ChatGPT-4”）， this study finds that they struggle to maintain the “isotropy” and “Quinean” requirements of common-sense reasoning while incorporating plot twists. In other words， using the philosophical terminology provided by the Japanese scholar Kuki Shūzō’s “Philosophy of Contingency，” mainstream LLMs tend to pursue novelty in storylines while largely neglecting their connection to the “sphere of possibilities，” which are grounded in common-sense reasoning. From this perspective， it is still premature for mainstream LLMs to fully replace human writers in literary creation. Such incompetence demonstrated by LLMs in this regard is related to their fundamental working principle of the “word embedding matrix.” Without challenging this fundamental principle， the industry cannot resolve the frame problem merely by increasing investments in data and computational power.

Keywords： the frame problem; contingency; literary creation; large language models; isotropy; Quineanness; word embedding matrix

（責任編輯：蘇建軍）

上海師范大學學報(哲學社會科學版)2025年2期

上海師范大學學報(哲學社會科學版)的其它文章: 社科學術期刊編輯人員的職業認知及其改善研究; 指向世界大同的教育正義論綱; 教育強國建設背景下地方師范教育的“困境”與“突圍”; 百年變局下全球教育治理的歷史回望與遠景擘畫; 感覺結構視野下的比較電影學及其可能; 理查德·林克萊特的“紀實”與讓·魯什的“虛構”