基于微調GPT3.5模型的高質量小說生成研究

2024-05-20 08:26:04趙莉珺

現代計算機 2024年5期

趙莉珺

（西藏民族大學信息工程學院，咸陽 712082）

0 引言

小說是文學作品中的一種，是人類文化中重要的組成部分，具有豐富的文化內涵和情感表達。然而，小說的創作過程需要作者投入大量時間和精力，對于需求量極大的文學市場來說，創作大量高質量小說是一項困難的任務。因此，研究如何利用機器生成具有特色的小說具有重要的現實意義。

隨著自然語言處理技術的飛速發展，GPT3.5 模型已經在各種自然語言處理任務中取得了顯著進展。其大規模的訓練使得GPT3.5 能夠在給定提示的基礎上生成有質量保障的文本［1］，但其在生成長篇小說內容方面的能力較為普通。本文旨在通過微調GPT3.5 模型，使得模型提高生成小說方面的能力，使得模型成為一種生成連貫、有創意且保持情節一致性、人物發展和主題元素一致性的小說模型。

1 GPT3.5模型概述

OpenAI 的GPT3.5 模型是基于Transformer 架構的大規模預訓練模型，其參數規模達到了1750 億。通過在大量多樣化的數據集上進行訓練，GPT3.5 可以理解和生成多種類型的文本，包括文章、對話和新聞等。因此，GPT3.5 模型具有廣泛的應用潛力。

在小說文本生成方面，GPT3.5 的一些顯著特征與能力包括：

（1）高度的語言生成能力：GPT3.5 可以生成流暢且富有表現力的文本，使得生成的小說內容具有較高的可讀性。

（2）上下文理解：GPT3.5 能夠理解給定提示中的上下文信息，并根據這些信息生成相關的文本內容。這一特性有助于在生成小說文本時保持情節的連貫性。

（3）風格模仿：由于GPT3.5 在大量不同風格的文本上進行了訓練，它可以模仿多種不同的寫作風格。這使得在生成小說時可以針對特定的文學風格進行調整。

（4）自動完成和推理：GPT3.5 具有一定程度的自動完成和推理能力，能夠在生成小說文本時，自動補全對話、情節和人物關系等方面的內容。

然而，盡管GPT3.5 具有這些優勢，但在生成長篇小說時，保持情節一致性、人物發展和主題元素一致性仍然是一個挑戰。因此，本文旨在通過微調GPT3.5 模型，進一步優化其在小說文本生成方面的表現。

2 GPT3.5模型的微調

為了提高模型生成小說的質量和多樣性，需對模型進行微調。微調是指在一個已訓練好的模型基礎上，通過在新的數據集上重新訓練模型的部分參數來使模型更好地適應新的任務。在OpenAI的研究中指出，使用小于GPT3.5模型1%大小的GPT 模型，結合使用少量標注數據可產生優于GPT3.5 模型的符合人類偏好的模型，微調可以大幅度地提高GPT3.5 模型在特定生成任務下的性能［2］。在該研究中，微調過程可以分為以下幾個步驟。

2.1 數據集準備

2.1.1 收集數據

首先選擇一些優秀的小說作為微調數據集，涵蓋不同的體裁、時代和風格，以確保訓練數據的多樣性，以便訓練模型更好地生成具有特色的小說。

2.1.2 數據預處理

對于OpenAI 的API 中對訓練數據的格式要求，需對收集到的數據進行處理，以便構建合適的提示，引導模型生成符合預期的小說文本。以下是數據預處理的關鍵步驟：

（1）提取關鍵信息：從收集到的小說樣本中提取關鍵信息，如人物描述、情節梗概、對話示例等。這些信息有助于為API 構建提供更具指導性的提示。

（2）構建樣式參考：為了引導模型生成特定風格的文本，從數據集中提取具有代表性的文本片段，作為風格參考。這將有利于訓練模型在生成過程中遵循相應的風格特征。

（3）組合提示：將上述提取的關鍵信息和樣式參考組合成具體的提示，以便與API交互時使用。提示可以包括一系列描述性短語、問題或命令，使模型能夠更好地理解生成任務的需求。

經過上述預處理步驟，就能夠構建有效的提示，以引導GPT3.5 模型的微調訓練，便于生成高質量的小說文本。但在微調過程中，還需要根據生成結果對提示進行調整和優化，以進一步提高文本質量。

2.2 微調（fine-tuning）過程

微調GPT3.5模型需在遵循OpenAI微調指南的前提下進行，例如增加一些全連接層和Dropout層，這些層可以隨機地刪除一些神經元，以減少模型的復雜度，從而提高模型的泛化能力，防止過擬合。

為確保微調的可控性，引入微調控制的方法。通過設計提示、調整參數、多樣性采樣、迭代生成與反饋等步驟，確保模型在生成小說時的能力可以提高，減少訓練時模型的能力衰減。

在提高小說文本質量方面，針對人物性格、動機和行為等特征引入監督與評估模型。使得模型在生成小說內容時，能夠更好地跟蹤小說內容的質量及其變化，保證小說文本的高質量生成。

為減少微調的訓練量，在訓練過程中為加入提示工程。通過對人類的知識來對模型進行引導監督學習，使得模型能夠在生成小說時，更好地符合人類的偏好以及接觸到小說之美。

在微調過程中，要定期檢測評估模型，以確保模型可以繼續通過本微調模型繼續提高。當模型的小說寫作能力不再提高時，即可停止訓練，并采用最終微調結束后的模型作為最終模型。

由于OpenAI API 的限制，API 并沒有直接提供調整目標函數的功能。將采用間接的方法來調整和優化微調過程中GPT3.5 模型，以生成高質量的小說文本。

（1）提示設計：通過精心設計輸入提示，來引導模型生成更符合預期的文本。提示內容可以包括人物描述、情節梗概、特定風格的示例等，這有助于模型更好地理解生成任務的需求［3］。

（2）調整微調參數：微調過程中通過調整微調參數，例如學習率、批大小、微調輪數等等，來影響模型的收斂速度和準確性，從而提高生成文本的質量。

（3）調整微調數據集：微調數據集是指在微調過程中用來訓練GPT3.5 模型的數據集。如果生成的文本質量沒有達到預期時，可以考慮更改微調數據集或增加微調數據集的規模，以便GPT3.5 模型在訓練時，可以獲得更多的高質量輸入和更多的上下文信息。

（4）使用后處理技術：即使用后處理技術來優化生成的文本。使用語言模型來評估生成的文本的質量，并對文本進行改進，以提高文本的質量。如文本過濾、替換和拼接等，以優化生成結果。該策略可以糾正模型可能產生的錯誤，如重復、不連貫或不一致的內容。

（5）使用自定義的生成器，以此來生成小說文本。這些生成器可以基于GAN、VAE等技術，以及其他的神經網絡模型來生成文本，從而提高生成文本的質量。

通過應用上述的調整和優化方法，在OpenAI API 的基礎上，將實現對GPT3.5 模型微調的有限控制，進而保證該模型在生成小說文本方面表現的提升。雖然這些方法可能不如直接調整目標函數那樣有效，但它們在一定程度上可以促成目標的實現。

3 對生成的小說文本的評估與分析

為了評估GPT3.5 模型微調生成的小說的質量和多樣性，采用多種指標進行評估。本節將分別討論生成內容的評估和評估模型的建立。

3.1 生成內容的評估

生成內容的評估是衡量模型生成小說文本質量的重要步驟。評估的目標是確保生成的文本具有良好的文學品質、連貫性、個性化和風格一致性。以下是一些評估生成內容的方法。

（1）一致性：檢查生成的文本在情節、人物設定、時間線等方面的一致性，確保文本在邏輯上沒有明顯的錯誤。

（2）語法和拼寫：評估生成文本的語法和拼寫正確性，確保文本沒有明顯的語法錯誤和拼寫錯誤。

（3）小說特性：評估生成文本的小說性，包括情節設定、人物描繪和故事發展等方面。

（4）風格一致性：檢查生成文本的風格是否與預期的風格一致，包括敘述方式、對話風格和文學手法等方面。

3.2 評估模型的建立

為了檢測GPT3.5 在生成小說文本方面性能的提高程度，需建立一個評估模型，以達到可控制微調的效果，其中評估模型包括機器初評估和人工審查評估。

3.2.1 機器評估

機器評估可以快速地對大量生成的文本進行初步評估。以下是一些機器評估方法：

（1）自動評估指標：BLEU 分數是一種機器翻譯中常用的評估指標，它用于衡量模型生成的文本與參考文本之間的相似度。該指標對生成文本與參考文本之間的相似性進行評估。雖然這些指標可能無法完全捕捉文學品質，但它可以提供一個初步的評估結果［4］。

（2）語言模型得分：使用預訓練的大語言模型（如GPT-4、ChatGPT、百度文心等）對生成文本進行打分，衡量生成文本的流暢度和自然性。

3.2.2 人工審查評估

人工評估是通過邀請人類評審員對模型生成的小說進行評估，如小說的故事情節、人物刻畫、文學價值等方面。人工對機器模型生成的小說文本評估可以包括以下幾個方面：

（1）評估指標的確定：人工評估需要確定評估指標，例如故事情節、人物刻畫、文學價值等方面的質量。評估指標應該根據評估的目的來確定，以確保評估的有效性和可靠性。

（2）評估樣本的選擇：評估樣本應該從模型生成的小說中隨機抽取，以確保評估結果的代表性和可靠性。

（3）評估者的選擇：評估者應該具有相關領域的知識和經驗，例如專業的小說作者和讀者。評估者還應該接受培訓，以確保他們理解評估指標并能夠進行準確的評估。

（4）評估方法的確定：評估方法可以采用定量和定性相結合的方式。定量方法可以使用評分表或問卷來收集評估數據，然后進行統計分析。定性方法可以使用討論、深度訪談等方式來獲取評估者的意見和建議。

（5）評估結果的分析：評估結果可以通過統計分析和主觀分析相結合的方式來進行分析。統計分析可以用來比較不同評估者之間的評估結果和評估樣本之間的差異。主觀分析可以用來分析評估者的意見和建議，并提出改進模型的建議。

通過評估和分析，可以更全面地評估該模型在生成小說文本方面的性能，以提高微調的效率。通過不斷地評估和優化，持續提高模型的生成質量，使其在小說寫作領域發揮更大的作用。

4 提示工程通過微調GPT3.5模型在高質量小說文本生成上的應用

提示工程（prompt engineering）是一種在自然語言處理任務中優化模型輸入的策略，以提高模型在特定任務上的表現。在微調GPT3.5 模型生成高質量小說文本的過程中，提示工程可以發揮關鍵作用［5］。以下闡述了提示工程在此應用場景中的重要性。

4.1 提示工程在微調GPT3.5模型的應用

提示工程的核心思想是通過設計精細的、任務相關的提示，引導模型生成更符合預期的輸出。在微調GPT3.5 模型生成高質量小說文本的過程中，提示工程可以幫助模型更好地理解任務需求，如在指導情節設定、控制寫作風格、限制故事篇幅等方面，可引導模型生成更豐富、更具吸引力的故事情節。從而實現更符合人類偏好的輸出。

以下是提示工程在此過程中的應用示例：

基于任務需求提供有針對性的提示，需創建具有指導性和啟發性的大綱內容，以引導模型生成更高質量的小說文本，保證前后文邏輯通順，情節具有可推敲性。在生成每章節的大綱時，評估提示的有效性對其內容進行迭代優化，以實現更好的生成效果。其具體應用流程如圖1所示。

圖1 基于提示工程生成大綱的流程

利用txt 文件生成prompt：將小說文本數據進行切分，與上述應用示例中提供的大綱相結合，最終生成可供微調［6］訓練的輸入數據。其具體流程如圖2所示。

圖2 數據切分生產訓練數據的流程

為增強生成長篇小說內容方面的能力，需為兩種不同作用的模型提供大量新數據集的投喂，從而使模型更加明確任務需求，確定生成小說文本的具體要求，如主題、風格、情節設定等，以便為模型提供更清晰的指導。其流程圖如圖3所示。

圖3 基于投喂數據確定小說文本要求的流程

4.2 提示工程的實際應用與優勢

通過應用提示工程，微調后的GPT3.5 模型在生成高質量小說文本方面具有以下優勢：

（1）更符合人類偏好：提示工程有助于模型生成更貼近人類審美和閱讀習慣的文本，提高生成作品的吸引力和可讀性。

（2）輔助創作：通過提供有關情節發展、角色設定和故事主題等方面的大綱創意啟示，提示工程可以幫助作者更好地構思故事，提高創作效率。

（3）提高生成效果：提示工程可以引導模型聚焦于特定任務要求，從而減少無關或低質量文本的生成，提高生成內容的質量和準確性。

（4）個性化生成：通過針對不同作者和領域的需求定制提示，提示工程可以實現更個性化的生成服務，滿足各種創作需求。

綜上所述，提示工程在微調GPT3.5 模型生成高質量小說文本方面具有重要應用價值。通過設計精細的、任務相關的提示，可以引導模型生成更符合預期的輸出，從而實現更高質量的小說文本生成。

5 結語

本文研究了基于微調GPT3.5 模型的優化模型生成更具有特色的小說，著重介紹了如何使用微調控制方法以及提示工程來優化模型在小說生成任務上的表現。闡述了數據集準備、模型微調以及評估和分析的過程，展示了提示工程如何提高生成質量以及同時降低訓練成本。

然而，這一研究領域仍然面臨著眾多挑戰，如數據偏見、知識泛化能力等。未來的研究可以探索更先進的模型和方法，包括強化學習、元學習、神經網絡修剪、知識轉移等方法，以進一步提升模型性能，減少模型訓練量。此外，開放模型（如ChatGPT）將為模型提供海量的人工提示資源，這將使得模型更加偏人類化。

最后，希望這項研究可以為自然語言處理領域的研究提供參考，為開發更好的小說生成模型提供思路并推動人工智能應用的發展與落地。在未來的研究中，期待有更為先進的語言模型出現，使得AI 小說文本生成可以接觸到小說之美。