夏逸慧

本研究通過有效的Prompt指令設計,實現ChatGPT對詞匯、語法、標點和格式的潤色,同時評價標題與內容關聯度、體裁結構完整性以及主題深度和創新亮點。優點包括多語言處理能力,提供語法和拼寫檢查,并重組句子和段落等。然而,在處理不同長度的作文和進行語法拼寫糾正時有限制,仍需結合人工評估,以提供更準確的批改反饋。
ChatGPT是OpenAI開發的強大生成式語言模型,采用Transformer架構,可生成連貫、自然的語言回應。自2022年11月推出以來,GPT-3.5模型一直免費提供,可在多種語言中發揮廣泛的應用,包括英語、法語、德語、日語、中文等。該模型具有寫作潤色服務的能力,能夠有效改正語法、拼寫、句子結構和連貫性等常見寫作問題。然而,在傳統的外語寫作批改方法中,通常依賴教師進行人工評估和指導,雖然這種方法在提供綜合性指導和反饋方面有其優點,但在繁忙的教育環境中難以及時提供精確的、個性化的幫助。因此,深入研究人工智能技術在外語寫作批改中的優勢和局限性具有重要的理論和實際意義。
不過,盡管ChatGPT在英語寫作教學領域得到了廣泛研究和應用,但在日語等小語種的寫作批改領域,研究相對較少。因此,本研究通過設計有效的Prompt指令,來評估ChatGPT在語法、拼寫、句子結構和連貫性方面的效果,以進一步探索ChatGPT在小語種寫作批改中的準確性評估,并為提供更準確、高效的外語寫作潤色服務提供理論和實踐支持。
1 外語寫作批改領域中人工智能技術的應用現狀
20世紀70年代以后,外語寫作批改的早期研究主要采用傳統的紙質批改方式。傳統的人工批改方法具有明顯優點,如理解特定語境、文化和語言習慣,提供個性化反饋和指導,改善文本的流暢性和表達效果等。然而,受限于教師數量和時間成本,無法滿足大規模學生的需求,并存在反饋滯后問題。學生在日語作文比賽中通過寫作指導和批改提高技巧和表達能力。然而,中國的日語教師面臨兩個問題:不同教師的日語水平和批改能力不一,以及學生的母語非日語,使用翻譯軟件后往往得到受中文影響的日語翻譯,難以實現正確的日語表達。這些挑戰突顯了外語寫作批改方法需要不斷改進和創新,以更有效地滿足學生需求,提高寫作技能和表達能力。
隨著自然語言處理(NLP)技術的不斷發展,國內外的學者開始將計算機技術應用于外語寫作批改領域。從2000年開始,研究的重點逐漸集中在語法和拼寫檢查方面,采用規則引擎和詞典等方法,以實現自動檢測和糾正語法和拼寫錯誤。隨后,隨著機器學習和深度學習的興起,數據驅動的方法在外語寫作批改中得到廣泛應用。通過利用大規模語料庫和機器學習算法進行模型訓練,實現了自動檢測和糾正語法、拼寫、句子結構和連貫性等方面的錯誤。自2020年以來,隨著人工智能技術的快速發展,像ChatGPT這樣的生成式語言模型顯著提升了寫作批改的效果和用戶體驗。ChatGPT綜合運用規則引擎、語言模型和序列標注算法,自動檢測和糾正外語寫作中的語法和拼寫錯誤。此外,句法和語義分析技術有助于檢測句子結構和語義邏輯問題,并提供改進建議。
因此,傳統的寫作批改方法與自然語言處理技術的結合為寫作批改提供了新的思路和方法,具備實時反饋和個性化建議的潛力。然而,在處理日語寫作批改時,仍然面臨針對小語種的挑戰,可能需要進行更深入的語言學分析,以推動人工智能技術在國內外語寫作批改領域的應用和發展。
2 研究設計和實施方法
2.1 數據收集
本研究選取了廣州工商學院的本科和專升本學生,涵蓋了不同水平和專業背景的參與者。研究數據來源于兩個寫作比賽:首屆“人民中國杯”日語國際寫作大賽(比賽1)和第19屆中國人日語作文大賽(比賽2)。比賽1由中國外文局亞太傳播中心主辦,共收集了61篇作文,篇幅為450至500字,主題為大學畢業后的學習和工作計劃。比賽2由日本僑報社主辦,收錄了34篇作文,篇幅為1500至1600字,主題涵蓋了中日和平友好條約、中日交流以及中日友好城市等內容。
2.2 評估指標
本研究首先對所收集的作文數據進行預處理,包括去除特殊符號和標點符號,進行分詞和句子劃分。隨后,采用ChatGPT作為外語寫作批改工具,并設計了涵蓋語法和拼寫、詞匯選擇和改進、句子結構和段落重組等方面的Prompt指令,對作文進行批改和潤色,并提供實時的反饋和建議。同時,根據自動評分指標,綜合評估作文的標題準確性和吸引力、文體一致性、體裁結構完整性、語言表達清晰度和流暢度,以及主題內容的深度和創新亮點。最后,對評估結果進行分析和解釋,并提取有效的改進意見和建議。
3 Prompt指令設計
3.1 潤色指令
ChatGPT可根據不同語言指令進行中文和日語的潤色工作。使用關鍵詞如“潤色”和“修改”即可啟動潤色功能。對于語法檢查和修正,使用指令“請修改語法錯誤”,將直接修改原文,包括常見語法錯誤(如動詞時態、助詞使用)和拼寫錯誤(如假名使用、片假名與平假名混淆)等。然而,在初級日語寫作中,重復出現的短句寫作問題可能無法有效改善。可采用指令“請用更地道的表達方式重寫句子”或“請修正語序”來適當優化。指令“請調整段落結構,使其更具邏輯性”和“請糾正標點錯誤和格式問題” 用于調整段落結構以及修正標點和格式錯誤。
若想列出單獨詞匯和語法錯誤信息,則使用包含“列出”字樣的指令,例如,“請列出錯誤的語法”,可列出錯誤的句子片段并提供修改建議。當文本中沒有明顯的詞匯和語法錯誤時,則會在選詞和表達方面給出自然度的改進提示。但是,ChatGPT經常將原文句末的簡體(書面體)轉換為敬體(口語體),而實際上在書面語寫作中,多數情況下使用簡體日語進行結尾,使用指令“請將結尾轉換為簡體”或“請將文章的寫作風格調整為正式”等,ChatGPT將相應地進行調整以符合書面語寫作的要求。
3.2 評價指令
ChatGPT的使用指令中包括獲取對作文標題、內容、句子結構和措辭的意見,以及作文內容的概括性點評。首先,通過指令“請評價標題的準確性和吸引力”考察作文標題的準確性,考察標題是否能準確概括作文內容,通過計算文本相似度和提取關鍵詞來評估標題與作文內容的關聯程度。吸引力評價則考察標題中的情感色彩和情緒詞匯,判斷是否能引起讀者的情感共鳴和興趣。指令“請分析作文的結構和內容”用于識別主題陳述和論證,并分析段落結構。通過比較作文與目標文體或參考文本的文本特征來評估文體一致性,例如,區分正式、學術性的書面語言風格與非正式、口語化的表達方式。
指令“請評價語言表達的清晰度和流暢度”不僅能自動檢測和糾正語法和拼寫錯誤,還分析句子結構和語序,并提供詞匯選擇和表達方式的建議,以評估表達邏輯和連貫性。例如,改善句子的結構和流暢性,潤色句子中的主謂賓結構、從句的使用和連詞的選擇等方面。指令“請評價主題內容的深度和創新亮點”用于分析作文中的主題覆蓋范圍、細節和支撐以及觀點的獨特性,并提供相應的反饋和建議。如果作文泛泛而談,缺乏對主題的深入探討或具體細節,則能幫助作者進一步拓展思考,提供更具深度和創新性的內容。
4 ChatGPT批改的優勢
4.1 語言表達和整體質量
當設計用于日語作文的批改和潤色指令時,以下內容描述了這些指令的優勢,以改善作文的語言表達和整體質量。首先,利用大規模多語言數據集、語言編碼和標記技術,能夠處理不同語言的輸入。通過跨語言預訓練、機器翻譯等技術,實現對多種語言文本的理解、翻譯和生成。同時,通過語言模型微調、語言適應性和參數調整等方法,提高語言性能和準確度。其次,具備自動檢測和糾正語法及拼寫錯誤的能力,包括日語假名拼寫、漢字誤用、動詞和形容詞的時態、語氣、否定形式,以及名詞單復數和代詞一致性等常見的詞匯錯誤。此外,還能發現并糾正主謂不一致、時態錯誤、語序顛倒等語法錯誤。
并且,ChatGPT關注句子的主謂賓結構、修飾語的運用、從句的引入以及段落之間的過渡句和連接詞等方面,并提供相應的改進建議。ChatGPT還能為作文提供段落重組的建議,優化引言、主體段落、對立觀點和反駁、結論等部分的邏輯結構。另外,ChatGPT通過設置適應文化的指令,提供關于表達方式、禮貌用語和習語等方面的建議,確保寫作更符合日本的文化背景和語言習慣。同時,為特定領域的寫作提供相關的詞匯、術語和表達方式的建議,提升作文的質量和準確性。
通過 ChatGPT 的引入,日語教師將能夠有效地批改學生的作文并支持他們提高寫作技能。ChatGPT能夠提供多層次的批改,適用于初級、中級和高級學習者,幫助他們在語言使用和寫作技巧方面取得持續的進步。此外,提供關于如何使作文更富有情感和吸引力的建議,以提高整體寫作的質量和吸引力。
4.2 評分標準和區分度
在作文評改初期,通常使用5分為一個評分區間,如70~75分、80~85分等。評分標準主要包括標題、文體、體裁、語言表達、主題內容和創新亮點這五個方面,并采用扣分式評價方法,表1總結了不同分值范圍下對于六個評分項目的不同要求。
ChatGPT主要關注語言表達和主題內容進行評分。作文得分較高的情況包括語言表達清晰、準確傳達思想感情(95分),展示獨特見解(90分),或進行細節描述(80~85分)。然而,若作文未明確提及正反觀點,或在觀點表達以及語句使用方面存在不準確,作文得分較低(70~75分)。此外,標題、文體和體裁通常容易獲得肯定評價。如果標題準確概括了作文的主題,會得到積極回應(80~85分)。ChatGPT還能準確評價標題與作文內容的關聯度,例如,指出作文未清晰反映引言中的比喻(80~85分)。對于體裁結構的完整性,如果作文采用了一致的散文形式,也會得到積極評價(80~85分)。然而,要判斷全文是否統一采用簡體(書面體)或敬體(口語體),需要更多的指令。
評分區分度不高可能是因為以下因素綜合作用:一是訓練數據的限制,缺乏多樣化的論述文樣本,導致對于特定主題或文體的作文評分準確性不高;二是語言模型在理解復雜的語言結構、隱含的意義和特定文化背景方面存在限制,使得評分結果缺乏對作文深層次的理解和評價。三是受訓練數據中缺乏創造性和主觀因素的考量,無法準確評估作文的獨特性和個性風格。四是評分系統無法全面考慮到日本語言使用規范和習慣。
然而,ChatGPT通過大量作文批改后,這一現象得到了改善。例如,在評價獲得“人民中國杯”日語國際寫作大賽二等獎的作文時,給出了88分,并指出了井底之蛙的諺語引用,突出了對世界的好奇心以及對日語學習的動力等。另一個獲得79分的作文評價提到內容充實,但在語言表達和結構方面還有改進的空間。
在這兩場寫作比賽中,均采用了六位評委進行人工評分,以便選出校級的一二三等獎項。然而,通過對比人工評分和ChatGPT的評分,發現這兩種評分方式存在顯著的差異。
首先,人工評分涉及評委的主觀判斷和個人經驗,不同評委之間對于作文的語言表達和邏輯結構等方面,存在不同的評分標準,使得同一篇作文存在較大的評分差異。相比之下,ChatGPT的評分基于大規模訓練數據中學到的語言模式和規律,具有更強的一致性。然而,由于ChatGPT對語境理解、文化差異和復雜邏輯的理解存在限制,在捕捉主觀因素方面表現相對不足。
其次,確保寫作比賽中評分標準的一致性至關重要。盡管人工評分能夠更好地辨別作文中的創新性和獨創性,但ChatGPT具有更統一的評分標準,為客觀評分提供了可操作性。但是,這也帶來一個潛在問題,即ChatGPT的評分標準可能過于死板,難以全面捕捉作文中的主觀元素。
此外,不同的評分參數設置影響了ChatGPT的評分結果。為了提高ChatGPT的自動評分能力,需要優化其核心能力,包括語境理解、文化敏感性以及復雜邏輯處理能力等方面。例如,通過引入更豐富的樣本數據,尤其是涉及復雜語境的文本,提高ChatGPT對整篇文章脈絡的捕捉能力。并且使用不同的評分參數有助于適應不同類型和難度的作文題目,提高ChatGPT的評分準確性。
總體而言,通過對比人工評分和ChatGPT評分時產生差異的原因,確保ChatGPT在為學生提供準確反饋的同時,提高整體評估效能,為外語教師提供更加便捷、優質的語言評估工具。
5 ChatGPT批改的局限性
ChatGPT是基于大規模文本數據進行訓練的,在外語寫作批改和潤色方面具有一定優勢,但仍存在局限性,無法完全替代人類編輯和專業寫作教師的角色。首先,作文長度差異會對批改潤色效果產生影響。對于1500字的作文,ChatGPT能全面把握主題、內容和邏輯結構,提供準確評分和建議。評分過程中更注重觀點深度、論證邏輯和語言表達的豐富性。此外,能識別作文的段落結構和邏輯連接,并提供相關過渡詞匯參考。但對于較短的500字作文,ChatGPT的整體理解受限,因此更注重關鍵觀點、準確表達和文結構。
盡管ChatGPT在日語作文潤色方面有一定的自動檢測和糾正能力,但并不能百分之百保證準確性。特別是在處理復雜的語法結構或特殊用法時,可能會出現錯誤的糾正或誤判。此外,由于ChatGPT難以完全理解日語語境中的隱含意義和特定文化背景,因此提供的修改建議有時不夠精確,不適用于特定的寫作。
因此,在使用ChatGPT進行寫作批改時,有必要結合人工審閱和專業知識來進行補充和校對,尤其是在處理較短的作文或包含復雜語法結構的文本時。日語教師需要充分了解ChatGPT的能力和局限性,以便審查并修正不準確或不符合特定文化和語言習慣的部分,以確保批改的準確性和適用性。這需要教師具備對ChatGPT提供的建議進行審查和完善的專業知識和技能,以充分發揮其輔助寫作批改的潛力。
6 結語
ChatGPT在日語作文的潤色方面,通過合理的Prompt指令設計,能夠有效改進詞匯、語法、標點符號和格式,同時提供準確的評價意見。其評價內容包括對作文標題與內容關聯度的評估、體裁結構的完整性評價以及主題內容的深度和創新亮點的分析。ChatGPT的批改優勢在于其多語言處理能力,提供語法和拼寫檢查功能,并具備句子結構和段落重組的能力。然而,需要注意的是,在評估不同長度的作文和進行語法拼寫糾正時,仍然存在一定的局限性。因此,結合日語教師的人工評估和專業判斷,可以使得ChatGPT提供更為全面、準確和及時的反饋跟實時指導。