










提 要:語步結構是學術論文中的文本語篇單位,在學術用途英語等方面具有重要價值。盡管關于學術論文的語步研究非常豐富,但語步標注數據資源仍然相對較少。本研究借助自然語言處理領域的語言模型構建了涵蓋多個學科領域的英語科技論文摘要語步標注語料庫,包括近3.4萬個語步結構。語料庫構建的第一階段依靠專家標注形成高質量語料,在第二階段也是主要階段,采用基于BERT架構的自動標注模型,在保證標注質量的同時能夠快速提升標注速度、擴大標注規模。本研究隨后開展了摘要語步自動標注識別實驗,對比自動標注模型與大語言模型ChatGPT和Claude3識別不同學科領域的語步結構的效果,驗證了模型和語料庫的價值。該研究能為科技論文寫作智能批改等自然語言處理任務以及學術用途英語等外語教學與研究等提供必要的數據資源,也驗證了大語言模型輔助構建語言資源的可能性,體現了語言智能驅動的智慧外語教育的重要性,能有效推動外語教育數字化轉型。
關鍵詞:語步結構;語料庫;摘要文本;大語言模型
中圖分類號:H08 """"文獻標識碼:A """"文章編號:1000-0100(2025)01-0029-10
DOI編碼:10.16263/j.cnki.23-1071/h.2025.01.004
Research on Language Model-assisted Construction of Corpus for
Move Structures in Abstracts of English Scientific Articles
Li Hong-zheng1,2 Wang Ruo-jin1,2 Liu Fang1,2 Feng Chong3
(1.School of" Foreign Languages, Beijing Institute of Technology, Beijing 102488; 2.Key Laboratory of" Language,
Cognition and Computation Ministry of Industry and Information Technology, Beijing 102488;
3.School of Computer Science, Beijing Institute of Technology, Beijing 100081, China)
Move structures are discourse units in research articles (RA) and are of great value in English for Academic Purposes. Although there is abundant research on move structures in academic articles, there are still relatively few move annotation data resources. Based on Natural Language Processing (NLP) technologies, this research constructed a corpus for annotating move structures in English RA abstracts, and nearly 34,000 move structures from multi-disciplines were annotated. The first stage of corpus construction relied on manual expert annotation to form high-quality corpus data. In the second and main stage, a BERT-based automatic annotation model was adopted to improve the annotation speed and expand the annotation scale while ensuring the annotation quality. We then conducted move structure recognition experiments and compared the performance of our mo-del with large language models (LLM) including ChatGPT and Claude3, indicating the effectiveness of the proposed model. This research can provide necessary data resources for NLP related tasks such as intelligent assistance of English scientific articles writing. It is beneficial to foreign language teaching and research such as English for Academic Purposes, and verifies the possibility of" LLM to assist in the construction of language resources. It also shows the importance of intelligent foreign language education empowered by language intelligence and can effectively promote the digital transformation of foreign language education.
Key words:move structure; corpus; abstract texts; large language model
1 引言
語步(Move)指具有具體交際功能和目的的文本切分單位和語義片段,用來表示特定意義,代表著學術論文各章節的表述結構與序列(Swales 1990:83,2004:18)。語步能夠有效表征論文語篇的宏觀結構,并為實現整個語篇體裁的總體交際目的服務,揭示論文語篇的目的性、步驟性和規約性(楊延寧" 鄒航" 2023:1)。科技學術論文,特別是研究論文(Research Article, 簡稱RA)是科技和學術交流的重要載體。在研究論文中,摘要是必不可少的組成部分,通過簡潔、清晰而有說服力的段落傳達整篇文章的核心思想和亮點。可讀性好的摘要應該包括組織良好及邏輯合理的語步結構,分別論述論文的研究背景、目的、方法、結論等基本信息,以凸顯文章的重要性和價值。
下面是自然語言處理(NLP)領域的一個英文論文摘要示例,其中清楚包含幾種常見的語步結構。
①lt;背景gt;Previous works on cross-lingual NER are mostly based on label projection with pairwise texts or direct model transfer. lt;差距gt;" However, such methods either are not applicable if the labeled data in the source languages is unavailable, or do not leverage information contained in unlabeled data in the target language. lt;目的gt;In this paper, we propose a teacher-student learning method to address such limitations. lt;方法gt;NER models in the source languages are used as teachers to train a student model on unlabeled data in the target language.lt;結論gt;Extensive experiments for 3 target languages on benchmark datasets well demonstrate that our method outperforms existing state-of-the-art methods for both single-source and multi-source cross-lingual NER.
語步研究在專門用途英語(English for Speci-fic Purposes, 簡稱ESP)和學術用途英語(English for Academic Purposes, 簡稱EAP)等領域具有比較久遠的歷史,在外語科技論文寫作、語步分析等方面具有重要應用價值(Hyland 2008:5; Moreno, Swales 2018:40; Swales 2019:75)。自從語步被提出以來,很多研究基于不同學科領域學術論文的不同部分如摘要、引言、方法、結論等內容,針對語步、修辭結構和語言學特征等開展了比較詳細的分析和討論(Cotos et al. 2017:90; Lu et al. 2021:63; Alsharif 2023:1268)。近年來也有一些研究工作關注語步結構的檢測與自動識別等(王東波等 2018:997; Alliheedi et al. 2019:113; 丁良萍等 2019:16; 王末等 2020:60; 杜新玉" 李寧" 2024:74; 張鑫等 2024:117)。語步結構識別可以使文獻中蘊含的知識顯式地體現出來,提高知識利用效率,是內容抽取、文本摘要等任務應用的重要基礎性工作(黃紅等" 2022:991)。但是之前的研究工作多只關注某一特定學科領域論文中特定部分的語步分析,或某個特定語步的識別,幾乎沒有跨學科對比研究和全面的語步結構研究;另一方面,目前面向學術寫作的語步結構自動標注的研究相對較少,同時也缺乏針對科技研究論文摘要部分中的語步標注資源建設。這種不足為跨語言語步分析與識別、科技論文信息抽取等自然語言處理任務和計算機輔助語言學習(Computer-Assisted Language Learning, 簡稱CALL)等應用場景帶來了很多挑戰。
為了解決這些問題,本研究應用自然語言處理技術構建一個大規模、多領域的英語科技論文摘要語步標注語料庫,當前已累計標注近3.4萬個語步實例,涵蓋人工智能、通信工程和機械工程等學科領域。標注主要分為兩個階段:在前期初始階段,通過人工標注形成一部分高質量的標注數據;在后期階段也是目前標注的主要階段,在高質量標注數據的基礎上,訓練了一個基于BERT語言模型架構的自動標注模型,實現語步自動標注,然后人工進行干預,修正模型標注不準確或者錯誤的語步,在快速擴大標注數量和規模的同時也能夠保證標注質量。隨后開展了語步結構自動識別實驗,對比我們的標注模型與GPT-4和Claude 3等大語言模型在不同學科領域的語步識別效果,并針對具體實例進行了比較詳細的分析。
2 相關研究
2.1 語步分類
語步的概念最初來自修辭學,最早由美國語言學家J. Swales提出。Swales開創性地提出CARS語步模型(Swales 1990:141, 2004:228)和語步分類體系(Swales, Feak 2009:6),為后來的語步研究帶來深遠影響,此后不同時期的很多學者都在此基礎上針對語步的特點不斷改進語步的相關理論,并進行語步分類研究,包括Teufel等人提出的Argumentative Zoning (AZ) scheme(Teufel et al. 1999:110)及其修正后的理論等(Teufel et al. 2009:1493; Teufel 2010:443)。
2.2 語步標注
隨著語步理論研究的發展,也出現一些在此類理論指導下建設的語步結構數據資源。Alliheedi等人重點關注生物化學領域論文方法部分中的語義角色和修辭語步(Alliheedi et al. 2019:113);劉霞(2016)構建了選自《應用語言學》(Applied Linguistics)期刊摘要的數據集;Viera等人(2020)通過構建摘要語料庫,調查了在英語母語國家和非英語國家發表的研究論文摘要中的修辭。已有的語步結構語料庫通常都是面向特定單一領域的,而且規模相對較小,目前仍然缺乏多領域大規模的摘要語步語料庫。因此,有必要構建涵蓋多個學科領域的論文摘要標注語料庫。
3 語料庫構建過程
3.1 理論基礎
本研究構建語料庫的主要理論基礎是Hyland(Hyland 2000:132)關于論文摘要語步的五分類理論。他認為,之前有關學術論文全文的語步分類可能并不完全適合分析摘要部分的語步結構。經過對純科學、應用科學、人文科學和社會科學等學科門類的論文摘要的考察,他提出學術論文摘要語步五分類法:
研究介紹(Introduction):論述研究說明,包括研究重要性、關鍵術語概念、研究差距等;
研究目的(Purpose):指出該研究的一般或者特別目的;
研究方法(Method):指明該研究的具體方法,包括數據、處理過程等;
研究產出(Product):討論該研究的主要發現和結果;
研究結論(Conclusion):引出該研究的結論,包括研究重要性、研究不足、對未來研究的啟示等。
根據前期調研和先導標注試驗(Pilot Study),我們發現Hyland的分類無法完全適合特定領域的摘要語步,因此需要進一步的詳細分類體系。如例②的類似表達在很多包括NLP在內的人工智能領域論文中都非常常見,一般是開源論文研究的相關信息,通常可以認為是對整個研究社區的貢獻和價值,無法采用Hyland分類中的任何一種進行標注。
②" We release source code for our models and experiments at Github.
在Hyland分類的基礎上,我們根據具體標注需求,對該分類方法進行調整和補充,提出表 1所示的8種基本語步類型,并為每種語步設置了標注標簽。
3.2 語料來源及處理
本研究選擇各專業領域專家推薦的英文頂級期刊(JCR Q1)和國際知名頂級會議論文中的摘要作為標注語料,涵蓋人工智能學科和工程學科兩個大類。其中人工智能學科包括NLP和計算機視覺(CV)兩個領域;工程大類包括通信工程(Communication Engineering, 簡稱CE)和機械工程(Mechanical Engineering, 簡稱ME)兩個領域。
對于人工智能領域,考慮到會議論文具有更高的時效性以及相比期刊更大的錄用比例,我們選擇了兩個頂級國際會議:國際計算語言學大會(ACL)主會論文和世界人工智能大會(AAAI)中CV Track的會議論文作為數據來源。從ACL會議論文收錄平臺ACL Anthology官網(https://aclanthology.org/)可以直接下載收錄所有論文信息的文獻文件(BibTex),從中篩選出3年(ACL2020-ACL2022)的長論文摘要作為標注數據;另外從AAAI 2022大會官網中獲取CV Track的會議論文。對于工程大類領域,選擇了3本頂級期刊(Journal of Mechanical Design, International Journal of Heat and Mass Transfer," IEEE Journal on Selected Areas in Communications)。在Web of Science (WOS)檢索平臺中檢索每本期刊的信息,然后將檢索得到的論文題目、摘要等基本信息進行處理。
為了方便標注語步結構,我們把兩個學科領域的所有摘要文本段落根據主要的句末標點符號預處理為一句話一行的格式。同時在保留原文基本意義的前提下,對摘要文本進行必要的數據清洗,忽略可能會影響標注的特殊符號、引用格式等信息,以保證標注文本的質量。
3.3 語料庫構建
語料庫構建主要分為兩個階段:第一階段是人工標注,第二階段是系統自動標注+人工修正。我們采用開源標注工具Doccano作為在線標注平臺,圖1是該平臺的標注界面。
3.3.1 人工標注
為了保證標注質量和準確性,我們的語料標注團隊由外國語學院的4名專業教師和1名外語語言學專業的博士生組成,進行分工標注。同時每周舉行例會討論標注過程中存在的各種疑難問題。在標注過程中,原則上語步以完整的句子為單位,標注者需要為每個句子選擇最合適的語步標簽。在標注平臺中,選中一個句子以后,平臺即可彈出設計好的標注標簽,標注者可以選擇一個標簽完成標注。如果需要修改,可以點擊標簽,選擇其他合適的標簽。
3.3.2 自動標注
人工標注雖然能夠保證標注質量,但無法提升標注速度和語料庫標注規模,因此需要自動標注。本研究采用Lin等(2023)提出的基于BERT(Devlin et al. 2019)的語步自動標注模型(圖 2),將語步識別標注視為多標簽識別和分類問題。
值得注意的是,在標注識別語步的時候,句中的不同單詞對于預測句子語步類型具有不同的影響。每種語步的表達也都依賴于一些特別的詞語。像圖2中的例句,句中有results,performance等非常明顯的關鍵詞,它們對于快速識別為結果語步類型具有更高的貢獻程度。考慮到這種普遍情況,該模型引入顯著性注意力(saliency attention),句子中的每個單詞都被視為一個特征,并計算其對特定語步類型的貢獻(顯著性值)。模型從人工標注的高質量數據中學習句子的語義特征,每個句子首先被分配一個表達整體語義的語步標簽,然后設計詞語顯著性向量(word saliency embeddings)與BERT模型的其他3種向量(即token,segment與position embeddings)一起作為輸入表示來捕捉特定詞語對于語步的貢獻情況,從而提升模型識別語步的能力,最終完成語步識別和標注。
自動標注結果上傳到標注平臺以后,標注團隊分工檢查標注結果,并進行修正。標注模型根據人工反饋的數據,可以不斷進行迭代優化,進一步提升標注效果。通過這種方式,可以快速提高標注速度和效率,在保證標注質量的同時擴大標注規模。語料標注完成以后,可以直接從標注平臺中導出如例③所示的JSONL格式標注文件,其中包括標注數據的ID、數據文本及相應的標簽等基本信息。
③ {\"id\": 20,
\"data\": \"Words can have multiple senses. Compositional distributional models of meaning have been argued to deal well with finer shades of meaning variation known as polysemy,but are not so well equipped to handle word senses that are etymologically unrelated, or homonymy.\",
\"label\": [[0, 31, \"BAC\"], [32, 265, \"GAP\"]]}
4 語料庫數據統計
本研究目前已標注2,670篇人工智能學科(NLP方向1,340篇,CV方向1,330篇)和2,000篇工程學科(通信工程和信息工程各1,000篇)的論文摘要,共得到33,988個語步。兩個學科領域論文摘要文本中的數據統計信息如表2所示。其中,平均句子數、平均詞語數和平均語步數分別指每篇摘要中平均包含的句子數量、單詞數量和語步數量。
4.1 各類語步結構在不同學科的標注情況
表3是語料庫中標注的各類語步的分布情況。從表3中可以看到,在摘要中不同類型語步的分布存在很大差異。MTD語步在兩個學科中的標注次數都是最多的,標注數量占比高約34%,甚至超過第二位BAC和第三位PUR的總和;而IMP的次數最少,只占低于1%的比例。表明不同領域的論文摘要均更關注MTD這一語步。這也跟直覺判斷是一致的,因為方法確實是摘要中最有吸引力和最重要的部分之一,在摘要中通常會重點說明論文研究使用的方法,體現出該論文的價值和亮點。在標注過程中,我們也發現,很多論文摘要中的方法語步甚至包括不止一個句子。
對比兩個學科領域可以看到不同學科的摘要文本特點和語步分布存在較大差異。結合表2和表3,工程領域的摘要文本數量比人工智能少了近700篇,但摘要文本的句子數量整體比人工智能領域多,而且平均詞語數量也遠高于人工智能,工程領域摘要的句子長度更長。語步分布上,工程領域的MTD語步數量遠高于人工智能領域,其他語步如BAC,GAP,PUR等數量均少于人工智能。這表明通信工程和機械工程這兩個工程學科的論文摘要更傾向用較多的語句來詳細論述研究方法。標注團隊在實踐中也確實發現,很多論文摘要開頭很少交代研究背景和研究差距,而是直接用一句話交代研究目的,隨即用多個連續的句子討論研究采用哪些方法,同時也不太注重提及研究本身的價值以及對于本領域的啟發和貢獻等。由于人工智能領域整體上具有明顯的開源特點,很多論文摘要中經常提到研究相關的代碼、數據等面向公眾開源,體現了對于研究社區的貢獻,我們會把這種表述統一標注為CTN,因此這一語步在人工智能領域的數量更多。
下面的兩個標注實例對比了NLP和ME兩個不同領域方向的摘要語步特點。
④"" [BAC]Knowledge graph (KG) entity ty-ping aims at inferring possible missing entity type instances in KG. [GAP]It is a very significant but still under-explored subtask of knowledge graph completion. [PUR]In this paper, we propose a novel approach for KG entity typing which is trained by jointly utilizing local typing knowledge from existing entity type assertions and global triple knowledge in KGs. [MTD]Specifically, we present two distinct knowledge-driven effective mechanisms of entity type inference ... [CLN]Experimental results on two real-world datasets (Freebase and YAGO) demonstrate the effectiveness of our proposed mechanisms and models for improving KG entity typing. [CTN]The source code and data of this paper can be obtained from GitHub...
⑤"" [PUR]This paper proposes a novel density-based method for structural design considering restrictions of multi-axis machining processes. [MTD]A new mathematical formulation based on Heaviside function is presented to transform the design field into a geometry which can be manufactured by multi-axis machining process. [MTD]The formulation is developed for 5-axis machining, which can be also applied to 2.5D milling restriction. The filter techniques are incorporated to effectively control the minimum size of void region. [MTD]The filter techniques are incorporated to effectively control the minimum size of void region. [CLN]The proposed method is demonstrated by solving the compliance minimization problem for different machinable freeform designs.
4.2" 各類語步結構在不同學科的出現情況
在語步分布的基礎上,如果不考慮每種語步在摘要中的標注次數(一次或者多次),只要標注了該語步,則認為該摘要文本中包括該語步類型。我們也對這種情況進行統計。表4顯示在2,670篇人工智能論文摘要和2,000篇工程領域論文摘要中,包括每種語步類型的摘要數量以及占全部摘要的比重。可以看到,標注PUR的摘要數量最多,超過2,300篇的人工智能論文摘要中都有該語步,工程領域論文也類似。兩個領域中出現數量第二位的都是MTD. 對比表3和表4中的PUR和MTD語步,在全部摘要中標注數量最多的MTD高于PUR,是因為在一篇摘要中,通常只有一個句子被標注為PUR,但可能有多個句子被標注為MTD.
5 實驗及分析
為了檢驗自動標注模型的效果,本部分基于已構建的語料庫開展了語步結構的自動標注實驗,分別從人工智能學科領域和工程學科領域中各抽樣50篇研究論文摘要作為開放測試集,對比我們的標注模型與大語言模型ChatGPT(GPT-4)和Claude3(Opus)的標注效果。GPT-4和Claude3(Opus)分別是OpenAI和Claude兩家競爭公司中目前最強大的模型。實驗采用F1值作為評價指標。F1可根據精確率(Precision,P)和召回率(Recall,R),由下面的公式計算得出:
F1=2PRP+R
其中,精確率和召回率的計算方法如下:
P=模型標注每類語步的正確數量模型標注每類語步的總數量
R=模型標注每類語步的正確數量數據集中每類語步的標準數量
5.1 實驗數據及設置
表5是實驗數據的基本統計信息。平均句子數和平均句長分別是每篇摘要中平均包含的句子數量和句子中的單詞數量。實驗在兩個大模型的官方網頁界面進行。為了盡可能地提高大語言模型識別語步類型的準確性,我們為GPT-4和Claude3設計了下面的提示語(prompt),包括每種語步的含義以及通過示例告訴大模型標注語步的要求和格式等。大模型根據提示語給出反饋以后,正式開始語步識別與標注任務。
Move structures are important semantic and discourse units in research articles (RA). You are a senior expert in the field of EAP and are very good at analyzing the move structures in English RAs from different disciplines. You will analyze the move structures with the pre-defined move types and their labels as follows:
(1) Background (BAC): States the research area and provides any historical, theoretical, or empirical related information. (2) Gap (GAP): Establishes a niche: indicates a gap, adds to what is known, pre-sents positive justification. (3) Purpose (PUR): Indicates purpose, hypothesis, outlines the intention behind the paper. (4) Method (MTD): Provides information on design, procedures, assumptions, approach, data, etc. (5) Result (RST): States main findings or results or what was accomplished. (6) Conclusion (CLN): Summarizes the results or extends results beyond scope of paper. (7) Implication (IMP): Draws inferences which has not been explicitly stated. (8) Contribution (CTN): Points out the theoretical and practical value of the methods used in the articles.
Please identity the most suitable move type and annotate it for [each sentence] in the abstract texts. That is, every complete sentence [must] have a move label. Here is an example: [BAC] Recent neural models for relation extraction with distant supervision alleviate the impact of irrelevant sentences in a bag by learning importance weights for the sentences. [GAP]Efforts thus far have focused on improving extraction accuracy but little is known about their explanability.
5.2 實驗結果及分析
本研究的BERT標注模型與兩個大語言模型的語步標注對比結果如表6所示。其中第二列是經人工核實后,數據集中每種語步類型的標準正確數量,其他幾列分別是每個模型識別標注出來的語步總數量、正確數量及F1值。
5.2.1 自動標注模型與大語言模型標注效果對比
從表6中可以看到,在當前實驗中,本研究的標注模型在兩個領域的語步識別F1指標均明顯地遠高于兩個大語言模型的結果,而且標注每種語步類型的F1也相對更加穩定。在人工智能領域和工程領域,識別效果最好的F1值均在95%以上,而GPT-4和Claude3的最高F1值僅接近85%。從圖3顯示的8種類型的語步整體識別的平均F1來看,也分別達到89%和86%(圖3);GPT-4和Claude3的整體平均F1則更低。
但值得說明的是,并不是所有語步的識別效果都優于大模型。通過具體分析3個模型的識別結果,也發現在某些摘要文本的語步識別中存在我們的模型識別錯誤、而大模型識別正確的情況。例如下面的實例:
⑥ [PUR]In this paper, we propose a novel
bipartite flat-graph network (BiFlaG) for nested named entity recognition (NER), which contains two subgraph modules: a flat NER module for outermost entities and a graph module for all the entities located in inner layers. [MTD]Bidirectional LSTM (BiLSTM) and graph convolutional network (GCN) are adopted to jointly learn flat entities and their inner dependencies.
在例⑥中,第二個句子出現在PUR語步之后,而且句中存在單詞adopted,是比較明顯的方法語步的信號。這個語步被我們的模型錯誤識別為BAC,但被GPT-4正確地識別為MTD. 從中可以看出GPT對于文本語義的理解能力。
5.2.2" 不同學科領域的語步標注效果對比
圖4是根據表6繪制的語步識別F1指標熱力圖。3個模型在AI領域的語步識別效果均明顯優于工程領域。特別是工程領域,藍色部分顯示的RST,CLN和CTN語步的識別效果都比較差。
具體從兩個領域來看,領域內各類語步的識別情況存在較大差異。在AI領域中,3個模型識別效果最好的語步類型均不相同,分別是BAC(我們的模型)、MTD(GPT-4)和PUR(Claude3);在工程領域,我們的模型除了在IMP和CTN兩個語步識別完全正確以外,識別最好的是GAP語步,其次是MTD,GPT4和Claude3則均在MTD上識別最好。這也再次說明MTD語步在不同領域論文摘要中的重要性以及在語句表達上有其特殊之處,比其他語步更容易被識別。
5.2.3 大語言模型之間的語步標注效果對比
接下來我們對比兩個大模型的標注效果。圖4顯示,GPT-4在AI領域的識別效果明顯好于Claude3,平均F1值比Claude3高10個百分點;而在工程領域,Claude3的效果略好于GPT-4,但二者都在50%附近,遠低于AI領域的平均F1,主要是受到RST,CLN和CTN語步的影響。由此可見,整體上AI領域的摘要語步類型特征更加明顯,更容易被識別出來。從摘要寫作的規范性和可讀性來看,可以認為AI領域論文摘要寫作的規范性和可讀性整體好于工程領域。
盡管兩個大語言模型的識別效果在兩個學科領域中存在差異,但二者的識別表現也具有一定的趨同性。例如:在兩個領域中,結論語步(CLN)的識別數量及準確識別數量均遠遠低于標準的正確數量,甚至出現個位數的識別量,導致F1值急劇下降。我們試圖跟GPT-4了解CLN識別過少的原因,它給出的解釋是“CLN通常出現在章節或文檔的末尾,如果提供的文本大部分來自文檔的引言或方法部分,那么自然會導致CLN的實例減少”。 換句話說,由于我們在提示語中明確提到識別的是摘要文本中的語步,因此GPT-4認為摘要中不應該出現過多的CLN語步。
與CLN相反,兩個領域中結果語步(RST)的識別數量則均超過標準正確數量,也就是把大量原本不屬于RST的語步識別為RST. 這種情況在我們的識別模型中也很普遍。例如下面的實例:
⑦ [MTD]We propose a simple, effective transition-based model with generic neural encoding for discontinuous NER. [CLN]Through extensive experiments on three biomedical data sets, we show that our model can effectively recognize disconti-nuous mentions without sacrificing the accuracy on continuous mentions.
在例⑦中,第二個句子的語步都被兩個大模型識別為RST,但實際應該是CLN. 因為如果句子中存在諸如show,demonstrate等單詞,一般就能比較明確地判斷為CLN.
我們分析了GPT和Claude識別效果不穩定的原因,認為可能主要表現在兩個方面:第一,實驗只使用了網頁版的大模型聊天模式,并未像專門訓練我們的BERT模型那樣有針對性地訓練大模型,因此大模型在一定程度上無法充分學習到摘要文本中的語義信息。第二,我們在提示語中也沒有為大模型提供太多的提示信息,包括幫助識別某種語步結構的關鍵信息等,例如,show,demonstrate 等詞語可以快速識別為CLN. 我們相信如果進一步優化prompt,將會提升大語言模型的語步識別效果。
6 結束語
本文面向英語科技論文寫作,借助自然語言處理前沿技術構建了一個涵蓋多個學科領域、較大規模的論文摘要語步結構標注語料庫,同時檢驗了大語言模型在語步結構識別上的性能與效果。主要通過人工標注與自動標注+人工校對的方式構建,采用了基于BERT的語步自動識別與標注模型,能夠保證語料庫建設的規模和質量。在語步自動識別實驗中,本文的模型在不同學科領域中的各類語步類型識別效果均優于大語言模型GPT4和Claude3的識別效果,體現了所構建的語料庫和自動識別模型的有效性和價值。實驗結果呈現出來的幾個方面的結論對于研究者深入認識不同學科領域的語步結構和大模型的語義理解能力等也具有重要的啟發作用。
該語料庫能夠為科技論文信息抽取、科技論文智能輔助寫作和批改等自然語言處理任務以及跨學科領域語步分析等外語教學和研究提供必要的數據資源支持,幫助二語學習者更好地理解論文語步結構,提升寫作能力以及國際學術交流能力等,同時通過語言智能技術賦能外語場景,有助于推動外語教育數字化轉型,進一步實現智慧外語教育的目標。
在未來的研究中,我們將在現有工作成果的基礎上繼續標注更多學科領域的摘要文本語步結構,持續擴大語料庫的規模。我們同時也考慮標注科技論文中的其他組成部分,例如引言和方法部分,目標是建設大規模、多領域、多元化的語步數據資源,為開展科技論文寫作智能批改等后續研究提供堅實基礎。
*劉芳為本文的通訊作者。
參考文獻
丁良萍 張智雄 劉 歡. 影響支持向量機模型語步自動識別效果的因素研究[J]. 數據分析與知識發現, 2019(3).‖Ding, L.-P., Zhang, Z.-X., Liu, H. Factors Affecting Rhetorical Move Recognition with SVM Model[J]. Data Analysis and Knowledge Discovery, 2019(3).
杜新玉 李 寧. 中文學術論文全文語步識別研究[J]. 數據分析與知識發現, 2024(8).‖Du, X.-Y., Li, N. Identifying Moves in Full-text Chinese Academic Papers[J]. Data Analysis and Knowledge Discovery, 2024(8).
黃 紅 陳 沖 張婧瑩. 科技文獻內容語義識別研究綜述[J]. 情報學報, 2022(1).‖Huang, H., Chen, C., Zhang, J.-Y." Review on Identifying the Semantics of Scientific Literature Content[J]. Journal of the China Society for Scientific and Technical Information, 2022(1).
劉 霞. 英語學術論文摘要語步結構自動識別模型的構建[D]. 北京外國語大學博士學位論文, 2016.‖Liu, X." Constructing a Model for the Automatic Identification of Move Structure in English Research Articles Abstracts[D]. Beijing Foreign Studies University, 2016.
王東波 高瑞卿 葉文豪 周 鑫 朱丹浩. 不同特征下的學術文本結構功能自動識別研究[J]. 情報學報, 2018(37).‖Wang, D.-B., Gao, R.-Q., Ye, W.-H., Zhou, X., Zhu, D.-H. Research on the Structure Re-cognition of Academic Texts Under Different Characteristics[J]. Journal of the China Society for Scientific and Technical Information, 2018(37).
王 末 崔運鵬 陳 麗 李 歡. 基于深度學習的學術論文語步結構分類方法研究[J]. 數據分析與知識發現, 2020(4).‖Wang," M., Cui, Y.-P., Chen, L.," Li, H. A Deep Learning-based Method of Argumentative" Zoning for Research Articles[J]. Data Analysis and Knowledge Discovery, 2020(4).
楊延寧 鄒 航. 基于語步結構的學術論文語篇構式研究[J]. 外語教學理論與實踐, 2023(2).‖Yang, Y.-N.," Zou, H. A Study of" Move-based Academic Discourse Construction[J]. Foreign Language Learning Theory and Practice, 2023(2).
張 鑫 許海云 楊 寧 方 肖 趙 爽. 有限樣本下的科技文獻語步識別方法探討[J]. 圖書情報工作, 2024(8).‖Zhang, X., Xu, H.-Y., Yang, N., Fang, X., Zhao, S. Discussion of Moves Recognition of Scientific Documents Under Limited Samples[J]. Library and Information Service, 2024(8).
Alliheedi, M., Mercer, R., Cohen, R. Annotation of" Rheto-rical Moves in Biochemistry Articles[R]. Proceedings of the 6th Workshop on Argument Mining, 2019.
Alsharif, M. Rhetorical Move Structure in Business Management Research Article Introductions[J]. Journal of" Language" and Linguistic Studies, 2023(4).
Cotos," E., Huffman, S., Link, S." A Move/Step Model for Methods Sections: Demonstrating Rigour and Credibility[J]. English for Specific Purposes, 2017(6).
Devlin, J., Chang," M., Lee, K., Toutanova, K. Bert: Pre-training of" Deep Bidirectional Transformers for Language Understanding[R]. Proceedings of NAACL-HLT, 2019.
Hyland," K." Disciplinary Discourses: Social Interactions in Academic Writing[M]. London: Longman, 2000.
Hyland, K. As Can Be Seen: Lexical Bundles and Disciplinary Variation[J]. English for Specific Purposes, 2008(1).
Lin, J., Li, H., Feng, C., et al. Move Structure Recognition in Scientific Papers with Saliency Attribution[R]. Proceedings of China Conference on Knowledge Graph and Semantic Computing, 2023.
Lu, X., Yoon, J., Kisselev, O. Matching Phrase-frames to Rhetorical Moves in Social Science Research Article Introductions[J]. English for Specific Purposes, 2021(1).
Moreno, A., Swales, J. Strengthening Move Analysis Met-hodology Towards Bridging the Function-form Gap[J]. English for Specific Purposes, 2018(5).
Swales, J. Genre Analysis: English in Academic and Research Settings[M]. Cambridge: Cambridge University Press, 1990.
Swales, J." Research Genres: Explorations and Applications[M]. Cambridge: Cambridge University Press, 2004.
Swales, J." The Futures of EAP Genre Studies: A Personal Viewpoint[J]. Journal of English for Academic Purposes, 2019(8).
Swales, J., Feak, C." Abstracts and the Writing of Abstracts[M]. London: University of Michigan Press, 2009.
Teufel, S. The Structure of Scientific Articles: Applications to Citation Indexing and Summarization[M]. Stanford: CSLI Publications, 2010.
Teufel, S., Carletta, J., Moens, M. An Annotation Scheme for Discourse-level Argumentation in Research Articles[R]. Ninth Conference of the European Chapter of the Association for Computational Linguistics, 1999.
Teufel, S., Siddharthan, A., Batchelor, C. Towards Domain-Independent Argumentative Zoning: Evidence from Chemistry and Computational Linguistics[R]. Procee-dings of the 2009 Conference on Empirical Methods in Natural Language Processing, 2009.
Viera, R. Rhetorical Move Structure in Abstracts of" Research Articles Published in Ecuadorian and American English-Speaking Contexts[J]. Arab World English Journal (AWEJ), 2020(10).
定稿日期:2024-12-10【責任編輯 謝 群】