









摘 要:在構建高性能大模型時,大規模高質量數據的重要性不容忽視。本研究旨在深入探究這一核心要素,并系統評估其在專業領域中的實際應用效果與潛在價值。本研究基于中國知網大量專業文獻,構建了一個包含1 316.45億token的學術資源數據集AcaDS和2 700萬條指令的下游微調數據集AcaDSI,采用Transformer架構設計并訓練了一個70億參數規模的生成式學術大模型AcaLM-7B。通過實驗評測,AcaLM-7B在面向學術研究的6個核心應用場景中獲得總積分第一、3個單項第一和2個單項第二,驗證了大規模高質量數據資源在構建專業大模型中的核心地位。此外,本研究在數字出版行業具有實際應用價值,有利于提升內容生產效率并優化用戶體驗。
關鍵詞:高質量數據;學術大模型;出版大模型;知網大模型;專業應用場景;模型評測
DOI: 10.3969/j.issn.2097-1869.2024.03.014 文獻標識碼: A
著錄格式:薛德軍,師慶輝,畢琰虹,等.數據引擎驅動的學術出版大模型:實測檢驗大規模高質量數據在構建高性能模型中的核心地位[J].數字出版研究,2024,3(3):122-132.
隨著人工智能技術的持續發展,大模型的應用已廣泛滲透到多個領域[1-2],展現出卓越的性能和廣泛的應用前景[3]。大模型不僅提升了處理各種任務的能力[4],也為特定領域的任務提供了更加高效的解決方案[5-6]。然而,實際應用場景的下游任務越來越專業化與復雜化,這意味著對大模型性能的要求也越來越高[7-10]。影響大模型性能的因素眾多,其中高質量數據已越發重要并成為核心要素。數據的質量和規模直接關系到模型訓練的效果和最終性能表現[11]。無論是針對通用任務還是特定領域的專業應用,高質量的數據都是構建高性能模型的基礎[12]。特別是在專業應用領域如學術研究,通用數據集往往難以覆蓋該特定領域的專業知識和細節。
目前公開的通用大模型在處理學術任務時,其性能常受限于缺乏針對學術領域的特定訓練數據。因此,通用大模型在理解和生成學術文獻中的專業術語、研究方法、核心思想等任務中的準確性往往不高,將其應用于自動摘要生成、學術問答、段落總結等學術應用場景時,其性能受到限制,難以完全滿足學術需求。此外,學術領域的數據通常較為稀缺且分散,這進一步增加了模型訓練的難度。同時,學術領域的專業性和獨特性使得通用大模型在遷移到其他領域時,可能需要額外的調整和優化,以適應新的領域特性。因此,構建一個高質量的學術數據集,并在此基礎上訓練出能夠服務于學術研究的大模型,不僅有助于推動學術研究的智能化,提高研究效率和準確性,還能促進跨學科研究的融合與創新。同時,這也為人工智能技術在學術領域的應用帶來了新的機遇和挑戰。
本研究基于中國知網(以下簡稱“知網”)豐富的學術資源,篩選出覆蓋廣泛學科領域的多類型學術文獻,構建了一個具有專業性和多樣性的高質量學術數據集AcaDS。采用Transformer架構訓練了一個70億參數規模的生成式學術大模型AcaLM-7B,并通過實驗評測該模型在面向學術研究的6個核心應用場景中的性能,從而分析大規模高質量數據資源在構建專業大模型中的作用。
1 基礎數據集與指令數據集構建
1.1 高質量數據集特性
在構建用于訓練學術大模型的數據集時,高質量數據集的特性尤為重要。這些特性不僅關乎模型訓練的效率和效果,更直接影響模型在下游任務中的性能表現[11-12]。以下是從數量規模、數據質量、多樣性、專業性和通用性等方面對高質量數據集特性的闡述。
首先,高質量數據集應具備一定的數量規模。這種規模不僅體現在數據量的多少,更在于數據是否能夠全面覆蓋下游領域的任務。數據集需要包含足夠多的樣本,以確保模型能夠學習各領域的知識。
其次,數據質量是高質量數據集的核心要素。數據集的來源應是專業領域內被廣泛認可的權威數據,以保證數據的可靠性。數據應經過進一步嚴格篩選和清洗,去除其中的噪聲、重復和無關信息,以確保數據的準確性。
此外,數據的多樣性也是高質量數據集的重要特性。多樣性體現在數據的來源、類型及數據在各維度上的平衡。學術大模型通常是面向多任務的,數據集需要在滿足覆蓋多學科要求的同時,在各學科領域之間保持平衡,以避免模型在訓練中出現偏倚或過度擬合的情況。
最后,數據的專業性和通用性也是高質量數據集的特性。專業性體現在數據集包含特定領域的專業基礎和前沿技術。通用性則體現在數據集具備廣泛的適用性,能夠支持多種應用場景。專業性和通用性的結合有助于模型在特定領域內表現出色,同時也使其具備一定的跨領域應用能力。
1.2 基礎數據集構建
基于知網學術資源庫,本研究收集了學術期刊、各類型論文、報紙、專利等多類型的學術文獻,總計約2 902.5億字文本數據,覆蓋近億篇文獻,文本數據來源分布見表1。基于該文本數據進行嚴格的數據篩選和清洗,去除噪聲和重復信息,保留高質量的數據樣本,構建了1 316.45億token的學術資源數據集AcaDS。
數據集AcaDS在數據分布上力求均勻,覆蓋不同年份及廣泛學科,以提供全面、深入的學術領域知識。AcaDS中不同科學領域數據的占比情況見圖1。
AcaDS充分滿足了高質量數據集在數量規模、數據質量、多樣性等方面的要求。其權威的數據來源、嚴格的數據篩選和清洗過程,以及廣泛覆蓋不同學科領域的特點,使得AcaDS能夠為學術大模型的訓練提供堅實的數據基礎。
1.3 數據預處理
在數據預處理階段,首先進行數據去重操作以確保數據質量,旨在消除冗余和重復的數據,以提高數據集的純凈度和有效性。
接著進行分詞處理,將學術文本切分為獨立的詞匯單元。由于學術文本的復雜性和專業性,分詞算法需要特別考慮專業術語和縮寫詞,以確保準確捕捉文本中的關鍵信息。
最后,利用字節對編碼(Byte Pair Encoding,BPE)算法[13]將文本轉換為固定長度的向量序列。BPE算法通過合并最常出現的子詞來生成新的詞匯單元,有效解決了未登錄詞(Out of Vocabulary,OOV)1和稀有詞的問題,為模型訓練提供有效的數值化表示。這種表示方式不僅保留了文本中的關鍵信息,還降低了數據的維度和復雜性,從而提高了模型的訓練效率和準確性。
1.4 指令數據集構建
本研究基于基礎數據集AcaDS,根據學術論文的特點,抽取文章中的標題、摘要、大綱等關鍵數據,自動構建了包含2 700萬條指令的大規模指令數據集AcaDSI。該數據集專注于6個核心學術領域的任務,包括摘要生成、文本續寫、段落總結、大綱生成、開放問答和抽取問答。AcaDSI構建步驟見表2。
2 模型結構與訓練策略
2.1 模型結構
AcaLM-7B模型是以開源模型LLaMa-7B[14]為基礎,針對學術領域的深度優化而構建的大型語言模型,參數規模70億。其核心結構包含一個4 096維度的詞向量嵌入層,通過堆疊32層的Transformer結構來捕捉文本中的深層語義信息,每一層采用32個注意力頭數。此外,詞表大小設置為55 000,以支持多語種、多符號的學術文本表達能力,窗口長度為8 192,以支持對長文本的有效處理。
針對學術領域的優化方面,由于LLaMa-7B模型原始詞典在適應學術文本上存在不足,因此本文利用學術領域數據,通過BPE算法[13]生成了具備學術特色的詞典,并采用詞級粒度對文本進行分詞處理。這不僅增強了模型對學術語義信息的理解,還提升了其處理長文本的能力。此外,本文引入DeepNorm方法[15]替換原有歸一化策略,有效緩解了模型參數更新問題,提高了訓練穩定性,為模型未來擴展到更大規模(如百億級別)奠定基礎。
2.2 訓練策略
AcaLM-7B模型的訓練經歷了兩個階段:首先,在1 316.45億token的預訓練數據集AcaDS上進行訓練,使模型掌握學術語言規律;然后,在2 700萬條指令的指令數據集AcaDSI上進行微調,確保預訓練后的模型更適應學術下游任務的具體應用場景。
訓練硬件環境為GPU_Nvidia_A800_640G_ 8GPU-Mods*4。
3 實驗結果
3.1 評測任務與數據集
為檢驗AcaLM-7B模型的學術服務能力,本研究設計了6個學術領域常用的應用場景:摘要生成、文本續寫、段落總結、大綱生成、開放問答和抽取問答,這些場景覆蓋了學術寫作與研究的多個方面。任務描述與評測目標見表3。每項任務從指令數據集AcaDSI中隨機抽取30個樣本(不放回)作為測試數據,構成整個評測任務的數據集。
3.2 評測模型
在評測中,依據數據來源、模型大小等綜合因素,本文選取了華知大模型[16]和ChatGLM-6B[17]兩款大模型,與AcaLM-7B共同參與評測。
華知大模型,是同方知網與華為公司聯合研發的面向知識服務領域的大語言模型,參數規模約380億。該模型以盤古38B模型為基礎,使用知網部分專業學術資源進行增強訓練,以提高其專業知識服務能力[16]。
ChatGLM-6B,是目前10B以下參數中質量較好的開源通用大模型之一,它繼承了GLM-3系列前代模型的優秀特性,支持多種復雜應用場景,具有出色的通用性能[17]。
選擇華知大模型參與評測,旨在探究大模型在結合專業資源訓練后的性能表現。選擇ChatGLM-6B參與評測,是由于其參數量與AcaLM-7B相近,在目前相近參數量的開源大模型中質量較好,進而可以對比其與僅依賴專業資源構建的AcaLM-7B在性能上的差異,從而探究不同構建方式對模型性能的影響機制。
3.3 人工評測
在人工評測環節,筆者邀請5名具備大模型評測經驗的工作人員參與,通過多輪交叉評測確保結果的客觀性。在每輪評測中,工作人員隨機接收不同任務,并在任務輪換中完成對多個模型的評測,以減少主觀偏見。評測采用排名積分制(5分制),根據模型表現進行排名并賦分。每輪任務完成后,計算平均得分作為本輪成績,最終取多輪評測得分的均值,轉化為百分制(乘以20)得出模型的最終評測得分。
最后,每個模型在6項評測任務中的平均得分為該模型服務學術任務的總積分。
3.4 結果分析
對AcaLM-7B、華知大模型、ChatGLM-6B這3個大模型的綜合評測結果見表4,可視化效果圖見圖2。
綜合評測結果顯示,AcaLM-7B的總積分排名第一,華知大模型緊隨其后,ChatGLM-6B位列第三。此結果反映了3個大模型對下游學術任務的服務能力是不同的,AcaLM-7B整體效果最好。
3.4.1 AcaLM-7B
具體來看,AcaLM-7B在摘要生成、段落總結和抽取問答3個任務中均排名第一,同時在文本續寫和大綱生成任務中排名第二,從而以最高總積分在綜合評測中脫穎而出。這充分說明AcaLM-7B在理解和處理學術文本信息、提取關鍵學術內容方面具有強大能力。摘要生成任務、段落總結任務評測中實例分別見表 5、表 6。
如表5所示,從摘要生成任務實例中可以看出,AcaLM-7B能夠準確捕捉論文的核心內容,并生成精煉且連貫的摘要文本。它成功地涵蓋了研究目的、方法、結果及結論等關鍵信息,提供了對論文全面且準確的理解。相比之下,華知大模型與ChatGLM-6B在摘要生成方面稍顯不足,存在信息遺漏或表達不夠準確的問題。
實例1(Prompt 1)中,AcaLM-7B精準捕捉了醫療旅游產業的發展概況、時空演化特征及影響因素等多個關鍵信息,并生成了具有高度概括性和可讀性的摘要;華知大模型雖然對醫療旅游產業的概念、發展現狀及耦合協調程度進行了分析,但在表達上不夠準確,部分信息未能完全捕捉;ChatGLM-6B雖然提供了較為詳細的內容框架,但在具體信息的呈現上略顯籠統,未能充分展現學術論文的精髓。
實例2(Prompt 2)中,AcaLM-7B不僅準確提煉了研究的核心內容,還對其設計原理、實現方法及實驗驗證結果進行了詳盡而深入的分析,生成的摘要邏輯清晰、條理分明,能夠充分展現論文的創新點和學術價值;華知大模型雖然也提到了微帶反射陣單元的相位電可控設計,但并未深入探討其設計原理和實現方法,只是簡要概述了其優點和應用方向;ChatGLM-6B則更側重于從標題中提取關鍵信息,生成了較為簡潔的中心思想,缺乏對論文內容的深入理解和闡述。
通過分析,AcaLM-7B在摘要生成任務上的優勢主要得益于其訓練過程中所使用的專業優質資源,這些資源為模型提供了豐富的學術領域知識,使其能夠準確地理解并生成學術文本的摘要。
如表6所示,從段落總結任務實例中可以看出,AcaLM-7B對信息的捕捉精準且概括能力突出,華知大模型和ChatGLM-6B的總結內容都稍顯冗長,在簡潔性和概括性方面有所欠缺。
實例1(Prompt 1)中,對于養老保險關系轉移規定的描述,AcaLM-7B的總結既準確又簡潔,直接點明了跨省轉移養老保險關系的一般規定,充分體現了其高效的信息處理能力;華知大模型雖然準確地提到了轉移的規定,但表述略顯冗長,超過了字數限制;ChatGLM-6B則較為詳細地描述了轉移的各種情況,包括省內外的不同處理方式,但同樣在字數控制上稍顯不足。
實例2(Prompt 2)中,AcaLM-7B準確地抓住了作文立意與學生個性發展之間的關系,并用簡潔的語言進行了概括,既符合字數要求又體現了文本的核心要義;華知大模型較為全面地概括了作文教學中立意的重要性及如何通過提煉主題和滲透學生個性來培養學生寫出有新意的作文,但在字數控制上仍稍顯不足;ChatGLM-6B則詳細描述了新課改的要求及如何通過具體例子來體現好的立意,但同樣在簡潔性上有所欠缺。
通過分析,AcaLM-7B在段落總結任務中的出色表現,同樣得益于其訓練過程中的專業優質資源及模型架構優化。這些因素共同作用,使得AcaLM-7B能夠更準確地理解段落內容并生成簡潔明了的總結。
3.4.2 華知大模型
華知大模型在大綱生成任務中排名第一,同時在摘要生成、段落總結、開放問答及抽取問答4項任務中位列第二,總積分排名第二。大綱生成任務評測中的實例見表7。
從大綱生成任務實例中可以看出,華知大模型能夠準確布局論文的各個部分和章節,并生成清晰的大綱框架,從引言到結論,每個部分都進行了詳細的規劃和說明。相比之下,AcaLM-7B與ChatGLM-6B在大綱生成時存在結構不清晰或內容不完整的問題。
華知大模型的出色性能主要得益于兩方面:一是華知大模型以華為的38B盤古大模型為基座,基于知網的學術資源進行二次訓練,習得了專業領域的知識表示,有助于解決下游專業任務;二是華知大模型的參數量比AcaLM-7B大5倍,因而知識表示更專業、學習能力更強。
3.4.3 ChatGLM-6B
ChatGLM-6B在文本續寫和開放問答2個任務中排名第一,表現出該模型在理解和生成自然流暢文本、開放問答場景方面的強大能力。特別是在開放問答任務中,ChatGLM-6B的得分遠高于其他2個模型,進一步凸顯其在問答領域的優勢。開放問答任務中的評測實例見表8。
開放問答任務實例中可以看出,ChatGLM-6B能夠準確理解問題的背景和需求,并提取相關信息進行回答。相比之下,AcaLM-7B與華知大模型在回答時存在信息不足或回答不夠準確的問題。
ChatGLM-6B在開放問答任務中的出色表現,主要由于模型在訓練階段對通用問答數據的深度挖掘及模型架構針對問答任務的專項優化。這些因素共同促使ChatGLM-6B能夠精準理解問題,并從知識庫中提取相關信息,給出準確回答。
然而,ChatGLM-6B在其他評測任務中的表現相對較弱。這源于該模型主要基于公開、通用的數據集進行訓練,缺乏專業文獻資源的支撐。因此,在應對專業領域的開放問題時,ChatGLM-6B表現出一定的局限性。
通過對各個評測任務的結果分析,可以發現大模型的性能不僅與其參數規模緊密相關,訓練資源的多樣性、質量、專業性及通用性也同樣關鍵。特別是,大規模高質量專業數據資源對于大模型的性能提升具有顯著影響。華知大模型因龐大的參數量在特定任務中表現出色,ChatGLM-6B則凸顯通用知識的重要性,這也為提升AcaLM-6B整體性能提供了兩個方向:一是通過擴大模型規模來增強其表示與學習能力;二是加入更多通用資源,以提高模型在特定領域與通用場景下的整體性能。實驗結果論證了大規模高質量數據在模型構建與優化中占據的核心地位。研究發現不應僅關注模型參數的規模,更要深入探索如何有效整合和利用這些高質量數據,以推動大模型技術的發展和性能的提升。
4 結語
本研究深入探究了大規模高質量數據集在構建專業大模型中的核心作用。基于知網大規模的專業文獻,本研究構建了包含1 316.45億token的高質量學術資源數據集AcaDS,根據學術文獻特點,自動合成了2 700萬條指令的微調數據集AcaDSI,訓練了70億參數量的生成式學術大模型AcaLM-7B。針對學術研究常用的應用場景,本研究設計了6個下游評測任務,并對AcaLM-7B、華知大模型、ChatGLM-6B 這3個大模型進行了綜合評測。
實驗結果顯示,AcaLM-7B在面向學術研究的6個應用場景中獲得總積分第一,并在摘要生成、段落總結和抽取問答3個任務中均排名第一。這一結果充分驗證了大規模高質量數據資源在構建專業大模型中的關鍵作用。AcaLM-7B通過利用知網大規模的專業文獻數據,習得了豐富的專業領域知識表示,從而在處理學術任務時表現出色。
與此同時,華知大模型和ChatGLM-6B也展現了各自的優勢。華知大模型基于華為的38B盤古大模型,通過二次訓練增加了學術資源,其龐大的參數量(比AcaLM-7B大5倍)使得其在大綱生成任務中表現突出。ChatGLM-6B則在文本續寫和開放問答任務中取得了顯著成績,特別是在開放問答任務中,其得分遠高于其他2個模型,凸顯了其在問答領域的優勢。
通過對比分析,本研究揭示了不同類型大模型在不同任務中的性能差異與潛在優勢。這一發現不僅為構建更加全面、均衡的高性能大模型提供了重要參考,也為未來研究指明了方向。未來研究可進一步關注如何結合專業資源與通用知識,構建更加全面、均衡的高性能大模型,滿足多樣化實際應用場景的需求。
未來的研究將不再局限于單一的數據集或模型,而是會進一步探索多源數據的融合策略,構建出更加全面、均衡的大模型。首先,進一步探索多源數據的融合技術,通過整合來自不同領域的數據,構建出更加豐富、均衡的數據集,以支持大模型在更廣泛場景下的應用。其次,關注數據的動態更新和擴展。隨著學術領域知識的不斷發展和新研究成果的涌現,數據集需要不斷更新以反映最新的學術動態。此外,研究數據集的標簽質量和多樣性也非常重要,通過提高標簽的準確性和豐富性,進一步提升大模型在各類學術任務中的性能。最后,研究將致力于構建跨領域、跨語言的數據集,支持大模型在全球化、多語言環境下的應用。這些研究方向為構建更高質量、更具實際應用價值的數據集提供有力支撐,并進一步推動專業大模型的發展。
作者簡介
薛德軍,男,博士,同方知網數字出版技術股份有限公司副總經理兼總工程師、高級工程師。研究方向:自然語言處理、深度學習、大模型。
師慶輝,男,同方知網數字出版技術股份有限公司技術研究院總經理。研究方向:自然語言處理、深度學習、大模型。
畢琰虹,本文通信作者,女,博士,同方知網數字出版技術股份有限公司中級工程師。研究方向:計算機視覺、人工智能、大模型。E-mail:byh11630@cnki.net。
蘆筱菲,男,碩士,同方知網數字出版技術股份有限公司項目部經理。研究方向:模式識別、人工智能、大模型。
陳婧,女,碩士,同方知網數字出版技術股份有限公司軟件設計師。研究方向:深度學習、機器學習、神經網絡。
王旭,男,同方知網數字出版技術股份有限公司中級工程師。研究方向:自然語言處理、大語言模型微調和壓縮。
王海山,男,碩士,同方知網數字出版技術股份有限公司項目經理。研究方向:圖像處理,數據分析。
耿崇,男,碩士,同方知網數字出版技術股份有限公司技術研究院副總經理。研究方向:自然語言處理、語義檢索、大模型。
吳晨,男,博士,同方知網數字出版技術股份有限公司技術專家、高級工程師。研究方向:人工智能,區塊鏈。
參考文獻
ASHISH V, NOAM S, NIKI P, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017(30): 5998-6008.
BONAN M, HAYLEY R, ELIOR S, et al. Recent advances in natural language processing via Large pre-trained language models: A survey[J]. ACM Computing Surveys, 2024, 56(2): 1-40.
JACOB D, MING-WEI C, KENTON L, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[EB/OL].(2018-10-11)[2024-05-20]. https://arxiv.org/pdf/1810.04805.
ALEC R, KARTHIK N, TIM S, et al. Improving language understanding by generative pre-training[EB/OL].[2024-05-20] .https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.
ALEC R, JEFFREY W, REWON C, et al. Language models are unsupervised multitask learners[J]. OpenAI Blog, 2019,1(8):9.
DING N, QIN Y, YANG G, et al. Parameter-efficient fine-tuning of large-scale pre-trained language models[J]. Nature Machine Intelligence, 2023, 5(3): 220-235.
ZHAO W X, ZHOU K, LI J, et al. A survey of large language models[EB/OL].(2023-03-31)[2024-05-20]. https://arxiv.org/pdf/2303.18223v1.
YUAN S, ZHAO H, ZHAO S, et al. A roadmap for big model[EB/OL].(2022-03-26)[2024-05-20]. https://arxiv.org/abs/2203.14101.
YANG J, JIN H, TANG R, et al. Harnessing the power of LLMs in practice: A survey on ChatGPT and beyond[EB/OL].(2023-04-26)[2024-05-20]. https://arxiv.org/pdf/2304.13712.
LONG O, WU J, XU J, et al. Training language models to follow instructions with human feedback[C]// Conference on Neural Information Processing Systems, New Orleans, Los Angeles, 2022, 35:27730-27744.
BROWN T B, MANN B, RYDER N, et al. Language models are few-shot learners[C]// Conference on Neural Information Processing Systems, New Orleans, Los Angeles, 2020, 33:1877-1901.
LIU Y, CAO J, LIU C, et al. Datasets for large language models: A comprehensive survey[EB/OL].(2024-02-28)[2024-05-20]. https://arxiv.org/pdf/2402.18041.
SENNRICH R, HADDOW B, BIRCH A. Neural machine translation of rare words with subword units[EB/OL]. (2015-08-31)[2024-05-20]. https://arxiv.org/pdf/1508.07909.
HUGO T, THIBAUT L, GAUTIER I, et al. LLaMA: Open and efficient foundation language models[EB/OL]. (2023-02-27)[2024-05-20]. https://arxiv.org/pdf/2302.13971.
WANG H, MA S, DONG L, et al. DeepNet: Scaling transformers to 1,000 layers[EB/OL]. (2022-03-01)[2024-05-20]. https://arxiv.org/pdf/2203.00555.
華知.中華知識大模型[EB/OL].[2024-05-20].https://huazhi.cnki.net.
ChatGLM-6B: An open bilingual dialogue language model[EB/OL].[2024-05-20].https://github.com/THUDM/ChatGLM-6B.
Data-Driven Academic Publishing Large Model—An Empirical Test of Centrality of Large-Scale and High-Quality Data in Building High-Performance Models
XUE Dejun, SHI Qinghui, BI Yanhong , LU Xiaofei, CHEN Jing, WANG Xu, WANG Haishan, GENG Chong, WU Chen
Tongfang Knowledge Network Digital Publishing Technology Co.,Ltd, 100192, Beijing, China
Abstract: The importance of large-scale and high-quality data is paramount in building high-performing large models. This paper delved into this core element and systematically evaluated its practical application impacts and potential value in the professional field. Based on a large number of professional literature from China National Knowledge Infrastructure (CNKI), this paper constructed an academic resource dataset, AcaDS, containing 131.645 billion tokens and a fine-tuning dataset, AcaDSI, with 27 million instructions. A generative academic large model, AcaLM-7B, with 7 billion parameters was designed and trained using the Transformer architecture. Through experimental evaluation, AcaLM-7B achieved the first place in total score and the first place in three individual categories and the second place in two individual categories in six core application scenarios for academic research, demonstrating excellent performance and verifying the core position of large-scale and high-quality data resources in building professional large models. In addition, this paper facilitated the improvement of content production efficiency and optimization of user experience, and thus had practical application value in the digital publishing industry.
Keywords: High-quality data; Academic large model; Publishing large model; CNKI large model; Professional application scenarios; Model evalution