







摘要:大語言模型應用效果依賴于高質量數據,從原始語料構建訓練數據集和檢索增強知識的過程中,端到端的數據管理和處理變得至關重要。當前數據服務面臨著因數據處理質量差而影響大語言模型應用效果、數據準備效率低、實現的高復雜性和高成本等問題。為解決這些問題,文章提出一種面向大語言模型的數據協同服務方案,對原始語料、數據集和知識處理進行有效協同,基于算子可視化編排的自動化處理技術和跨平臺統一計算調度框架,設計實現了一種端到端數據服務平臺,能有效滿足各類大語言模型應用對于數據的不同需求。該平臺提升了數據質量、處理效率和靈活性,降低了成本,顯著增強了大模型應用效果,具有較強的通用性和廣闊的應用前景。
關鍵詞:大語言模型;協同服務;算子可視化編排;計算調度;數據服務平臺
中圖分類號:TP391 "文獻標志碼:A
0 引言
國家提出發展新質生產力,其中“人工智能+”應用是重要方向[1] 。隨著ChatGPT等大語言模型應用的崛起[2],越來越多的行業領域需要大語言模型應用來產生創新價值、提升生產效率、降低生產成本,而大語言模型應用的一個重要基礎是需要一定規模的高質量、多樣性數據對大模型預訓練或微調[3],同時基于行業專業性和時效性要求,須建立本地向量知識庫用于檢索增強生成(Retrieval-Augmented Generation,RAG)[4]。
當前面向大語言模型應用的數據服務存在以下問題:(1)數據管理和處理缺乏統一的原始語料共建共享,針對數據的采集、預處理、標注、質量評估、增強和知識入庫、檢索等技術未進行系統性整合,相互難以協同,導致數據服務不能方便地端到端高質量完成,嚴重降低了數據質量,影響了大語言模型應用的效果;(2)端到端的數據全流程處理場景須要執行多個復雜步驟,分步執行效率低,自動化能力不足,對于新的處理要求,擴展不靈活、不方便,這些都大幅增加了數據準備的復雜度,降低了效率,嚴重影響了大語言模型應用的迭代交付;(3)對于數據服務平臺建設而言,為保證綜合處理性能,須要針對不同的數據處理場景對接使用不同的底層計算平臺和框架,對使用的復雜性和成本帶來了嚴重挑戰。
為此,本文提出一種面向大語言模型的數據統一協同服務方案,對原始語料、數據集和知識處理進行有效協同,基于算子可視化編排的自動化處理技術和跨平臺統一計算調度框架,設計實現了一種端到端數據服務平臺,有效解決了上述問題。
1 相關技術研究
1.1 大語言模型應用的數據處理和系統構建
面向大語言模型的應用,一般須要將大語言模型和外部知識源結合,通過檢索增強生成技術提高領域知識的廣度、深度和時效性,從而提升生成效果。因此目前的研究主要集中在對訓練數據集和知識的處理上。數據集研究方面針對訓練數據要求規模大、質量高、具備多樣性和時效性的特點,提出了數據集預處理[5]、數據自動標注 [6-7],數據質量分析與評估[8]、數據多樣性增強和數據時效性保證等方法[9]。知識管理研究方面主要是針對檢索增強生成的需要提出了向量知識管理和檢索的方法[10]。
大語言模型應用對數據處理提出了更高要求,數據處理方法也更加復雜,為了向大語言模型應用的模型訓練人員和知識庫構建人員提供大規模、高質量、多樣性和及時性的數據和知識,必須在上述方法研究的基礎上進行平臺系統構建。目前的研究主要采用Spark或Flink框架作為基礎計算平臺[11-12],在此基礎上通過整合多種數據處理框架、工具和腳本來構建基本的數據處理系統。大多數數據處理系統均具備對訓練數據集導入、預處理、標注的基本能力,一部分系統具備對數據集質量分析評估、多樣性增強的能力,少數系統具備對向量知識管理和檢索的能力。
上述數據處理方法和系統可以一定程度滿足大語言模型應用對數據的使用要求,但仍然存在以下不足。
(1)數據端到端處理缺乏協同,完整的服務能力不足。對數據集和知識的上游原始語料缺乏管理,無法共享和復用,數據集和知識處理獨立運行,相互間缺乏有效協同,數據集內部的處理缺乏系統性整合,導致面向大語言模型應用的數據服務不能端到端高質量完成,影響了數據質量和大語言模型應用的效果。
(2)數據服務的靈活性、擴展性和自動化嚴重不足。由于大語言模型對數據處理的要求和技術不斷發展,數據處理的靈活性和擴展性非常重要。目前的研究通過相應配置對數據處理提供了一定的靈活性,但擴展性不足。一些系統利用算子編排進行擴展,但不具備針對復雜場景的可視化編排能力,端到端全流程編排自動化過于復雜,不易使用,影響了數據準備的效率,導致大語言模型應用的迭代交付很慢。
(3)面向不同場景的數據計算處理復雜、研發成本高、擴展性差。數據服務最終分解為一個或多個數據處理的計算,須要面向不同場景在合適的計算平臺上執行。端到端數據處理的各種復雜操作存在流處理、批處理場景不同的特點,如果分別對接不同的流處理計算框架和批處理計算框架,復雜度和成本過高,若出現新的計算框架也不易擴展。
1.2 面向大語言模型應用的數據服務平臺
針對以上問題和挑戰,研究了一種面向大語言模型的數據服務統一協同,基于算子可視化編排的自動化處理和跨平臺統一計算調度的端到端數據服務平臺,有效解決了問題,取得了較好的效果,關鍵技術如下。
1.2.1 原始語料、數據集和知識服務統一協同處理
在大語言模型應用中,須要將原始語料采集、存儲、處理成滿足大語言模型預訓練和微調要求的數據集合以及RAG檢索增強生成所需要的向量知識。為此對數據服務端到端全過程的各階段進行體系化完整設計并將原始語料、數據集和向量知識的管理和處理統一協同,極大地提升了數據質量和處理效率。
1.2.2 基于算子編排的數據靈活擴展和自動化處理
為大幅提升端到端數據服務的可擴展性、靈活性和自動化能力,提出數據服務算子化思想,提供基礎算子和用戶自定義算子,支持算子組合成復合算子,基于算子進行數據處理作業的可視化編排和自動化執行,支持串行、并行和基于結果判定的多分支編排和執行,降低了數據處理的復雜度,大幅提升了數據準備的效率。
1.2.3 面向多場景的跨平臺計算調度
為保證數據服務綜合性能,基于大規模并發的流處理、批處理、小型化服務器處理3種適合不同場景的底層計算平臺,設計了面向多場景的跨平臺計算調度框架。對用戶來說不須要了解底層計算平臺的復雜度和差異性,通過一致性的方式來快捷使用,系統會根據算子的不同場景自動選擇分發調度到合適的底層計算平臺高效執行,在保證較高綜合計算性能的情況下,大幅降低了使用成本。
2 系統框架
面向大語言模型應用的數據服務平臺采用分層設計,自上而下分為應用層、表示層、數據服務層、計算平臺層和數據存儲層,總體架構如圖1所示。
2.1 應用層
應用層是對大語言模型應用提供的數據使用能力,包括原始語料管理、數據集管理和向量知識檢索3部分。其中原始語料管理對原始語料進行采集、存儲和管理;數據集管理從原始語料建立數據集并進行各種處理;向量知識檢索則從數據集獲取并加載文檔,完成切片、嵌入和向量存儲,向下游應用提供檢索功能。
2.2 表示層
表示層設計了面向用戶使用的數據服務操作界面和接口,包括基于Web的可視化操作和算子可視化編排執行界面。用戶可以通過可視化Web界面操作,也可以基于可視化算子編排及執行界面使用算子編排數據處理作業和自動化流水線進行執行。
2.3 數據服務層
數據服務層向表示層提供數據服務的具體實現,分別在原始語料、數據集和向量知識3個領域實現服務并向上提供服務接口。
2.4 計算平臺層
上層的算子作業和具體的算子任務須按算子圖的流程調度執行,針對小型化處理、大規模流處理、大規模批處理等不同場景,計算平臺層提供跨平臺統一計算作業調度執行,以滿足不同場景的數據處理計算需要。
2.5 數據存儲層
數據存儲層提供統一的多樣化數據存儲,其中原始語料和數據集存儲采用分布式文件系統,向量知識存儲采用向量數據庫,管理信息存儲采用關系數據庫。
3 設計和實現
3.1 原始語料、數據集和知識服務端到端協同
數據端到端處理包括原始語料服務、數據集服務和知識服務3階段,提供完整的數據處理過程。
3.1.1 原始語料服務
原始語料管理主要包括采集、存儲和管理3個部分,貫穿了從上游不同類型的數據源自動或手工采集語料并存儲到分布式文件系統,再進行語料信息配置、版本管理、上架、查詢、獲取授權、下載使用、反饋交流,直到下架和刪除的全生命周期管理,為下游數據集管理提供原始語料,提升了原始語料獲取和共建共享能力。
3.1.2 數據集服務
數據集從上游原始語料獲取或者本地導入,對數據集進行創建、基本管理、預處理、標注、分析、評估、增強等操作,向下游大語言模型訓練和向量知識檢索提供高質量的數據,以滿足大語言模型應用的需要。
(1)數據集基本管理。
數據集按照數據集、版本和數據3級管理。數據集信息包括名稱、數據類型、業務類型、目標任務類型等基本管理信息。一個數據集可以包括一個或多個版本,每個版本下包含數據列表。
(2)數據預處理。
數據預處理是將原始語料處理成下游模型訓練及知識檢索目標任務所需要的數據,處理后的數據可以更好地滿足下游任務的需要。數據處理支持校驗、清洗、轉換、過濾、去重、去隱私等核心處理過程。
(3)數據標注。
為進一步提升標注效率,對數據自動聚類分組,然后進行標注和審核,引入自動標注方法。自動標注采用2種方式:直接選擇已有的合適模型T5等完成自動標注[13],其中T5適合文本到文本轉換類標注,包括問答、生成等場景標注;使用已標注的數據集對模型進行精調訓練,進一步增強標注能力,再使用精調后的模型對數據自動標注。
(4)數據分析。
數據分析是為了獲得數據的完整性和多樣性狀態,改進數據獲取過程,主要為數據分布分析:對數據覆蓋的業務領域、業務場景和任務類型進行分析,系統性分析數據的整體分布狀況。
(5)數據評估。
評估數據質量,包括準確性、完整性、一致性、唯一性、合規性,發現數據集中的異常值、缺失值、沖突值、重復值、不合規等問題[14],確保提供給下游模型訓練和知識檢索高質量的數據。系統自動計算異常數據占比、重復率、標注準確率和隱私數據占比等指標,給出數據質量判斷并指出問題質量數據。
(6)數據增強。
通過數據增強擴充數據規模和多樣性,從而增強模型泛化能力。數據增強主要有以下2種方法。變換法:通過替換、合成等技術對數據進行各種變換,從而達到擴增效果;生成法:使用生成對抗網絡從已知數據集生成新的分布相似的數據集[15]。
3.1.3 知識服務
針對大模型“幻覺”導致的生成結果不準確、不相關或虛構的問題,將大模型和外部知識源結合在一起,可以提高專業知識的廣度和深度,還能夠保持時效性。為此通過知識服務和大模型結合,采用RAG 技術能有效提高生成內容的有效性。知識服務主要包括如下。(1)知識庫管理:包括向量知識庫的創建、配置和刪除,支持多種類型向量知識庫。(2)知識入庫和檢索:知識管理從上游數據集導入并加載經過預處理、分析、評估過的文本,根據策略將文本拆分成合適的片段,通過嵌入模型將片段嵌入成向量,再將向量存儲到向量知識庫,并向下游大語言模型應用提供向量知識的檢索能力。
3.1.4 協同設計
原始語料、數據集和知識服務的協同如圖2所示。
數據集服務根據下游大語言模型應用的目標任務從上游原始語料服務獲取相應的原始語料,可以復用不同的原始語料組合,形成目標任務相關的數據集并根據需要進行數據集操作,確保下游目標任務數據質量和多樣性。對于大語言模型應用有2種數據集使用方式:一種是大模型平臺從數據集獲取對應目標任務的數據集完成模型訓練;另一種是知識服務從數據集獲取并向量化存儲入庫,提供檢索增強生成能力。
3.2 基于算子可視化編排的數據處理自動化
3.2.1 算子設計和實現
將原始語料、數據集和知識服務中靈活性強、可擴展和自動化處理的操作和一般管理性操作分開,設計并實現成算子,算子采用分域和分層設計。
算子分域設計分成原始語料、數據集和知識庫3個領域,原始語料算子包括采集和配置2類算子,數據集算子包括導入、預處理、自動標注、分析、評估和增強6類算子,知識庫算子包括加載、切片、嵌入和存儲4類算子。其中數據處理類型算子又包括校驗、清洗、轉換、過濾、去重、去隱私等子類型算子。
算子分層設計自底向上分為基礎算子、中層復合算子和高層復合算子,基礎算子又分為通用基礎算子和用戶自定義基礎算子,允許自定義且逐層組合,提升算子靈活性、擴展性和復用性,降低設計的復雜度,提高算子擴展效率。
算子的設計要素包括:算子名稱、配置參數、輸入、處理、輸出、結果展示、結果分支判定,采用算子模型DSL語言描述并在運行中實例化。(1)算子名稱:描述算子操作。(2)配置參數:給出每個參數的名稱和類型。(3)輸入:包括輸入數據模型定義和存儲位置標識。(4)處理:算子計算邏輯方法定義,可以從輸入存儲位置標識獲取數據并根據數據模型定義解析使用,計算處理后,將結果數據按照輸出數據模型定義寫入輸出存儲位置。(5)輸出:包括輸出數據模型定義和存儲位置標識。(6)結果展示:描述輸出數據的展示方式。(7)結果分支判定:描述分支結果判定規則。
3.2.2 數據處理可視化編排和執行
具備體系化的數據服務算子入庫后可以根據下游應用的目標任務對數據處理作業可視化編排和執行,使得處理更加靈活并具備很強的擴展性。數據處理可視化編排和執行如圖3所示。
數據處理可視化編排將Web界面左側需要的算子拖拽到右側幕布上進行可視化編排,形成一個完整的數據處理作業并驅動執行。數據處理作業以一個開始節點作為起點,中間可以由一個或多個算子串行、并行和多分支編排形成處理流程,最后以一個結束節點作為整個作業的終點。如圖3所示,算子1執行后并行執行算子2和算子3,算子2到算子4是串行執行,算子3、算子4都執行成功才會執行算子5。
3.2.3 數據處理自動化流水線
為進一步提升數據端到端完整處理的效率,降低成本,本文提出端到端自動化流水線方法,如圖4所示。
將原始語料、數據集和知識服務3個領域的數據服務算子進行端到端完整流程可視化編排,不但每個領域內部的處理流連續,而且3個領域間的數據處理完全貫通,包括原始語料采集、配置、數據集導入、清洗、轉換、過濾、去重、分析和質量評估以及知識加載、切片、嵌入和入庫等核心過程,形成一條適應大語言模型應用目標任務的完整數據自動化處理流水線。
3.3 面向多場景的跨平臺調度計算
3.3.1 多樣化調度計算場景
可視化編排數據處理作業須要簡單、高效地將算子調度執行以滿足適應不同場景的需要,主要有3種場景:(1)大規模并發流處理。對于原始語料采集和數據的校驗、清洗、轉換、去隱私等預處理過程屬于大規模并發流處理的場景,須要采用實時性較高的流處理計算框架;(2)大規模并發批處理。對于數據集的過濾、去重等預處理過程和數據集分析、評估、增強等屬于大規模并發批處理的場景,須要采用批處理計算框架;(3)小規模處理場景。在支持某個特定大語言模型精調的小規模數據處理場景下,為了方便系統部署、降低資源成本,采用自研的小型化服務器計算框架。針對3種不同場景,對于不同類型的算子分別配置默認的計算平臺屬性,允許算子根據需要進行靈活修改。
3.3.2 跨平臺統一計算調度設計
數據處理作業調度執行須針對不同的處理場景采用不同的計算平臺框架,不同框架的使用方式不一樣,對接復雜度高,不方便使用,為此設計了數據處理作業跨平臺統一計算調度框架,如圖5所示。
跨平臺統一計算調度框架采用分層設計,自上而下分為計算任務調度層、平臺集成接口層和計算平臺層。計算任務調度層解析數據處理job的算子task節點,從開始節點按照依賴關系串、并行地將算子task節點通過平臺集成接口層分發到計算平臺層不同的計算平臺框架執行并獲取結果,具體如下。
(1)計算任務調度層。
計算任務調度層由job調度器和task調度器組成,提供跨平臺統一計算任務調度,過程如下。①job調度器接收提交的算子執行job,對job合法性檢查,檢查不通過直接返回錯誤,檢查通過則將job加入job隊列等待調度執行; ②job調度器中核心的job調度線程從job隊列中取出一個job并根據執行圖解析成一個可執行的算子task節點集合,集合中存放算子 "task節點和節點間的依賴關系; ③job調度線程從可執行的算子task節點集合中取出第一個算子task節點分發給task調度器; ④task調度器調用處于平臺集成接口層的計算平臺統一接口框架提供的統一接口請求執行; ⑤task調度器獲得執行結果,將結果返回給job調度線程; ⑥job調度線程對算子task節點執行結果進行分析,對于執行失敗的情況,直接向上層返回失敗,終止執行,對于執行成功的情況,判斷job所有節點是否都完成執行,如果是則向上返回成功,結束執行; ⑦如果否,job調度線程獲取算子task節點的后繼依賴節點集合,對于存在結果判定分支的算子task節點,選取結果滿足分支的后繼依賴節點集合; ⑧job調度線程將依賴節點集合中所有前驅節點都完成執行的算子task節點集合分發給task調度器執行; ⑨task調度器繼續④和⑤的執行過程。
(2)平臺集成接口層。
平臺集成接口層實現了計算平臺統一接口框架,向上層提供統一的算子task節點集合的執行入口。平臺集成接口層定義了公共的任務執行器接口,包括初始化、執行前準備、執行和執行后處理,實現了Flink流處理執行器、Spark批處理執行器和小型化處理執行器3種內置執行器,并可以面向新的計算平臺框架擴展相關執行器。
計算任務調度層將需要執行的算子task節點集合傳入統一接口,平臺集成接口層獲取算子task節點的計算平臺配置,將相同配置的算子task節點集合作為參數,調用不同執行器將算子task節點集合分發到相應的底層基礎計算平臺框架上具體執行并獲得結果。
(3)計算平臺層。
計算平臺層部署了基礎計算平臺框架,包括大規模流處理計算框架Flink、大規模批處理計算框架Spark和小規模處理的計算框架,最終完成算子task節點集合的計算執行。
4 應用實例
4.1 應用情況
一種面向大語言模型應用的數據平臺在某研發提效大語言模型應用領域中發揮重要作用,能有力支撐大語言模型訓練、測試、驗證數據集和檢索增強知識庫的高質高效建設和使用。研發提效大模型應用,目標是提升設備商在需求、開發、測試等過程的效率和質量,降低成本,應用場景包括需求、代碼、測試用例的輔助生成。為此對原始語料、數據集和知識庫的搜集和管理如表1所示。
針對大語言模型應用的目標場景,分類采集原始語料、完成存儲和配置并建立相應的數據集完成預處理、分析和評估,形成高質量數據集用于大語言模型的微調訓練,對其中一部分時效性較強、專業度較高的數據建立向量知識庫用于檢索增強生成。
為提升數據質量和多樣性、提高數據處理效率、降低成本,基于面向大語言模型應用的數據服務平臺需要完成如下任務。(1)通過算子設計編排應用4條完整的原始語料、數據集和知識處理自動化流水線;(2)采用自動標注、交叉人工審核的方法對數據進行標注,自動標注算子增加到端到端處理流水線中;(3)采用替換法進行數據增強。
本文從目標任務類型、在標準數據集上的性能表現、業界對預訓練模型實際應用案例的評價、是否開源可商用等維度考慮,綜合選擇了Qwen-14B-Chat作為基礎預訓練大模型,采用LoRa微調技術在模型內部插入低秩適配器來實現模型在特定任務上的微調,完成了研發提效領域大模型的微調訓練。
4.2 效果評價
面向大語言模型應用的數據服務平臺對研發提效大模型應用的數據準備起到了重要作用,主要有以下幾點。
4.2.1 數據質量和大模型應用效果明顯提升
針對原始語料、數據集和知識進行端到端高效協同處理,基本消除了數據異常、重復、標注不準確和含有隱私信息的情況,顯著提高了數據質量,進而提升了大語言模型應用的效果。
對于數據質量,本研究從異常數據占比、重復率、標注準確性和隱私數據占比4個維度進行評估,分析對比了使用本研究數據服務平臺前后的指標數據值,如表2所示,均取得了較好效果。
如表2所示, (1)異常數據占比是指數據集中異常數據的數量和總數據量的比值,其中異常數據包括拼寫錯誤、不可見字符、不規范空格、亂碼、網頁標識符、表情符等。異常數據嚴重影響了數據質量,導致模型生成效果不佳,通過數據清洗和轉換,異常數據占比僅有0.2%,大幅下降了10.4個百分點。 (2)重復率是指數據集中重復數據的數量和總數量據的比值,重復率采用余弦相似度算法計算2個文本數據嵌入向量的余弦相似度,將余弦相似度的結果轉換為百分比表示,設置閾值90%以上為重復。較高的重復率會導致模型過擬合,影響模型的泛化能力,通過去重算子對重復數據進行去除,重復率僅有2.7%,顯著下降了12.5個百分點。 (3)標注準確率是指數據集中標注準確的數量和總數據量的比值,準確的標注是大模型生成效果提升的關鍵,采用大模型輔助自動標注和人工交叉標注審核的方法提升了標注準確性,標注準確率提高到96.7%。 (4)隱私數據占比是指數據集中隱私數據的數量和總數據量的比值,其中隱私數據包括IP地址、郵箱、電話號碼等信息,隱私數據影響了數據的合規性,通過去隱私算子的自動處理,隱私數據占比顯著下降了12.6個百分點。
對于大模型應用的效果,本文用相似度指標進行評估,衡量在驗證集上生成結果和語料中提供標注結果之間的相似程度。相似度計算方法如下:對生成結果和語料標注結果使用余弦相似度算法計算2個文本嵌入向量的余弦相似度,將余弦相似度的結果轉換為百分比表示,值越大表示生成結果和標注結果間相似度越大,效果越好。如表3所示為在需求、開發和測試場景下應用平均相似度分析使用本研究數據服務平臺前后的效果。
從表3看出,在驗證集上使用本研究數據服務平臺后,需求、開發和測試場景下生成結果和標注結果相似度均明顯提升10個以上百分點,最高是代碼生成,提升了13.2個百分點。
4.2.2 數據處理效率大幅提升
通過端到端數據自動化處理及跨平臺計算調度,數據從原始語料采集到構建完成高質量數據集和知識庫的效率明顯提升,包括原始語料采集、存儲、配置、數據集預處理、自動標注、分析、評估、向量知識入庫等過程,采用算子編排自動化流水線和流處理、批處理計算適配調度方法,數據準備時間從原來的1個人平均10天左右降低為平均1.5天左右。
5 結語
面向大語言模型應用的數據服務平臺將原始語料、數據集和知識的服務過程有效協同起來,提供了基于算子的端到端數據處理作業可視化編排及跨平臺調度執行能力,可以滿足各種大語言模型應用對數據準備的要求,極大地提高了數據質量和處理效率,降低了處理成本,從而提升了大模型應用的效果,具備較強的通用性。未來面向大語言模型的數據平臺可以向支持多模態數據和知識圖譜的方向繼續探索研究,從而進一步提升多模態大模型應用數據準備和知識關聯性分析的能力,發揮更廣泛的作用。
參考文獻
[1]張耘堂.基于“人工智能+”經濟模式創新的分析[J].自然辯證法研究,2019(9):61-66.
[2]Open AI. ChatGPT:optimizing language models for dialogue[EB/OL].(2023-03-12)[2024-09-12]. https://openai.com/blog/chatgpt/.
[3]ZHAO W X,ZHOU K,LI J Y,et al. A survey of large language models[EB/OL].(2023-03-31)[2024-09-12]. http://export.arxiv.org/abs/2303.18223.
[4]GAO Y,XIONG Y,GAO X,et al. Retrieval-augmented generation for large language models:a survey[EB/OL].(2023-12-18)[2024-09-12]. http://export.arxiv.org/abs/2312.10997.
[5]郭旗.集成數據預處理技術及其在機器學習算法中的應用[J].科技與創新,2023(23):163-165.
[6]劉鵬,張燕.數據標注工程[M].北京:清華大學出版社,2019.
[7]蔡莉,王淑婷,劉俊暉,等.數據標注研究綜述[J].軟件學報,2020(2):302-320.
[8]袁滿,劉峰,曾超,等.數據質量維度與框架研究綜述[J].吉林大學學報(信息科學版),2018(4):444-451.
[9]張曉峰,吳剛.基于生成對抗網絡的數據增強方法[J].計算機系統應用,2019(10):201-206.
[10]BERRY W M, DRMAC Z, JESSUPR E. Matrices, vector spaces and information retrieval[J].SIAM Review, 1999(2):335-362.
[11]ZAHARIA M,CHOWDHURY M,FRANKLIN M J,et al. Spark:cluster computing with working sets[J].HotCloud,2010(10):95.
[12]CARBONE P,KATSIFODIMOS A,EWEN S,et al. Apache flink:stream and batch processing in a single engine[J].Bulletin of the IEEE Computer Society Technical Committee on Data Engineering,2015(4):28-38.
[13]RAFFEL C,SHAZEER N,ROBERTS A,et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J].Journal of Machine Learning Research,2020(140):1-67.
[14]孫俐麗,袁勤儉.數據質量研究述評:比較視角[J].農業圖書情報,2019(7):4-13.
[15]MIRZA M,OSINDERO S. Conditional generative adversarial nets[EB/OL].(2014-11-06)[2024-09-12].http://export.arxiv.org/abs/1411.1784.
(編輯 沈 強編輯)
Research on data service platform for large language model applications
JU" Weigang1, WANG" Peng2, WANG" Jia1
(1.ZTE Corporation, Nanjing 210012, China; 2.Southeast University, Nanjing 210096, China)
Abstract:" The application effectiveness of large language models depends heavily on high-quality data. In the process of constructing training datasets from raw corpora and enhancing knowledge through retrieval, end-to-end data management and processing become critically important. The current data services face issues such as poor data processing quality affecting the performance of large language models, low efficiency in data preparation, and high complexity and high costs in implementation.To address these issues, the article proposes a data collaboration service scheme tailored for large language models, enabling effective collaboration in the processing of raw corpora, datasets, and knowledge. Based on operator visualization orchestration for automated processing and a unified cross-platform computing scheduling framework. An end-to-end data service platform is designed and implemented that can effectively meet the diverse data requirements of various large language model applications. This platform improves data quality, processing efficiency, and flexibility, reduces the cost, and significantly enhances the effectiveness of large model applications, demonstrating strong generality and broad application prospects.
Key words: large language model; collaborative services; operator visual arrangement; calculation schedule; data platform service