999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

行業(yè)大模型語料庫建設(shè)與治理

2024-05-08 06:40:04姚前
財經(jīng) 2024年9期
關(guān)鍵詞:高質(zhì)量模型建設(shè)

姚前

大模型語料是指用于訓練和評估大模型的一系列文本、語音或其他模態(tài)的數(shù)據(jù)。語料規(guī)模和質(zhì)量對大模型性能以及應(yīng)用的深度、廣度有著至關(guān)重要的影響。當前行業(yè)大模型訓練語料存在覆蓋面不全、準確性不足、時效性不夠等問題,導致大模型通常難以達到預(yù)期目標。實踐經(jīng)驗表明,即使模型參數(shù)量級有所下降,只要數(shù)據(jù)語料質(zhì)量足夠高,其表現(xiàn)依然不俗。

為進一步提升大模型在行業(yè)的應(yīng)用范圍和應(yīng)用成效,需統(tǒng)籌行業(yè)力量搭建社區(qū)平臺,拓寬語料來源,構(gòu)建語料標準規(guī)范,開展語料治理,保障語料安全,為大模型訓練及應(yīng)用提供滿足業(yè)務(wù)場景需求,具備行業(yè)特性和標準化的高質(zhì)量語料。

語料的范圍

行業(yè)大模型語料是指用于訓練垂直領(lǐng)域大模型的數(shù)據(jù)集,通常包含自然科學、社會科學等通用語料和行業(yè)專用語料。以證券期貨行業(yè)為例,行業(yè)專用語料包括財經(jīng)新聞、財務(wù)報告、法規(guī)文件、公開的交易數(shù)據(jù)等。通過收集和整理語料,可以訓練大模型理解和生成行業(yè)特定概念和知識,支持行業(yè)分析、預(yù)測和輔助決策等智能任務(wù)。

(一)通用語料

引入百科、書籍等通用語料,可使大模型在執(zhí)行行業(yè)特定任務(wù)時,減少對專業(yè)術(shù)語誤解的風險(如專業(yè)術(shù)語的非專業(yè)用法、術(shù)語的雙關(guān)語、與特定行業(yè)無關(guān)的上下文等),并且在面對跨領(lǐng)域的查詢或交流時,能提供更為準確和自然的響應(yīng)。

(二)行業(yè)專用語料

引入行業(yè)專用語料,旨在豐富大模型對于行業(yè)特有詞匯、表達方式以及特定知識的理解,使模型能夠針對性地處理行業(yè)相關(guān)的復雜查詢,執(zhí)行精準的數(shù)據(jù)分析,以及更有效地支持輔助決策。此外,基于行業(yè)專用語料訓練的大模型在進行風險評估、預(yù)測、合規(guī)性檢查等任務(wù)時,能展現(xiàn)出更高的可靠性和適用性。

語料庫現(xiàn)狀

通常行業(yè)管理部門、經(jīng)營機構(gòu)以及信息技術(shù)服務(wù)商都會建設(shè)自身語料庫。一方面滿足行業(yè)知識整理、業(yè)務(wù)研究、合規(guī)風控等自身需求,另一方面可進一步加工成全新的數(shù)據(jù)資產(chǎn)、研究報告等,對外進行服務(wù)。不同的機構(gòu)在語料庫建設(shè)方面的現(xiàn)狀以及面臨的問題均有所不同,且呈現(xiàn)出自身的特點。

(一)行業(yè)管理部門

管理部門在構(gòu)建語料庫的工作中,挑戰(zhàn)主要在于數(shù)據(jù)集的規(guī)范和數(shù)據(jù)標準化,這是知識整理的基礎(chǔ)。其語料庫建設(shè)存在以下問題:1.數(shù)據(jù)分散:許多重要的數(shù)據(jù)散落在各業(yè)務(wù)系統(tǒng)中,重要信息和專家經(jīng)驗無法得到有效沉淀,數(shù)據(jù)共享存在壁壘。2.數(shù)據(jù)異構(gòu):日常積累的大量文本數(shù)據(jù),來自于不同的部門和層級,格式、結(jié)構(gòu)和內(nèi)容不盡相同。3.數(shù)據(jù)敏感:管理部門數(shù)據(jù)通常涉及大量敏感信息,在處理和存儲過程中必須確保安全合規(guī)。

(二)行業(yè)經(jīng)營機構(gòu)

經(jīng)營機構(gòu)語料庫涉及海量的結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),挑戰(zhàn)主要在于如何深度挖掘,以支持決策分析和客戶服務(wù)。其語料庫建設(shè)存在以下問題:1.處理難度大:來源于多渠道的經(jīng)營和交易數(shù)據(jù),格式、標準均不相同且模態(tài)多樣,難以有效整合。2.加工深度淺:經(jīng)營機構(gòu)的語料庫建設(shè)僅停留在表層信息,尚不涉及深層的語義理解和深度分析。3.隱私保護難:大模型語料涉及商業(yè)秘密及客戶敏感信息,在訓練和使用過程中經(jīng)營機構(gòu)須做好合規(guī)風控。

(三)信息技術(shù)服務(wù)商

信息技術(shù)服務(wù)商擅長整合通用語料,在配合構(gòu)建行業(yè)語料庫時面臨的主要挑戰(zhàn)是專業(yè)能力和服務(wù)質(zhì)量。1.專業(yè)能力:信息技術(shù)服務(wù)商對行業(yè)語料的分類、分析和解讀需要行業(yè)知識,其專業(yè)能力嚴重影響語料庫的應(yīng)用價值。2.服務(wù)質(zhì)量:行業(yè)語料庫建設(shè)是一項持續(xù)迭代的工作,需要信息技術(shù)服務(wù)商提供長期的高質(zhì)量服務(wù)。

此外,合成數(shù)據(jù)也是大模型訓練重要數(shù)據(jù)來源,在降低成本、提升數(shù)據(jù)質(zhì)量、規(guī)避隱私問題等方面具有優(yōu)勢。如何探索行業(yè)數(shù)據(jù)合成的有效路徑,是行業(yè)語料庫建設(shè)的重大課題。

語料庫的必要性

行業(yè)語料庫的構(gòu)建與治理對于發(fā)展行業(yè)大模型,激活數(shù)據(jù)要素價值尤為關(guān)鍵。一個結(jié)構(gòu)良好、內(nèi)容優(yōu)質(zhì)、管理規(guī)范的語料庫可以為行業(yè)參與者提供具備深度洞察力的知識庫,促進行業(yè)數(shù)字化轉(zhuǎn)型和高質(zhì)量發(fā)展。具備公信力的語料庫需要行業(yè)共建共享,客觀上助推行業(yè)語料社區(qū)的建設(shè)和公共服務(wù)的發(fā)展。

(一)高質(zhì)量的語料庫是行業(yè)大模型落地等創(chuàng)新的基礎(chǔ)

語料決定了模型的訓練質(zhì)量、性能表現(xiàn)以及應(yīng)用領(lǐng)域的廣度與深度。語料庫建設(shè)除了考慮質(zhì)量維度,還需關(guān)注開放程度。建設(shè)統(tǒng)一、開放、標準的行業(yè)大模型語料庫,有利于提高行業(yè)語料的利用效率和價值,促進行業(yè)大模型的訓練開發(fā),加速大模型的落地應(yīng)用。

(二)高質(zhì)量的語料庫是行業(yè)數(shù)字化轉(zhuǎn)型的重要抓手

高質(zhì)量語料應(yīng)具備大規(guī)模、多樣性、真實性、連貫性、合法性和無偏見等特點。目前行業(yè)高質(zhì)量語料相對缺乏,推動其建設(shè)是實現(xiàn)信息化向數(shù)字化、智能化轉(zhuǎn)型的重要之舉。

(三)高質(zhì)量的語料庫是激活數(shù)據(jù)要素價值,破除數(shù)據(jù)壁壘的有效手段

大模型語料通常需要跨機構(gòu)、寬口徑數(shù)據(jù),可能會涉及數(shù)據(jù)安全、隱私保護、知識產(chǎn)權(quán)等問題??商剿鞯谌綌?shù)據(jù)托管等方式,以激活數(shù)據(jù)要素價值,有效解決跨機構(gòu)數(shù)據(jù)共享問題。

建設(shè)思路

建設(shè)具備公信力的行業(yè)大模型語料庫是一項長期性、專業(yè)性的系統(tǒng)性工程,涵蓋基礎(chǔ)設(shè)施、公共服務(wù)平臺、行業(yè)規(guī)范標準、激勵機制等方面。在建設(shè)方法、實現(xiàn)路徑上需形成合力,多措并舉,久久為功(見圖)。

圖:行業(yè)大模型語料庫建設(shè)參考架構(gòu)

資料來源:作者整理

(一)充分借鑒通用語料庫的成果和經(jīng)驗

國際通用語料庫,如國外的The Pile、C4、Wikipedia(維基百科)等數(shù)據(jù)集,以及國內(nèi)的“書生·萬卷”多模態(tài)預(yù)訓練語料、中國網(wǎng)絡(luò)空間安全協(xié)會發(fā)布的中文通用語料,都可作為建設(shè)行業(yè)大模型語料庫的基礎(chǔ)。為了擴大通用語料庫資源,要兼顧自立自強和對外開放,可考慮對Wikipedia、Reddit(美國娛樂、社交及新聞網(wǎng)站)等特定數(shù)據(jù)源建立過濾后的境內(nèi)鏡像站點,供國內(nèi)數(shù)據(jù)處理者使用。

(二)聚焦語料的供給、托管、加工、安全與評測

實踐經(jīng)驗表明,基于行業(yè)語料庫,重新訓練通用大模型,通用語料和專業(yè)語料規(guī)模配比通常約為1:1。因此,融合匯聚行業(yè)專用語料,加大語料供給,是行業(yè)大模型建設(shè)的前提。

一種有效思路是建設(shè)數(shù)據(jù)社區(qū),探索基于可信機構(gòu)或基于可信技術(shù)的平臺,為數(shù)據(jù)主體提供托管服務(wù)。行業(yè)機構(gòu)可利用托管數(shù)據(jù),基于行業(yè)大模型做二次訓練或精調(diào),以提升私有模型能力。托管的語料資產(chǎn)也可在社區(qū)范圍內(nèi)有償交易,有序流轉(zhuǎn)。

語料加工處于大模型訓練開發(fā)的上游環(huán)節(jié),直接影響語料庫生產(chǎn)速度、適用范圍與質(zhì)量水平。數(shù)據(jù)加工,特別是數(shù)據(jù)標注已形成產(chǎn)業(yè)化,行業(yè)信息技術(shù)服務(wù)商可在數(shù)據(jù)社區(qū)進行大規(guī)模、專業(yè)化數(shù)據(jù)加工與標注工作,促進行業(yè)語料庫的建設(shè)與規(guī)范。

語料安全是建設(shè)行業(yè)語料庫的“紅線”。要加強監(jiān)督,保障入庫數(shù)據(jù)內(nèi)容合規(guī)、權(quán)益清晰。要完善法律法規(guī),優(yōu)化政策制度,以多種途徑與方式形成監(jiān)管合力,嚴防惡意篡改模型和滲入有害數(shù)據(jù)等行為。探索利用基于人類反饋的強化學習(RLHF)和可擴展監(jiān)督(Scalable Oversight)等技術(shù)方法,保證大模型的輸出符合人類價值觀,防止大模型生成有害內(nèi)容。

行業(yè)語料庫的評測是進一步完善大模型能力的關(guān)鍵,既要在大模型訓練環(huán)節(jié)對語料庫的質(zhì)量進行評價,也要通過應(yīng)用成效評估語料庫對行業(yè)知識覆蓋的廣度和深度,不斷迭代,以達到更好的效果。

(編輯:張威)

猜你喜歡
高質(zhì)量模型建設(shè)
一半模型
堅持以高質(zhì)量發(fā)展統(tǒng)攬全局
當代陜西(2022年5期)2022-04-19 12:10:12
高質(zhì)量項目 高質(zhì)量發(fā)展
當代陜西(2021年1期)2021-02-01 07:18:02
牢牢把握高質(zhì)量發(fā)展這個根本要求
當代陜西(2020年20期)2020-11-27 01:43:10
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
自貿(mào)區(qū)建設(shè)再出發(fā)
中國外匯(2019年18期)2019-11-25 01:41:56
“三部曲”促數(shù)學復習課高質(zhì)量互動
基于IUV的4G承載網(wǎng)的模擬建設(shè)
電子制作(2018年14期)2018-08-21 01:38:28
《人大建設(shè)》伴我成長
主站蜘蛛池模板: 九九视频免费在线观看| 丁香六月激情婷婷| 亚洲人网站| 亚洲视频a| 伊人久久大香线蕉影院| 亚洲另类色| 亚洲综合片| 国产小视频网站| 国产不卡国语在线| 国产精品亚洲一区二区三区z| 香蕉久久国产超碰青草| 日韩黄色在线| 玩两个丰满老熟女久久网| 欧美亚洲欧美| 天堂中文在线资源| 亚洲精选无码久久久| 精品无码一区二区在线观看| 国产麻豆另类AV| 国产成人综合日韩精品无码首页 | 国产人人乐人人爱| 国产91精选在线观看| 欧美日韩另类国产| 国产精品xxx| 国产乱人激情H在线观看| 无码高潮喷水在线观看| 国产亚洲男人的天堂在线观看| 欧美日本在线观看| 在线精品自拍| 国产精品人莉莉成在线播放| 国内精品免费| 国产精品第三页在线看| 高清欧美性猛交XXXX黑人猛交| 亚洲国产欧美目韩成人综合| 久久亚洲天堂| 久久精品无码专区免费| 国产成人精品视频一区视频二区| 波多野结衣无码AV在线| 国产主播在线观看| 国产精品片在线观看手机版 | 91啦中文字幕| 亚洲欧洲日本在线| 2048国产精品原创综合在线| 亚洲综合色婷婷中文字幕| 91色国产在线| 在线观看无码a∨| 国产人前露出系列视频| 亚洲全网成人资源在线观看| 亚洲中文字幕国产av| 亚洲AV电影不卡在线观看| 亚洲高清日韩heyzo| 综合色区亚洲熟妇在线| 不卡色老大久久综合网| 亚洲69视频| 国产xx在线观看| 精品福利视频网| 国产精品 欧美激情 在线播放| Jizz国产色系免费| 亚欧成人无码AV在线播放| 国产xx在线观看| 99伊人精品| 欧美精品aⅴ在线视频| 日韩av无码DVD| 国产乱肥老妇精品视频| 国产成人精品2021欧美日韩| 国产精品视频a| 在线观看国产黄色| 又爽又大又光又色的午夜视频| 国产国拍精品视频免费看| 亚洲AV成人一区二区三区AV| 国产亚洲欧美在线人成aaaa| 一级毛片网| a色毛片免费视频| 播五月综合| 一区二区偷拍美女撒尿视频| 国产精品永久免费嫩草研究院| 久久亚洲中文字幕精品一区| 欧美福利在线播放| 99精品在线看| 在线高清亚洲精品二区| 久久精品中文字幕少妇| 国产精品视屏| 91综合色区亚洲熟妇p|