寫詩作畫樣樣精通、診病解題事事都行…如今,“十項全能\"的AI令人驚嘆不已。作為幕后推手,AI訓(xùn)練師逐漸走入大眾視野。從數(shù)據(jù)“搬運工”,到專家“培養(yǎng)者”,AI訓(xùn)練師見證了人工智能的飛速發(fā)展,自身也正經(jīng)歷著日新月異的變化,甚至悄然催生出新的培訓(xùn)需求。
從數(shù)據(jù)標(biāo)注做起
“這兩年國內(nèi)AI越來越火,相關(guān)崗位也變多了。”今年初,物聯(lián)網(wǎng)專業(yè)本科畢業(yè)的小雅正式進入互聯(lián)網(wǎng)大廠外包公司,成為一名AI訓(xùn)練師。主要做數(shù)據(jù)標(biāo)注,我分到的是數(shù)學(xué)方向,用LaTeX這種工具寫解題過程。”小雅坦言,這項工作并不需要太多專業(yè)背景,“有規(guī)則文檔,對照著把步驟整理出來”。
去年底,美術(shù)專業(yè)出身的小琳也從UI(用戶界面)設(shè)計師轉(zhuǎn)行成為AI訓(xùn)練師。“之前做了10年設(shè)計工作,后來覺得這個行業(yè)快要被AI取代,于是選擇改行。”小琳發(fā)現(xiàn),如今的工作與設(shè)計基本毫無關(guān)系,“我主要做文本類的數(shù)據(jù)標(biāo)注,按照公司規(guī)則對模型生成的內(nèi)容打分、改寫,從而訓(xùn)練大模型。”對于這份新工作,小琳有著自己的理解:“可以把大模型想象成一個小孩,你要教這個小孩怎么輸出更合理的內(nèi)容。如果小孩犯錯,還要給糾錯。”
相比起這兩名剛?cè)胄械摹靶率帧眮碚f,小磊儼然已經(jīng)是行業(yè)里的“老兵”。作為金屬材料專業(yè)的肆業(yè)生,小磊手中的最高學(xué)歷只有高中。2018年,從事客服工作的他偶然接觸到智能客服產(chǎn)品,“當(dāng)時在一個外包項目里負責(zé)輔助互聯(lián)網(wǎng)大廠的訓(xùn)練師做數(shù)據(jù)標(biāo)注,一年后被訓(xùn)練師介紹過去專門做這個”
在當(dāng)時,這項工作十分冷門,“對方看我有工作經(jīng)驗,也就沒有卡學(xué)歷”。就這樣,小磊抱著學(xué)習(xí)的態(tài)度踏入AI行業(yè)。
“最初主要為智能產(chǎn)品做個性化需求落地,以問答為主,可以算小模型,通過搭建知識庫、調(diào)整問答策略來提升回答質(zhì)量。\"2022年以來,小磊轉(zhuǎn)向從事與大模型有關(guān)的數(shù)據(jù)標(biāo)注,主要負責(zé)提供各種語料,并帶領(lǐng)資源團隊進行數(shù)據(jù)生產(chǎn)。“需要與算法技術(shù)團隊密切溝通,將他們對數(shù)據(jù)的需求轉(zhuǎn)化為具體的標(biāo)注規(guī)則。”
以常見的問答文本標(biāo)注為例,小磊不僅要制訂答案質(zhì)量的打分標(biāo)準(zhǔn),如考量回答的正確性、全面性等,還要對低分答案進行修改,將其轉(zhuǎn)化為高分答案。“規(guī)則都是五花八門的,永遠不知道下一批任務(wù)的規(guī)則是什么。
現(xiàn)階段,小磊面對的數(shù)據(jù)標(biāo)注規(guī)模動輒上萬甚至幾十萬條,需要團隊協(xié)作完成。“團隊規(guī)模根據(jù)項目需求動態(tài)調(diào)整,小的時候可能只有五六個人,大的時候則可達上百人。”
薪資待遇差別大
在行業(yè)內(nèi)打拼多年,小磊目睹了大模型出現(xiàn)對AI訓(xùn)練師帶來的影響。“在大模型出現(xiàn)之前,AI訓(xùn)練師的工作相對聚焦。”小磊回憶說,“以前輸出內(nèi)容主要依賴知識庫檢索,數(shù)據(jù)標(biāo)注只是重新設(shè)計表現(xiàn)不好的語料,標(biāo)注工作相對輕量,問題觸發(fā)的內(nèi)容也都是行業(yè)內(nèi)部知識,可控性比較強。”
自從大模型誕生,這項工作變得復(fù)雜許多。“現(xiàn)在任務(wù)類型多種多樣,除了文本以外,還可能有圖像、音頻等,大模型根據(jù)語料推理出來的答案也更加不可控。”
小磊提到,DeepSeek的出現(xiàn)也給行業(yè)帶來很大變化。“過去大家都在堆語料,覺得越多越好,但現(xiàn)在要打個問號,思考是不是應(yīng)該調(diào)整方向。”小磊說,以往做小模型的知識庫構(gòu)建時也曾遇到過類似問題,“一開始確實堆的知識越多效果越好,但超過臨界值以后,反而會出現(xiàn)意圖纏繞,知識變得混淆不清”。
盡管大模型的功能日益強大,但小磊發(fā)現(xiàn)問題也逐漸凸顯。“大模型確實很擅長公文寫作,只是精準(zhǔn)度依然有限。像央企國企的公文,通常要求較高,大模型暫時還很難達到這個標(biāo)準(zhǔn)。”
為了提升語料的質(zhì)量,小磊會嚴(yán)格篩選可靠信源。“比如,文本類主要選擇權(quán)威新聞、期刊和實體書等,而不是一些營銷號的內(nèi)容。”在標(biāo)注過程中,小磊也會對標(biāo)注人員進行規(guī)范培訓(xùn),要求他們按照標(biāo)準(zhǔn)流程進行信息采集和處理。同時,團隊還會參考其他大模型的回復(fù),“相互借鑒,不斷優(yōu)化自己的模型”。
在大模型的推動下,AI訓(xùn)練師的崗位不斷細分。“之前給AI當(dāng)老師,主要是教基本知識,有點像教小孩子學(xué)常識。現(xiàn)在AI具備了一定的認知能力,就需要有更高水平或者更專業(yè)的人來教它高階思維。”據(jù)小磊介紹,現(xiàn)在大模型涉及越來越多專業(yè)領(lǐng)域知識,也就需要更多具備醫(yī)療、教育、法律等專業(yè)知識背景和從業(yè)經(jīng)驗的人才加入進來,“這些專業(yè)性強的語料生成,外行確實做不了。”
在小磊看來,崗位細分的同時,AI訓(xùn)練師的薪資待遇差距也在拉大。“像基礎(chǔ)的數(shù)據(jù)標(biāo)注崗位,月薪可能只有幾千元;而大公司里要求較高的崗位,月薪可以達到三五萬元。”
沒必要盲目跟風(fēng)
記者在調(diào)查中了解到,隨著AI訓(xùn)練師崗位需求不斷增加,相關(guān)培訓(xùn)迅速興起。
“現(xiàn)在很多人轉(zhuǎn)行做這個,培訓(xùn)班上什么專業(yè)的都有。有剛畢業(yè)的,也有工作好多年的。”上崗前,小雅就報班參加了AI訓(xùn)練師課程。“一共也就10次課,報班就是為了心里有個底,其實也可以自己投簡歷,面試多了自然就知道會問什么,面試通過以后可以在干中學(xué)。”
轉(zhuǎn)行前,小琳同樣選擇先報班“補課”。“算是回流了,2013年剛畢業(yè)那會兒就在這個機構(gòu)學(xué)的UI設(shè)計師。這兩年好多設(shè)計師的工作干不下去,機構(gòu)就又開了AI訓(xùn)練師的課,讓大家學(xué)完盡快轉(zhuǎn)行。”說到這里,小琳不由得苦笑,“我要是有講課的天賦,我也去開班了,還是開班賺錢。”
記者在社交平臺上搜索,發(fā)現(xiàn)不少分享轉(zhuǎn)行經(jīng)驗的AI訓(xùn)練師都在小琳所說的這家機構(gòu)報過課。“我們的AI訓(xùn)練師課程是就業(yè)導(dǎo)向的,需要線下學(xué)習(xí),在北京、深圳、杭州都設(shè)有校區(qū),這些城市的工作崗位也比較集中。”據(jù)機構(gòu)工作人員介紹,培訓(xùn)持續(xù)5周,上課時間安排在周末,共10次課。從大綱來看,課程相當(dāng)緊湊,學(xué)員需要在一天之內(nèi)學(xué)習(xí)大模型行業(yè)通用規(guī)則、單輪對話項目實訓(xùn)、多輪對話項目實訓(xùn)和AI訓(xùn)練師必學(xué)代碼課。“學(xué)完專業(yè)課,會分配一對一的就業(yè)輔導(dǎo)老師。”
工作人員稱,學(xué)費每期漲1000元“現(xiàn)在報名的話是第13期,3月29日開課。原價22999元,最近幾天有一個拼團折扣價,優(yōu)惠完20999元。第14期的話是5月10日開課,差不多就是這么一個招生節(jié)奏。每期50名學(xué)員,分成兩個班。”
在去年10月的培訓(xùn)中,小琳從課上了解到Reward模型、RAG項目等內(nèi)容。“但這些只是基礎(chǔ)知識,到了公司還是要靠自己在實際工作中摸索。”如何在簡歷關(guān)和面試關(guān)解決零經(jīng)驗的問題?小雅從培訓(xùn)中學(xué)到了“應(yīng)對策略”,“可以結(jié)合以前的經(jīng)驗,把AI融入進去”。
作為過來人,小磊發(fā)現(xiàn),很多數(shù)據(jù)標(biāo)注方面的外包公司招聘需求很大。“這項工作相對比較枯燥,成長性也有限,很多人干一段時間就走了。”小磊說,如果本身學(xué)歷有限,對這一行感興趣,暫時也沒有太多機會和選擇,那么不妨嘗試從數(shù)據(jù)標(biāo)注做起,“起碼也算接觸了這個行業(yè),后期通過工作經(jīng)驗積累,也能慢慢往更高階的訓(xùn)練師方向轉(zhuǎn)。”
至于要不要報班,小磊表示沒必要盲目跟風(fēng)。“如果只是做數(shù)據(jù)標(biāo)注,其實要求沒那么高。就算是為了應(yīng)對面試時的問題,也未必需要花高價報班,完全可以找一些相關(guān)知識自學(xué)一下。”
(摘自《北京晚報》宗媛媛)