
當(dāng)你在高速路上開啟自動(dòng)駕駛模式,車輛為何能精準(zhǔn)判斷變道超車時(shí)機(jī)?
這是因?yàn)樗翱炊绷塑嚨谰€,或者更準(zhǔn)確地說,是學(xué)習(xí)了車道線的專業(yè)數(shù)據(jù)集,讀懂了車道線實(shí)際含義。
這背后,數(shù)據(jù)標(biāo)注——這位AI的“老師”功不可沒。數(shù)據(jù)標(biāo)注,就是給文本、語音、圖片、視頻等各種各樣的數(shù)據(jù)“打標(biāo)簽”。標(biāo)注后的數(shù)據(jù)可以被AI或機(jī)器學(xué)習(xí)理解。
近期,國家數(shù)據(jù)局陸續(xù)發(fā)布了涉數(shù)據(jù)標(biāo)注相關(guān)的典型案例,小眾的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)也逐漸走入公眾視野。數(shù)據(jù)標(biāo)注如何支撐智能時(shí)代?它的未來又將駛向何方?
2016年,秦子雄大學(xué)畢業(yè),第一份工作便是數(shù)據(jù)標(biāo)注的質(zhì)量檢驗(yàn)。如今,他已成為海天瑞聲的高級項(xiàng)目經(jīng)理,負(fù)責(zé)自動(dòng)駕駛圖像類數(shù)據(jù)標(biāo)注。海天瑞聲是AI數(shù)據(jù)行業(yè)首家也是唯一一家主板上市公司。
項(xiàng)目正式啟動(dòng)前,秦子雄都要上手標(biāo)注數(shù)據(jù)。以標(biāo)注車道線數(shù)據(jù)為例,他向記者演示了一幀(張)車道線數(shù)據(jù)標(biāo)注的全過程:在這幀圖片中,他需要找到車道線,人工畫線標(biāo)注出來。這些標(biāo)注后的車道線數(shù)據(jù)經(jīng)整理后形成數(shù)據(jù)集,成為AI學(xué)習(xí)現(xiàn)實(shí)路況的“教材”。
在他看來,數(shù)據(jù)標(biāo)注在業(yè)內(nèi)已經(jīng)火了很久,只是現(xiàn)在才逐漸被公眾了解。
《2025高質(zhì)量數(shù)據(jù)集發(fā)展研究報(bào)告》顯示,我國數(shù)據(jù)標(biāo)注相關(guān)產(chǎn)業(yè)產(chǎn)值超83億元。數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的繁榮與人工智能熱潮緊密相連。“高質(zhì)量的標(biāo)注數(shù)據(jù)是AI模型的‘教材’,直接影響著AI的準(zhǔn)確性和可靠性。”海天瑞聲董事會(huì)秘書張哲接受本刊記者采訪時(shí)說。
如果用一個(gè)詞總結(jié)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展趨勢,那便是智能。這一趨勢的背后,既有AI發(fā)展對海量優(yōu)質(zhì)數(shù)據(jù)的需求,也有傳統(tǒng)人工標(biāo)注模式效率低下、成本高昂的考量。
秦子雄日常工作所用的多模態(tài)數(shù)據(jù)智能標(biāo)注與管理平臺(tái),正是數(shù)據(jù)標(biāo)注產(chǎn)業(yè)邁向智能的體現(xiàn)。該平臺(tái)由海天瑞聲研制,支持視頻、圖片、音頻、文本等數(shù)據(jù)標(biāo)注,含有自研數(shù)據(jù)處理工具千余個(gè)、算法模型200余種。此外,該平臺(tái)還可實(shí)現(xiàn)數(shù)據(jù)“采集—清洗—標(biāo)注—質(zhì)檢—訓(xùn)練—回流”的全生命周期管理。
隨著平臺(tái)智能水平提升,越來越多的人能夠高效協(xié)同地參與到數(shù)據(jù)標(biāo)注之中。“借助平臺(tái),我們200多人的團(tuán)隊(duì),和40余萬來自各行業(yè)的數(shù)據(jù)工程師,共同參與到成千上萬個(gè)項(xiàng)目之中。”張哲說。
醫(yī)學(xué)領(lǐng)域的研究同樣需要數(shù)據(jù)標(biāo)注。設(shè)想一個(gè)醫(yī)學(xué)項(xiàng)目:研究肌肉的流失對于身體和壽命的影響。項(xiàng)目的首要任務(wù)起點(diǎn),便是將人體腹部的肌肉數(shù)據(jù)標(biāo)注出來。
然而,標(biāo)注腹部肌肉數(shù)據(jù)并不簡單。以國外醫(yī)療影像數(shù)據(jù)標(biāo)注軟件為例,一例肌肉數(shù)據(jù)標(biāo)注需要耗時(shí)120個(gè)小時(shí)。假設(shè)一個(gè)醫(yī)生每天最多標(biāo)注2小時(shí),至少需要兩個(gè)月才能完成一例數(shù)據(jù)的標(biāo)注,而此類研究需要標(biāo)注百例數(shù)據(jù)。
“肌肉由纖維組成,而纖維之間有空隙。醫(yī)生需要把纖維一根一根補(bǔ)出來。”東軟集團(tuán)研究院副院長、東軟智能醫(yī)療科技研究院副院長彭成寶解釋耗時(shí)長的原因。
上述難題,最終由彭成寶所在團(tuán)隊(duì)解決,其研發(fā)的東軟飛標(biāo)醫(yī)學(xué)影像標(biāo)注平臺(tái)(以下簡稱“飛標(biāo)平臺(tái)”)立大功。該平臺(tái)支持完整的數(shù)據(jù)標(biāo)注流程,還內(nèi)置了150余種醫(yī)學(xué)影像預(yù)標(biāo)注算法。
憑借飛標(biāo)平臺(tái)的預(yù)標(biāo)注算法,肌肉標(biāo)注效率從最開始的3~4小時(shí),到只用幾分鐘,效率大幅提升。所謂預(yù)標(biāo)注算法,就是醫(yī)生人工標(biāo)出部分肌肉數(shù)據(jù)后,平臺(tái)利用相關(guān)數(shù)據(jù),訓(xùn)練出專用于肌肉數(shù)據(jù)標(biāo)注的算法。算法標(biāo)注的數(shù)據(jù)會(huì)由醫(yī)生最終確認(rèn),算法也會(huì)根據(jù)每次實(shí)時(shí)更新的數(shù)據(jù)不斷優(yōu)化,數(shù)據(jù)標(biāo)注效率由此持續(xù)提升。
“與國外軟件相比,飛標(biāo)平臺(tái)能把肌肉的空隙狀態(tài)進(jìn)行標(biāo)注,更加精細(xì)。”專家團(tuán)隊(duì)如此評價(jià)。
更讓彭成寶自豪的是,由業(yè)內(nèi)心血管影像專家編寫的“主動(dòng)脈夾層CT血管成像標(biāo)注專家共識(shí)”,在標(biāo)注工具部分提及了飛標(biāo)平臺(tái)。
規(guī)模化、高質(zhì)效的數(shù)據(jù)供給成為AI時(shí)代的剛需。針對這一關(guān)鍵需求,政策層面也在持續(xù)發(fā)力。
為匯聚數(shù)據(jù)資源、提升數(shù)據(jù)質(zhì)量、盤活數(shù)據(jù)要素價(jià)值,探索數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展的科學(xué)路徑,2024年,國家數(shù)據(jù)局部署了7個(gè)承擔(dān)數(shù)據(jù)標(biāo)注基地建設(shè)任務(wù)的城市;同年12月,《關(guān)于促進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展的實(shí)施意見》正式出臺(tái),提及“建設(shè)一批成效明顯、特色鮮明的數(shù)據(jù)標(biāo)注基地”,為數(shù)據(jù)標(biāo)注基地發(fā)展指明方向。
各基地也在積極謀劃發(fā)展,結(jié)合實(shí)際情況,培育差異化競爭力。
比如,湖南長沙有著豐富的音視頻等行業(yè)數(shù)據(jù)資源,立下了建設(shè)“全球高質(zhì)量音視頻文創(chuàng)數(shù)據(jù)特色開發(fā)基地”的目標(biāo);山西大同計(jì)劃打造以數(shù)字文旅和智慧能源等行業(yè)多模態(tài)數(shù)據(jù)為特色的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)基地;遼寧沈陽憑借豐富的工業(yè)軟件應(yīng)用場景、研發(fā)試驗(yàn)平臺(tái)和載體,聚焦高端裝備、汽車制造等核心產(chǎn)業(yè),匯集裝備制造領(lǐng)域典型數(shù)據(jù),構(gòu)建生產(chǎn)監(jiān)控、設(shè)備運(yùn)行、質(zhì)量控制等數(shù)據(jù)集。
“我們結(jié)合沈陽產(chǎn)業(yè)現(xiàn)狀和相關(guān)基礎(chǔ),重點(diǎn)選取工業(yè)制造、現(xiàn)代農(nóng)業(yè)、交通運(yùn)輸、醫(yī)療健康等9個(gè)重點(diǎn)區(qū)域特色行業(yè)構(gòu)建高質(zhì)量數(shù)據(jù)集,明確具體應(yīng)用場景和典型案例方向。”沈陽市數(shù)據(jù)局相關(guān)負(fù)責(zé)人告訴記者。
截至目前,沈陽基地已形成36個(gè)行業(yè)高質(zhì)量數(shù)據(jù)集并應(yīng)用于41個(gè)大模型。全市數(shù)據(jù)標(biāo)注從業(yè)人員11600余人,拉動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)規(guī)模約20.4億元。
省級層面,在遼寧省數(shù)據(jù)局舉辦的全省數(shù)據(jù)標(biāo)注基地建設(shè)推進(jìn)會(huì)上,相關(guān)企業(yè)達(dá)成合作意向,簽約金額超2億元。據(jù)悉,遼寧省數(shù)據(jù)局還將制定《遼寧省數(shù)據(jù)標(biāo)注產(chǎn)業(yè)創(chuàng)新發(fā)展行動(dòng)計(jì)劃》,加快推動(dòng)全省數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展。
“我們會(huì)加強(qiáng)產(chǎn)業(yè)生態(tài)共育。鼓勵(lì)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)鏈上下游合作,促進(jìn)大模型技術(shù)持續(xù)優(yōu)化升級,推動(dòng)人工智能產(chǎn)業(yè)全面發(fā)展壯大。”上述負(fù)責(zé)人充滿信心。
視覺中國
責(zé)編:郭霽瑤""guojiyao@ceweekly.cn
美編:孫珍蘭