摘 要:工業領域數據標注能夠為人工智能模型訓練提供高質量數據集,是保障智能制造系統性能的關鍵基礎。在全球范圍內,數據標注正廣泛應用于制造行業和相關場景。歐美等國為適應工業數據特性、應對工業環境和場景需求、提升標注質量和專業性,實現了標注技術、方法和管理的創新突破,進一步強化了歐美工業人工智能領先優勢。我國應加快構建工業領域數據標注體系,通過推進工業數據標注技術與應用研究,研制工業數據標注標準,布局建設工業數據標注基地,推動工業數據標注資源流通共享,增強我國工業人工智能創新基礎和發展動力。
關鍵詞:工業人工智能;工業數據標注
(一)歐美地區引領全球制造業人工智能發展
歐美地區當前的領先地位主要得益于前沿技術的持續創新、強大的產學研生態體系、先進的制造業數字化水平,以及大量政府和個人對人工智能研發領域的投資。從市場規模看,2023年北美地區制造業人工智能市場規模約為13億美元,以35.1%的份額占據全球主導地位①,同年我國人工智能制造業應用市場規模約為8.1億美元②,與制造業增加值居全球首位的國家相比,我國制造業人工智能應用市場仍有巨大發展空間。
(二)歐美數據標注行業具備規模化、專業化、自動化、精準化優勢
在標注市場規模方面,2023年全球數據標注工具市場規模達10.296億美元,其中北美市場3.725億美元,歐洲市場2.808億美元,分別占比36%和27%,共同引領全球市場;同期我國數據標注工具市場規模約為8009萬美元,但與印度、加拿大近似,與我國經濟體量還不匹配①。在標注專業化方面,Appen、Scale AI和Alegion等海外領先企業在技術研發和市場應用上積累了豐富的經驗,能夠針對上千種應用場景和模型需求提供定制化標注解決方案;我國數據標注市場雖然發展迅速,但許多企業仍處于初創階段,專業化服務水平較國際領先企業存在差距。在標注自動化方面,歐美數據標注企業積極采用AI技術推動數據標注的自動化,預計到2030年,自動標注將以18%的復合年增長率增長;但我國的數據標注仍以人工為主,自動化程度有待提高。在標注精準化方面,歐美領先的數據標注企業結合人工智能和人工標注優勢,利用AI算法輔助人類標注員,并通過人工標注數據優化AI算法,從而逐步提高數據標注精準度,并采用多種質量控制指標,如互標引一致性和F1分數,確保標注結果的可靠性和一致性。
(一)針對工業數據特性的標注技術創新
一是解決跨模態數據統一標注難題。不同模態的工業數據在時間、空間、語義上存在顯著差異,且標注標準各異,因此,跨模態數據的協同分析一直是工業數據應用中的一個難題。美國的數據標注企業如Scale AI和Mighty AI等通過標注工具創新,能協同處理和分析圖像、聲音、傳感器等數據,從而幫助機器學習算法全面理解復雜的工業環境。二是支持實時數據標注和響應。在工業環境中,傳感器、機器運行、生產流程不斷產生實時數據,傳統的靜態標注已難以適應快速變化的工業環境。澳大利亞Appen、美國Annotation Box等公司提供實時數據處理與標注服務,并能在生產過程中動態調整標注策略,以確保數據的準確性和時效性。三是結合數據增強技術促進自動化標注。針對工業極端場景數據稀缺的問題,Appen與AI合成數據庫創建平臺Mindtech合作,利用高精度仿真技術模擬極端場景并生成合成數據。這一創新方法旨在訓練智能標注算法,進而加速自動數據標注創新,提升標注效率和準確性。
(二)適應工業復雜場景的標注模式創新
一是跨領域合作開發專業標注工具。歐美的企業和研究機構通過合作,致力于開發適用于工業的數據標注解決方案,如德國弗勞恩霍夫研究所與行業企業合作研發了視頻數據標注工具ANTONN、傳感器數據管理工具FROST以及3D數據點云自動標注工具等,這些工具為工業數據處理提供強大支持。二是跨工序標注促進先進制程系統優化。針對工業生產流程間緊密關聯的特點,Mighty AI開發了基于Web的可視化平臺,可直觀地展示不同工序的數據關聯,便于跨工序的數據整合和分析,不僅提高了數據利用率,還促進了生產流程的優化與協同。三是通過數據集管理決定標注優先順序。Scale AI通過數據引擎實現了高效的智能數據集管理,能夠識別并優先處理最具價值的數據并進行優先標注,這一功能在提升操作效率、集成和分析多種數據類型的工業環境中尤為重要,為有效應對快速變化的市場需求提供了重要保障。
(三)滿足工業高質量專業化數據要求的標注管理創新

一是在全球建立人工智能標注基地并進行統一培訓和質量管理。許多歐美企業通過在全球招募標注人員,快速擴展其標注團隊,如Appen在全球180多個國家和地區擁有40多萬名外包合同工,眾包平臺Mechanical Turk在非洲和東南亞擁有20萬名AI數據標注員。為了確保標注質量,這些企業制定了詳細的培訓計劃和嚴格的質量控制流程,確保標注人員獲得統一指導并交付高質量的標注數據。二是組織行業專家參與數據標注。在工業制造專業領域,具備專業知識的專家標注成果顯著優于普通人力外包標注。Appen、Scale AI、iMerit等領先數據標注企業將“專家參與”作為服務特色,組織行業專家對標注結果和模型微調提供評估和反饋。三是形成專業領域數據標注標準規范。領先的數據標注企業普遍建立了數據標注質量規范。如Scale AI建立了一套提升數據標注質量的方法,包含模型性能評估指標、基準任務篩選和實現高質量標注的最佳實踐。此外,歐美各國標準化組織和行業協會也在積極推動建立并采用數據標注標準。如美國制造業協會(NAM)敦促制造商采用一致的數據標注實踐,并在相關白皮書中強調數據標注在確保AI系統可靠性方面的關鍵作用。
(一)積累大量高質量數據集,增強工業人工智能“原料”供給
一是開源平臺通過眾包標注積累工業數據集。國際知名數據科學競賽平臺Kaggle吸引全球專家參與數據標注和模型構建,積累了近600個制造業公共數據集,其中近百個數據集得到8分以上的高可用度評價。二是行業企業聯合科技企業打造專業數據集。寶馬集團與微軟、英偉達合作打造了數據自動標注工具和無代碼AI工具,發布了包含80萬張標注圖像的汽車工程數據集SORDI,涵蓋汽車工程與物流核心技術對象共計80個生產資源類別。三是領先的科技企業發布大規模帶標注數據集。2024年7月,Meta發布了一個大型帶標注數據庫,包括來自47個國家的約51000個真實世界視頻和超過600000個時空掩碼,與現有最大的視頻分割數據集相比,該數據庫視頻數量多4.5倍,標注數量多53倍,對于幫助AI模型更準確識別和處理復雜場景具有重要價值。
(二)助力工業領域機器學習,促進智能技術創新應用
一是強化人工智能對工業生產環境的理解,推動工業機器人等先進技術創新。阿西布朗勃法瑞公司(ABB)通過對大量視覺數據進行精確標注,訓練機器人識別不同類型的物體和環境,優化其在制造和物流中的自動化操作,使其能夠在復雜的工業環境中安全高效地執行任務。二是利用經過標注的數據構建工業知識庫,促進工業數據智能應用。西門子對其集團內部多源異構數據進行了整合和標準化標注,構建了包含120萬種產品的工業知識圖譜,實現了跨部門的知識共享和數據利用,支持智能搜索、產品組態、生產規劃等應用,為集群級分析和人工智能應用奠定基礎。
(三)廣泛應用于行業和場景,加速工業數智化轉型
全球領先的制造商們正加速人工智能技術應用,據麥肯錫針對燈塔工廠的統計,人工智能技術貫穿制造業價值鏈,能夠為制造商帶來10%到60%的效能提升。其中,數據標注直接影響了工業制造業人工智能系統的表現和性能。在工業制造業領域,數據標注能夠明確指出制造零件的缺陷位置和類型、裝配線工作流程的時間順序、傳感器異常讀數以及機械臂精確方位等信息,從而生成帶標記的圖像、視頻、文本、點云、音頻等數據集,這些標記數據集用于訓練工業人工智能模型,使其能夠有效解釋現實世界的復雜情況。從標注應用行業看,數據標注服務能滿足各類工業行業專業化需求。Scale AI、Labelbox、PremeterX、Datarella等歐美數據標注企業分別面向半導體、能源電力、機械制造、航空航天等行業提供定制化的數據標注服務。從標注應用場景看,歐美的數據標注應用正向廣泛的工業智能場景滲透,除了典型的圖像識別場景如缺陷檢測和安全生產監控外,還結合圖像、文本、音頻等跨模態標注技術,應用于設備預測性維護、供應鏈管理、工藝流程優化等復雜場景。
(一)我國人工智能制造業應用取得顯著進展
2023年,我國人工智能制造業應用市場規模約為56億元人民幣,預計在2025年將超過140億元人民幣。其中,電子通信、半導體領域的市場規模預計將達到41億元人民幣,汽車制造行業37億元人民幣,能源電力行業25億元人民幣。在國家政策的積極推動下,智能制造正在加速發展。截至2023年年底,我國已培育出421家國家級示范工廠和超過1萬家省級數字化車間。同時,我國工業機器人交付量和使用量遠超歐美國家,根據國際機器人聯合會的數據,我國2022年安裝工業機器人超過29萬臺,是日本的6倍、美國的7倍、德國的12倍,法國的40倍。2023年,我國安裝的新型工業機器人占全球一半以上,機器人化正在加速推進。
(二)我國數據標注產業生態日益成熟
近年來,我國逐步形成了一個上游包含AI基礎數據服務商、IDC廠商,中游包含數據治理平臺服務商,下游包含智慧政務、金融、工業、自動駕駛等人工智能應用的數據標注行業產業鏈。國內數據標注代表企業包括互聯網企業、專業數據標注公司、人力外包和派單平臺等。互聯網巨頭自行組建的數據標注平臺,例如百度眾測、阿里數據標注、京東眾智、網易數據眾包平臺等,都積極參與市場競爭。專業數據標注公司,如海天瑞聲、云測、龍貓數據、倍賽等,擁有自研標注平臺,并根據專業需求提供定制化標注工具,通過平臺使用費獲得收益。此外,主要為小微企業的大量人力外包和派單平臺,通過對接標注訂單提供人工標注服務,其核心優勢在于低成本的人力資源。
(三)我國工業領域數據標注面臨挑戰
我國工業領域數據標注市場主要依托工業視覺技術,應用于表面質檢、工藝過程監控和安全監測三大場景,普及程度不高。調研發現,我國工業領域數據標注主要面臨四大挑戰。一是數據標準化挑戰,難以適配工業數據特性。工業領域存在各類非結構化數據、時序數據等,使得數據標注的適用性受到限制。二是標注技術挑戰,難以應對復雜多變的工業場景需求。生產流程的關聯性、實時更新要求、大規模生產以及高精度標注需求等,給數據標注技術帶來了挑戰。三是專業知識挑戰,缺乏精深的工業知識和數據標注能力。工業領域具有大量來自行業和專業領域的數據標注需求,但缺乏具備豐富行業背景的數據標注人員。四是數據流通挑戰,標注數據難以實現共享應用,造成大量重復標注工作,不利于工業領域智能化發展。
(一)推進工業領域數據標注研究
依托工業互聯網大數據技術工信部重點實驗室,設立行業級數據智能標注研究中心。一方面,聯合行業龍頭企業,設立工業數據標注場景實驗室,開展針對重點工業場景的研究與實踐,形成行業場景標注知識庫。另一方面,需促進企業、高校和科研機構跨領域合作,共同開展適用于跨模態、跨工序、復雜工業場景的數據標注技術和方法研究。
(二)研制工業數據標注標準
首先,需制定工業數據標注通用標準,規范工業數據標注流程,形成工業數據標注質量評估和控制規范,并確立敏感工業數據在標注中的保護規則。其次,圍繞重點行業和場景需求,制定分行業分場景的數據標注標準,定制數據注釋指南和分類體系。最后,針對工業數據管理和流通問題,研究制定標注數據目錄管理規范,明確標注數據流通交易規則。
(三)建設工業數據標注基地
按照“規范引領、分類布局、生態協同”原則,布局建設工業數據標注基地。首先需要制定工業數據標注基地評估標準,推動基地規范化管理。其次,根據地方產業需求和人才基礎,規劃建設區域級和行業級工業數據標注基地。再次,開展工業人工智能數據服務人才培訓,構建工業細分行業數據服務專業人才庫。最后,整合區域和行業工業數據標注需求、技術服務資源、人力和教育資源,培育工業數據標注產業生態。
(四)推動工業領域數據標注資源流通共享
建設工業數據標注生態服務平臺,集成標注基地評估管理、標注專業人才儲備管理、標注數據目錄管理、標注業務供需對接、標注數據流通交易、智能應用場景展示等功能,打通工業數據標注在技術、人才、應用、數據流通等方面的壁壘。整合工業領域數據標注產業生態,實現專業人才、技術工具、創新資源、公共數據等資源的共享。
參考文獻
[1] Market.US. AI in Manufacturing Market[EB/OL]. (2024-02-01)[2024-10-16]. https://market.us/report/ai-in-manufacturingmarket/
[2]麥肯錫報告解析:AI重塑制造業,開啟萬億級增長潛力[EB/OL]. (2024-05-27)[2024-10-16]. https://www.industrysourcing.cn/ article/459598
[3] BimAnt.數據標注市場趨勢2024[EB/ OL]. (2024-01-30)[2024-10-16]. http://www. bimant.com/blog/data-annotation-markettrends-2024/
[4] 36氪研究院.2024年中國AI+制造產業研究報告[EB/OL]. (2024-07-08)[2024-10-16]. https://www.36kr.com/p/2853458940627588
[5]德勤.制造業+人工智能創新應用發展報告[EB/OL]. (2024-07-15)[2024-10-16]. https://www2.deloitte.com/cn/zh/pages/ energy-and-resources/articles/manufacturingartificial-intelligence-innovation-applicationdevelopment-report.html
[6]人民網.“燈塔工廠”、無人化工廠和智能工廠等新型工廠大量涌現——中國迅速擁抱智能化浪潮[EB/OL]. (2024-04-08)[2024-10-16]. http://paper.people.com.cn/ rmrbhwb/html/2024-04/08/content_26051136. htm
(作者系中國工業互聯網研究院工程師)
The Enlightenment for China from Europe and the US Strengthening their Advantages in Industrial AI through Innovations in Industrial Data Annotation
Wang Ruiying
Abstract: Industrial data annotation offers high - quality data sets for AI model training and is key to intelligent manufacturing system performance. Globally, it’s widely used. The US and Europe have innovated in annotation technologies, methods and management to adapt to industrial data, meet environment/scenario requirements, improve quality and professionalism, strengthening their AI lead. China should speed up building an industrial data annotation system. By promoting relevant research, formulating standards, establishing bases and facilitating resource circulation and sharing, China can enhance its industrial AI’s innovation foundation and development momentum.
Keywords: Industrial Artificial Intelligence; Data Annotation in the Industrial Field
① https://market.us/report/ai-in-manufacturing-market/
② Bizwit,德勤研究“德勤人工智能制造業應用調查”.deloitte-cn-cip-ai-manufacturing-application-survey-zh-200114.pdf
① Data Annotation Tools Market Size Outlook, 2030 https://www.grandviewresearch.com/horizon/outlook/data-annotationtools-market-size/global