| 文 · 陸長安
數據標注是機器感知現實世界的起點。
“我曾經認為機器是天才,但現在我才知道我們(人類勞動者)才是它們成為天才的背后原因。”
2022 年,中國國際進口博覽會在技術裝備展區設立人工智能(AI)專區,并專門開辟了人工智能體驗區;2023 年,伴隨著大模型、元宇宙、人工智能生成內容(AIGC)技術“大爆發”,人工智能更“火”了。
近幾年來,全球的人工智能市場迎來了快速發展,很多國家都在大力支持人工智能產業,相關新興應用也不斷落地。中商產業研究院發布的《2022-2027 年中國人工智能行業需求預測及發展趨勢前瞻報告》顯示,2022年,全球人工智能市場規模達到23901 億元,同比增長26.7%,預計到2024 年全球人工智能行業市場規模將達到35137 億元。
中國人工智能市場規模在過去幾年也獲得了飛速發展,據中國信息通信研究院測算,2022 年中國人工智能核心產業規模達到了5080 億元。科技部發布的《中國人工智能大模型地圖研究報告》顯示,中國研發的大模型數量排名全球第二,僅次于美國,目前中國10 億參數規模以上的大模型已發布79 個。
隨著人工智能技術的廣泛應用,新的職業、新的崗位正在不斷涌現,如:人工智能訓練師、人工智能倫理顧問、人工智能數據分析師、人工智能工程師、虛擬現實工程師、安全工程師、區塊鏈工程師等等。
人工智能訓練師,則是使用智能訓練軟件,在人工智能產品實際使用過程中進行數據庫管理、算法參數設置、人機交互設計、性能測試跟蹤及其他輔助作業的人員,也就是專門從事數據標注和訓練的專業人員。
2020 年2 月,人工智能訓練師正式成為新職業,并被納入國家職業分類目錄。
打開電腦,將采集的風聲、雨聲、溪流聲等聲音數據輸入,“清洗”掉夾雜其間的噪音……伴隨著手指敲擊鍵盤的“啪嗒啪嗒”聲,人工智能訓練師付聰一天的工作開始了。
每次出門時,付聰總會在耳朵上戴一個大“耳環”。這個“耳環”其實是一個測試版的助聽器。付聰和他的團隊要做的,則是利用算法設計、通過人工智能技術“訓練”數據模型,讓助聽器更加“智慧”地降低噪聲,讓聽障人群聽得清、聽得懂、聽得舒服。
付聰解釋,助聽器的數據模型很小,因此需要針對不同場景進行優化,很多場景都充滿挑戰,“比如一個聽障人士在餐廳吃飯,周圍有很多人說話,他想跟對面的人聊天,四周聲音特別嘈雜,作為一個正常人都可能聽不清楚,更何況一個有聽力障礙的人?我們希望利用模型,把需要的聲音提取出來,降低噪聲,幫助更多聽障人群”。
事實上,在人工智能可以像人類一樣“聰明”“能干”的背后,離不開人工智能訓練師的默默付出。人工智能訓練師還有另一個名字:數據標注師。他們的工作就是教機器學習、感知和認知世界。他們服務于自動駕駛、醫療保健、智能安防、智慧金融、新零售、智慧家居等幾乎所有的人工智能場景。
改革開放以后,對于古建筑保護的政策相繼出爐,各省市也遵循國家層面所制定的政策,取得了一定的成果。但是我們還是能夠看到殘忍破壞古建筑的行為的產生。很多城市還是在發展和保護上選擇了發展。
第六屆進博會人工智能專區,市民體驗VR 設備
陜西省榆林市清澗縣數字就業中心的工作人員在進行數據標注
尹青山是一名給大模型“投喂”數據的人,“就像教孩子一樣,我們要教會人工智能認字、識圖、說話,甚至‘思考’”。作為團隊首席訓練師,尹青山表示,大模型其實就是語音識別算法、視覺感知算法、語義理解算法、知識圖譜及語音合成算法等的集合,基于深度學習技術,通過訓練師不斷給大模型“喂”圖片、文字、語音等,人工智能會越來越“聰明”。
“對于智能巡檢機器人,主要訓練其識圖能力。”高巖是一名人工智能“識圖老師”。通過現場拍攝等多種方式,高巖將各種關于服務器前面板指示燈的圖片進行標注,然后“投喂”給機器人進行訓練,并根據測試結果不斷調整優化模型參數。通過高巖的“訓練”,智能巡檢機器人短時間內就能掌握在哪種情形下需要向后臺報警。“人工智能的‘智慧’取決于模型參數、訓練策略、數據量等。圖片量越大,標注的特征越多、越細,識別就越準確。這就跟教孩子認識蘋果一樣,你得教給他,不同顏色、不同形狀、放在不同位置的,都是蘋果。”
馮落落是人工智能的“語言老師”。他正根據一家醫院的需求,為醫療服務機器人導入知識圖譜和語言集合。醫療服務機器人不僅要為患者及其家屬提供導診、咨詢等服務,還要識別不同的方言。“關鍵點是知識圖譜龐大且準確,這樣患者就能得到最及時、最專業的回復。”馮落落說,機器人可能會被問住,但絕對不會誤導患者。
4 年前,陳霞還是一名全職媽媽,如今,31 歲的她已經是一名資深的人工智能訓練師了。她參與的是無人駕駛項目,負責在電腦上對車在道路上采集的現實交通場景的原始數據進行處理,將其轉化為機器學習可識別的專業數據。“比如道路上的各種障礙物、建筑、綠植,各類車道線以及行人等,我們要把這些人、物標出來,我們就是無人駕駛車的眼睛,告訴它們看見的東西是什么,應該怎么去行駛。”陳霞這樣描述她的工作。
人工智能訓練師也被稱為人工智能的“啟蒙老師”。隨著人工智能技術和應用的不斷發展,數據標注和訓練工作變得越來越重要。
事實上,在過去,人工智能企業從客戶(用戶)那里獲取到的原始數據無法直接用于模型訓練,是由人工智能產品經理先用相關工具簡單處理,再交給數據標注人員進行標注加工。但因為標注人員對數據的理解和標注質量差異很大,導致整體標注工作的效率和效果都不夠理想。同時,人工智能企業在其細分領域內積累了大量數據,這些數據往往在使用一次后便不再產生更多價值,數據無法沉淀和復用。
于是,人工智能訓練師便應運而生。
擁有9 個屏幕的機器人外科醫生
巡檢機器人在地下綜合管廊內進行技術調試
在2023 年的世界人工智能大會上,中信智庫專家委員會主任、中信建投證券研究所所長武超則表示,一個模型的好壞,20%由算法決定,80%由數據質量決定,未來高質量的數據將是提升模型性能的關鍵。
算力、數據、算法,被稱為支撐人工智能大模型的三駕馬車。
數據在人工智能發展過程中極為重要,業內甚至用“新的石油”來形容數據作為將人類智能轉化為機器智能原材料的重要性。作為人工智能算法的“燃料”,數據是人工智能實現應用落地的必備要素。而數據標注的精確度往往決定著人工智能的智能程度,大多數原始數據只有經過人工標注、加工,才能激活數據價值。人工智能訓練師(數據標注師)工作的意義就在于此。
數據標注行業是一個技術密集型和勞動密集型相結合的行業。行業內流行著這樣一句話:“有多少智能,就有多少人工。”
百度智能云數據標注基地業務產品負責人胡馳說:“比如當前被譽為最接近通用智能的大語言模型,依然離不開數據標注。它基于大規模無標注數據進行預訓練,再經過精調,在各領域中得到很好的應用。這其中的一個重要環節,就是算法工程師需要使用高質量的、人類反饋的標注數據進行大模型精調,來幫助模型成長。”
數據標注行業發展至今,已成為半人工智能、半人工化的行業。但數據標注仍是需要大量人工來完成的環節。行業內還有這樣一句話:“人工有多強大,智能才有多強大。”
“當前,大部分數據標注任務仍然需要人工完成,而且各種數據類型和應用領域都需要相應領域的專業標注員來完成標注任務。”有業內人士表示,在過去,人工智能訓練師的門檻較低,只需要細致、耐心;但如今,在一些高難度、高質量標準的標注任務中,人工智能訓練師的素質對標注過程和結果的準確性和穩定性至關重要。例如,在自動駕駛、AIGC 等數據類型的標注任務中,人工智能訓練師需要有相應領域的專業知識和技能才能準確地標注數據。
胡馳表示,目前,人工智能技術不斷演化、技術與行業場景融合不斷泛化,這些都需要大量的數據支撐,會對數據產生許多新的需求。數據標注也從早期的相對通用數據向專業化、復雜化方向演進。越來越多的細分場景,需要更多定制化模型進行迭代訓練,這也讓人工智能訓練師面臨更多考驗,“未來,人工智能訓練師會伴隨人工智能的發展不斷成長與變化,具備較長的職業生命周期與上升空間”。
近年來,數據標注企業不斷涌現并相繼落地三、四線城市,在助力當地數字產業發展的同時,也為更多普通人提供了轉型、就業的新機會。
2022 年,在山東省青島市服務貿易協會的推動下,中網盾數字服務與北岸控股簽署項目入駐協議,2023 年5 月正式入駐青島數字貿易港,在青島市共同打造數據標注產業基地。截至2023 年9 月,中網盾數字服務基地辦公面積超5000 平方米,1 年時間,已有1000 名人工智能訓練師、多家代理商已入駐,基地累計產值超1 億元。
2023 年8 月,位于海南省海口市秀英區的百度智能云(海口)人工智能基礎數據產業基地正式啟動運營,數百名大學生入駐,成為新興的人工智能訓練師。百度智能云人工智能數據標注產業基地已陸續落地山東省濟南市、山西省臨汾市、重慶市奉節縣等10 余個地方。
在四川省內江市,當地政府攜手阿里巴巴合資成立了科技公司,建設包括數據標注在內的數字服務外包產業基地;廣東省廣州市天河區與科大訊飛共同在貴州省畢節市大方縣設立智慧就業車間,為當地易地扶貧搬遷群眾提供貴州方言標注等工作崗位……
數據顯示,截至2023 年3 月,百度(山西)人工智能數據產業基地中,就擁有超過3000 位人工智能訓練師,主要涉及自動駕駛、人臉識別等內容標注,其中86%的員工為90 后;字節跳動在北京、天津、濟南、武漢各地,也招募了4 萬名人工智能訓練師;騰訊更是直接把平臺放到了線上,讓人工智能訓練師變成了一種“全民兼職”,稱為“眾包”……
數據標注是機器感知現實世界的起點。一位年輕的人工智能訓練師感慨:“我曾經認為機器是天才,但現在我才知道我們(人類勞動者)才是它們成為天才的背后原因。”
可以預見的是,在未來更多更廣闊的垂直領域里,有專業經驗、并且熟悉數據標注工作的人群,都將是數據標注行業急需的人才。
中國新時代 2023年12期