一畝地

數據標注是AI(人工智能)實現的基石,特別是ChatGPT的橫空出世,把AI的熱度推向了一個新的巔峰,那么作為整個AI產業鏈的基礎層支撐之一,數據標注自然也不能被忽視。
行業現狀
2020年,人工智能訓練師被正式納入國家職業分類目錄。一般來說,人工智能訓練師主要分為數據標注員和人工智能算法測試員。數據標注從業人員在業內有“AI民工”的稱號,由此不難看出數據標注屬于勞動密集型產業,具有機械性、重復性的特點,而此類工作正是AI要取代的方向。如此看來,數據標注行業似乎有種“舍身飼虎”的感覺。
其實不然,目前主流的機器學習方式以有監督的深度學習方式為主,對于標注數據有著強依賴性需求。且不說當前AI的火熱會帶動數據標注需求短時間內增長,從長久來看,人類社會的發展是一個動態的過程,世界更是千變萬化,從中采集的數據自然也不會是一成不變的,而AI要進化,就需要不斷地識別和學習經過清洗、處理而成的結構化數據。所以,只要AI存在一天,數據標注就不會消亡。
好馬喂好料
如果把AI當作一匹馬,隨著越來越多的AI應用落地,現在的AI市場儼然一幅萬馬奔騰的畫面,要想在AI市場脫穎而出,唯有升級為“千里馬”。俗話說“好馬喂好料”,縱有算法千般好,沒有好的數據供其訓練也只能“才美不外見”,這就對數據標注行業提出了更高的要求。相比以往的低門檻,今后的數據標注從業人員需要具備更加專業的知識。如發展醫療、法律、金融、工業等專業化水平較高的AI技術,就需要具備一定專業知識的人進行數據標注工作。在這方面,大型的工廠式數據標注公司在技術儲備、人員培訓方面的優勢就得以顯現,會進一步擠壓中小型工作室的生存空間。
有多少人工就有多少智能
AI行業有一句話“有多少人工就有多少智能”,在ChatGPT獨領風騷、AI概念高熱不退的當下,仍有成千上萬的AI訓練師做著枯燥的流水線式標注工作。他們多就職于三四線城市的中小型工作室(人數由幾十人到幾百人不等),收入較低,難以獲得福利保障。他們多數學歷較低、就業競爭優勢不大,其中不乏殘障人士等無法從事正常工作的特殊群體,而且他們又極有可能是AI在數據標注行業最先取代的人。
與大型公司相比,工作室能接到的項目資源通常不穩定,且經過層層轉包,到了最后一層,自然沒有多少利潤,也導致了從業人員的薪資普遍較低。究其原因,是數據標注行業發展粗放、缺乏規范。今后數據標注的標準會更高,競爭也會愈發激烈,數據標注公司需要去思考怎樣提高效率、培訓員工、規范行業,以及承擔更多的社會責任。
結語
發展科學技術的根本目的是解放生產力,把人類從繁重的體力勞動中解放出來。數據標注和算法研究一樣為AI行業發光發熱,為人類美好的明天做出貢獻。