孫媛媛

數據決定了AI落地程度,基礎數據服務是商業化過程中重要的一環。
制作于公元前196年的羅塞塔石碑(Rosetta?Stone),刻有古埃及國王托勒密五世登基的詔書。
石碑上用古希臘文、古埃及象形文以及當時埃及平民使用的通俗體文字刻了同樣的內容,這讓考古學家解讀出失傳千余年的埃及象形文的意義與結構,找到讀懂古埃及的密碼。在AI領域,為了讓機器讀懂人類世界,同樣有一塊“羅塞塔石碑”——數據標注,它的存在讓大規模訓練數據的機器學習成為可能。
人工智能在變得更聰明更有人情味的過程中,離不開數據標注這個產業鏈。ChatGPT的火爆,會帶動數據標注行業的高增長嗎?我國數據標注產業目前的發展狀況如何?為此,《小康》雜志、中國小康網采訪了業內資深從業者一探究竟。
數字經濟的發展底座
所謂數據標注,指的是對未經處理的語音、圖片、文本、視頻等原始數據進行加工處理,?使其成為結構化數據讓機器可識別的過程。
算力、算法和數據被稱為是人工智能的“三駕馬車”。過去的十多年時間里,數據、算力、算法等技術的創新和迭代,可以說是“大爆炸”式的發展。這里的數據,更精確地表述為數據集,用于人工智能算法模型訓練,被公認為人工智能算法的“燃料”,是實現人工智能技術與產業結合能力的必要條件。
近年來,人工智能產業的發展帶動了數據標注行業的快速發展。數據標注作為人工智能的基礎層,也為人工智能產業高速發展打下堅實的基礎,催生了一批圍繞人工智能產業鏈、大數據產業的新模式、新業態,成為數字經濟發展的“數據”底座。
數據在AI發展過程中極為重要,業內甚至將數據稱為“新的石油”來體現它作為將人類智能轉化為機器智能原材料的重要性。但放眼整個AI行業,數據的受關注度遠沒有AI三元素的另外兩個元素——算法和算力高。
造成這個結果的最主要原因就是數據標注行業是一個勞動密集型的產業,“足夠廉價的勞動力”是數據標注公司的一大標簽。
整數智能信息技術(杭州)有限責任公司致力于為AI領域企業提供數據服務。其聯合創始人趙子健接受《小康》雜志、中國小康網采訪時表示:“目前人工智能商業化在算力、算法和技術方面基本達到階段性成熟,想要更加落地,解決行業具體痛點,需要大量經過標注處理的相關數據做算法訓練支撐,可以說數據決定了AI的落地程度。AI的發展離不開海量的數據去做訓練和喂養。如果說人工智能是一片礦,不管哪一塊需要挖礦,都需要有礦工和挖礦的機器,而數據就可以理解為是挖礦的機器。作為底層的基礎設施,每一波的人工智能發展,作為提供數據服務的公司都能從中獲益,同時也面臨著更多的挑戰、機遇、發展前景和更大的市場。”
《小康》雜志、中國小康網了解到數據標注行業有一套分工流程:巨頭把任務交給中游的數據標注公司,再由中游包給下游的小公司、小作坊,有的小作坊還會進一步眾包給“散戶”,比如兼職學生。一單生意幾經轉手,就造成了行業眾包中介層疊越來越嚴重,利潤所剩無幾。然而,實際情況是怎樣的呢?
趙子健說:“不同公司定位不一樣。有些公司沒有產品技術研發的實力,能做的事情類似倒賣。一些小的城市,可能薪資較低,他們就適合做人力型團隊,提供數據標注員。”
《小康》雜志、中國小康網進一步了解到,做標注和外包審核這部分業務的公司人員流動性很大,因為這個業務比較枯燥,做的是純一線的重復性勞動,加之其他一些不穩定因素,一般公司會優先保證重要項目不出現人員斷檔。
國內做數據標注業務的公司很少有單業務鏈,比如內容審核集中在二三線甚至更小的城市,給的薪資相對會低。而做內容審核、內容標注等這類業務的公司集中在天津、成都、重慶、西安……相對消費水準低,投入成本也低。
一位不愿具名的業內資深從業人士告訴《小康》雜志、中國小康網,ChatGPT國產化有個非常大的風險,通過大量的數據訓練機器人,跟所有的人對話,這個過程中其接觸到的數據有很多可能是有問題的。有很多信息需要進行攔截,比如一些非法的信息。沒有經過攔截的信息一經流出,就有可能變成變相的宣傳渠道。如果沒有專門的人力對這方面的內容加以把控的話,就會成為被利用的渠道。
為了方便管理,比如擔心內容外泄,較大的互聯網公司都早早開始自建基地或者子公司,在安全和管理上更好把控,但成本會更高。字節跳動很早就自己建設基地,全國各地大概有六七個城市都有基地。以子公司來做數據標注,更多是基于安全的考慮,比如涉及黃賭毒的內容,有很多是不能流出的。必須承認外包業務泄露的風險要比自己公司泄露的風險大。然而,從成本上考量一定是外包公司更好。
中國數據標注產業崛起中
數據標注是計算機感知世界的起點,全球數據標注行業是伴隨全球人工智能產業發展而生的。最早可以追溯到上世紀90年代,深藍戰勝國際象棋世界冠軍加里·卡斯帕羅夫,全球人工智能產業發展進入新的探索期,1996年澳鵬(Appen)誕生并開始布局數據服務領域業務。2007年數據標注行業正式拉開序幕,始于斯坦福大學教授李飛飛等人的ImageNet項目,該項目要通過亞馬遜的勞務眾包平臺Mechanical?Turk(AMT)來完成圖片的標注和處理,得到的數據集供機器算法訓練和學習。此后,全球開始涌現出眾多的數據標注企業,全球數據標注行業也進入成長期。
從行業供給情況來看,全球數據標注行業企業主要分布在美國、中國、澳大利亞和非洲等國家和地區,但具有一定規模的企業數量相對較少。在美國,數據標注企業較多,突出的特點是技術驅動導向,數據標注服務供給能力和質量較高,代表性企業有Scale?AI、Mighty?AI、Mturk、Supervise.ly等;歐洲地區代表性企業有塞浦路斯的Mindy?Support等。
數據標注行業不被關注由來已久,直到美國數據標注企業Scale?AI,用5年時間(2016—2021)實現超73億美元的估值,才為國內數據標注行業注入了一針強心劑。
此后,隨著特斯拉在2022?AI?DAY上推出Auto?Labelling標注平臺,并推出4D標注技術,讓更多人知道了自動化標注的存在,也讓更多專業的數據標注企業走到臺前。
當前,全球數據量仍在飛速增長的階段。根據IDC發布的《數據時代2025》測算,到2025年,全球的數據生產量將達到175ZB。目前市場上90%以上的數據是非結構化數據,得到有效利用的不足10%,對于這些非結構化的數據只有經過標注處理才能激活其價值,這就產生了源源不斷的數據標注處理需求,可以將數據標注處理理解為結構化數據的生產處理,而這些標注企業就是數字經濟時代下的新型生產制造企業,生產出來的是“數據集”屬性的產品。
在全球數據量指數級的增長過程中,從非結構化到結構化的數據生產,需要大量的數據標注服務,數據標注將大大激活數據價值,提高數據質量和發揮數據要素的作用。
“目前相對來說,人力成本比較便宜,國內數據標注業發展的時間節點會比美國機器替代人力的時間晚一些,業內已經開始有公司用自動化的方式去替代人力,去提高數據生產的自動化效果。”趙子健介紹說,數據標注業務分不同的標準和不同的難度。比如做人臉識別的場景,數據標注的任務要求并不高,對人力要求也不高。一些特殊領域,比如自動駕駛領域,還有一些小語種領域,或者專業知識性較強比如法律、金融這樣的場景任務對從業人員的知識儲備、綜合能力要求就特別高。薪水也會根據任務的復雜程度而有所區分。
趙子健所在的整數智能核心定位是產品型公司,做了一套自動化的數據標注工具,把很多人力的工作用自動化的算法替代,以提升整體標注速度和效率。“轉包最大的問題就在于無法保證數據生產的質量和速度,數據如果沒法保障,就會影響研發的進程,進一步影響商業化的進程,這是一個非常大的行業痛點。”他說,“我們要做的事就是盡可能促進行業規范化。”該公司推出的自動化標準工具可提效、替代70%的人力。此外,該公司自有供應鏈穩定持續產出,以此拓展科研機構和企業客戶。
“勞動密集”邁向“技術密集”
根據《數據時代2025》測算,到2025年我國擁有的數據量在全球的占比將從2018年的23.4%提升到27.8%,位居全球首位。2015年以來,隨著國家的大力推動,我國大數據產業加速發展。一大批大數據產業園相繼落地,大數據產業生態加速完善,相關標準和技術體系持續完善,應用市場日益壯大,產業國際影響力不斷提升。根據工業和信息化部發布《“十四五”大數據產業發展規劃》產業規模測算,到2025年底,大數據產業規模將突破3萬億元。在此背景下,數據標注需求隨數據量增長而上升。長期來看,我國大數據支出整體呈穩步增長態勢,市場總量有望在2024年超過200億美元。
在大多數人看來,人工智能是高大上的奢侈品,離實際生活太遠,而ChatGDP最大特點就在于,它讓每個人都真實地體驗到了高質量的人工智能,這意味著它會調動社會的高關注度、積極性與熱情,也會使人工智能變成生活中的基礎設施,意味著會有更多人投入到這一領域,更多的資本追加、更多的市場關注度,以及更多的產品推出……這種情況下,AI與各行各業深度結合,數據標注的業務量會進一步提升。
不少業內人士表示,ChatGPT的火爆,對于數據標注行業是利好的。ChatGPT國產化,數據標注在整個市場里占據很大份額,因為它非常依賴于訓練結果,機器可以訓練底層的數據,但是要想和人進行更人性化的溝通,以及要符合國家的一些規定,單靠機器很難做到,需要大量的人的主觀判斷,人工智能大發展也會為數據標注行業帶來更好的發展。
互聯網內容安全從業者表示,數據標注10年內不太可能被替代。“很多內容,機器再怎么訓練它的算法,也很難完全替代人,因為很多東西非常主觀、隱晦,機器很難通過算法識別出來,需要人力去做相應的識別。”
趙子健則表示:“現在數據標注行業已經到了變革的時刻,傳統意義上,大家覺得數據標注是人力密集型的行業,但未來發展一定是技術密集型,以技術的自動化替代人力這條路其實在美國走得更快。美國相對來說人力成本較高,所以更早地使用機器替代人力,美國已有大型自動化的數據標注公司,國內也一定會誕生一批這樣的公司,真正實現提效,這是對于未來的行業預判。”他很肯定未來大方向上人工智能一定會與各產業深度結合,而每個行業,比如智慧醫療、智能制造、自動駕駛……這些場景都是海量的數據量級,數據已經成為一個新的生產要素。工業的發展需要水電煤,新的經濟產業基礎設施則需要有數據支持,所以,未來它會是整體經濟發展的基礎設施。