盧銘

全世界都在談論C h a t G P T將帶來顛覆性的技術革命,但人工智能訓練師李杰卻一點也激動不起來。
為了完成單價4分錢的計件工作,李杰和幾十個人坐在一間擺設如同初代網吧的屋子里,每天對著電腦劃拉鼠標幾千次。
他的職責是為訓練人工智能模型準備“飼料”,將大量的文字、語音、圖像打上標記——“眼珠”“四川話”“綠化帶”……只有被標注過的數據,才能被人工智能模型識別,訓練出它的分辨能力。
李杰做得最多的是道路圖片標注,亦即給道路圖片上的物體標注好名稱、顏色等詳細信息,業內俗稱“拉框”。效率高的時候,他一天可以拉2000~3000個框,按照一個框4分錢計算,他一個月能賺3000塊左右。對于職校畢業、身在西北縣城的青年來說,這份收入還過得去。
同樣的場景也出現在非洲的肯尼亞。該國首都內羅畢有30多名工人,成為C h a t G P T的數據標注員,他們每天工作9小時,閱讀150~200段文字,并標注出其中包含性、暴力與仇恨言論的內容。由于每天閱讀大量極具沖擊力的文字,有人會因為一段描寫而做一周噩夢。這些工人能獲得每小時1.32美元的稅后收入,比當地一般藍領工作強些。
在人工智能產品卷起巨浪的時候,從肯尼亞、烏干達再到印度、中國,巨浪下還有一群不被看見的“人工智能訓練師”,在簡陋的工作環境下,以最簡單的技能,與最前沿的技術產生了聯系。
李杰對人工智能的理解,是手機上的智能語音助手,“就好像蘋果的Siri”。
他在職校念電子商務,同學大多去了電商公司當客服,他時常聽到同學對工作的抱怨。相較之下,數據標注的工作枯燥,卻也純粹,他只需要按部就班地完成任務,“可以在辦公室吹空調,也沒什么難度,就是有點費眼睛”。
在2021年版的《人工智能訓練師國家職業技能標準》中,對該職業的能力特征描述是“具有一定的學習能力、表達能力、計算能力;空間感、色覺正常”,普遍受教育程度寫的是“初中畢業”。言外之意,這是一份幾乎零門檻的職業。
除了“拉框”,李杰也會接到語音標注的項目。一天下來,他要聽來自幾百個陌生人在不同場景下的發言,可能是伴隨著車流聲、喇叭聲的中年男人在馬路上大聲質問,可能是講著廣東普通話的阿姨對著麥克風發出指令,有時候,他甚至會聽到臟話。
這些聲音被李杰一一轉錄成準確的文字,有時還需要打上說話人的性別、情緒等更細分的標簽,最后教會人工智能模型理解人類的語言,用于智能客服、智能音箱、地圖導航等產品中。
人工智能的三大基石是數據、算力與算法,數量越多、質量越高的數據,往往越能夠訓練出更“聰明”的模型。
人工智能的主流方向是深度學習。在過去,由人來告訴機器,貓身上都有哪些特征,機器根據這些特征判斷一個物體是不是貓;深度學習則是通過“喂養”大量不同貓的圖片,機器就能自行歸納出貓的特征。這就需要大量經人工標注的圖片。俗話說,有多少智能,就得付出多少人工。
數據標注領域有過一個神話——I m a g e N e t項目。這個項目數據庫擁有超過1400萬張已被標注的圖片,其中識別出的物體種類超過2萬種——包括120個不同品種的狗。而在I m a g e N e t項目背后,是來自167個國家的5萬名數據標注員,他們足足花了3年時間才完成了全部圖片的標注。
貴陽,大數據之城。在距離貴陽市中心約70公里的惠水縣百鳥河數字小鎮,有一家擁有超過500名數據標注員的公司夢動科技——其中的一半人,是附近盛華職業學院的學生。
大三學生鄭成安在夢動科技實習,公司里的全職員工只有十來個人,管理層也是學校里的老師,“上課就是上班,老師就是經理”。他很熱愛這份工作,他在上高職之前甚至沒碰過電腦,現在卻可以憑借一份電腦前的兼職,一個月能拿到1500元以上的收入,當地農村常住居民人均可支配收入每月才1000元出頭。
有時候為了多掙一些生活費,碰上緊急的項目,鄭成安會主動加班。他清楚地知道,標注員的工作很難一直做下去,他暗自制定目標,要成為管理標注員的人。
像貴陽這樣的城市,中國不止一個。作為勞動密集型產業,數據標注企業更多地選在三四線城市落地,地方政府無論是為了扶貧或是搭上互聯網的順風車,都能與互聯網公司一拍即合。數據標注員身上的標簽是“互聯網民工”“賽博流水線”。而對于絕大多數身在其中的人而言,一個互聯網版的富士康,已經是當下不可多得的選擇。
隨著G P T-4和文心一言的陸續出場,人工智能正“升級換代”,數據標注行業也伴隨著新的變化。
人工智能研究者已經開始嘗試向機器“喂養”未標注的數據與部分標注數據,而不依賴于人工標注的自監督學習與數據標注。特斯拉目前正在開發的計算機Dojo,就采用自監督學習技術,用于訓練人工智能模型,對數據標注的需求正越來越低。
騰訊、阿里、字節跳動等一眾大廠,也都在研發自監督學習的算法,甚至有些數據標注公司已經有60%內容來自機器的自動化標注。
李杰聽過一個說法,數據標注員是“人工智能的老師”,是他和同事們日復一日地拉框,教會了人工智能理解人類世界。但他從沒想過,當人工智能時代真正到來的那一天,取代他們的,恰恰會是自己曾經的學生。
小黑//摘自藍字計劃微信公眾號,原文編輯鄒蔚,本刊有刪節,與魚/圖