朱秋雨

2023年4月底,一個亞洲面孔登上了著名雜志《福布斯》的封面。這是一位年僅26歲的華裔企業家,名叫Alexandr Wang。
他手握最高估值73億美元的科技公司。
2017年,Alexandr創立了一家名叫Scale AI的公司,走的是最熱的AI賽道。7年后,他做的東西已經無可替代。據《福布斯》報道,Scale AI如今包攬了多家頭部自動駕駛車企的服務,谷歌的Waymo、豐田汽車是它的擁躉。2020年起,它還從美國國防部處拿下了多個天價訂單。
2022年,美國國防部已經在用該公司的技術分析烏克蘭衛星圖。
Scale AI走的路子,是常被頭部大廠和AI創業者忽略的方向,叫AI的標注數據集。
這是AI領域里的石油,有數據才能源源不斷給深度學習提供燃料。一項數據顯示,截至2021年,全球排名前1000萬的網站中,英文內容占比為60.4%,中文內容占比僅1.4%。中國AI需要依賴大量英文數據集訓練。
實際上,國內不乏做AI數據集和數據標注的公司。上市公司海天瑞聲、頭部創業公司云測數據、數據堂等等,是業內佼佼者。
比起人工智能產業給人“高大上”的直覺,數據工作面臨繁瑣的清洗、標注、處理等過程。業內因此盛傳一句話,“人工有多強大,智能才有多強大”。
AI分析公司Cognilytica數據顯示,在AI項目中,數據相關的處理過程占據超過80%的時間。
云測數據總經理賈宇航對南風窗總結,互聯網大廠、創業公司更多在研究算法,AI數據服務公司在做工程的事情。
在各家巨頭猛追Open AI的當下,是時候關注支持AI深度學習的第一步—數據了。
不管業務是否與大模型掛鉤,國內AI數據服務公司近日受到了一大波關注。
數據集上市公司海天瑞聲在3月底只用了3個交易日,累計漲幅近33%。股價創歷史新高,比年初翻了三倍多,盡管該公司早已貼出風險提示:“自然語言業務對公司整體貢獻大約在10%。”“公司尚未與OpenAI開展合作,其ChatGPT的產品和服務尚未給公司帶來業務收入。”
因為ChatGPT,云測數據總經理賈宇航也在2023年收到了來自各行各業對大模型和數據集的關注和問詢。“每個人都對大模型各有各的看法,我們相互學習。”他告訴南風窗。
單論技術角度而言,ChatGPT代表的大模型,采用了與過往AI數據標注不同的技術路徑。在過去,機器學習的主流依賴于human-in-the-loop,即有監督的學習。
有監督學習依賴大量人工對數據進行預處理、標注。例如,貓的圖片,需要人類事先標注,用機器聽得懂的語言告訴它只是一只貓。行內公認的規則是,人類上傳的標注數據越多、越準確,機器學習的效果越好。
而ChatGPT代表的大模型,采用的是自監督學習模式。簡單來說,考驗的是機器自我學習能力。
清華大學計算機系自然語言處理實驗室副教授劉知遠告訴南風窗:“大模型的不同之處在于,不事先假定到底需要完成哪些任務或者特定能力。它窮盡互聯網盡可能獲取多的數據,讓模型自動地從這些數據里面學習知識。”
OpenAI曾披露,訓練GPT的模型是基于公開網站的數據,包括維基百科、專業論壇、電子書網站和媒體報道等各類高質量文本。
據美媒報道,擁有發達智能水平的ChatGPT,背后還有一群來自非洲肯尼亞的數據標注員。他們每天工作9個小時,最終,一個月獲得約合2500~3000元人民幣的報酬。
盡管對數據標注的需求減少,ChatGPT的成功,卻給了眾人更有用的啟示:高質量數據集對訓練AI大模型至關重要。基于GPT-3.5的ChatGPT使用強化學習和人類反饋(RLHF),也涉及了大量數據標注工作。
據披露,ChatGPT的RLHF標注,需要大量專業的人才。為此,Open AI特地招了幾十名博士生做標注,針對機器的回答和指令進行基于人類邏輯的反饋。據《福布斯》報道,Open AI同時使用了外包服務,Alexandr Wang的Scale AI也參與了訓練ChatGPT。
背靠清華大學的AI初創企業—聆心智能的聯合創始人鄭叔亮告訴南風窗,以ChatGPT為代表的生成式AI,對數據質量提出了更高要求。
“AI生成的每一個文字,每一個對話,都是根據此前一個字的生成情況,或者問題本身,通過概率的推導所產生。”鄭叔亮說。
這種模式下,一旦數據質量不高,生成的效果便是胡說八道、毫無可信度的AI。鄭叔亮表示:“因此,一方面我們要搜集更多更精準的語料庫,另一方面,還要加強對這些語料進行清洗、標注。”
據美媒報道,擁有發達智能水平的ChatGPT,背后還有一群來自非洲肯尼亞的數據標注員。他們每天工作9個小時,閱讀150—200段文字,標注帶有性、暴力與仇恨言論的內容,最終,一個月獲得約合2500~3000元人民幣的報酬。
人工智能的背后仍是人工的努力。賈宇航分析,長期來看,靠人力的堆積支撐的AI數據服務產業,并不會有太大改變。
“大模型來了以后,很多人認為今后AI數據服務的環節之一—數據標注工作會減少。”他表示,“但其實忽略了一點,隨著AI功能越來越多,很多時候到了未涉足領域的時候,可能還需要人工處理。”
他認為,數據標注不會隨著生成式大模型的誕生而減少,“反而有可能會更多”。
ChatGPT的出圈,帶給國內數據集公司的不是猛火,而是久旱后的甘霖。
中國數據集公司興起時間與Scale AI相似,都在2016—2017年。這類公司的核心目標,是幫助AI企業最大限度地減少劣質數據帶來的影響。
不過,數據公司以銷售數據集為生的少之又少。中國AI數據的頭部公司中,明確在官網提及數據集業務的只有科創板上市公司海天瑞聲。據該公司披露,基于多年語音識別及合成領域的技術積累,其在多語種領域構筑深厚技術壁壘。截至2022第一季度,海天瑞聲覆蓋190個語種,累積詞條數超過1000萬,客戶包括阿里巴巴、騰訊、百度、微軟等大廠。

比起銷售數據集,更多公司在做的是數據的下一環,數據標注。
賈宇航對南風窗介紹,數據集業務占云測數據中很小的部分。這一業務主要的運用場景在人工智能產品剛立項的階段。“項目剛立項或進行預演時,需要一些開源,或者行業的基礎數據集,以快速完成對算法的驗證。”
而更多企業的需求,會在后面的階段爆發,即當AI產品進入正式的研發和持續迭代時。
“這時候,對應的傳感器或者場景明確,需要基于特定的場景完成數據的采集、清洗和標注。我們因此提供高質量、場景化的數據標注等服務。”賈宇航說。
“公會”沒能推動數據標注業愈加繁榮。相反,越來越低的標注價格讓行業內部競爭加劇。
據前瞻產業研究院統計,中國數據標注公司從 2014年興起,發展到2017年達到高峰。2017年,數據標注相關融資事件達到9起。
這個數字,也是接下來多年的高峰。
勞動密集是這一階段數據標注業的特點。據36氪報道,一家資深數據標注公司透露,行業內平均每家數據眾包平臺都有上萬人。因此,有人比喻,數據標注業就像“人工智能背后的富士康”。
2018年,位于太原的山西轉型綜合改革示范區與百度達成合作,打造了號稱“全國范圍內人員和產值規模最大的單體數據標注基地”。據百度披露,該基地占地面積超1萬平米,帶動了至少200家從事數據服務的公司。
而相對較低的技術門檻,使得數據標注公司多分布于中小城市。以百度為例,該公司披露,旗下數據眾包平臺百度眾測除了安在太原,還在山西臨汾、重慶奉節、四川達州、甘肅酒泉、江西新余、浙江麗水、廣東清遠、湖南郴州、黑龍江哈爾濱等地設點。
勞動密集的另一面意味著低門檻。在2021年版的《人工智能訓練師國家職業技能標準》中,對該職業的能力特征描述是“具有一定的學習能力、表達能力、計算能力”,普遍受教育程度寫的是“初中畢業”。根據媒體報道的數據標注師群體,許多都是中專、大專畢業生,也容納寶媽、退役軍人等各類群體。
低門檻的同時,數據標注行業的小作坊遍地開花。
比起已經進入E輪融資、占據海外市場的Scale AI,占據我國數據標注市場主要份額的,反而是以工作室形態存在的小公司。
他們被稱為“公會”“團隊”,通常在眾包平臺上接單,或者接第三方中介公司轉過來分包的訂單。
“公會”沒能推動數據標注業愈加繁榮。相反,越來越低的標注價格讓行業內部競爭加劇。
2017年開始,AI數據公司融資的量開始下滑。2018年,AI數據公司相關融資只有5筆,平均每筆只有千萬級。到了2021年,相關融資只剩下一年兩筆。
贏識科技首席執行官楚汝峰曾在受訪時表示,我國數據標注的競爭激烈,沒能出現像Scale AI獨角獸巨頭主要是因為,“國內做標注的小作坊太多了,市場不集中”。
數據集公司隨著AI行業的興衰而變化。與Scale AI相似,給中國數據標注公司帶來轉機的,是大量涌現的自動駕駛企業。
中國工程院院士鄔賀銓曾分析:“智能駕駛需要讓汽車自動識別馬路。但如果只是將視頻單純傳給計算機,計算機無法識別,需要人工在視頻中將道路框出。計算機多次接收信息后,才逐漸學會在視頻和照片中識別道路。”
智能駕駛帶來了大量的需求。國內頭部數據企業,例如云測數據、數據堂、龍貓數據等,紛紛轉向為車企提供服務。
據報道,國內一批主流的主機廠,如吉利、上汽、廣汽等,從2021年始加強了自動駕駛數據標注方面的投入。到2022年,上述車企的投入預算已經在幾十萬元的基礎上翻了十余倍。
數據堂公司相關負責人也曾在2022年受訪時說:“(車企)數據需求缺口仍在,市場遠未飽和。這對于真正優質的數據供應商來說,正是搶占市場高地的絕佳時機。”


愈加激烈的競爭,對數據標注行業提出了現實的挑戰。數據標注公司普遍開始轉型。
一個業內公認的方向是,從勞動密集型走向AI輔助標注。
“人機交互式。”賈宇航總結。
他解釋,隨著這幾年的發展,數據標注的類型和內容越來越復雜。“最早的人臉識別,只需要在人臉上做一個拉框的標注,就可以完成對應需要的訓練。而現在,還要求對人臉的關鍵點、表情或者一些人臉的屬性或者姿態,例如半張臉被遮擋時等情況,進行標注。”
與Scale AI相似,給中國數據標注公司帶來轉機的,是大量涌現的自動駕駛企業。
市場的變化要求更高水準的數據處理能力。包括Scale AI、Appen等在內的國際數據公司,將目光鎖定在數據標注的平臺以及工具化上。杭州數據標注公司曼孚科技曾對媒體總結:“Scale AI的平臺工具已經在很大限度上淡化了人在其中的決定性作用,這成為企業競爭力的關鍵。”
賈宇航告訴南風窗,在強調質量和效率的當下,數據標注AI工程化的趨勢愈加明顯。
也就是說,如何把人組織起來,與機器交互,高效運轉AI數據處理的過程,成為各家公司競相“卷”的方向。
需要適應變化的除了給AI數據服務的AI,還有人才。賈宇航告訴南風窗:“現在,對于標注人員的要求肯定是越來越高。”
如今缺失的,他說,是理解各個垂直領域的專業人才。比如,為了提高時效性,降低錯誤率,醫療數據需要專業的醫學生。但往往,這類人才極少從事數據業。
2019年,數據服務平臺CrowdFlower也曾做過一組研究。
它對大約80名數據科學家進行了一項調查,發現數據科學家花費了:
60%的時間用于組織和清理數據;
19%的時間花在收集數據集上;
9%的時間用于挖掘數據;
5%的時間花在其他任務上。
數據科學家的大部分時間都花在數據準備,即收集、清理和標注數據上。這其中,57%的人表示,清理和處理數據,是最無聊、最不愉快的任務。
而如今,隨著ChatGPT帶來的AI熱潮,“最無聊、最不愉快”的行業也正在起飛。