26歲華裔天才，在教AI界做事

2023-06-05 09:06:18朱秋雨

南風窗 2023年11期

朱秋雨

2023年4月底，一個亞洲面孔登上了著名雜志《福布斯》的封面。這是一位年僅26歲的華裔企業家，名叫Alexandr Wang。

他手握最高估值73億美元的科技公司。

2017年，Alexandr創立了一家名叫Scale AI的公司，走的是最熱的AI賽道。7年后，他做的東西已經無可替代。據《福布斯》報道，Scale AI如今包攬了多家頭部自動駕駛車企的服務，谷歌的Waymo、豐田汽車是它的擁躉。2020年起，它還從美國國防部處拿下了多個天價訂單。

2022年，美國國防部已經在用該公司的技術分析烏克蘭衛星圖。

Scale AI走的路子，是常被頭部大廠和AI創業者忽略的方向，叫AI的標注數據集。

這是AI領域里的石油，有數據才能源源不斷給深度學習提供燃料。一項數據顯示，截至2021年，全球排名前1000萬的網站中，英文內容占比為60.4%，中文內容占比僅1.4%。中國AI需要依賴大量英文數據集訓練。

實際上，國內不乏做AI數據集和數據標注的公司。上市公司海天瑞聲、頭部創業公司云測數據、數據堂等等，是業內佼佼者。

比起人工智能產業給人“高大上”的直覺，數據工作面臨繁瑣的清洗、標注、處理等過程。業內因此盛傳一句話，“人工有多強大，智能才有多強大”。

AI分析公司Cognilytica數據顯示，在AI項目中，數據相關的處理過程占據超過80%的時間。

云測數據總經理賈宇航對南風窗總結，互聯網大廠、創業公司更多在研究算法，AI數據服務公司在做工程的事情。

在各家巨頭猛追Open AI的當下，是時候關注支持AI深度學習的第一步—數據了。

機遇來了

不管業務是否與大模型掛鉤，國內AI數據服務公司近日受到了一大波關注。

數據集上市公司海天瑞聲在3月底只用了3個交易日，累計漲幅近33%。股價創歷史新高，比年初翻了三倍多，盡管該公司早已貼出風險提示：“自然語言業務對公司整體貢獻大約在10%。”“公司尚未與OpenAI開展合作，其ChatGPT的產品和服務尚未給公司帶來業務收入。”

因為ChatGPT，云測數據總經理賈宇航也在2023年收到了來自各行各業對大模型和數據集的關注和問詢。“每個人都對大模型各有各的看法，我們相互學習。”他告訴南風窗。

單論技術角度而言，ChatGPT代表的大模型，采用了與過往AI數據標注不同的技術路徑。在過去，機器學習的主流依賴于human-in-the-loop，即有監督的學習。

有監督學習依賴大量人工對數據進行預處理、標注。例如，貓的圖片，需要人類事先標注，用機器聽得懂的語言告訴它只是一只貓。行內公認的規則是，人類上傳的標注數據越多、越準確，機器學習的效果越好。

而ChatGPT代表的大模型，采用的是自監督學習模式。簡單來說，考驗的是機器自我學習能力。

清華大學計算機系自然語言處理實驗室副教授劉知遠告訴南風窗：“大模型的不同之處在于，不事先假定到底需要完成哪些任務或者特定能力。它窮盡互聯網盡可能獲取多的數據，讓模型自動地從這些數據里面學習知識。”

OpenAI曾披露，訓練GPT的模型是基于公開網站的數據，包括維基百科、專業論壇、電子書網站和媒體報道等各類高質量文本。

據美媒報道，擁有發達智能水平的ChatGPT，背后還有一群來自非洲肯尼亞的數據標注員。他們每天工作9個小時，最終，一個月獲得約合2500～3000元人民幣的報酬。

盡管對數據標注的需求減少，ChatGPT的成功，卻給了眾人更有用的啟示：高質量數據集對訓練AI大模型至關重要。基于GPT-3.5的ChatGPT使用強化學習和人類反饋（RLHF），也涉及了大量數據標注工作。

據披露，ChatGPT的RLHF標注，需要大量專業的人才。為此，Open AI特地招了幾十名博士生做標注，針對機器的回答和指令進行基于人類邏輯的反饋。據《福布斯》報道，Open AI同時使用了外包服務，Alexandr Wang的Scale AI也參與了訓練ChatGPT。

背靠清華大學的AI初創企業—聆心智能的聯合創始人鄭叔亮告訴南風窗，以ChatGPT為代表的生成式AI，對數據質量提出了更高要求。

“AI生成的每一個文字，每一個對話，都是根據此前一個字的生成情況，或者問題本身，通過概率的推導所產生。”鄭叔亮說。

這種模式下，一旦數據質量不高，生成的效果便是胡說八道、毫無可信度的AI。鄭叔亮表示：“因此，一方面我們要搜集更多更精準的語料庫，另一方面，還要加強對這些語料進行清洗、標注。”

據美媒報道，擁有發達智能水平的ChatGPT，背后還有一群來自非洲肯尼亞的數據標注員。他們每天工作9個小時，閱讀150—200段文字，標注帶有性、暴力與仇恨言論的內容，最終，一個月獲得約合2500～3000元人民幣的報酬。

人工智能的背后仍是人工的努力。賈宇航分析，長期來看，靠人力的堆積支撐的AI數據服務產業，并不會有太大改變。

“大模型來了以后，很多人認為今后AI數據服務的環節之一—數據標注工作會減少。”他表示，“但其實忽略了一點，隨著AI功能越來越多，很多時候到了未涉足領域的時候，可能還需要人工處理。”

他認為，數據標注不會隨著生成式大模型的誕生而減少，“反而有可能會更多”。

AI業的“富士康”

ChatGPT的出圈，帶給國內數據集公司的不是猛火，而是久旱后的甘霖。

中國數據集公司興起時間與Scale AI相似，都在2016—2017年。這類公司的核心目標，是幫助AI企業最大限度地減少劣質數據帶來的影響。

不過，數據公司以銷售數據集為生的少之又少。中國AI數據的頭部公司中，明確在官網提及數據集業務的只有科創板上市公司海天瑞聲。據該公司披露，基于多年語音識別及合成領域的技術積累，其在多語種領域構筑深厚技術壁壘。截至2022第一季度，海天瑞聲覆蓋190個語種，累積詞條數超過1000萬，客戶包括阿里巴巴、騰訊、百度、微軟等大廠。

比起銷售數據集，更多公司在做的是數據的下一環，數據標注。

賈宇航對南風窗介紹，數據集業務占云測數據中很小的部分。這一業務主要的運用場景在人工智能產品剛立項的階段。“項目剛立項或進行預演時，需要一些開源，或者行業的基礎數據集，以快速完成對算法的驗證。”

而更多企業的需求，會在后面的階段爆發，即當AI產品進入正式的研發和持續迭代時。

“這時候，對應的傳感器或者場景明確，需要基于特定的場景完成數據的采集、清洗和標注。我們因此提供高質量、場景化的數據標注等服務。”賈宇航說。

“公會”沒能推動數據標注業愈加繁榮。相反，越來越低的標注價格讓行業內部競爭加劇。

據前瞻產業研究院統計，中國數據標注公司從 2014年興起，發展到2017年達到高峰。2017年，數據標注相關融資事件達到9起。

這個數字，也是接下來多年的高峰。

勞動密集是這一階段數據標注業的特點。據36氪報道，一家資深數據標注公司透露，行業內平均每家數據眾包平臺都有上萬人。因此，有人比喻，數據標注業就像“人工智能背后的富士康”。

2018年，位于太原的山西轉型綜合改革示范區與百度達成合作，打造了號稱“全國范圍內人員和產值規模最大的單體數據標注基地”。據百度披露，該基地占地面積超1萬平米，帶動了至少200家從事數據服務的公司。

而相對較低的技術門檻，使得數據標注公司多分布于中小城市。以百度為例，該公司披露，旗下數據眾包平臺百度眾測除了安在太原，還在山西臨汾、重慶奉節、四川達州、甘肅酒泉、江西新余、浙江麗水、廣東清遠、湖南郴州、黑龍江哈爾濱等地設點。

勞動密集的另一面意味著低門檻。在2021年版的《人工智能訓練師國家職業技能標準》中，對該職業的能力特征描述是“具有一定的學習能力、表達能力、計算能力”，普遍受教育程度寫的是“初中畢業”。根據媒體報道的數據標注師群體，許多都是中專、大專畢業生，也容納寶媽、退役軍人等各類群體。

低門檻的同時，數據標注行業的小作坊遍地開花。

比起已經進入E輪融資、占據海外市場的Scale AI，占據我國數據標注市場主要份額的，反而是以工作室形態存在的小公司。

他們被稱為“公會”“團隊”，通常在眾包平臺上接單，或者接第三方中介公司轉過來分包的訂單。

“公會”沒能推動數據標注業愈加繁榮。相反，越來越低的標注價格讓行業內部競爭加劇。

2017年開始，AI數據公司融資的量開始下滑。2018年，AI數據公司相關融資只有5筆，平均每筆只有千萬級。到了2021年，相關融資只剩下一年兩筆。

贏識科技首席執行官楚汝峰曾在受訪時表示，我國數據標注的競爭激烈，沒能出現像Scale AI獨角獸巨頭主要是因為，“國內做標注的小作坊太多了，市場不集中”。

轉型

數據集公司隨著AI行業的興衰而變化。與Scale AI相似，給中國數據標注公司帶來轉機的，是大量涌現的自動駕駛企業。

中國工程院院士鄔賀銓曾分析：“智能駕駛需要讓汽車自動識別馬路。但如果只是將視頻單純傳給計算機，計算機無法識別，需要人工在視頻中將道路框出。計算機多次接收信息后，才逐漸學會在視頻和照片中識別道路。”

智能駕駛帶來了大量的需求。國內頭部數據企業，例如云測數據、數據堂、龍貓數據等，紛紛轉向為車企提供服務。

據報道，國內一批主流的主機廠，如吉利、上汽、廣汽等，從2021年始加強了自動駕駛數據標注方面的投入。到2022年，上述車企的投入預算已經在幾十萬元的基礎上翻了十余倍。

數據堂公司相關負責人也曾在2022年受訪時說：“（車企）數據需求缺口仍在，市場遠未飽和。這對于真正優質的數據供應商來說，正是搶占市場高地的絕佳時機。”

愈加激烈的競爭，對數據標注行業提出了現實的挑戰。數據標注公司普遍開始轉型。

一個業內公認的方向是，從勞動密集型走向AI輔助標注。

“人機交互式。”賈宇航總結。

他解釋，隨著這幾年的發展，數據標注的類型和內容越來越復雜。“最早的人臉識別，只需要在人臉上做一個拉框的標注，就可以完成對應需要的訓練。而現在，還要求對人臉的關鍵點、表情或者一些人臉的屬性或者姿態，例如半張臉被遮擋時等情況，進行標注。”

與Scale AI相似，給中國數據標注公司帶來轉機的，是大量涌現的自動駕駛企業。

市場的變化要求更高水準的數據處理能力。包括Scale AI、Appen等在內的國際數據公司，將目光鎖定在數據標注的平臺以及工具化上。杭州數據標注公司曼孚科技曾對媒體總結：“Scale AI的平臺工具已經在很大限度上淡化了人在其中的決定性作用，這成為企業競爭力的關鍵。”

賈宇航告訴南風窗，在強調質量和效率的當下，數據標注AI工程化的趨勢愈加明顯。

也就是說，如何把人組織起來，與機器交互，高效運轉AI數據處理的過程，成為各家公司競相“卷”的方向。

需要適應變化的除了給AI數據服務的AI，還有人才。賈宇航告訴南風窗：“現在，對于標注人員的要求肯定是越來越高。”

如今缺失的，他說，是理解各個垂直領域的專業人才。比如，為了提高時效性，降低錯誤率，醫療數據需要專業的醫學生。但往往，這類人才極少從事數據業。

2019年，數據服務平臺CrowdFlower也曾做過一組研究。

它對大約80名數據科學家進行了一項調查，發現數據科學家花費了：

60%的時間用于組織和清理數據；

19%的時間花在收集數據集上；

9%的時間用于挖掘數據；

5%的時間花在其他任務上。

數據科學家的大部分時間都花在數據準備，即收集、清理和標注數據上。這其中，57%的人表示，清理和處理數據，是最無聊、最不愉快的任務。

而如今，隨著ChatGPT帶來的AI熱潮，“最無聊、最不愉快”的行業也正在起飛。

南風窗2023年11期

南風窗的其它文章: 那幾個不遠萬里而來的外國人; 共產黨人，和1920年代的世界; 兩層小樓里，暴烈的颶風成形; 三大給了中國什么; 百年三大; 誰是“下一個淄博”？

26歲華裔天才，在教AI界做事

機遇來了

AI業的“富士康”

轉 型

轉型