999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

26歲華裔天才,在教AI界做事

2023-06-05 09:06:18朱秋雨
南風窗 2023年11期

朱秋雨

2023年4月底,一個亞洲面孔登上了著名雜志《福布斯》的封面。這是一位年僅26歲的華裔企業家,名叫Alexandr Wang。

他手握最高估值73億美元的科技公司。

2017年,Alexandr創立了一家名叫Scale AI的公司,走的是最熱的AI賽道。7年后,他做的東西已經無可替代。據《福布斯》報道,Scale AI如今包攬了多家頭部自動駕駛車企的服務,谷歌的Waymo、豐田汽車是它的擁躉。2020年起,它還從美國國防部處拿下了多個天價訂單。

2022年,美國國防部已經在用該公司的技術分析烏克蘭衛星圖。

Scale AI走的路子,是常被頭部大廠和AI創業者忽略的方向,叫AI的標注數據集。

這是AI領域里的石油,有數據才能源源不斷給深度學習提供燃料。一項數據顯示,截至2021年,全球排名前1000萬的網站中,英文內容占比為60.4%,中文內容占比僅1.4%。中國AI需要依賴大量英文數據集訓練。

實際上,國內不乏做AI數據集和數據標注的公司。上市公司海天瑞聲、頭部創業公司云測數據、數據堂等等,是業內佼佼者。

比起人工智能產業給人“高大上”的直覺,數據工作面臨繁瑣的清洗、標注、處理等過程。業內因此盛傳一句話,“人工有多強大,智能才有多強大”。

AI分析公司Cognilytica數據顯示,在AI項目中,數據相關的處理過程占據超過80%的時間。

云測數據總經理賈宇航對南風窗總結,互聯網大廠、創業公司更多在研究算法,AI數據服務公司在做工程的事情。

在各家巨頭猛追Open AI的當下,是時候關注支持AI深度學習的第一步—數據了。

機遇來了

不管業務是否與大模型掛鉤,國內AI數據服務公司近日受到了一大波關注。

數據集上市公司海天瑞聲在3月底只用了3個交易日,累計漲幅近33%。股價創歷史新高,比年初翻了三倍多,盡管該公司早已貼出風險提示:“自然語言業務對公司整體貢獻大約在10%。”“公司尚未與OpenAI開展合作,其ChatGPT的產品和服務尚未給公司帶來業務收入。”

因為ChatGPT,云測數據總經理賈宇航也在2023年收到了來自各行各業對大模型和數據集的關注和問詢。“每個人都對大模型各有各的看法,我們相互學習。”他告訴南風窗。

單論技術角度而言,ChatGPT代表的大模型,采用了與過往AI數據標注不同的技術路徑。在過去,機器學習的主流依賴于human-in-the-loop,即有監督的學習。

有監督學習依賴大量人工對數據進行預處理、標注。例如,貓的圖片,需要人類事先標注,用機器聽得懂的語言告訴它只是一只貓。行內公認的規則是,人類上傳的標注數據越多、越準確,機器學習的效果越好。

而ChatGPT代表的大模型,采用的是自監督學習模式。簡單來說,考驗的是機器自我學習能力。

清華大學計算機系自然語言處理實驗室副教授劉知遠告訴南風窗:“大模型的不同之處在于,不事先假定到底需要完成哪些任務或者特定能力。它窮盡互聯網盡可能獲取多的數據,讓模型自動地從這些數據里面學習知識。”

OpenAI曾披露,訓練GPT的模型是基于公開網站的數據,包括維基百科、專業論壇、電子書網站和媒體報道等各類高質量文本。

據美媒報道,擁有發達智能水平的ChatGPT,背后還有一群來自非洲肯尼亞的數據標注員。他們每天工作9個小時,最終,一個月獲得約合2500~3000元人民幣的報酬。

盡管對數據標注的需求減少,ChatGPT的成功,卻給了眾人更有用的啟示:高質量數據集對訓練AI大模型至關重要。基于GPT-3.5的ChatGPT使用強化學習和人類反饋(RLHF),也涉及了大量數據標注工作。

據披露,ChatGPT的RLHF標注,需要大量專業的人才。為此,Open AI特地招了幾十名博士生做標注,針對機器的回答和指令進行基于人類邏輯的反饋。據《福布斯》報道,Open AI同時使用了外包服務,Alexandr Wang的Scale AI也參與了訓練ChatGPT。

背靠清華大學的AI初創企業—聆心智能的聯合創始人鄭叔亮告訴南風窗,以ChatGPT為代表的生成式AI,對數據質量提出了更高要求。

“AI生成的每一個文字,每一個對話,都是根據此前一個字的生成情況,或者問題本身,通過概率的推導所產生。”鄭叔亮說。

這種模式下,一旦數據質量不高,生成的效果便是胡說八道、毫無可信度的AI。鄭叔亮表示:“因此,一方面我們要搜集更多更精準的語料庫,另一方面,還要加強對這些語料進行清洗、標注。”

據美媒報道,擁有發達智能水平的ChatGPT,背后還有一群來自非洲肯尼亞的數據標注員。他們每天工作9個小時,閱讀150—200段文字,標注帶有性、暴力與仇恨言論的內容,最終,一個月獲得約合2500~3000元人民幣的報酬。

人工智能的背后仍是人工的努力。賈宇航分析,長期來看,靠人力的堆積支撐的AI數據服務產業,并不會有太大改變。

“大模型來了以后,很多人認為今后AI數據服務的環節之一—數據標注工作會減少。”他表示,“但其實忽略了一點,隨著AI功能越來越多,很多時候到了未涉足領域的時候,可能還需要人工處理。”

他認為,數據標注不會隨著生成式大模型的誕生而減少,“反而有可能會更多”。

AI業的“富士康”

ChatGPT的出圈,帶給國內數據集公司的不是猛火,而是久旱后的甘霖。

中國數據集公司興起時間與Scale AI相似,都在2016—2017年。這類公司的核心目標,是幫助AI企業最大限度地減少劣質數據帶來的影響。

不過,數據公司以銷售數據集為生的少之又少。中國AI數據的頭部公司中,明確在官網提及數據集業務的只有科創板上市公司海天瑞聲。據該公司披露,基于多年語音識別及合成領域的技術積累,其在多語種領域構筑深厚技術壁壘。截至2022第一季度,海天瑞聲覆蓋190個語種,累積詞條數超過1000萬,客戶包括阿里巴巴、騰訊、百度、微軟等大廠。

比起銷售數據集,更多公司在做的是數據的下一環,數據標注。

賈宇航對南風窗介紹,數據集業務占云測數據中很小的部分。這一業務主要的運用場景在人工智能產品剛立項的階段。“項目剛立項或進行預演時,需要一些開源,或者行業的基礎數據集,以快速完成對算法的驗證。”

而更多企業的需求,會在后面的階段爆發,即當AI產品進入正式的研發和持續迭代時。

“這時候,對應的傳感器或者場景明確,需要基于特定的場景完成數據的采集、清洗和標注。我們因此提供高質量、場景化的數據標注等服務。”賈宇航說。

“公會”沒能推動數據標注業愈加繁榮。相反,越來越低的標注價格讓行業內部競爭加劇。

據前瞻產業研究院統計,中國數據標注公司從 2014年興起,發展到2017年達到高峰。2017年,數據標注相關融資事件達到9起。

這個數字,也是接下來多年的高峰。

勞動密集是這一階段數據標注業的特點。據36氪報道,一家資深數據標注公司透露,行業內平均每家數據眾包平臺都有上萬人。因此,有人比喻,數據標注業就像“人工智能背后的富士康”。

2018年,位于太原的山西轉型綜合改革示范區與百度達成合作,打造了號稱“全國范圍內人員和產值規模最大的單體數據標注基地”。據百度披露,該基地占地面積超1萬平米,帶動了至少200家從事數據服務的公司。

而相對較低的技術門檻,使得數據標注公司多分布于中小城市。以百度為例,該公司披露,旗下數據眾包平臺百度眾測除了安在太原,還在山西臨汾、重慶奉節、四川達州、甘肅酒泉、江西新余、浙江麗水、廣東清遠、湖南郴州、黑龍江哈爾濱等地設點。

勞動密集的另一面意味著低門檻。在2021年版的《人工智能訓練師國家職業技能標準》中,對該職業的能力特征描述是“具有一定的學習能力、表達能力、計算能力”,普遍受教育程度寫的是“初中畢業”。根據媒體報道的數據標注師群體,許多都是中專、大專畢業生,也容納寶媽、退役軍人等各類群體。

低門檻的同時,數據標注行業的小作坊遍地開花。

比起已經進入E輪融資、占據海外市場的Scale AI,占據我國數據標注市場主要份額的,反而是以工作室形態存在的小公司。

他們被稱為“公會”“團隊”,通常在眾包平臺上接單,或者接第三方中介公司轉過來分包的訂單。

“公會”沒能推動數據標注業愈加繁榮。相反,越來越低的標注價格讓行業內部競爭加劇。

2017年開始,AI數據公司融資的量開始下滑。2018年,AI數據公司相關融資只有5筆,平均每筆只有千萬級。到了2021年,相關融資只剩下一年兩筆。

贏識科技首席執行官楚汝峰曾在受訪時表示,我國數據標注的競爭激烈,沒能出現像Scale AI獨角獸巨頭主要是因為,“國內做標注的小作坊太多了,市場不集中”。

轉 型

數據集公司隨著AI行業的興衰而變化。與Scale AI相似,給中國數據標注公司帶來轉機的,是大量涌現的自動駕駛企業。

中國工程院院士鄔賀銓曾分析:“智能駕駛需要讓汽車自動識別馬路。但如果只是將視頻單純傳給計算機,計算機無法識別,需要人工在視頻中將道路框出。計算機多次接收信息后,才逐漸學會在視頻和照片中識別道路。”

智能駕駛帶來了大量的需求。國內頭部數據企業,例如云測數據、數據堂、龍貓數據等,紛紛轉向為車企提供服務。

據報道,國內一批主流的主機廠,如吉利、上汽、廣汽等,從2021年始加強了自動駕駛數據標注方面的投入。到2022年,上述車企的投入預算已經在幾十萬元的基礎上翻了十余倍。

數據堂公司相關負責人也曾在2022年受訪時說:“(車企)數據需求缺口仍在,市場遠未飽和。這對于真正優質的數據供應商來說,正是搶占市場高地的絕佳時機。”

愈加激烈的競爭,對數據標注行業提出了現實的挑戰。數據標注公司普遍開始轉型。

一個業內公認的方向是,從勞動密集型走向AI輔助標注。

“人機交互式。”賈宇航總結。

他解釋,隨著這幾年的發展,數據標注的類型和內容越來越復雜。“最早的人臉識別,只需要在人臉上做一個拉框的標注,就可以完成對應需要的訓練。而現在,還要求對人臉的關鍵點、表情或者一些人臉的屬性或者姿態,例如半張臉被遮擋時等情況,進行標注。”

與Scale AI相似,給中國數據標注公司帶來轉機的,是大量涌現的自動駕駛企業。

市場的變化要求更高水準的數據處理能力。包括Scale AI、Appen等在內的國際數據公司,將目光鎖定在數據標注的平臺以及工具化上。杭州數據標注公司曼孚科技曾對媒體總結:“Scale AI的平臺工具已經在很大限度上淡化了人在其中的決定性作用,這成為企業競爭力的關鍵。”

賈宇航告訴南風窗,在強調質量和效率的當下,數據標注AI工程化的趨勢愈加明顯。

也就是說,如何把人組織起來,與機器交互,高效運轉AI數據處理的過程,成為各家公司競相“卷”的方向。

需要適應變化的除了給AI數據服務的AI,還有人才。賈宇航告訴南風窗:“現在,對于標注人員的要求肯定是越來越高。”

如今缺失的,他說,是理解各個垂直領域的專業人才。比如,為了提高時效性,降低錯誤率,醫療數據需要專業的醫學生。但往往,這類人才極少從事數據業。

2019年,數據服務平臺CrowdFlower也曾做過一組研究。

它對大約80名數據科學家進行了一項調查,發現數據科學家花費了:

60%的時間用于組織和清理數據;

19%的時間花在收集數據集上;

9%的時間用于挖掘數據;

5%的時間花在其他任務上。

數據科學家的大部分時間都花在數據準備,即收集、清理和標注數據上。這其中,57%的人表示,清理和處理數據,是最無聊、最不愉快的任務。

而如今,隨著ChatGPT帶來的AI熱潮,“最無聊、最不愉快”的行業也正在起飛。

主站蜘蛛池模板: 日韩在线欧美在线| 成人免费视频一区| 久久这里只有精品2| 91精品人妻一区二区| 欧美自慰一级看片免费| 亚洲av无码成人专区| 久草视频中文| 91精品啪在线观看国产| 成人av手机在线观看| 日韩a在线观看免费观看| 日韩av电影一区二区三区四区| 欧美日韩高清在线| 亚洲精品国偷自产在线91正片| 亚洲无码日韩一区| 精品久久香蕉国产线看观看gif| 亚洲第七页| 久热中文字幕在线| 免费高清a毛片| 在线视频亚洲色图| 亚洲高清中文字幕在线看不卡| 成人福利在线视频免费观看| 国产成人免费高清AⅤ| 最新国产成人剧情在线播放 | 国产精品成人啪精品视频| 欧美一区二区三区欧美日韩亚洲 | 在线中文字幕日韩| 精品乱码久久久久久久| 久久综合丝袜长腿丝袜| 欧美一级特黄aaaaaa在线看片| 国产一区二区三区在线无码| 亚洲熟女中文字幕男人总站| 呦女亚洲一区精品| 欧美精品黑人粗大| 亚洲婷婷丁香| 国产人碰人摸人爱免费视频| 久久久久久国产精品mv| 99久久国产综合精品2023| 强奷白丝美女在线观看| 亚洲第一成年人网站| 天堂网国产| aaa国产一级毛片| 538国产在线| 欧美精品v日韩精品v国产精品| 9丨情侣偷在线精品国产| 日本午夜影院| 朝桐光一区二区| 亚瑟天堂久久一区二区影院| 亚洲人成影视在线观看| 2021国产乱人伦在线播放| 欧美日韩国产综合视频在线观看| 日韩精品一区二区深田咏美| 99er精品视频| 蜜芽一区二区国产精品| 超碰91免费人妻| 婷婷六月综合| AV不卡国产在线观看| 日韩二区三区| 人妻精品久久久无码区色视| 国产麻豆永久视频| 国产办公室秘书无码精品| 国产日韩久久久久无码精品| 亚洲美女操| 亚洲人网站| 精品三级网站| 亚洲人成网址| 亚洲综合片| 91久久大香线蕉| 日韩东京热无码人妻| 无码国产偷倩在线播放老年人| 国产成人精品一区二区| 中国精品自拍| 亚洲AⅤ综合在线欧美一区| 97国产精品视频人人做人人爱| av在线5g无码天天| 日韩精品高清自在线| 久久精品中文字幕免费| 亚洲成av人无码综合在线观看| 无码区日韩专区免费系列| 色综合五月| 欧美啪啪视频免码| 丝袜美女被出水视频一区| 亚洲第一天堂无码专区|