星塵數據：做數據標注領域的羅賽塔石碑

2023-05-30 09:09:28陳秀娟

汽車觀察 2023年2期

關鍵詞：模型

陳秀娟

通過自動標注算法技術、數據策略專家服務和數據閉環系統服務，最終實現行業AI的平民化。

在古老的埃及，考古學家在金字塔旁發現了一塊羅塞塔石碑Rosetta?Stone，這塊石碑上同時刻有古埃及法老托勒密五世詔書的三種不同語言版本，讓近代的考古學家得以有機會對照各語言版本的內容后，解讀出已經失傳千余年的埃及象形文之意義與結構。

如今，在中國，有一家創業型科技公司解決了人類語言和機器語言之間的轉譯鴻溝，立志于做數據標注領域的羅塞塔石碑，讓大規模訓練數據的機器學習成為可能。近日，AI數據服務商星塵數據在京舉行春季媒體開放日暨Rosetta3.0平臺上線發布會，Rosetta3.0平臺正式上線。

發布會上，星塵數據創始人、CEO章磊提出了標注行業認知天梯，即初級認知是標注行業是“人力工廠”，服務商用相對初級的標注工具、項目管理和海量人力就能干活，招標時低價者中標，存在交付風險；中級認知是，對項目管理的難度和標注工具的復雜度有一定認知，投入工具研發和項目管理成本，研發周期長，管理難度大，數據迭代效率低；高級認知是，重視平臺的技術實力，使用高度自動化的標注平臺，且與數據服務商一起迭代數據閉環和數據策略。

“做一款工具好用的平臺讓每個標注員都來用”

星塵數據是一家提供AI數據標注和數據管理服務的企業，成立于2017年5月，其創始人、CEO章磊是海歸數據科學家，先后在華爾街、硅谷工作十余年，曾在硅谷開發過世界首款股權投資機器人，在華爾街工作期間開發的底層風控算法曾被美國聯邦儲蓄局作為壓測標準。

接受《汽車觀察》記者采訪時，章磊向記者談起了創辦星塵數據的初衷，是想做一款工具好用的平臺讓每個標注員都來用。原來章磊回國后創辦的第一家創業公司是做自動化投資，需要做NLP（自然語言處理）算法，在與數據堂、龍貓、百度這些數據標注公司打交道過程中發現，這些供應商都不能滿足他們的需求。“因為自動化投資需要數據側和算法側能夠進行深入交流，也就是數據閉環，僅僅按每人每天進行數據標注并不能解決算法工程師的問題。另外，由于標注工具簡陋不好用，標注員產能也不高，既無法滿足企業的工期需求，也無法提高標注員的個人收入。”章磊說。

章磊指出，中國數據標注行業進入門檻較低，主導工具開發的人員通常并非算法科學家出身，因此很難開發出高效的預標注、輔助標注算法，更加困難的是設計相應的產品去承接算法思維，需要真正懂算法的人去帶領團隊開發標注工具和平臺，提供數據策略咨詢，打通數據閉環，真正滿足自動駕駛算法側的需求。

基于以上原因，章磊創辦了星塵數據，在創立之初就確立了三個目標：首先，通過自動化標注提高標注效率；其次，通過提供數據策略專家服務，為客戶創造更多的價值；第三，通過數據閉環讓模型訓練效果更好，數據標注量更少，提高標注性價比。

為此，星塵數據推出國內首個自動化標注平臺Rosetta平臺，平臺提供數百個標注功能，可支持圖像、點云、文本、語音、采集等在內的100+種主流標注場景。

第三方服務商優勢會越來越明顯

標注行業之所以會給人留下“人力工廠”的印象，是因為早期的數據標注自動化很低，以人力外包為主。人力標注具有隨意性高、人與人能力有差別的問題，數據量很大的時候，很容易出錯，返工率非常高，不能保證工時。

隨著行業的發展，目前標注行業存在企業自建標注平臺和人力基地、自建平臺并通過外包人力工廠進行標注、企業與平臺供應商合作等三種模式。在章磊看來，隨著行業的不斷發展，第三種模式將逐漸成為主流，專業的SaaS（自助建站）平臺供應商角色也將越來越突出。因為，無論在自建標注平臺還是標注團隊管理方面，與優秀的第三方服務商相比，企業均不占優勢。

具體看來，首先，這是由基礎設施云平臺化的大趨勢決定的。在全球科技企業大規模裁員的背景下，數據工具鏈相關的infra部門往往是最先被裁減的。曾有知乎用戶表示：“隨著云平臺和微服務的興起，各家公司對infra工程師的需求是只減不增的。互聯網公司自研基礎設施的時代已經快要結束了，未來是云計算搭積木的時代。”

其次，自動化標注工具設計細節較多，需要不斷完善。例如，自動化標注不僅需要拉框，還需要具備旋轉功能；在進行2D/3D融合標注時，需要注意標注細節；開發BEV標注工具時，需要切換BEV空間和攝像頭視角；開發4D標注功能，需要考慮時間維度等。因此，需要專業的供應商來提供標注工具的設計和開發。

再次，標注員學歷普遍不高，參差不齊，可靠性差，需要流程管控。而專業的SaaS平臺供應商則能夠提供完善的供應商管理體系保障，Rosetta3.0平臺上有精細的多維度數據統計功能、每日匯報功能、自動考試上崗功能，僅質檢就有6種質檢方法、100多種質檢規則。對于質量控制問題，章磊舉了一個例子：“如果算法置信度為0.51的錯誤怎么處理？如果算法質檢不合格就駁回，會導致罷工。我們不僅有機器人質檢，還有多維度的質檢依據。”

最后，對于自動駕駛研發企業和機構來說，標注平臺開發是成本中心，而對于平臺服務商來說，則能夠帶來顯著的利潤。這種導向的不同也導致了雙方的成本投入存在天壤之別，未來這種差距將會越來越大。據業內大廠評估，從零開始自建平臺，要達到像星塵數據平臺一樣先進的水平，需要40名工程師投入兩年的時間才能完成開發。“開發平臺和工具非常耗費時間和成本，而這不是客戶的核心競爭力，客戶沒有必要自己來做。”章磊進一步說。正因如此，章磊提出了標注行業的認知天梯。

標注行業的“救火隊員”

星塵數據花了大量的時間和成本去開發平臺和工具、打通端到端的數據閉環流程，在這期間，競爭對手把更多成本和精力放在銷售上面，不惜低價搶單。但章磊認為，好的產品具有自傳播性，用過星塵數據工具的標注員黏性很高，不愿切換平臺再使用其他平臺的工具；客戶也是如此，供應商在競標過程中以最低價中標，但在交付時卻無法按時交付或者標注質量不符合要求，這時候只能找星塵數據來解決問題。盡管在商務方面起步較慢，但領先的技術優勢符合標注需求越來越復雜化的趨勢，星塵數據開始呈現反超特點。

章磊強調，星塵數據存在的目的不是要解決100%的數據標注，而是解決那部分難的、行業前沿的大規模的數據標注，這也是那些具有付費能力的大客戶最大的痛點。他舉例表示：“常規的激光雷達點云對空間描繪能力的細節程度在30萬～80萬點，星塵數據Rosetta平臺的4D重建點云標注能力超過500萬點，在標注處理能力上超出同行一個數量級，因此，在南方某家自動駕駛企業的4D標注招標項目中，多家供應商通過試標的方式進行競標。在一張500萬點的4D點云圖面前，同行全軍覆沒，卡到藍屏，星塵系統絲毫沒有壓力，仍在絲滑順暢地進行標注。”

此次上線的Rosetta3.0平臺進一步升級了平臺能力。在算法層面，Rosetta3.0?提升了算法加持能力，新增?20+自研算法，點云標注效率較純人工標注提升5倍+，支持機器人標注及質檢，支持交互式標注以及算法實時反饋；增強了自動駕駛數據標注能力，3D?渲染50幀/秒以上，支持超長連續幀2?000+?流暢標注，支持2?000W?點點云平滑標注，支持?BEV標注、3D重建標注、4D標注、毫米波標注；增強數據閉環支持能力，打通Data?Ops和ML?Ops?鏈路，通過API對接實時發現難例，幫助客戶實現主動學習和強化學習；持續增強全方位、精細化質檢能力，提供上百個行業通用質檢規則服務和自研質檢算法，為數據質量保駕護航，標注準確率可達99.9%；強化數據管理能力，支持多源異構數據管理、版本管理、標簽管理、場景管理，支持數據可視化、數據場景挖掘、多模態檢索等

在平臺底層，Rosetta3.0采用微服務架構模式，系統具備更高擴展性和可用性，可支持數萬人同時作業，并引入流式計算等大數據技術，提升平臺數據實時處理能力；提供面向第三方的開放服務能力，通過Open?API方式，和客戶建立靈活的數據通路和算法服務通路，加速客戶算法迭代速度；構建?5A?數據安全保障體系，從產品、技術雙層面落地?5A?數據安全架構，實現端到端存儲傳輸使用安全、信息隱私保護、數據隔離等。

據章磊介紹，除Rosetta?數據標注平臺外，星塵數據還為客戶提供Rosetta標注軟件基礎版、Rosetta標注軟件高級版、Rosetta標注軟件旗艦版、Rosetta?App、Rosetta獨立標注工具、開放平臺Open?API等眾多產品形態，支持私有化部署和定制化軟件，滿足客戶多樣性需求。

推動AI平民化

談及數據標注行業的痛點，章磊指出，在傳統的數據標注流程中，算法人員制定數據標注規則，標注公司消化后再提供給標注團隊。然而，在執行過程中，算法的思路并不能一次性達到最優化。另外，數據標注人員僅僅是一個“干活的”角色，并不能幫助更好地迭代算法效果。因此，算法側時常會有一些不合理的規則導致成本飆升或難度大增導致難以執行。

此外，數據管理也是企業頭痛的問題。如，數據通過硬盤傳輸，效率低且無法管理。還存在數據批次多、臟數據多、清洗后有效數據少、同類型數據重復標注的問題。“同一批數據，雖然L2和L4模型訓練都用得上，但企業缺乏數據策略意識，數據復用性低，無形中增加了成本。”章磊進一步說。

在服務90%頭部自動駕駛客戶、經歷上千個項目打磨后，星塵數據不僅沉淀出了行業領先的標注平臺和工具，還培養出了經驗豐富的數據策略專家。

章磊表示，數據策略中涉及大量前沿技術，既包括算法和數據相關的技術，如領域遷移、時空融合、數據增強、弱監督學習等，也包括以數據為中心的反饋迭代技術，如主動學習、強化學習、數據檢索、數據安全、場景化數據生成、模型測試等。數據策略專家既要了解相關技術，也要熟悉產品，以專業性來服務客戶。

章磊指出，星塵數據的數據閉環解決方案是Rosetta3.0平臺的一大亮點。“全流程閉環式AI數據系統將成為主流，星塵數據為此提早進行研發布局。”

在一個完整的數據閉環訓練中，客戶可使用星塵數據提供的離線數據包進行基礎版模型訓練，星塵數據標注系統通過API與客戶算法系統進行交互，動態感知客戶模型效果，基于模型各版本迭代，在經歷幾次迭代后，不僅沉淀了有效數據，還節省了數據成本。同時，星塵數據還可以在海量數據中找到真正有價值的數據幫助客戶訓練模型，并利用自有數據集評測模型效果。模型上線后，行車數據可用于模型迭代，形成數據閉環。該方案通過打通星塵數據標注系統和客戶算法系統，實現主動學習、分批訓練和動態發掘有價值數據，從而降低數據標注規模，節省標注成本。以Chat?GPT語言模型為例，通過星塵數據的Rosetta3.0數據標注系統，客戶可以將模型快速接入系統，通過API實時將結果顯示在標注平臺上，星塵數據專屬基地的NLP標注員可以快速給出反饋。同時，獎勵強化模型實時接收到反饋并進行訓練，可以實現模型的高效訓練并及時發現缺陷。據悉，該解決方案目前已進入POC測試環節。

對于未來，章磊表示，星塵數據希望做人類語言和機器語言之間的羅塞塔石碑，通過自動標注算法（auto-labeling）技術、數據策略專家服務和數據閉環系統服務，為全球人工智能企業特別是自動駕駛行業提供“燃料”，最終實現AI的平民化。