機器學習需要更好的數據標注

2021-02-11 08:09:07崔滔

計算機與網絡 2021年24期

關鍵詞：高質量模型

崔滔

人們意識到AI非常強大，但為了實現它，必須獲得大量的訓練數據。有人在蘋果花了數億美元收集標簽數據，但依然沒有好的結果。

看到這一需求，許多專業標注公司誕生了。例如Datasaur，這是一個自動化數據標注的軟件。當然，數據標注首先需要以人工的方式開始，特別是在人工智能項目的開始階段，到了項目的中期或末期，機器學習本身可以用于自動標記數據，也可以生成合成數據。

Datasaur軟件的主要目標是簡化人工數據標注的操作，并引導他們以最低的成本創建更高質量的訓練數據。由于它的目標是那些需要整天標記數據的高級用戶，因此創建了功能鍵來加速標注過程，以及適合專用數據標注系統的其他功能。

不過在這個過程中，Datasaur也有了其他幾個目標，包括消除偏見。還提供了項目管理能力，以清楚地闡明標簽指南，確保隨著時間的推移，標簽標準繼續得到保持。

數據標注的主觀性是使這門學科充滿陷阱的原因之一。

例如，想出一種方法，自動給文章貼上適合或不適合家庭的標簽。通常可以參考電影分級制度，類似PG、PG13、R級。你可能認為這是一個非常簡單的任務，而事實證明，科技公司認為合適的做法與電影行業認為合適的做法有很大不同。還有很多灰色地帶的實例，對于什么是合適的，什么是不合適的，都會有非常不同的觀點。

解決這類問題沒有捷徑可走。但是，有一些方法可以幫助公司將這些業務流程自動化，包括提供一個用于回答這些數據標注問題的決策譜系，這就是創建Datasaur軟件的原因。因為你不會讓團隊為設計師創建一個Photoshop，只要買現成的Photoshop就好。當你只需要做數據標注，也可以找一家這樣專業的公司。

起初，許多客戶認為計算機視覺是最熱門的AI技術。但最近，NLP的用例非常熱門，特別是那些依賴于大型模型的用例，如BERT和GPT-3。因此Datasaur產品開始獲得注意力，每周被用于給100萬條數據貼標簽，包含Netflix、Zoom和Heroku等知名公司都在使用。

Datasaur也被專業數據標注機構使用，例如iMerit。在世界各地擁有5 000名員工，iMerit已成長為數據標簽行業的強大力量。該公司擁有100個客戶，其中包括許多家喻戶曉的品牌，這些客戶利用其數據標注網絡，讓深度學習模型與高質量的標注數據保持一致。

數據標簽的主觀性使得它成為不是單純的一項交易。

通常情況下，需要坐下來，弄清楚數據在哪里，需要什么，它不僅僅是工具、人員或過程，這是三者的結合。

上下文對于數據標注過程至關重要。這大概是因為機器對上下文的理解能力很差，也可能是因為AI用例在不斷變化。不管是什么原因，這種需求是顯而易見的。

分享一個卡車上施工工人的例子，可以證明上下文對于開發高質量的培訓數據是多么重要。想象一下，有一個工人坐在卡車上，每到一個維修路段，就要下車干活，然后又回到卡車上。所以數據標簽的問題是：工人是行人嗎？他是卡車的一部分嗎？還是說他是第三種人？

如果在計算車輛，就不會在意工人上下，只會對工程車感興趣，但如果你試圖操縱其他東西（比如自動駕駛或交通流量控制），避免撞到清潔工，清潔工的動作將會引起你極大的興趣。如果你在尋找可疑的行為，就會想把清潔工排除在一系列類似的行為之外。

但很明顯，工人有不同的存在狀態，取決于人工智能應用的視角。對于數據標注來說，事實是在不同的時間，一條數據可以有不同的標注，很多時候，沒有單一的答案。

數據標注過程的細致性對于提高數據質量至關重要，這直接影響機器學習模型的預測推理質量。數據可以讓預測準確率達到60 % ～70 %，也可以讓預測準確率達到95 %。

根據用例的不同，準確性是至關重要的。假如正在構建一個模型從視頻中來識別偷東西的行為，一個錯誤的否定（沒有發現盜竊行為）和一個錯誤的肯定（指控無辜的顧客）之間的后果有很大區別。