劉娜

8月9日,《科學導報》記者來到位于山西綜改示范區科技創新孵化基地4號樓的百度(山西)人工智能基礎數據產業基地,一個個神情嚴肅,端坐在電腦前的數據標注師,面對復雜數據正在一絲不茍地進行標注工作。圖像、語音、視頻、文本……這是他們各自領到的任務,隨著陣陣鼠標點擊聲和鍵盤敲擊聲,一組組復雜的數據在他們的手中變得清晰明了。
“每當有人問起我的職業,我說是數據標注師時,對方的臉上總是寫滿了問號。”李宇龍說。
李宇龍在百度(山西)人工智能基礎數據產業基地(簡稱“百度基地”)從事數據標注工作已經5年了。他說,自己和許多同事目前最大的心愿就是,希望有一天大家提起數據標注師就像提起教師、醫生一樣熟悉,期待有越來越多的人了解這個行業。
什么是數據標注?簡單來說,就是通過對數據貼標簽、做記號、標顏色或劃重點的方式,標注出其中目標數據的不同點、相似點或類別,以此達到讓機器學習的功能。“數據標注是傳統制造升級為智能制造、信息計算升級為人工智能的必要環節,其質量直接決定著機器智能化的程度,是它們讓機器成為‘天才。”省工信廳大數據辦相關人士的解釋更專業明了。
鮮為人知的是,人工智能是需要被人為教導訓練而成。人工智能所需要的教導,背后是經過大量的學習訓練而成。
機器并不能理解原始數據,這些原始數據需要人為的“標簽化”,通過標注賦予這些數據能夠被機器所識別的特性,才可以被用于訓練。正是依據這些大量而有效的數據總結規律,機器和人工智能才能最終形成自己的工作模式,變得越來越“聰明”。
人工智能行業有句話:有多少智能,背后就有多少人工。2020年2月,“人工智能訓練師”正式成為新職業并納入國家職業分類目錄。他們的工作是教會AI認識數據,有了足夠多、足夠好的數據,AI才能學會像人一樣去感知、思考和決策,更好地為人類服務。
李宇龍雖然從未見過自動駕駛汽車,但他最近正在做的工作卻與自動駕駛技術的AI算法息息相關。“你看,把汽車框起來,都打成白色的點,就代表這是一個障礙物。”隨著李宇龍鼠標的快速滑動,屏幕上的點云圖不斷翻轉,一個個針尖大的數據點被標注在圖中不同物體上——藍色是路面、綠色是綠植、紅色是路沿、白色是障礙物。事實上,自動駕駛汽車眼中的世界就是一幅幅不斷變幻的點云圖。數據標注師要做的就是對照攝像頭拍攝的照片,賦予這些點云圖以準確的含義。
記者采訪中了解到,現在數據標注的內容已經從圖片拓展到語音,數據集中除了自動駕駛,還有醫療CT、人臉等,語音數據除了有普通話、各地方言外還有外語,這些數據集涵蓋的范圍越來越廣,使得行業對數據標注師的要求也越來越高。