王永
一般企業IT團隊遇到十分棘手的科技研發問題,傳統的方式是通過尋找精英專家團隊獲取解決方案。雖然這種方式被大部分企業重度使用,但是社區、開發者與企業過于割裂的現象,使得企業的項目進程推動并不樂觀。此時,眾包競賽的方式開始進入企業的視線。
眾包競賽,簡單來說就是一個需求方或者甲方提出一種獎勵的機制,參與門檻很低,無論是全職還是兼職,都可以參賽。
“眾包競賽其實是對各種科技類創新模式的一種觀察和探索。從技術的角度來看, AI往往會有Benchmark的標準數據集,通過在數據集上運行模型,得到客觀的評測結果,在這樣的情況下,眾包競賽的結果公平性就能得到保證。” 北京數競科技Biendata創始人&CEO管心宇在接受筆者的采訪時表示,相比過去傳統的方式,眾包競賽是一個有益的補充。在此基礎上,Biendata平臺也應運而生——“Bien”法語的意思是“好”,希望通過平臺的服務和優勢,聚集更多的數據集和優秀的開發者。
Biendata是由清華大學計算機系孵化。旗下產品與服務包含人工智能競賽、數據科學社區、前沿人工智能報道以及專注于AI行業的品牌傳播和服務。作為一個技術項目,于 2015 年啟動,并在2017 年開始獨立運營。2017年,Biendata考慮到公司的長遠發展,并且對比過多家云服務后,最終選擇亞馬遜云科技。
“Biendata選擇與亞馬遜云科技進行合作,是經過深度的考量和調研的。”在管心宇看來,亞馬遜云科技的優勢主要體現在四個方面:數據安全保障性高、可伸縮的強大計算能力、穩定可靠的技術以及具有成本效益的服務。
如今,Biendata不僅成為亞馬遜云科技全球合作伙伴網絡(APN)的一員,更成為其堅實的合作伙伴,為更多的用戶提供云上的人工智能方案。
2020年疫情期間,很多創業公司面臨極大的業務挑戰,BienData借助云上開展在線業務的優勢,通過更多云原生的服務降低了運維成本,并將更多關注放在業務本身,實現了業務的迅猛發展。
“我們可以為企業用戶提供一些標準化服務,比如,數據獲取、清洗、數據集的分割、測試等,最終將企業的需求,以眾包競賽的方式進行拓展。”管心宇認為,這樣以平臺為中心,一端是企業的數據集,另外一端是開發者,當開發者拿到數據以后,可以自行研究和開發、探索。
除此之外,Biendata現在支持用戶提交代碼,而不是提交預測結果。這個代碼需要在亞馬遜云上自動運行,然后得到結果。這樣不僅可以增加比賽的公平,還可以收集更好的比賽獲獎方案輸送給企業客戶。
2021年,Biendata的業務發展上升到新的階段。借助亞馬遜云科技安全合規的能力,贏得更多海外項目。并與亞馬遜云科技的其它客戶合作開展人工智能普惠的競賽,通過比賽,對K12領域和高校領域培養AI人才。
例如,Biendata在與新加坡國立大學合作的比賽中,由于客戶非常重視安全與合規的能力,對于用戶數據需要有比較強的保護措施,這個標準為項目的進展和推進造成了較大的挑戰。
“當時我們在申請的時候本應該提交大量的材料,但因為是在亞馬遜云上,所以它自動、默認的已經符合里面絕大部分標準,省略了冗雜的認證、測試過程,讓本需要3到5個月的準備時間,得到了極大的縮減。”管心宇表示,亞馬遜云科技的合規性和流程比較全,讓Biendata在跟客戶接洽的時候,可以減少很多溝通和準備的成本。此外,如果客戶需要,亞馬遜云科技還可以提供現成且可以開箱即用的功能,更好地支持客戶的快速研發、上線和迭代。
事實上,安全性和合規性是亞馬遜云科技和客戶的共同責任。這種共擔模式可以減輕客戶的運營負擔,亞馬遜云科技負責運行、管理和控制從主機操作系統和虛擬層到服務運營所在設施的物理安全性的組件。客戶負責管理用戶操作系統(包括更新和安全補丁)、其他相關應用程序軟件以及亞馬遜云科技提供的安全組防火墻的配置。
據了解,亞馬遜云科技支持包括PCI-DSS、HIPAA/HITECH、FedRAMP、《歐盟數據保護指令》、FIPS 140-2 和 NIST 800-171 在內的安全標準和合規性認證,滿足全球幾乎所有監管機構的合規性要求。
值得一提的是,在過去幾年,BienData已經做了100多場算法比賽,積累了10萬名左右的開發者,累計總獎金超過700萬,還包括在平臺周圍開發一些獨立的媒體品牌,以及技術分享和直播。
在與亞馬遜云科技合作的過程中,Biendata基于云原生服務持續架構的演進,也在不斷提升競賽平臺的自動化水平,增強業務交付能力——運營成本節省75%以上,競賽上線時間加快50%以上……
作為亞馬遜云科技APN進階技術合作伙伴,BienData的業務也開始趨于多元化發展。例如,通過完整的人工智能課程體系賦能教育領域——已為深圳、寧夏的職業院校交付AI課程。
此外,BienData與亞馬遜云科技未來的合作方向會以加速普惠人工智能為主——基于亞馬遜云科技構建競賽社區和打造bienlearn系列課程,用戶不僅可獲得高質量的數據集,分享精彩的開源數據項目,還可以在多元化的實訓場景中提升數據科學水平,實現從原理到實踐的實戰支撐。