他是全球語音識別的破壁人,是醫療AI的拓荒者,更是海淀“從實驗室到生產線”創新生態的踐行者。
“人工智能不是冰冷的代碼,而是有溫度的服務。”云知聲智能科技創始人黃偉帶領團隊深耕智能語音領域10余年,從聲紋識別技術突破到“山海”大模型研發,不僅填補了國內智能語音交互的技術空白,更讓AI真正“聽懂”了百姓需求。如今,這項技術已廣泛應用于醫療、家居等民生領域,用科技溫暖千家萬戶。
讓聲紋識別走進病房與客廳
黃偉的科技之路始于中國科學技術大學,這位信號與信息處理專業的博士畢業后,先后在摩托羅拉中國研究中心和盛大創新院積累了豐富的科研經驗。這期間,黃偉主導開發出全球第一款手機聲紋認證系統,他連續三年參加美國國家標準技術署的說話人識別評測,并三次將世界第一的桂冠攬入懷中,是至今唯一在該全球頂級評測中連續兩年做特邀發言的華人。
2012年,iPhone 4S搭載Siri語音助手引發了全球智能語音創業浪潮,黃偉看到了人機交互的未來機會,不惜背水一戰,創立了云知聲。
云知聲率先將深度神經網絡(DNN)應用于商業語音識別系統,構建了國內首個永久免費的語音平臺,成為國內最早將深度學習算法應用于商業語音識別的公司之一。
隨后,云知聲推出了業界首個免費語音識別公有云軟件,成功上線微信,并在白色家電(洗衣機、空調、電冰箱等)上實現了AI語音交互。 2016年,云知聲在格力智能語音空調上,率先完成白色家電領域的規模化量產驗證,獲得智能家居“奧斯卡”—AWE艾普蘭核心獎。
在黃偉的科技版圖中,技術突破從來不是最終目的,如何讓AI真正服務于人類生活才是他始終思考的問題。2014年,黃偉選定物聯網(IoT)和智慧醫療作為云知聲商業化兩大主要場景。
在物聯網領域,黃偉認為,隨著設備智能化程度提高,語音將成為最自然的人機交互方式。“房間設備越來越智能化,有個弊端就是太復雜了,老人小孩都不會用。但大家都會說話,用語音是最好的交互方式。”黃偉說。基于這一判斷,云知聲的智能語音技術廣泛應用于智能家居、智能車載等場景,讓科技真正融入日常生活。
2023年,云知聲與睿藍汽車合作推出的AI大模型車載系統,能夠深度理解用戶需求,提供全場景情感化交互體驗。
在智慧醫療領域,2015年云知聲就將降噪、識別、理解技術融合以語音電子病歷切入醫療行業,一年后與北京協和醫院合作,率先在國內落地。
醫療領域是黃偉投入最多熱情的賽道。2016年,每天早上7點的北京一家三甲醫院晨會上,總能見到黃偉的身影。他與醫生們深入交流,了解醫院信息化需求,推動云知聲的語音識別技術在醫院落地。
“醫院不看產品的學術指標,直接拿到病房,找各種口音的人做現場測試。”黃偉說。這種務實作風讓云知聲的醫療產品快速成熟,從最初的電子病歷語音錄入系統,發展到如今覆蓋醫務、醫管、醫保全流程的智慧醫療解決方案。通過電子病歷系統實時生成規范病歷,與打字輸入相比,這種語音輸入系統將病歷錄入速度提高了4至6倍,大大減輕了醫生的工作負擔。
隨著在這一場景的積累,云知聲構建起了醫療領域的知識圖譜,并基于大規模醫療知識圖譜,實現智能病歷質控系統、智能單病種質控系統、智能醫保審核系統、智能導醫機器人等從感知到認知的智能化解決方案。
無論是醫療還是物聯,黃偉始終堅守一個信念:技術必須服務于人。“我們追求的不僅是讓AI技術像水電一樣普及,更重要的是讓技術真正滿足人的需求。”黃偉說。
讓“雨燕”芯片到“山海”大模型
隨著物聯網設備的爆發式增長,海量終端需要在邊緣側快速處理數據,同時借助云端的強大計算能力,實現智慧化功能。這種端云協同的需求催生了對高性能、低功耗AI芯片的迫切需求。
2014年,黃偉帶領團隊構建了“云—端—芯”三位一體的技術架構,隨后開始研發芯片。對于其研制的芯片,黃偉信心十足,他曾在采訪中透露,彼時,他們團隊打造的芯片,性能比傳統模組提升了50倍,功耗和價格大幅降低,還支持多種深度神經網絡模型。
2018年,云知聲首款AI語音芯片“雨燕”發布并量產,推動智慧家居語音交互普及。
2019年,“蜂鳥”芯片問世,專為智慧家居設計。例如,TCL的小藍翼C7新風空調搭載了云知聲的智能語音技術和“蜂鳥”系列芯片模組,在智能語音功能上實現了重大升級,新增離線自由說、多語言識別和聲紋識別三大創新功能,極大地提升了用戶體驗,為TCL的產品帶來了更高的附加值和市場競爭力,同時也為云知聲帶來了可觀的商業收入。
云知聲先后推出了十余款蜂鳥系列解決方案。截至目前,“蜂鳥”系列芯片已累計賦能近700品類家居設備,覆蓋多種日常生活場景,保持著市場占有率的領先地位。
2022年,業界首款車規級語音AI專用芯片“雪豹”在客戶量產車型上落地出貨。云知聲的車規級全棧式語音AI芯片通過了AEC-Q100認證,具備全離線AI功能,支持離線語音搜索、語音喚醒、聲源定位和多音區識別。其語音深度學習處理速度提升64倍,釋放主控算力資源近40%。在吉利博越L和星瑞項目上,“雪豹”芯片提供了多音區技術、降噪技術、藍牙通話降噪技術、離線喚醒和離線識別等技術服務,為用戶帶來更加智能、安全、便捷的駕駛體驗。
數據顯示,2024年云知聲芯片出貨量達3600萬顆且預計持續增長。
2022年底以ChatGPT為代表的大語言模型發布,國內外諸多玩家也在積極探索以大模型為基礎的智能體(Agent)。
2023年5月,云知聲發布參數規模達600億的“山海”大模型,交出了在AGI(通用人工智能)領域的第一張答卷。
為了訓練“山海”大模型,云知聲團隊每天要處理幾十萬小時的語音數據,這些數據大部分是通過數碼合成方式生成的。“差不多可以做到每天合成幾萬小時的數據。”黃偉說,這種腳踏實地的技術積累,讓“山海”大模型在語言生成、語言理解、知識問答等領域展現出強大能力。
彼時,山海大模型的語言生成、語言理解、知識問答、邏輯推理、代碼能力、數學能力、安全合規能力七項通用能力,及插件擴展、領域增強、企業定制三項行業落地能力已經處于業界前列。
在此基礎上,云知聲通過快速整合具體業務場景的相關知識與規范,打造了醫療病例生成Agent、交通客服Agent、智能座艙Agent等典型的行業Agent應用。
云知聲聯合創始人、副總裁李霄寒在采訪中透露,2025年云知聲將All in大模型,旨在通過新的技術路線,帶來新的體驗和價值。
從專注語音識別的初創企業,到掌握AI芯片與大模型核心技術的行業領軍者,黃偉用10年時間實現了令人矚目的技術跨越。
“對創業者來講,容易走的路多半都是死路。”在黃偉看來,AI技術研發沒有捷徑可走,必須一步一個腳印。
AI創業者的情懷與擔當
創業的征程如人飲水,冷暖自知。只有真正走過的人才能體會到一路艱辛。當一路升級打怪,經歷過千難萬難的淬煉后,成就的是創始人一顆強大的內心。
2012年創業之初,為了支撐公司早期的發展,黃偉在把自己家底掏光之后借了200萬元,寫下了人生的第一張欠條。“我買房子貸款都沒貸過這么多錢。但你追求的結果是這輩子絕大多數人都實現不了的一個夢想,當然要為這個夢想付出代價。”黃偉說。
創業最大的收獲是成長,也是對創始人學習能力的考驗。從技術管理者到創業公司的CEO,需要懂產品、懂商業、懂資本、懂人才,慢慢變成一個全能型選手。收獲的另外一面是付出的代價,在黃偉看來,孤獨就是代價。
很多時候,黃偉會選擇一個人去堅持、默默把問題解決,讓所有人看到結果。團隊也因此更有信心。“很多心里話不能跟團隊說,他們不能幫你解決問題,而且你不能把負面情緒傳遞出去。”
如果時間撥回到2018年,會看到黃偉寫的PPT上有著這樣一句話:世界上最難走的路才是捷徑。“對創業者來講,容易走的路多半都是死路。”
“我還有一個歪理,說一件事情很難,就是它的成功概率可能只有5%,95%會失敗;但是可能有95%的人選擇了容易走的路,或者因為難而放棄了,那你的成功概率就不是5%,而是 100%。”
回首創業路,黃偉真實感受到了在資本助推下AI公司的潮起潮落。越來越多的 AI 企業不得不嘗試探索更廣泛的行業落地場景。如何找到真正的行業痛點,滿足降本增效需求;如何讓一家靠技術驅動的公司健康發展,創造商業價值與社會價值,成為AI創業者的新考題。
“無論是大語言模型,還是多模態大模型,我們都看到了非常清晰的遠景,但是挑戰也非常大,對所有從業者來說,想要做更好的技術、更好的產品,打造更健康的商業模式,就要放棄浮躁的心態,去追求產品落地。只有這樣,中國人工智能行業才能健康發展,而不是充滿泡沫—如果泡沫破裂的話,對中國人工智能行業將是巨大的傷害。”黃偉說道。
從實驗室到產業應用,從技術創新到社會價值,黃偉用十余年時間詮釋了“科技向善”的深刻內涵。在他的帶領下,云知聲不僅成為智能語音領域的領軍企業,更探索出一條AI技術造福社會的可行路徑。
不久前,黃偉榮膺2024年度感動海淀文明人物,正如“感動海淀”頒獎詞所說:“他是機器的知音,讓機器‘知音’。用聲紋為筆,描繪‘山海’壯闊;以芯片為紙,書寫智慧生活。”
在黃偉看來,“技術最終是為了人。我們希望AI像水電一樣觸手可及,但比技術更重要的,是永遠敬畏人的需求”。
黃偉始終強調AI技術發展的倫理邊界:“既要認識到優勢,也要預見到生成式AI潛在的風險隱患,進而打造負責任的人工智能。”這種審慎態度體現在云知聲的每一項技術應用中。
在AI技術日新月異的今天,他將繼續帶領云知聲團隊,以技術創新滿足人類需求,用科技之光溫暖千家萬戶。這條路或許漫長,但正如黃偉所說:“人工智能是我一輩子的事業。”這份執著,正是海淀這座科技創新之城最珍貴的精神財富。