

“我其實還只是一名年輕的科研者,科研經驗還算不上豐富。”這是內蒙古大學計算機學院研究員呼德在采訪中多次提及的一句話。在他眼中,雖然在信號處理領域求學耕耘多年,但他手中握著的仍只是一支鈍筆,只能約略地捕捉住一點關于聲音信號的美,粗淺地描摹出信號與信息處理專業的形與色、風格與氣息,努力地在行業痛難點上留下一些自己的痕跡,讓自己的學術文章落地實用,化作改變日常生活的一縷馨香。
然而,事實真的如此嗎?主持、參與過多項國家級縱向課題及與華為、螞蟻金服等企業合作橫向課題的呼德,不僅以第一作者、通訊作者在《IEEE/ACM音頻、語音和語言處理匯刊》(IEEE/ACM Transactions on Audio,Speech and Language Processing,TASLP)、《IEEE 無線通信匯刊》(IEEE Transactions on Wireless Communications)等重要學術期刊上發表論文十余篇,擔任《數據采集與處理》期刊青年編委、中國計算機學會語音對話與聽覺專委會委員、人工智能學會青年工作委員會委員等職務,更重要的是,他對于如今的聲音信號處理研究頗具見解:“麥克風網絡就像是聲音信號處理的‘魔杖’,讓機器不僅能夠‘聽到’,更能‘聽懂’。我們要做的不僅僅是對聲音的捕捉與過濾,更是一種在繁音中尋覓清籟的過程,讓每種聲音都能得到清晰的傳播。”
“未來的回響”
雖然今日的呼德與信號處理領域的科研工作密不可分,但其實二者結緣伊始完全是一場陰差陽錯。自嘲為“小鎮做題家”的他直到高考報志愿時都還只是抱著“學了這門學科就有機會得到國內三大通信公司工作機會”的就業愿景才在2010年的本科志愿填報時選擇了通信工程專業,但光陰匆匆,母校遼寧大學在其本科4年中帶給他的不僅是日益增長的專業知識,更是“放眼看世界”的開闊視野與“科技報國”的職業責任。而這些都在后期化作了“畢業即就業”與“接續深造”的天平上悄然加重的砝碼,致使他最終選擇到大連理工大學讀研。
當邁入研究生階段,在導師殷福亮教授與陳喆教授的諄諄教導下,呼德開始正式接觸聲音信號處理工作,“兩位老師的言傳身教使我受益匪淺,影響我到如今”。據呼德回憶,自己在剛步入科研領域時并不算一位細心嚴謹、思維活躍的“后來者”,因此為老師們帶去了不少的“麻煩”,“比如殷老師是一位極其認真負責的導師,我的每篇論文他都要逐句閱讀、逐字修改,非常細致,且他的大局觀非常令人欽佩;而陳老師的思維很活躍,天馬行空間會生出很多新鮮想法,對于知識的執著和渴求也足以令我終身學習”。于是,遇到難題便去找二位教授“談天說地”的歲月成了呼德求學日子里最溫馨美好的記憶,而他也不負前輩所望,在科研的道路上極速成長,還未畢業時就已經參與到與華為合作的相關項目之中。
或許多數人都經歷過這樣的困擾:打電話的時候偶爾會在聽筒聽到自己的聲音。之所以會產生這類現象,根源在于“回聲消除”算法不夠完善,誤將回聲反傳回來。為解決這一難題,呼德在華為西安研究所一扎根就是大半年。“當時我一個人代表我們課題組去為企業降本增效,解決這一問題。難度還是不小的,除了要把回聲消除干凈,還要將運算量壓得極低,這中間的平衡點非常難找。”最困擾時,這些難點都變成了呼德的夢魘,“真的是在睡夢里還在琢磨怎么才能完成目標”。但所幸,結果是可觀的。當項目真正落地,在全世界范圍內使用的效果還是讓呼德再一次體會到了科研者特有的成就感,那是“風雨后的彩虹”“烏云中的陽光”。
也正是這一次成功的項目經歷,讓呼德進一步樹立了科研的自信,也讓他聽到了“未來的回響”,“我想,只要我堅持下去,就能把青春夢想扎根在祖國的大地上”。
2018年年初,站在人生的十字路口,呼德面臨著一次重大選擇——申博與否?“碩士期間參與的幾個項目落地,讓我獲得了前所未有的成就感”,但“象牙塔”外五光十色的世界又讓他心生迫切,想要利用所學去為社會做些什么,直到2018年4月,美國制裁中興的噩耗傳來。“未來7年內禁止中興通訊向美國企業購買敏感產品”的禁令在當時嚴重危及著中興通訊的生存,也傷害了大量中興通訊合作伙伴的利益。輿論場上物議沸然,而國人的憤怒、不安與扼腕,呼德都懂。在感同身受之下,他燃起了在所在課題組讀博、繼續科研的斗志,“探索我們自己的算法,最大程度地替代進口,力圖使發展不被他人所左右”是他為自己立下的第一條職業座右銘,且延續至今。
“智慧的聽者”
畢業后的呼德幾乎沒有猶豫就選擇回到了家鄉,“回報桑梓一直是我的愿望”,而正如他所言,科研者只有把心靈貼在熱愛的大地上,想他人之所想,才能聆聽到人類文明最深處的需求,真正解決困擾大眾生活的關鍵性問題。
而呼德所致力解決的首個問題,便是如何突破常規麥克風陣列信號處理的技術瓶頸。麥克風陣列信號處理利用聲音的時間、空間信息完成許多語音處理任務,如聲源定位與跟蹤、聲源分離、聲源數目估計及語音增強等,近20年來,此技術發展很快,取得了重要進展,但也逐漸暴露出了一些不足:例如陣列拓撲結構通常是固定且規則的,如均勻線陣、圓形陣列等,安裝后不能隨意移動;空間覆蓋率較低,當聲源距麥克風陣列較遠時,其采集到的聲音信號質量較差,從而影響后續的語音處理性能;且容錯性差,當陣列中一個或數個麥克風失效時,整個陣列就會出現癱瘓等情況。針對這些不足,麥克風網絡信號處理技術應運而生。
近年來,出現了以智能手機、平板電腦、智能音箱為代表的一批智能設備,并在日常工作與生活中不斷普及,這些設備通常配有各自的數據處理單元、無線通信接口、音頻輸入輸出接口,因此十分易于構成分布式麥克風網絡。相比于傳統的單麥克風或麥克風陣列,分布式麥克風網絡具有靈活的拓撲結構、大范圍的空間覆蓋率及分布式數據處理能力,在視頻會議系統、人機交互系統等領域具有廣泛應用前景。但是通常,在此類網絡中,各節點大多是隨機放置,其位置通常未知;且由于制造工藝等因素,各節點的真實采樣率與標稱值會有所差異,影響其語音處理算法性能。因此,需要用幾何校準方法對節點位置進行估計,用時鐘校準方法來抑制采樣率失配問題。然而普遍的研究都聚焦于集中式計算方法,也就是說需要額外的中心處理單元和較大的通信帶寬,這難以滿足應用中的校準需求。為此,呼德申報了國家自然科學基金青年項目,引進分布式信號處理理論,探索新的分布式校準方法,使麥克風網絡的各節點并行地、協作地完成幾何與時鐘校準任務。
立足于蒙古語智能信息處理國家地方聯合工程研究中心這一如日方升的平臺之上,多項國家級課題進展順利,已經產出了多篇學術文章。“目前,我們正在進一步探索讓技術落地應用,走進更多人生活的方式。我對于未來還是比較有信心的。”呼德說。
如果有一天,站在未來的門檻上回望,呼德只希望自己的成果可以為社會生活帶來一些便捷,正如他常說的那樣:“讓每一個聲音、每一句話都能被準確無誤地捕捉與理解,無論是在繁忙的都市角落,還是在遙遠的自然風光中。”而帶著這份理想,他將繼續前行,徜徉在由聲音信號編織的夢想國度里,續寫科技的動人詩篇。