文/本刊記者 高茜
樹起移動互聯網“最后一厘米”的安全門
文/本刊記者 高茜
業界普遍認為,語音將成為繼鍵盤、鼠標、觸摸屏等一切基于手的人機交互方式之后的下一代主流人機交互方式。

在上海雙創活動周上的公司展位
2017年10月24日,GeekPwn(極棒)2017國際安全極客大賽之“AI仿聲驗聲攻防賽”在上海開場,參賽的五支隊伍需要利用機器自主合成技術,模仿評委提供的四段聲音,欺騙并通過市面上幾款常見手機和智能音箱的聲紋鎖驗證。其中,某最新安卓手機、蘋果iPhone8、某品牌智能音箱等智能設備均有挑戰選手破解成功。
一時間,智能語音產品的安全性引起社會廣泛關注。
同時現場還集結了數十位業界頂級安全專家,組成了一批重量級評委陣容,其中北京得意音通技術有限責任公司董事長鄭方就在其中,他同時又是清華大學語音和語言技術中心主任。
“這次的攻防挑戰賽中參賽隊伍攻擊的產品難度系數是分一定等級的,不能說攻擊都成功。”鄭方講道,“從攻擊的角度,現場參賽的五支隊伍用到的攻擊手段不外乎三種方法,一種是語音合成,通過合成流暢、自然的語音來試圖破解語音密碼,這個是‘像音’;第二種是語音轉換,模仿發音者的特點,這個是‘像人’,并且已經瞄準了攻擊的目標;第三個方法是聲音拼接法,把使用者本人的話裁剪拼接成聲音密碼,這種方法更加接近實際的攻擊水平和目標。”


上海雙創周上展示的聲紋技術應用案例
“而從防守方來講,目前市面上的一些聲紋識別的相關產品,可以說沒有防范攻擊的措施,當黑客入侵時,多數產品方并沒有檢測聲音真偽的手段。所以就參賽情況而言,從攻和守兩方面綜合來看,目前行業普遍水平依然停留在基礎水平上。”鄭方說。
其實,在鄭方的帶領下,得意音通早在幾年前就針對上述三種攻破方法研制出了相應的設防對策。我國人工智能界泰斗、中國科學院院士張鈸先生高度評價得意音通這家高新技術企業:“肯花硬功夫去掌握關鍵技術。”
“聲紋識別”聽上去有些陌生,其實這項技術最早誕生于上世紀 40 年代末的貝爾實驗室。同已經廣泛應用的指紋識別技術一樣,它是通過對語音信號的特征分析達到“說話人辨認”和“說話人確認”的兩種目的,前者是判斷某段語音是哪一個人所說,后者則是用以確認某段語音是否是指定的某個人所說。
依托清華大學語音團隊近40年的技術積累,15年前創立了北京得意音通技術有限責任公司,圍繞自動語音識別、聲紋識別、自然語言處理三大核心技術開展工程化研究和產品化開發,其中產品化方面做得最好、應用最成熟的就是聲紋識別技術,現已獲得十多項國內發明專利和1項國際發明專利。
在2017全國雙創活動周上海主會場上,得意音通重點展示了聲紋識別技術在社保生存認證、移動金融和門禁系統等中的應用。7天的展期內,共引來近萬人次觀眾前來參觀體驗。

建設銀行使用聲紋交易次數破億

參觀者正在試驗聲紋門鎖

鄭方董事長擔任極棒國際安全極客大賽評委
據了解,“聲密保”方案是通過對動態密碼語音中的密碼內容及支付申請人身份的雙重識別,實現對移動支付合法性的雙重驗證,具有安全、方便、快捷、防止錄音假冒等優點。
最新數據顯示,截至2017年11月3日,中國建設銀行聲紋總交易次數已突破1.5億次。2016年6月18日,中國建設銀行手機銀行采用得意“聲密保”專利技術用于身份認證的功能對普通用戶正式開放,主要應用在登陸、取款、轉賬、支付等場景。
還有最受年輕人歡迎的“聲紋門禁”,這個縮小版的真實防盜門自從7月31日在清華大學亮相后,就成了小“網紅”,受到不少媒體的追捧。聲紋門禁利用聲音來控制門的出入權限,每個人用自己的聲音做鑰匙,利用聲紋識別技術實現身份識別,進而控制門或鎖的開啟。
對聲紋識別技術而言,探尋語音背后“說話人”的微妙態度和真實意圖,非常重要,否則“智能語音”的“智能”就只能打引號。這就需要用到說話人情感狀態的識別技術,當然,情感識別技術很難掌握。
“難了不會,會了不難。經過我們多年研究、積累,在很多方面有了積累。比如說,喪禮中演奏的哀樂,當你把哀樂節奏加快,你會發現這首曲子其實是很歡快活潑的,當節奏慢下來,放在喪禮這些特定環境中,就會產生悲傷的氣氛。所以說語音中是有情感信息的,只看內容并不準確。情感識別其實是綜合利用了說話時長、音高、聲調等很多因素的綜合體,需要在研究中逐一對這些因素進行分析才有可能攻破這一難題。”鄭方講道。
在2017年7月31日舉辦的“人工智能與信息安全”清華前沿論壇上,得意音通信息技術研究院正式揭牌成立,此前2015年,已成立清華-得意音通聲紋處理聯合實驗室。作為清華大學知識產權入股的高科技企業,得意音通已成為業界產學研結合的成功范例。
“產學研應該是‘化合態’,而不是‘混合態’。”既是清華大學教授又是得意音通公司董事長的鄭方對產學研這條發展路徑有著獨到的見解。“產學研如何緊密結合是重要而必要的關鍵一環。目前有很多企業與高校合作,合作方式大體分兩種,一種是高校科研團隊有相關的成型項目成果,企業有需要才會進行合作;另一種是企業自身在發展的某個階段需要科研團隊做支撐,從而進行合作。這些都有一定短時性,沒有建立長期合作的機制。”
得意音通與建設銀行合作之初,就面臨建設銀行提出的疑問——如果使用錄音是否會將聲紋識別技術攻破?鄭方介紹說,當時的確不能保證絕對的安全性,但當市場提出要求時,他們的科研團隊選擇去學習相關原理、制定解決方案,然后進行一次次的嘗試,最后在成功通過線上測試后給客戶交上了一份滿意的答案。
“時變”即聲音隨時間、年齡增長而發生變化,這對行業來說是需要解決的一個難題。由于前期需要搜集大量數據、建立數據庫,并且是對同一對象、同一內容進行長時間的語音數據收集,然后進行實驗對比,才能找到解決方法。很多人是不愿意去涉足的,因為無法看到最后能否達到預期。
當時得意音通科研團隊決定以清華大學的部分在校學生為對象進行實驗。每間隔一周或者一個月進行聲紋采集,經過幾年時間采集到一個聲紋時變數據庫,然后在此基礎上研究人的聲紋中的變量與恒量,解決了聲音隨年齡變化的問題。
“當有明確的市場需求時,我們有強大的研發團隊做支撐;當需求還不明顯或者短期內看不到結果時,我們就按照戰略定位在多個方向上開展拓展探索和技術儲備,這對人才也是很好的鍛煉。這才是我們理解的產學研結合。”鄭方總結說。
信息安全包括很多層面,包含存儲、傳輸和計算安全等多個方面,這些都已經取得了不錯的效果;但最關鍵的一步“訪問控制安全”目前還不令人滿意。打個比方,用鋼筋水泥建造的一棟房子,墻壁雖然很堅固,但是一旦房子的鑰匙落入他人之手,別人就可以輕易進入,房子牢固又怎么樣?主人失去了進入房子的唯一性,安全性也大打折扣。同樣在互聯網領域,很多場景下現在都要求有實名認證,但是多數情況下,用戶信息受到多方面不安全因素的威脅,極不安全。
那要怎么確保是本人進行訪問并且擁有訪問的唯一性呢?鄭方博士給出了他的答案:“要想做到訪問控制安全,首先要保證‘鑰匙’的唯一性,獨個人所有;第二,這把‘鑰匙’要具有防攻擊性,抵御黑客入侵;最后重要的一點是要在自愿的前提下進行訪問,要代表自己的主觀意志,這樣才能減少詐騙事件的發生。這在國家戰略信息安全方面具有十分重要的意義。”
在保護民族生物特征信息方面,指紋、人臉、虹膜等這些生理特征具有不可撤銷性,一旦丟失就可能被隨意非法使用。
前不久發布的iPhone 8以及iPhone 6及以上機型,都可以采用Apple Pay來操作手機支付功能,據了解,2016年2月,Apple Pay登陸中國,通過Apple touch來實現指紋支付,已有至少19家銀行支持此項業務。
鄭方講到他的憂慮:“蘋果公司在中國推廣的Apple Pay具有一定的安全隱患,再加上馬上要推出的刷臉,所有金融相關的用戶信息極易被蘋果公司獲得,這從國家、民族的層面講,是很危險的。國家一定要有高層戰略保護的意識保護用戶的隱私數據。聲紋屬于行為特征,聲音是可交互的、可隨意變換的,使用以聲紋為主、多生物特征融合的措施來應對不法人員獲取用戶信息,可有效保護國家和個人的利益安全。”