“什么感覺?有沒有出現耳鳴?”位于深圳市南山區騰訊大廈25層的一個密閉空間里,QQ音視頻實驗室負責人邱建問。在這個密閉的空間靜靜站立30秒,期間只能聽見喘氣的聲音和不知因何而來的耳鳴。
這是位于騰訊大廈的4個QQ音視頻實驗室之一的音頻實驗室,為了保證每次測試環境的一致,這里被設計成了一間消音實驗室。全鋼體框架密閉結構、六面墻體布滿吸音棉、全套高保真音響輸出音頻,在實驗室大門關閉后,這個空間的分貝數值顯示為17。“人體感覺比較舒適的噪聲分貝是30左右,這種過于安靜的環境已經超出人類的身體極限。所以剛才你會出現耳鳴。”邱建說。
這種純凈環境下測試出來的只是實驗室標準下的指標,而對于千變萬化的使用環境、多樣另類的用戶終端,還有難以捉摸的網絡狀況,實時的音視頻通訊就像是古靈精怪的叢林仙子,美妙,但難以掌控。
從2011年QQ音視頻技術中心創建時的7人,到現在的100多人;從外購音視頻解決方案,到開放自研的SPEAR音視頻引擎。4年間,作為騰訊第一個前后臺開發的技術,QQ音視頻經歷了一場裂變,更肩負著騰訊在to B端的野心。
矛與盾
1999年,隨著一款叫OICQ的PC端聊天軟件發布的“99b”版本,語音通話這個在當時還非常新奇的功能為人們帶來了“電腦上通話”的全新體驗。不久,視頻聊天功能也加入到了這款軟件中。
之后的十幾年,縱使這款軟件的名字從OICQ變換為QQ,但IM即時通訊軟件騰訊QQ帶來的音視頻體驗進化卻一直在延續:從PC端的一對一到多對多音視頻,再到移動互聯時代移動端介入后,跨平臺的音視頻能力實現,甚至最新的動態視頻美顏。
來自騰訊的官方數據顯示,截至2015年11月,手機QQ每天通話次數突破4000萬次,在智能終端上,QQ音視頻通話的單日通話時長就超過了6億分鐘。
對于用戶來說,使用QQ音視頻只是打開軟件點擊好友,但對于QQ音視頻團隊來說,這是一次又一次矛與盾的交鋒。音視頻基礎能力的實現、多終端跨設備互通能力、一對多或多對多場景實現、移動網絡穩定網絡多環境適配……
“犀利、快速,再加上‘5S’單詞的元素,最終確定了SPEAR這樣一個技術品牌。”劉曉宇解釋說。
SPEAR在英文里是“矛”的意思,象征犀利與快速。而劉曉宇所說的“5S”是QQ自成立專項音視頻技術實驗室,針對音視頻通話技術進行研發和優化時就已經提出的一項QQ音視頻標準,即Stable(穩定)、Smooth(流暢)、Safe(安全)、Smart(智能)和Speed(高速)。基于此誕生的SPEAR音視頻引擎也沿襲了這些特性。
在移動端,移動網絡的不穩定性、高丟包率以及終端設備的差異化一直對音視頻體驗影響很大。SPEAR這只矛如何去擊穿那一面面的盾?
CPU和帶寬是音視頻通訊最重要的資源瓶頸,一旦資源消耗過大,就會出現丟包、卡頓等現象。“QQ在中國網絡環境和用戶環境復雜的情況下,長時間積累了解決復雜情況的能力。”劉曉宇解釋道,“SPEAR通過采用傳輸通道選路智能化、流控策略控制云端化、分布式混音等技術手段,為用戶提供兼顧流量與質量的音視頻通訊體驗。”
比如,在建立音視頻連接的過程中,手機QQ通過LongConn呼叫信令模塊快速且穩定地建立呼叫;依靠MediaEngine音視頻處理模塊下的編碼解碼技術、音頻3A技術等多方面支持保證通話質量;而Capture/Display攝像頭、視頻顯示模塊則支持多設備管理以及高質量的顯示體驗。QQ還利用XPlatform模塊提供了跨操作系統封裝適配庫,以實現在不同設備上的無縫連接。
通過“5S”標準下的技術支撐,SPEAR正在試圖找到一些解決辦法。
蛻變
“通過視頻確認從微眾銀行拿到貸款的卡車司機,當時用的就這個SPEAR音視頻引擎。”劉曉宇說。
2015年初,國務院總理李克強在深圳前海微眾銀行敲下電腦回車鍵,卡車司機徐軍就拿到了3.5萬元貸款。這是微眾銀行作為國內首家開業的互聯網民營銀行完成的第一筆放貸業務,被金融業界譽為金融改革一大步。而對于科技界來說,這是音視頻交互、人臉識別和大數據信用評級與傳統行業的又一次融合。
微眾銀行開發的這套音視頻遠程確認系統采用的就是開放的SPEAR引擎。劉曉宇強調,“對于第三方,或者中小企業來說,他們可以通過非常簡單的方式獲得騰訊多年技術積累的成果。”
2011年,是QQ音視頻技術開啟的時間點。那一年,QQ音視頻技術中心剛剛成立,音視頻技術、云引擎都是外購的,“別人給的都是‘黑盒子’,我們沒有辦法自己優化。”劉曉宇說。大概半年后,騰訊做了個重大的決定——語音引擎必須自研,必須采用一套全新的可運營的架構,包括移動網絡的呼叫協議在內,新的架構必須要基于全平臺。
那一年,移動互聯網遠沒有現在“動物兇猛”,QQ音視頻技術中心還有時間完成這次華麗轉身。
2012年,QQ音視頻的全新架構發布;2014年,騰訊內外部的用戶開始找上門,希望使用QQ音視頻技術;2015年的5月20日,QQ音視頻技術正式開放。

這意味著,這項月均2億多用戶使用的消費級應用開始向企業用戶開放,這是全球范圍內首個前后端開放的音視頻一站式服務,這一舉措將降低全行業應用音視頻技術的門檻。
邱建在進入騰訊之前是做安防布控解決方案的,也會接觸到音視頻業務,“以當時的情況,我們也要投入很大的研發精力,即使把硬件做得再好,網絡傳輸這塊仍然是有缺失的。”
而在2012年起就采用了云計算技術的QQ音視頻,可以讓音視頻的服務質量大大改觀。有音視頻業務需求的第三方公司可以用租用服務的方式享受到云端化的SPEAR引擎技術,他們只需將精力放在應用層面。
面對“互聯網+”戰略轉型下的中國用戶,真正被改變的將是思維方式和和工作模式。視頻通信作為遠距離溝通協作中最直接最高效的手段,已經得到了越來越多企業的認可。
IDC最新發布的《2015年上半年中國視頻會議市場跟蹤報告》顯示,從部署模式來看,基于公有云模式部署的網絡視頻會議市場正在形成規模。IDC認為,隨著網絡視頻會議廠商(服務商)的并購與整合,在垂直行業領域的應用擴展,以及新的技術推動力,基于公有云模式部署的網絡視頻會議市場具有巨大的市場空間,網絡視頻會議未來5年的年均復合增長率將超過20%。
“接下來我們會以‘場景+技術’的方式,針對幾種主流的音視頻使用場景去做更細致的配制或者優化,并針對這些場景去找對應的種子用戶。”而對于剛剛開放的QQ音視頻引擎來說,騰訊的產業鏈是他們最好的輸出管道。