在HCI技術(shù)中難度最大的自動(dòng)化語音識(shí)別(ASR)研究從上世紀(jì)50年代開始到現(xiàn)在已經(jīng)歷半個(gè)多世紀(jì)的蓬勃發(fā)展,在這期間獲得了巨大的進(jìn)展。
捷通華聲作為我國(guó)智能人機(jī)交互(HCI)技術(shù)領(lǐng)域領(lǐng)軍企業(yè),也步入了投身HCI領(lǐng)域技術(shù)研發(fā)與產(chǎn)品化的第十個(gè)年頭。多年來捷通華聲語音、手寫識(shí)別等HCI技術(shù)領(lǐng)域的發(fā)展積累大量寶貴的經(jīng)驗(yàn),也可以說對(duì)HCI領(lǐng)域的感受頗多,尤其是對(duì)我國(guó)HCI技術(shù)的發(fā)展與市場(chǎng)前景更是洞若觀火。
近期,隨著雅虎、微軟兩大巨頭在海外相繼高調(diào)推出語音搜索應(yīng)用,語音識(shí)別再次成為國(guó)內(nèi)外業(yè)界關(guān)注的熱點(diǎn)話題之一。這標(biāo)志著自動(dòng)化語音識(shí)別應(yīng)用進(jìn)入了產(chǎn)業(yè)化、市場(chǎng)化的新時(shí)期。
陷入怪圈的朝陽行業(yè)
人們都在翹首盼望,隨著科學(xué)的進(jìn)步計(jì)算機(jī)能夠與人無障礙的溝通交流,事實(shí)上,這也是IT產(chǎn)業(yè)的一個(gè)發(fā)展趨勢(shì)。很多人為之傾注全部心血,理所當(dāng)然,市場(chǎng)回報(bào)也十分優(yōu)厚,以其2000億美元的市場(chǎng)規(guī)模讓人垂涎。
語音識(shí)別特點(diǎn)可以用三個(gè)“大”字概括:用戶期望大、研發(fā)投入大、從理論到技術(shù)轉(zhuǎn)換的困難大。這個(gè)三“大”特點(diǎn),使語音識(shí)別的發(fā)展走進(jìn)一個(gè)怪圈:因研發(fā)投資大,故而產(chǎn)品價(jià)格不菲,然而質(zhì)量卻無法滿足用戶過高的期望,從而影響了市場(chǎng)與應(yīng)用規(guī)模擴(kuò)展。
所以時(shí)下流行的大型IVR(互動(dòng)式語音應(yīng)答)服務(wù)仍然以菜單式問答、用戶按鍵式輸入為主,以TTS(語音合成)應(yīng)答重復(fù)率高和答案較標(biāo)準(zhǔn)的問題。語音識(shí)別似乎成了一只美味的螃蟹,羨慕者眾,但是敢于食之者寥寥。
譬如采用IVR技術(shù)的企業(yè)呼叫中心,它考慮選擇語音識(shí)別產(chǎn)品,必定要考察其使用價(jià)值;如果語音識(shí)別的效果可靠,可以把語音識(shí)別作為人工坐席的替代資源,在附加了自己的其他勞動(dòng)之后最終向客戶提供新的使用價(jià)值。
如果語音識(shí)別產(chǎn)品的使用價(jià)值和人工坐席的旗鼓相當(dāng),那么投資語音識(shí)別即可以替代坐席的價(jià)值投入,也即“等值替代”。然而問題就出在其中,盡管ASR能夠?yàn)橘I家?guī)黹L(zhǎng)期的成本大幅下降,卻在使用價(jià)值上無法實(shí)現(xiàn)與人工坐席的等值替代,這就是為什么很多客戶不愿做第一個(gè)食蟹者的主要原因。
語音識(shí)別面臨最殘酷的現(xiàn)實(shí)是,即使是世界頂尖的技術(shù),距離完全替代人工坐席也相去甚遠(yuǎn)。對(duì)公司而言,為研發(fā)某產(chǎn)品投入了幾百個(gè)工程師人年的價(jià)值,除了增加風(fēng)險(xiǎn)之外沒有太多實(shí)際意義,因?yàn)閮r(jià)值的尺子掌握在客戶的手里。
但是,價(jià)格是抓住市場(chǎng)的一個(gè)保證。暫時(shí)忘記研發(fā)成本,用相對(duì)過硬的技術(shù)開拓市場(chǎng)藍(lán)海,語音識(shí)別才能看到勝利的曙光。技術(shù)的進(jìn)步不是閉門造車,無法一蹴而就,它與實(shí)際應(yīng)用必然是交替前進(jìn)的模式,語音識(shí)別如要進(jìn)一步發(fā)展壯大,首先要用有誘惑力的價(jià)格吸引用戶體驗(yàn)新科技帶來的便捷與高效,再由市場(chǎng)回報(bào)與反饋中汲取養(yǎng)分,重新注入到技術(shù)中,如此形成良性循環(huán),才能夠向前邁進(jìn)。
此外,由于我國(guó)對(duì)ASR技術(shù)的認(rèn)識(shí)相對(duì)滯后,對(duì)語音識(shí)別的認(rèn)識(shí)還存在一定的誤區(qū)與不理解。
ASR,風(fēng)雨兼程
語音識(shí)別無法提提升客戶服務(wù)
不少人認(rèn)為古老的按鍵式系統(tǒng)已經(jīng)夠用了,語音識(shí)別無法提高客戶服務(wù)。這讓人不禁產(chǎn)生疑問:“消費(fèi)者是否也這樣認(rèn)為呢?”。當(dāng)然具體問題還要具體分析,要看客戶的實(shí)際需求而定。如果僅僅是實(shí)現(xiàn)功能相對(duì)單一的自動(dòng)化功能,而且客戶的業(yè)務(wù)并沒有太多與消費(fèi)者交互內(nèi)容的話,那么按鍵式系統(tǒng)或許已經(jīng)足夠。
然而,當(dāng)今消費(fèi)者往往不滿意按鍵式系統(tǒng)。首先,傳統(tǒng)的按鍵模式所能提供的菜單選擇有限,使來電者不得不費(fèi)勁地猜想自己的問題屬于哪個(gè)類別,且菜單層次往往非常復(fù)雜,而來電者在厭煩聽取繁瑣的菜單選項(xiàng)或者得不到確切的結(jié)果后,更樂于直接選擇咨詢?nèi)斯し?wù)。其次,傳統(tǒng)的按鍵模式非常不受手機(jī)使用者的歡迎,當(dāng)消費(fèi)者使用手機(jī)撥打號(hào)碼時(shí),必須頻繁地將手機(jī)拿開以便按鍵,這無疑增加了使用者的操作時(shí)間與繁瑣程度,于是使用者再次直接選擇了人工服務(wù)。這就無形中增加了人工坐席的工作量,而人工坐席不得不完成一些不必要的工作,IVR系統(tǒng)的效率被大大降低。
借助于語音識(shí)別技術(shù)的應(yīng)用上述問題迎刃而解,使用者不必再聽候冗長(zhǎng)的菜單選項(xiàng),不必再使用繁瑣的按鍵操作,只需在提示問題的引導(dǎo)下,更加自由的用聲音進(jìn)行操作。這樣,不僅避免了使用者猜想自己?jiǎn)栴}的類別,而且大大節(jié)省了操作的時(shí)間,從而使其更加集中精力在他所關(guān)心的問題。
語音識(shí)別技術(shù)同時(shí)還具備如復(fù)雜的拼寫輸入等傳統(tǒng)按鍵模式所不具備的功能,簡(jiǎn)化互動(dòng)和提高整體的客戶體驗(yàn)。尤其是當(dāng)使用者正處在如駕駛狀態(tài)等不方便按鍵的環(huán)境中時(shí),語音識(shí)別技術(shù)所帶來的便捷,是可想而知的。
語音識(shí)別無所不能
鼠標(biāo)與鍵盤的輸入方式,因其標(biāo)準(zhǔn)化的輸入本質(zhì)所達(dá)到的所輸即所得的境界,對(duì)于評(píng)價(jià)自由度大大提升的語音輸入來說是不切實(shí)際的。
長(zhǎng)期以來,人們對(duì)語音識(shí)別技術(shù)的期望值過高,認(rèn)為“語音識(shí)別技術(shù)應(yīng)該聽得懂一切”。這其實(shí)是一種理想的狀態(tài),也是科學(xué)家與技術(shù)人員所一直追尋的終極目標(biāo)。然而,切合實(shí)際的想一想,對(duì)于這一目標(biāo)人們只可能無窮盡地接近它,卻無法達(dá)到它。舉個(gè)簡(jiǎn)單的例子來說, 人與人之間的語言溝通,往往都還會(huì)因?yàn)檎Z法、口音、噪聲、俚語、語種等諸多因素的影響而使彼此聽不懂對(duì)方在說些什么,對(duì)于計(jì)算機(jī)當(dāng)然也不能奢望太多。
因此,沒有哪種語音識(shí)別技術(shù)能夠百分百準(zhǔn)確無誤地理解用戶的任何語音。當(dāng)然,可以通過語音提示、糾錯(cuò)與信息確認(rèn)等方式來彌補(bǔ)語音識(shí)別的不足。
中國(guó)的語音識(shí)別技術(shù)落后
正如前文所述,語音識(shí)別技術(shù)因其自由度的大幅提升導(dǎo)致其技術(shù)開發(fā)難度增大,國(guó)外語音技術(shù)雖然起步較早,但其發(fā)展速度由于市場(chǎng)成熟度、相關(guān)技術(shù)發(fā)展速度等諸多因素的制約一直進(jìn)展比較緩慢,且面臨的最大技術(shù)難題就是的“自然語言”識(shí)別,即所謂的“語音識(shí)別聽得懂一切”,也是迄今為止全球語音識(shí)別界無法逾越的鴻溝。
我國(guó)對(duì)于語音識(shí)別技術(shù)的研究與產(chǎn)品開發(fā)相對(duì)國(guó)外起步較晚,但追趕的步伐卻很快。目前語音識(shí)別技術(shù)水平已經(jīng)與國(guó)外的技術(shù)水平相差無幾,而在中文語音識(shí)別領(lǐng)域更是由于其強(qiáng)烈的地域特征和得天獨(dú)厚的條件而領(lǐng)先于國(guó)際。
語音識(shí)別非常昂貴
相對(duì)于國(guó)外大公司高昂的研發(fā)、運(yùn)營(yíng)、維護(hù)、廣告成本而言,國(guó)內(nèi)語音識(shí)別技術(shù)含量并不低,同時(shí)擁有著更為實(shí)際、更有競(jìng)爭(zhēng)力的價(jià)格。在為客戶有效降低成本的前提下,帶來比國(guó)外公司更高的投資回報(bào)率,還能讓客戶在一個(gè)更加合理的價(jià)位上提高服務(wù)質(zhì)量,讓消費(fèi)者更多地感受語音識(shí)別技術(shù)帶來的便捷。只有這樣才能進(jìn)一步拉近語音識(shí)別技術(shù)與產(chǎn)品化應(yīng)用的距離,拉近語音識(shí)別技術(shù)與消費(fèi)者之間的距離,進(jìn)一步促進(jìn)語音類增值服務(wù)的繁榮發(fā)展。
洋玩意兒總是好的
不可否認(rèn),總體上來說,國(guó)外廠商的優(yōu)勢(shì)還是非常明顯的,其發(fā)展較早、資金實(shí)力雄厚。然而一味地盲目崇拜國(guó)外也是不可取的,俗話說“適合的才是最好的”。
對(duì)于語音識(shí)別領(lǐng)域來說,正是在這“適合”二字上,國(guó)內(nèi)企業(yè)有著國(guó)外公司所不具備的、得天獨(dú)厚的優(yōu)勢(shì)。首先,中文語音識(shí)別技術(shù)是大部分國(guó)外廠商所不具備或者不完善的,而對(duì)中文語言特點(diǎn)的理解與中國(guó)人語言習(xí)慣的熟悉正是中國(guó)企業(yè)的優(yōu)勢(shì)之首。其次,高性價(jià)比也毋庸置疑地成為國(guó)內(nèi)企業(yè)最大的優(yōu)勢(shì)之一。再有,國(guó)內(nèi)企業(yè)對(duì)國(guó)內(nèi)客戶的企業(yè)文化和業(yè)務(wù)流程有著良好把握,并提供靈活多樣化的產(chǎn)品與合作模式、及時(shí)周密的服務(wù)、充分的培訓(xùn)、行業(yè)特色的解決方案。國(guó)外公司在中國(guó)的技術(shù)研發(fā)力量不足、甚至沒有;培訓(xùn)人員、服務(wù)支持往往要遠(yuǎn)渡重洋不夠及時(shí);解決方案陳舊不符合中國(guó)國(guó)情,不了解行業(yè)特色;產(chǎn)品改造牽扯太多不夠靈活主動(dòng)。最后,國(guó)內(nèi)企業(yè)在借鑒吸收國(guó)內(nèi)外大量資源的基礎(chǔ)上,結(jié)合中國(guó)國(guó)情、行業(yè)特色、集百家之長(zhǎng),逐漸形成了商業(yè)的“中國(guó)模式”厚積薄發(fā)。
打造ASR的“中國(guó)模式”
隨著中國(guó)經(jīng)濟(jì)的騰飛,以往單純的“拿來主義”已經(jīng)不能滿足中國(guó)消費(fèi)者的需求,由于文化背景、民族習(xí)慣、知識(shí)水平、行業(yè)特色、政府政策、法律法規(guī)、管理方式等諸多方面與國(guó)外的差異,形成了具有中國(guó)特色的客戶需求。而各行業(yè)的商家看準(zhǔn)這一市場(chǎng)需求,在原有的基礎(chǔ)上加以變革或者干脆推翻原有不合理的東西,推出更加符合中國(guó)客戶需求的產(chǎn)品、方案、制度、服務(wù)、商務(wù)合作等一系列的內(nèi)容就形成了今天大家經(jīng)常談及的“中國(guó)模式”。
當(dāng)今企業(yè)善用“中國(guó)模式”取得成功的案例不勝枚舉,如聯(lián)想、華為、阿里巴巴等知名企業(yè)還將“中國(guó)模式”成功地改良應(yīng)用于海外市場(chǎng),并獲得了成功。
作為中國(guó)語音識(shí)別的領(lǐng)軍企業(yè),這些年來捷通華聲一直奉行“質(zhì)量至上、服務(wù)第一;薄利多銷、份額制勝”的發(fā)展宗旨。為了讓語音識(shí)別應(yīng)用面積擴(kuò)大起來,不妨打價(jià)格戰(zhàn)。同時(shí),研發(fā)人員走到用戶中去,和他們一起研究問題,以實(shí)用為目的,靈活定制。要用坦誠(chéng)和熱情服務(wù)贏得客戶的理解和支持。服務(wù)中不是扔給客戶一大本參數(shù)手冊(cè)叫客戶去費(fèi)力調(diào)試,如果效果沒有達(dá)到產(chǎn)品宣稱的百分之九十幾就歸咎于用戶的參數(shù)沒有調(diào)節(jié)好。而是通過和用戶之間的緊密配合,共同發(fā)現(xiàn)問題,進(jìn)行最佳參數(shù)配置,進(jìn)而進(jìn)行必要的定制。
捷通華聲憑借擁有自主知識(shí)產(chǎn)權(quán)的多項(xiàng)HCI技術(shù)(語音合成、語音識(shí)別、手寫識(shí)別)優(yōu)勢(shì)和多年的市場(chǎng)經(jīng)驗(yàn)積累,建立了相對(duì)完善的、更加符合中國(guó)客戶需求的產(chǎn)品、服務(wù)與技術(shù)支持體系,為ASR在CTI、嵌入式等領(lǐng)域的行業(yè)應(yīng)用鋪平了適合“中國(guó)模式”的發(fā)展道路。
相信未來市場(chǎng)上,“中國(guó)制造”將開拓更廣闊的一片天地。
(作者為北京捷通華聲語音技術(shù)有限公司總經(jīng)理)