文/本刊記者 史 詩(shī)
金融領(lǐng)域?qū)χ悄芙换サ膹?qiáng)需求,至少在10年前就顯示出來(lái)。2009年甚至更早之前,以銀行為首的金融行業(yè),就已經(jīng)在在其系統(tǒng)中嘗試使用客服機(jī)器人,滿足客戶的基本需求。
截止到2014年,基于FAQ的客服機(jī)器人基本上是各類(lèi)金融機(jī)構(gòu)的標(biāo)配。只是,F(xiàn)AQ能夠處理的任務(wù)相對(duì)簡(jiǎn)單固定,而且效果一般。不僅沒(méi)有提升金融機(jī)構(gòu)們的效率,還時(shí)常因?yàn)轶w驗(yàn)不佳對(duì)用戶造成困擾。
2015年以來(lái),深度學(xué)習(xí)算法將人工智能請(qǐng)出“冷板凳”,第三次人工智能浪潮浩浩蕩蕩開(kāi)始了,最先影響到的便是金融領(lǐng)域。原因就在于,智能交互對(duì)于金融領(lǐng)域的企業(yè)而言,可以說(shuō)是絕對(duì)剛需。
還有另一個(gè)原因,就客服這一項(xiàng)而言,金融領(lǐng)域用戶量巨大,日常交互頻率極高,人工客服成本高,且服務(wù)無(wú)法穩(wěn)定輸出,人工智能賦能下的智能客服則更具優(yōu)勢(shì)。此外,人工智能還能在反欺詐、客戶行為預(yù)測(cè)與價(jià)值挖掘、智能投顧、智能外呼等方面發(fā)揮巨大作用。但在實(shí)際使用中,用戶也常常表達(dá)對(duì)當(dāng)前人工智能的不滿,認(rèn)為與其說(shuō)是人工智能不如說(shuō)是人工智障。的確,體驗(yàn)不佳的智能交互,給用戶造成的困擾遠(yuǎn)遠(yuǎn)大于驚喜。
怎么做才能提升智能交互的效能與價(jià)值?

數(shù)據(jù)是深度學(xué)習(xí)的關(guān)鍵要素,數(shù)據(jù)質(zhì)量是模型的準(zhǔn)確度和識(shí)別能力的重要影響因素,而模型準(zhǔn)確度和識(shí)別能力則直接決定了智能交互的效能與價(jià)值。簡(jiǎn)單來(lái)說(shuō),智能交互體驗(yàn)好不好,基礎(chǔ)是數(shù)據(jù)。
第一個(gè)需要解決的問(wèn)題,是高質(zhì)量的數(shù)據(jù)采集。針對(duì)語(yǔ)音智能交互而言,指的就是語(yǔ)音數(shù)據(jù)。數(shù)據(jù)在人工智能時(shí)代是稀缺資源,尤其是語(yǔ)音數(shù)據(jù),非常年的積累、龐大的用戶群無(wú)法獲得。玖富在金融領(lǐng)域擁有12年的專(zhuān)注,累計(jì)用戶7000萬(wàn),且業(yè)務(wù)場(chǎng)景覆蓋面廣,涉足金融行業(yè)的多個(gè)方向,因此擁有著驚人的數(shù)據(jù)量。加之近幾年,隨著智能手機(jī)的普及,前端設(shè)備在語(yǔ)音數(shù)據(jù)采集、降噪方面表現(xiàn)越來(lái)越好,因此語(yǔ)音數(shù)據(jù)的質(zhì)量得到了初步的保證。
第二個(gè)需要解決的問(wèn)題,是數(shù)據(jù)采集之后的清洗與標(biāo)注。采集來(lái)的數(shù)據(jù)無(wú)法直接用來(lái)訓(xùn)練模型,需要經(jīng)過(guò)處理。目前玖富在金融領(lǐng)域的文本標(biāo)注訓(xùn)練數(shù)據(jù)積累已經(jīng)達(dá)到了數(shù)百萬(wàn),視頻圖像標(biāo)注訓(xùn)練數(shù)據(jù)積累也已達(dá)到了百萬(wàn)級(jí)別,語(yǔ)音標(biāo)注訓(xùn)練數(shù)據(jù)積累達(dá)到數(shù)千小時(shí)。目前玖富已經(jīng)研發(fā)出一套自動(dòng)標(biāo)注系統(tǒng),大量數(shù)據(jù)可以運(yùn)用自動(dòng)標(biāo)注系統(tǒng)進(jìn)行標(biāo)注,再由人工進(jìn)行補(bǔ)充測(cè)試篩查,完成整體標(biāo)注任務(wù)。
第三個(gè)需要解決的問(wèn)題,就是模型訓(xùn)練。在這方面,玖富多年來(lái)大膽嘗試,積極探索前沿科技,與全球頂級(jí)科研機(jī)構(gòu)開(kāi)展合作,并在北京、硅谷等地建立創(chuàng)新實(shí)驗(yàn)室,以保持在技術(shù)方面的領(lǐng)先。舉例而言,2018年玖富集團(tuán)分別聯(lián)合中科院自動(dòng)化研究所和清華大學(xué)五道口金融學(xué)院成立聯(lián)合實(shí)驗(yàn)室/研究中心,推動(dòng)中國(guó)金融業(yè)與人工智能等技術(shù)的全面融合。基于此,玖富在通用的NLP訓(xùn)練基礎(chǔ)上,也針對(duì)特定金融場(chǎng)景中的訓(xùn)練進(jìn)行了優(yōu)化,例如語(yǔ)音端點(diǎn)檢測(cè)(VAD),將長(zhǎng)語(yǔ)音切短;語(yǔ)音識(shí)別聲學(xué)模型建模單元為聲韻母,BLSTM-CTC模型;解碼算法,基于3-gram的WFST搜索空間等。
此外,從前CNN/RNN的成功應(yīng)用,深度學(xué)習(xí)在自然語(yǔ)言處理方向取得了長(zhǎng)足的進(jìn)展,但缺陷是在隨著梯度迭代,會(huì)出現(xiàn)語(yǔ)義信息丟失,另外在上下文關(guān)聯(lián)上也沒(méi)有好的解決方案。在2017、2018年中,attention、memory機(jī)制在機(jī)器翻譯、情感識(shí)別等領(lǐng)域都在之前的準(zhǔn)確率基礎(chǔ)上又取得了提升。2018年谷歌的bert預(yù)訓(xùn)練模型推出后,可以利用小批量的數(shù)據(jù)進(jìn)行二次訓(xùn)練,就可以在文本分類(lèi)、意圖識(shí)別中取得良好的準(zhǔn)確率。
在技術(shù)層面提升數(shù)據(jù)的質(zhì)與量,不斷優(yōu)化算法訓(xùn)練模型之外,產(chǎn)品本身的設(shè)計(jì)也非常重要。尤其是考慮到數(shù)據(jù)分布的不均勻會(huì)造成模型的語(yǔ)義傾斜,所以針對(duì)特定領(lǐng)域內(nèi)的語(yǔ)音識(shí)別模型,為了提高在該領(lǐng)域內(nèi)數(shù)據(jù)的識(shí)別準(zhǔn)確率,必須要在訓(xùn)練集中加入一定比例的領(lǐng)域內(nèi)數(shù)據(jù)。
在玖富的產(chǎn)品設(shè)計(jì)中,利用領(lǐng)域內(nèi)的數(shù)據(jù)來(lái)提升智能交互的效能和價(jià)值是一大特點(diǎn)。目前,玖富的產(chǎn)品實(shí)際形態(tài)有三個(gè),分別是智能客服(智能問(wèn)答機(jī)器人)、智能語(yǔ)音外呼、智能對(duì)話分析(智能質(zhì)檢+智能助手)。
以智能外呼系統(tǒng)中的催收數(shù)據(jù)為例,我們可以更直觀的看到這一特性。首先是數(shù)據(jù)預(yù)處理,去除特殊字符以及字符轉(zhuǎn)換(阿拉伯?dāng)?shù)字和中文數(shù)字之間的轉(zhuǎn)換,以及英語(yǔ)字母大小寫(xiě)之間的轉(zhuǎn)換),進(jìn)行簡(jiǎn)單的文本糾錯(cuò),分詞,去停用詞,在此期間需要建立金融領(lǐng)域內(nèi)的分詞詞典和停用詞表;其次是需要根據(jù)業(yè)務(wù)需求來(lái)調(diào)整訓(xùn)練集中各類(lèi)別數(shù)據(jù)的比例,并整理成符合模型輸入條件的數(shù)據(jù)格式;最后選擇合適的模型,并進(jìn)行參數(shù)調(diào)優(yōu)。
在智能外呼這個(gè)產(chǎn)品中,基于對(duì)歷史注冊(cè)用戶的通話數(shù)據(jù)分析,玖富開(kāi)發(fā)了一套用于提升整體接通率的模型;在NLP模型中,為了提高客戶意圖識(shí)別的準(zhǔn)確性,利用了模型融合的方法,依靠深度學(xué)習(xí)來(lái)增強(qiáng)對(duì)語(yǔ)義的理解,綜合了多種文本相似度和文本分類(lèi)方法,對(duì)用戶意圖進(jìn)行判斷,綜合多輪對(duì)話的內(nèi)容,最終給出用戶的意圖。
玖富智能客服在2017年底上線,已經(jīng)穩(wěn)定運(yùn)行了一年,為商城用戶提供常見(jiàn)問(wèn)題咨詢(xún)。而智能語(yǔ)音外呼是2018年的主打產(chǎn)品,已經(jīng)對(duì)接了催收、電銷(xiāo)等多個(gè)業(yè)務(wù),而且意圖識(shí)別準(zhǔn)確率和用戶還款率都要高于同業(yè)產(chǎn)品,同時(shí)提供了包括撥打策略、用戶意圖分析、用戶未接通原因等配套服務(wù),能在2019年投入使用。智能對(duì)話分析已在玖富全業(yè)務(wù)線中廣泛投入使用,并得到良好反饋。2019年將圍繞客戶滿意度與產(chǎn)生業(yè)務(wù)價(jià)值,重點(diǎn)優(yōu)化智能質(zhì)檢和智能助手功能,提升智能對(duì)話分析能力。