999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語(yǔ)音識(shí)別進(jìn)化簡(jiǎn)史 從造技術(shù)到建系統(tǒng)

2020-04-14 04:41:41張賀飛
微型計(jì)算機(jī) 2020年4期
關(guān)鍵詞:百度深度模型

張賀飛

美國(guó)知名投資機(jī)構(gòu)Mangrove Capital Partners在《2019年語(yǔ)音技術(shù)報(bào)告》中,給語(yǔ)音下了一個(gè)宏大的定義——?dú)g迎下一代的顛覆者。可如果把時(shí)間倒退10年,大部分人還是會(huì)把“語(yǔ)音交互”定義為一場(chǎng)豪賭,都知道贏面比較大,卻遲遲不敢下注,因?yàn)楦拍畹穆涞剡€沒(méi)有一個(gè)明確的期限,當(dāng)正確的路徑被走通之前,永遠(yuǎn)都存在不確定性。不過(guò)在此前的80年里,人類(lèi)對(duì)語(yǔ)音技術(shù)的希望從未破滅,就像是在迷宮中找尋出口一般,一遍又一遍地試錯(cuò),最終找到了正確的路徑。

漫長(zhǎng)的孩提時(shí)代

“明天天氣怎么樣?”“我想聽(tīng)周杰倫的歌”,諸如這樣的指令每天有幾億次發(fā)生,哪怕是牙牙學(xué)語(yǔ)的孩子也可以和智能音箱進(jìn)行流暢的對(duì)話。但在50年前,就職于貝爾實(shí)驗(yàn)室的約翰·皮爾斯卻在一封公開(kāi)信中為語(yǔ)音識(shí)別下了“死亡診斷書(shū)”:就像是把水轉(zhuǎn)化為汽油、從海里提取金子、徹底治療癌癥,讓機(jī)器識(shí)別語(yǔ)音幾乎是不可能實(shí)現(xiàn)的事情。彼時(shí)距離首個(gè)能夠處理合成語(yǔ)音的機(jī)器出現(xiàn)已經(jīng)過(guò)去30年的時(shí)間,距離發(fā)明出能夠聽(tīng)懂從0到9語(yǔ)音數(shù)字的機(jī)器也過(guò)去了17個(gè)年頭。這兩項(xiàng)創(chuàng)造性的發(fā)明均出自貝爾實(shí)驗(yàn)室,但語(yǔ)音識(shí)別技術(shù)的緩慢進(jìn)展,幾乎消磨掉了所有人的耐心。

在20世紀(jì)的大部分時(shí)間里,語(yǔ)音識(shí)別技術(shù)就像一場(chǎng)不知方向的長(zhǎng)征,時(shí)間刻度被拉長(zhǎng)到了10年之久:20世紀(jì)60年代,時(shí)間規(guī)整機(jī)制、動(dòng)態(tài)時(shí)間規(guī)整和音素動(dòng)態(tài)跟蹤三個(gè)關(guān)鍵技術(shù)奠定了語(yǔ)音識(shí)別發(fā)展的基礎(chǔ);20世紀(jì)70年代,語(yǔ)音識(shí)別進(jìn)入了快速發(fā)展的階段,模式識(shí)別思想、動(dòng)態(tài)規(guī)劃算法、線性預(yù)測(cè)編碼等開(kāi)始應(yīng)用;20紀(jì)80年代,語(yǔ)音識(shí)別開(kāi)始從孤立詞識(shí)別系統(tǒng)向大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)發(fā)展,基于GMM+MM的框架成為語(yǔ)音識(shí)別系統(tǒng)的主導(dǎo)框架;20紀(jì)90年代,出現(xiàn)了很多產(chǎn)品化的語(yǔ)音識(shí)別系統(tǒng),比如IBM的Via-vioce系統(tǒng)、微軟的Whisper系統(tǒng)、英國(guó)劍橋大學(xué)的HTK系統(tǒng);但在進(jìn)入21世紀(jì)后,語(yǔ)音識(shí)別系統(tǒng)的錯(cuò)誤率依然很高,再次陷到漫長(zhǎng)的瓶頸期。直到2006年Hiton提出用深度置信網(wǎng)絡(luò)初始化神經(jīng)網(wǎng)絡(luò),使得訓(xùn)練深層的神經(jīng)網(wǎng)絡(luò)變得容易,從而掀起了深度學(xué)習(xí)的浪潮。

只是在2009年之前70年左右的漫長(zhǎng)歲月里,中國(guó)在語(yǔ)音識(shí)別技術(shù)上大多處于邊緣角色,1958年中國(guó)科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音,1973年中國(guó)科學(xué)院聲學(xué)所開(kāi)始了計(jì)算機(jī)語(yǔ)音識(shí)別,然后是863計(jì)劃開(kāi)始組織語(yǔ)音識(shí)別技術(shù)的研究,直到百度、科大訊飛等中國(guó)企業(yè)的崛起。

躍進(jìn)的少年時(shí)代

2010年注定是語(yǔ)音識(shí)別的轉(zhuǎn)折點(diǎn)。前一年Hinton和D.Mohamed將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音的聲學(xué)建模,在小詞匯量連續(xù)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)TIMIT上獲得成功。從2010年開(kāi)始,微軟的俞棟、鄧力等學(xué)者首先嘗試將深度學(xué)習(xí)技術(shù)引入到語(yǔ)音識(shí)別領(lǐng)域,并確立了三個(gè)維度的標(biāo)準(zhǔn):數(shù)據(jù)量的多少,取決于搜索量、使用量的規(guī)模;算法的優(yōu)劣,頂級(jí)人才扮演者至關(guān)重要的角色;計(jì)算力的水平,關(guān)鍵在于FPGA等硬件的發(fā)展。在這三個(gè)維度的比拼中,誰(shuí)擁有數(shù)據(jù)上的優(yōu)勢(shì),誰(shuí)聚集了頂級(jí)的人才,誰(shuí)掌握著強(qiáng)大的計(jì)算能力,多半會(huì)成為這場(chǎng)較量中的優(yōu)勝方。于是在語(yǔ)音識(shí)別的“少年時(shí)代”,終于開(kāi)始了躍進(jìn)式的發(fā)展,刷新紀(jì)錄的時(shí)間間隔從幾年被壓縮到幾個(gè)月。

2016年語(yǔ)音識(shí)別的準(zhǔn)確率達(dá)到90%,但在這年晚些時(shí)候,微軟公開(kāi)表示語(yǔ)音識(shí)別系統(tǒng)的詞錯(cuò)率達(dá)到了5.9%,等同于人類(lèi)速記同樣一段對(duì)話的水平,時(shí)任百度首席科學(xué)家吳恩達(dá)發(fā)聲稱百度在2015年末即達(dá)到了同等水平;2017年6月,Google表示語(yǔ)音識(shí)別的準(zhǔn)確率達(dá)到95%,而早在10個(gè)月前的時(shí)候,李彥宏就在百度世界大會(huì)上宣布了百度語(yǔ)音識(shí)別準(zhǔn)確率達(dá)到97%的消息。

一個(gè)有些“奇怪”的現(xiàn)象,為何在語(yǔ)音識(shí)別領(lǐng)域缺少前期積累的中國(guó),可以在極短的時(shí)間內(nèi)實(shí)現(xiàn)從無(wú)到有,甚至有后發(fā)先至的趨勢(shì)?可以找到的原因有二:首先,傳統(tǒng)專利池被挑戰(zhàn),競(jìng)爭(zhēng)回歸技術(shù)。語(yǔ)音識(shí)別進(jìn)入深度學(xué)習(xí)時(shí)代,并沒(méi)有背負(fù)太多的專利包袱,國(guó)內(nèi)外玩家們有機(jī)會(huì)站在了同一起跑線上。比如2013年百度的語(yǔ)音識(shí)別技術(shù)還主要基于mel-bank的子帶CNN模型;2014年就獨(dú)立發(fā)展出了Sequence DiscriminativeTraining(區(qū)分度模型);2015年初推出基于LSTM-HMM的語(yǔ)音識(shí)別,年底發(fā)展出基于LSTM-CTC的端對(duì)端語(yǔ)音識(shí)別系統(tǒng);2016年和2017年將Deep CNN模型和LSTM、CTC結(jié)合起來(lái),2018年推出Deep Peak 2模型,2019年又發(fā)布了流式多級(jí)的截?cái)嘧⒁饬δP汀撕螅俣冗€推出了針對(duì)遠(yuǎn)場(chǎng)語(yǔ)音交互的鴻鵲芯片,可以實(shí)現(xiàn)遠(yuǎn)場(chǎng)陣列信號(hào)實(shí)時(shí)處理,高精度超低誤報(bào)語(yǔ)音喚醒以及離線語(yǔ)音識(shí)別。

其次,語(yǔ)音識(shí)別進(jìn)入到生態(tài)化、產(chǎn)業(yè)化的時(shí)代。在Google發(fā)布了語(yǔ)音開(kāi)放API后,對(duì)Nuance產(chǎn)生了致命的打擊,不僅僅是Google在產(chǎn)品和技術(shù)上的優(yōu)勢(shì),也來(lái)自于Google強(qiáng)大的人工智能技術(shù)生態(tài),例如以TensorFlow為代表的深度學(xué)習(xí)引擎。同樣的邏輯,百度在2015年就開(kāi)放了上百項(xiàng)智能語(yǔ)音專利,與海爾、京東、中興通訊、中國(guó)普天等組建了智能語(yǔ)音知識(shí)產(chǎn)權(quán)產(chǎn)業(yè)聯(lián)盟,同時(shí)PaddlePaddle、Warp-CTC、百度大腦的開(kāi)放和開(kāi)源,對(duì)中文語(yǔ)音識(shí)別有著潛移默化的影響,成了中國(guó)語(yǔ)音識(shí)別領(lǐng)域標(biāo)準(zhǔn)的制定者。

除此之外,2018年公布的第二十屆中國(guó)專利評(píng)審結(jié)果中,百度的語(yǔ)音、機(jī)器翻譯、無(wú)人車(chē)相關(guān)三項(xiàng)專利獲獎(jiǎng),成為人工智能領(lǐng)域至今為止在國(guó)內(nèi)專利界獲得的最高級(jí)別政府獎(jiǎng)項(xiàng)。其中“語(yǔ)音專利”涉及的新語(yǔ)音識(shí)別模型——采用深度學(xué)習(xí)算法在24時(shí)內(nèi)對(duì)數(shù)以百億級(jí)的大規(guī)模數(shù)據(jù)進(jìn)行實(shí)時(shí)分析,高性能計(jì)算,令語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確率達(dá)97%,解決了語(yǔ)音識(shí)別領(lǐng)域關(guān)鍵性、共性的技術(shù)難題,被MIT評(píng)為“2016年全球十大突破技術(shù)”。

語(yǔ)音識(shí)別的話語(yǔ)權(quán),逐漸從大學(xué)和機(jī)構(gòu)的實(shí)驗(yàn)室轉(zhuǎn)移到了微軟、Google、百度等商業(yè)巨擘手中,并最終迎來(lái)了躍進(jìn)式發(fā)展的十年。或許語(yǔ)音技術(shù)的“少年時(shí)代”還有很長(zhǎng)的路要走,但終究走出了漫漫黑夜,瞥見(jiàn)了黎明的曙光。

猜你喜歡
百度深度模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
Robust adaptive UKF based on SVR for inertial based integrated navigation
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
深度觀察
深度觀察
深度觀察
百度年度熱搜榜
3D打印中的模型分割與打包
主站蜘蛛池模板: 一区二区三区四区精品视频| 亚洲成人在线免费观看| 99这里只有精品免费视频| 天天躁狠狠躁| 国产人成网线在线播放va| 国产第一页免费浮力影院| A级全黄试看30分钟小视频| 欧美a在线视频| 91九色最新地址| 亚洲开心婷婷中文字幕| 最新加勒比隔壁人妻| 欧美激情视频一区| 欧美综合区自拍亚洲综合天堂| 亚洲一区二区三区国产精品 | 亚洲无码精品在线播放| 亚洲人成影院午夜网站| 久久成人免费| 久久精品人妻中文系列| 欧美成a人片在线观看| 亚洲无线国产观看| 亚洲欧美精品一中文字幕| 香蕉久久永久视频| 国产91无码福利在线 | 57pao国产成视频免费播放| 蜜桃视频一区二区三区| 看国产一级毛片| 国产一级特黄aa级特黄裸毛片 | 国产亚卅精品无码| 亚洲青涩在线| 黄色一级视频欧美| 日韩国产无码一区| 91美女视频在线| 久久久久免费看成人影片| 国产99欧美精品久久精品久久| 亚洲欧美不卡视频| 久久国产黑丝袜视频| 一级毛片网| 日韩经典精品无码一区二区| 国产白浆在线观看| 国产男女免费视频| а∨天堂一区中文字幕| 亚洲Av激情网五月天| 99精品视频在线观看免费播放| 国产清纯在线一区二区WWW| 国产高清国内精品福利| 亚洲一区二区三区国产精华液| 国产男女免费完整版视频| 亚洲欧美成人| 中文字幕在线日韩91| 亚洲一级毛片在线观| 久久无码av一区二区三区| 无遮挡一级毛片呦女视频| 欧类av怡春院| 中文字幕佐山爱一区二区免费| 青青草原偷拍视频| 一级毛片免费播放视频| 91成人免费观看在线观看| 青青操视频在线| 国产精品亚洲综合久久小说| 72种姿势欧美久久久久大黄蕉| 无码精品一区二区久久久| 久久熟女AV| 久久久久免费看成人影片| 黄色在线不卡| 亚洲最大综合网| 免费在线a视频| 青青草91视频| 五月天久久婷婷| 国产综合另类小说色区色噜噜| 激情综合五月网| 欧美 国产 人人视频| 亚洲中字无码AV电影在线观看| 国产在线精品99一区不卡| 欧美成人午夜影院| 久久综合婷婷| 亚洲第一精品福利| 色哟哟精品无码网站在线播放视频| 一级毛片在线播放| 欧美日本激情| 久久精品人人做人人| A级毛片无码久久精品免费| 尤物视频一区|