放學回到家,小明從書包里取出作文本,開心地對姐姐說:“今天下雪了,風景特別美,我寫了篇作文,快幫我看看?!苯憬阏J認真真從頭到尾讀了一遍,連連點頭:“寫得可真好,情感真摯,描寫也很細致。要不你把它‘敲’進電腦里,保存起來,怎么樣?”
“可是我打字太慢了,這篇作文有600字,要花好長時間呢?!毙∶骱懿磺樵富ㄌ鄷r間在打字上。這時姐姐靈機一動,出了個主意:“你可以用語音輸入呀!我的電腦里有一款語音輸入軟件,能把語音變成文字,比鍵盤輸入要省時省力多了。”
“語音輸入軟件?好像很厲害的樣子啊!”小明充滿好奇,接著問,“姐姐,我知道你正在大學里讀人工智能專業,你能跟我說說,語音輸入軟件是怎么把語音變成文字的嗎?”
姐姐拉著小明坐到電腦旁,一邊打開電腦一邊神秘地說:“其實,這是人工智能語音識別技術在施展‘魔法’!”看著一臉疑惑的小明,姐姐接著耐心地解釋:“語音識別,就像是給計算機裝上了超級靈敏的耳朵,能把我們說的話快速記錄下來,然后像一個聰明的‘翻譯官’,把語音轉化成文字?!?/p>
從姐姐的電腦里找到語音輸入軟件,小明剛想開始讀自己的作文,不禁又開始琢磨:電腦到底是怎么聽懂語音,還把語音“翻譯”成文字的呢?帶著這個問題,小明開始上網查資料。哇,不查不知道,原來從語音到文字的轉化過程,有很復雜的環節呢!
首先,當我們對著計算機說話時,計算機通過麥克風收集我們的聲音,也就是模擬信號。
接著,計算機將采集到的語音轉成聲波文件,也就是將模擬信號轉換成數字信號。
然后,計算機對聲音進行預處理,提取特征。
最后,將提取到的聲音與數據庫中的聲學模型進行匹配,輸出匹配度最高的文字,就完成了語音識別。完成這一步的前提是在機器內已經存儲了大量的語音數據,這些數據構成了“單詞庫”和“語法庫”。
日常生活中還有哪些語音識別的應用?
當你對智能音箱說“打開客廳的燈”,它能控制連接的智能設備,讓客廳燈亮起來;當家長在開車時說“導航到附近的超市”,車載語音系統能準確理解并規劃開車路線;當你出國旅行時對著翻譯機說“請問洗手間在哪里”,它能快速識別并翻譯成當地語言展示或播放……
趣玩探索站
不一會兒,小明就把自己那篇洋洋灑灑的作文用語音轉化成了文字,可是他發現,有個別字與自己真正想要寫的字相比,音同字不同。這是怎么回事呢?小明請教姐姐。這一次,姐姐帶著小明玩起了探索游戲——
他倆打開微信里的“語音輸入”功能(用訊飛語音或豆包智能體都可以),嘗試多次說單個字“凝”,結果出來的字五花八門,除了“凝”“寧”,甚至還有“零”“牛”……他們又說了一些包含多個字的詞語和句子,發現語音識別的成功率高了很多。
姐姐對小明解釋這其中的原理:“計算機識別聲音,就像我們猜謎語,線索越多越容易猜中。單個字的信息太少,它可能對應很多不同的意思。詞語和句子信息較多,計算機就能更準確地做出判斷。因此,單個字的語音識別率沒有詞語、句子的語音識別率高?!?/p>
原來是這樣啊!小明再看自己經過計算機“翻譯”的作文,發現確實如此,出錯的字基本上都是因為前后信息少被計算機理解錯了意思。
作者單位北京市東城區燈市口小學
知識鏈接
機器怎樣識別語音?
聲音是信息的重要載體,也是生物感知外界的重要途徑。我們能夠聽到聲音,是因為聲源振動引起空氣的振動,進而引起我們的耳膜振動,傳至耳內,最終通過聽覺神經傳送到大腦。
計算機記錄聲音,主要通過聲音的數字化來實現——計算機里有一個部件叫聲卡,聲卡就像是耳朵,能感知聲音。當有聲音傳進來時,聲卡會在瞬間測量聲音的高低、強弱等信息,然后把這些信息轉化成數字代碼。