語音識別：看見你的聲音

2025-01-12 00:00:00劉暢

光明少年 2025年1期

放學回到家，小明從書包里取出作文本，開心地對姐姐說：“今天下雪了，風景特別美，我寫了篇作文，快幫我看看?！苯憬阏J認真真從頭到尾讀了一遍，連連點頭：“寫得可真好，情感真摯，描寫也很細致。要不你把它‘敲’進電腦里，保存起來，怎么樣？”

“可是我打字太慢了，這篇作文有600字，要花好長時間呢?！毙∶骱懿磺樵富ㄌ鄷r間在打字上。這時姐姐靈機一動，出了個主意：“你可以用語音輸入呀！我的電腦里有一款語音輸入軟件，能把語音變成文字，比鍵盤輸入要省時省力多了。”

“語音輸入軟件？好像很厲害的樣子啊！”小明充滿好奇，接著問，“姐姐，我知道你正在大學里讀人工智能專業，你能跟我說說，語音輸入軟件是怎么把語音變成文字的嗎？”

姐姐拉著小明坐到電腦旁，一邊打開電腦一邊神秘地說：“其實，這是人工智能語音識別技術在施展‘魔法’！”看著一臉疑惑的小明，姐姐接著耐心地解釋：“語音識別，就像是給計算機裝上了超級靈敏的耳朵，能把我們說的話快速記錄下來，然后像一個聰明的‘翻譯官’，把語音轉化成文字?！?/p>

從姐姐的電腦里找到語音輸入軟件，小明剛想開始讀自己的作文，不禁又開始琢磨：電腦到底是怎么聽懂語音，還把語音“翻譯”成文字的呢？帶著這個問題，小明開始上網查資料。哇，不查不知道，原來從語音到文字的轉化過程，有很復雜的環節呢！

首先，當我們對著計算機說話時，計算機通過麥克風收集我們的聲音，也就是模擬信號。

接著，計算機將采集到的語音轉成聲波文件，也就是將模擬信號轉換成數字信號。

然后，計算機對聲音進行預處理，提取特征。

最后，將提取到的聲音與數據庫中的聲學模型進行匹配，輸出匹配度最高的文字，就完成了語音識別。完成這一步的前提是在機器內已經存儲了大量的語音數據，這些數據構成了“單詞庫”和“語法庫”。

日常生活中還有哪些語音識別的應用？

當你對智能音箱說“打開客廳的燈”，它能控制連接的智能設備，讓客廳燈亮起來；當家長在開車時說“導航到附近的超市”，車載語音系統能準確理解并規劃開車路線；當你出國旅行時對著翻譯機說“請問洗手間在哪里”，它能快速識別并翻譯成當地語言展示或播放……

趣玩探索站

不一會兒，小明就把自己那篇洋洋灑灑的作文用語音轉化成了文字，可是他發現，有個別字與自己真正想要寫的字相比，音同字不同。這是怎么回事呢？小明請教姐姐。這一次，姐姐帶著小明玩起了探索游戲——

他倆打開微信里的“語音輸入”功能（用訊飛語音或豆包智能體都可以），嘗試多次說單個字“凝”，結果出來的字五花八門，除了“凝”“寧”，甚至還有“零”“牛”……他們又說了一些包含多個字的詞語和句子，發現語音識別的成功率高了很多。

姐姐對小明解釋這其中的原理：“計算機識別聲音，就像我們猜謎語，線索越多越容易猜中。單個字的信息太少，它可能對應很多不同的意思。詞語和句子信息較多，計算機就能更準確地做出判斷。因此，單個字的語音識別率沒有詞語、句子的語音識別率高?！?/p>

原來是這樣啊！小明再看自己經過計算機“翻譯”的作文，發現確實如此，出錯的字基本上都是因為前后信息少被計算機理解錯了意思。

作者單位北京市東城區燈市口小學

知識鏈接

機器怎樣識別語音？

聲音是信息的重要載體，也是生物感知外界的重要途徑。我們能夠聽到聲音，是因為聲源振動引起空氣的振動，進而引起我們的耳膜振動，傳至耳內，最終通過聽覺神經傳送到大腦。

計算機記錄聲音，主要通過聲音的數字化來實現——計算機里有一個部件叫聲卡，聲卡就像是耳朵，能感知聲音。當有聲音傳進來時，聲卡會在瞬間測量聲音的高低、強弱等信息，然后把這些信息轉化成數字代碼。