基于區塊鏈技術的語音識別

2019-01-11 17:40:17楊雪梅

價值工程 2019年36期

楊雪梅

摘要：由于具有去中心化、抗腐蝕以及加密算法等先進性質，區塊鏈技術給科學技術領域帶來了一場前所未有的變革。本文探索了將區塊鏈技術中的去中心化的思想與深度學習相結合并應用于語音識別領域的可行性，提出了一種適用于處理大規模的聲學數據的融合分布式的深度學習模型，分析了該模型良好的學習潛能，它將成為語音識別領域的嶄新技術。

Abstract： Blockchain is changing science and technology in a revolutionary way for its decentralized， incorruptible computing mechanism. This work explores blockchain applications in speech recognition via investigating decentralized deep learning models. The decentralized deep learning models demonstrate a good potential to handle large scale acoustic data by fusing distributed deep learning models to achieve better learning results.? To the best of our knowledge， it is a pioneering work to explore blockchain technologies in speech recognition.

關鍵詞：區塊鏈;語音識別;深度學習

Key words： blockchain;speech recognition;deep learning

中圖分類號：TP391.4? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼：A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號：1006-4311（2019）36-0281-03

0? 引言

語音識別的任務是通過計算機程序將語音轉換成一系列單詞，包括編碼和解碼過程。首先將輸入的音頻波形轉換為固定大小的聲學矢量序列，這個過程本質上是進行特征提取的編碼過程;然后，解碼器使用聲學和語言模型來找到使得輸入序列的后驗概率最大的單詞序列。傳統的語音識別系統采用隱馬爾可夫模型（HMMs）來描述，HMMs具有直觀性和計算可行性。然而，它在對輸入空間中非線性流形上的數據進行建模時具有局限性[2]。

自20世紀80年代以來，研究者引入了由反向傳播算法或其變體訓練的神經網絡進行語音識別，與HMMs相比，神經網絡對特征統計特性不需要任何假設。然而，盡管神經網絡在識別短期單元方面很有效，但在連續識別任務中卻很少成功，這是因為它們缺乏建模時間依賴性的能力[3]。

為了克服這些缺陷，學者們又引入了深度神經網絡模型（如DBN）[4-7]。由受限玻爾茲曼機（RBM）組成的深度信任網絡（DBN）以其強大的特征提取能力在語音識別的某些子領域取得了非常成功的應用[8-10]。另一個典型例子是卷積神經網絡（CNN）[11-12]，CNN包含一對或多對卷積層（C層）、最大池化層（S層）和完全連接層，它同樣展示了強大的特征提取功能。

盡管如此，目前主流的語音識別系統仍嚴重依賴于訓練數據的數量，在數據有限的情況下，識別性能急劇下降。因此，語言資源不足的語音識別成為一個備受關注的難題。對于低資源語音識別，典型的特征提取方法包括凸非負矩陣分解（CNMF）和瓶頸特征提取[13]。一些科學家還提出了一種在卷積神經網絡（CNN）中包含多分支特征的聲學模型，其中多分支特征包括濾波器組特征、譜圖、Mel頻率倒譜系數和基音特征[14]。

近年來有很多研究工作致力于通過在機器學習中集成區塊鏈技術來開發分布式的人工智能系統[1]。語音識別作為深度學習的重要應用領域，必將也成為區塊鏈技術發揮關鍵作用的重要場所。然而，在現有的文獻中，尚未發現相關的研究。在本研究中，我們將探討區塊鏈在語音識別中的可能應用，包括：區塊鏈能給現代語音識別帶來哪些優勢？如何在語音識別中實現區塊鏈？我們可能面臨哪些理論和實踐上的挑戰，如何應對這些挑戰？

我們將通過介紹區塊鏈及分布式機器學習，并討論語音識別中可能的區塊鏈模型，來回答這些問題。據我們所知，這是首次探索語音識別中的區塊鏈技術，它將激勵未來該領域更多的工作。

1? 區塊鏈及協作分布式深度學習

1.1 區塊鏈

區塊鏈的應用起源于數字貨幣，是分布式的數據結構，能夠實現節點間的一致性協議和密碼學算法，以其去中心化、抗腐蝕性以及加密算法的計算機制越來越受到各個領域的關注[15-16]。例如，IBM區塊鏈提供分布式的金融服務，將交易時間從幾小時縮短到幾秒[17]，同時，由于它的分布式和抗腐蝕的計算能力，增強了金融安全性。區塊鏈技術正在以革命性的方式改變著數據的處理和存儲方式。

1.2 去中心化的深度學習模型

為了將區塊鏈的分布式思想應用到語音識別中，首先必須提到分布式深度學習。分布式深度學習是一種基于數據隱私保護的機器學習方法，通常應用于金融服務領域。如圖1所示，分布式深度學習體系結構由多個共享模型（貢獻者）和一個中央控制代理（其任務是融合共享深度學習模型）組成。分布式深度學習過程不是在中心服務器中處理數據，而是由各個貢獻者獨立處理。在實現分布式學習時，各計算貢獻者利用本地數據獨立地訓練自己的深度學習模型，然后將模型參數分享給中央控制代理。中央控制代理將每個貢獻者共享的參數進行融合，形成一個綜合模型。由于深度學習模型是在具有較小數據集的分布式單元中進行訓練的，因此與中央服務器相比，單個計算貢獻者所需的計算能力要低得多。然而，在這個解決方案中，深度學習體系結構完全由一個集中式代理控制。因此，融合模型易受單點失效的影響[18-21]。為了克服這一缺點，提出了一種協作分布式的深度學習體系結構。

1.3 協作分布式深度學習

如圖2所示，協作分布式的深度學習構架由一個應用程序發起者、幾個計算貢獻者和驗證貢獻者組成。在這個構架中，每個單元都有自己的決策界面，可以獨立做決策。應用程序發起者負責定義計算任務，例如輸入數據的屬性和預期的輸出。它們還為驗證貢獻者提供了一組樣本數據（包括培訓和驗證數據），定義了預期的準確率。計算貢獻者負責構建和訓練深度學習模型;每個計算貢獻者可以根據其性能參與或離開整個計算架構。根據發起者給出的任務，計算貢獻者將使用本地數據設計和訓練適當的機器學習模型，并將其發布給驗證貢獻者。在接收到計算模型之后，驗證貢獻者負責評估計算貢獻者的性能，并將結果報告給發起者。發起者決定要融合哪些計算貢獻者以及如何融合[22-25]。

2? 語音識別中的區塊鏈技術

語音識別的最大挑戰是通過模型識別來處理大量的數據并達到最佳的識別精度。識別的準確性取決于模型對各種變化的適應性?；趨^塊鏈技術的協作分布機器學習可以很好地解決這些問題。

如引言所述，語音識別的系統架構，一個重要的步驟是使用聲學和語言模型嘗試解碼。然而，在聲學模型中存在著許多不確定因素，如說話人特征、語音風格和速率、噪聲干擾、口音、麥克風和環境變異、性別和方言等，受到協作學習和分布學習的啟發，可以設計一個語音識別的融合模型，將不同速率、不同噪聲、不同麥克風、不同性別、不同方言的數據作為每個共享模型的訓練數據。

如圖3所示，我們有五個卷積神經網絡（CNN）模型作為計算貢獻者;它們分別使用具有不同速率、噪聲、麥克風、性別和方言特征的數據進行訓練。對五個共享模型進行充分訓練后，得到五個特征向量fi（i=1、2、3、4、5）。從訓練好的模型中移除輸出層，并融合每個共享模型的特征?？紤]用兩層策略來連接，每一層通過計算前一層的相應值的加權和來實現。假設fi是第i個模型的上層特征向量，它們被連接起來形成連接的特征fc。隱藏層h和輸出層y是基于完全連接層的權矩陣A和B計算的，權矩陣A和B隨機初始化，由反向傳播算法的變體（例如Adam）計算權重矩陣A和B的最佳值[26]。我們還可以考慮梯度融合策略，該策略通過一種特殊的方法初始化權重矩陣A和B，從而學習不同計算模型之間的相關性，同時保持每個計算模型的唯一性。由于融合模型考慮了聲學模型中的各種不確定因素，因此協作分布式深度學習模型的整體性能有望提高。

3? 結論與展望

通過對分布式深度學習模型的研究，探討了區塊鏈在語音識別中的應用。它不僅能夠處理復雜的語音識別分析，維護數據隱私，還顯示了強大的大規模數據處理能力。然而，一些重要問題仍有待解決。如，融合模型中的權值矩陣可能會使得從單個深度學習模型中提取的一些關鍵隱藏特征變得模糊;由于在區塊鏈節點中提取的某些特征是重疊或重復的，從而造成連接特征的冗余;如何通過融合保證在這種分布式學習系統下的魯棒特征提?。?/p>

此外，分布式深度學習系統中存在大量的參數。如何避免過擬合也是一個具有挑戰性的問題。由于不同的節點可能具有不同的dropout率，因此不確定dropout在該系統下是否仍能正常工作。此外，在這種分布式深度學習系統下，該系統是否能實現實時語音識別，尚不清楚。

盡管存在挑戰，但由于將人工智能和區塊鏈技術整合到語音識別及其密切相關的領域，我們已經看到了區塊鏈技術應用于語音識別領域的潛在優勢。一些區塊鏈初創公司正在開發具體的區塊鏈語音識別系統。我們未來的工作將致力于改進分布式深度學習模型中的魯棒特征提取、學習泛化以及潛在的安全問題。

參考文獻：

[1]Gihan J. Mendis， Moein Sabounchi， Jin Wei（2018） Blockchain as a Service： An Autonomous， Privacy Preserving， Decentralized Architecture for Deep Learning. https：//arxiv.org/abs/1807.02515.

[2]Bengio Y（2009） Learning deep architectures for AI， in Foundations and Trends in Machine Learning. Vol. 2， No. 1，? pp. 1-127.

[3]Bengio Y（2013） Deep learning of representations： looking forward. Statistical Language and Speech Processing， pp. 1-37， Springer.

[4]Bengio Y.， Courville， A.， and Vincent， P（2013） Representation learning： A review and new perspectives. IEEE Trans. PAMI.

[5]Li Deng（2014） “A Tutorial Survey of Architectures， Algorithms， and Applications for Deep Learning” to appear in APSIPA Transactions on Signal and Information Processing， Cambridge University Press.

[6]Mohamed， A.， Dahl， G.， and Hinton， G（2009） Deep belief networks for phone recognition. Proc. NIPS Workshop Deep Learning for Speech Recognition and Related Applications， 2009.

[7]L. Deng， M. Seltzer， D. Yu， et al（2010） Binary coding of speech spectrograms using a deep auto-encoder. Interspeech.

[8]G. Dahl， D. Yu， L. Deng， and A. Acero（2011） Large vocabulary continuous speech recognition with context-dependent DBN-HMMs. ICASSP.

[9]G. Dahl， D. Yu， L. Deng， and A. Acero（2012） Context-dependent pre-trained deep neural networks for large vocabulary speech recognition. IEEE Trans. Audio， Speech， Lang Proc. Vol. 20， pp. 30-42.

[10]Mohamed， A.， Dahl， G. and Hinton， G（2012） Acoustic modeling using deep belief networks. IEEE Trans. Audio， Speech， & Language Proc. Vol. 20 （1）.

[11]I. Goodfellow， Y. Bengio， and A. Courville（2016） Deep Learning. MIT Press， http：//www.deeplearningbook.org.

[12]Li Deng， Jinyu Li， Jui-Ting Huang， et al（2013） Recent Advances in Deep Learning for Speech Research at Microsoft， in Proc. of IEEE International Conference on Acoustics， Speech， and Signal Processing （ICASSP）.

[13]Wu Weilan， Cai Meng， et al（2015） Bottleneck features and supspace Gaussian mixture models for low-resource speech recognition. Journal of University of Chinese Academy of Sciences， 32（1）： 97-102.

[14]A. Graves， A.-r. Mohamed， and G. Hinton（2013） “Speech recognition with deep recurrent neural networks，” in Acoustics， speech and signal processing （icassp）， 2013 ieee international conference on. IEEE， pp. 6645-6649.

[15]Nitin Indurkhya， Fred J. Damerau（2010） Handbook of natural Language Processing （2nd Edition）. Chapman and Hall/CRC Press，? pp339-365.

[16]Yan Zhang（2013） Speech Recognition Using Deep Learning Algorithms. http：//cs229.stanford.edu/proj2013.

[17]I. Konstantinidis（2018） Blockchain for Business applications： a systematic literature review， LNBIP， Vol. 320.

[18]Y. Zhang， M. Pezeshki， P. Brakel， et al（2017） Towards end-to-end speech recognition with deep convolutional neural networks，? arXiv preprint arXiv：1701.02720.

[19]O. Abdel-Hamid， A. r. Mohamed， H. Jiang， et al（2014） Convolutional eural networks for speech recognition. IEEE/ACM Transactions on Audio， Speech， and Language Processing，? 22（10）： 1533-1545.

[20]T. Young， D. Hazarika， S. Poria， and E. Cambria（2017） Recent trends in deep learning based natural language processing， arXiv preprint arXiv：1708.02709.

[21]J. Schmidhuber（2015）? Deep learning in neural networks： An overview. Neural networks，? Vol. 61， pp. 85-117.

[22]X. Xu， C. Pautasso， L. Zhu， et a（2016）. The blockchain as a software connector， 13th Working IEEE/IFIP Conference on Software Architecture （WICSA），? pp. 182-191.

[23]R. Dennis and G. Owen（2015） Rep on the block： A next generation reputation system based on the blockchain. Internet Technology and Secured Transactions （ICITST）， International Conference for. IEEE， pp. 131–138.

[24]H. Watanabe， S. Fujimura， A. Nakadaira， et al（2015） Blockchain contract： A complete consensus using blockchain，? IEEE 4th Global Conference on Consumer Electronics （GCCE），? pp. 577-578.

[25]R. Shokri and V. Shmatikov（2015）? Privacy-preserving deep learning， Proceedings of the 22nd ACM SIGSAC conference on computer and communications security.? pp. 1310-1321.