當旋律也可以搜索時,語音識別還遠嗎?
也許,你曾遭遇過如此情景:一首非常熟悉的旋律突然在腦中響起,但就在嘴邊的歌名和演唱者卻始終無法脫口而出,不只如此,你甚至連一句歌詞都想不起來。這種情況下,功能強大的Google當然不能提供任何幫助,而你身邊的朋友們也只會一邊搖頭,一邊毫無同情心地嘲笑著你的五音不全。
是的,這時,你急需一個“救世主”——只要隨意哼唱,答案就躍然眼前,即使提供給它的信息與音質有著種種殘缺。
這并不是妄想,如果足夠地執拗和大膽,“奇跡”就會發生。事實上,2002年,還在斯坦福大學讀書的米歇爾·格拉博斯基(Michal Grabowski)就因為彈吉他時忘了歌曲名而與朋友們創造了這樣一個“救世主”。
格拉博斯基與彼時正為斯坦福大學創業比賽而絞盡腦汁的室友詹姆斯·霍姆(James Hom),以及兩名精通信號處理技術的電子工程學博士馬吉德·埃馬米(Majid Emami)和科伊文·莫哈爾(Keyvan Mohajer)組成的四人小組,在接下來的兩年時間里,把全部精力都投入到了這項看起來抽象的事業中。2005年,他們成立了Melodis公司,又過了將近兩年,其主打產品midomi——一個讓人們方便地找到記憶中殘缺音樂的網站正式發布。
六年的時間不可不謂漫長,不過考慮到包括Google、微軟、IBM在內的眾多IT巨頭們長年來一直都沒有停歇過在語音識別道路上進行商業探索的腳步,就不得不嘆服格拉博斯基們的野心與成就——他們不僅實現一種令目前的搜索巨擎們都感到迷惑的強大語音識別功能,還將Google十年前一手奠定的搜索方式進一步向外擴展。
登錄midomi網站,點擊首頁最上方的語音搜索,然后對著麥克風隨便哼唱10多秒,就會發現,無論是蔡依林、周杰倫這樣的中文流行歌曲,還是David Bowie的《Ziggy Stardust》這樣有些年頭的老歌,甚至諸如挪威樂隊Kings ofConvenience的《Toxic Cirl》這樣更小眾的音樂,其頁面都會在數秒之后出現該曲詳盡的資料:不僅包括原唱,還有各種翻唱以及用戶自己錄制的版本。
而除了語音搜索功能外,它的文字搜索能力也不可小視。只要是大牌唱片公司發行的專輯基本囊括其中,從歌手、樂隊的個人信息到專輯的試聽、Mv都可以搜尋到。今年7月10日,Melodis公司發布了其最終升級版,如今,人們可以迅速地通過演唱、哼唱、吹哨以及在iPhone上鍵入關鍵詞等多種方式找到那首遺失在記憶中的片段。
如同Google當年依靠其一套神秘算法而迅速在搜索領域奠定了堅不可摧的統治地位一樣,midomi的“秘密武器”則是一項名為多式聯運自適應識別系統(Multimodal Adaptive Recognition System,簡稱MARS)的音樂搜尋技術。它首先會分析出一首曲子的音高、旋律、節奏、速度、語音內容等聲音特性,并按照特性的優先性到數據庫里進行比對,選擇出最為匹配的一條或者多條曲目。而在數據庫建立的時候,因為已將歌曲的模擬信號分解,經過數碼化后存儲,并為歌曲的一些特性建立了索引,所以當輸入的時候將模擬不同的音樂特性轉化為數碼信號,再到數據庫中進行搜索時,其準確性可以高達95%。
簡而言之,如果用戶唱歌詞的話,這項技術會先分析語音內容,然后再比對音高和旋律等等歌曲特性。而如果用戶是哼唱或吹口哨的話,這項技術就會忽視語音內容,轉而對其他特性進行分析。
以往的研究者都希望能把音樂片斷轉換成音譜,因為它們更利于用電腦進行處理,但是這種轉換的企圖已經被證明難度極高。而MARS卻繞開了這一繁瑣過程,使得識別變得更加簡單,但另一方面,這也意味著它必須要有龐大的音樂數據庫作為對比語音的基礎。
最初,四位創業者通過邀請朋友享受Midomi讓的“錄音棚”作為網絡卡拉OK,并發送了不計其數的Amazon禮品卡。在口碑營銷的病毒式傳播之后,他們欣喜地得到了大量用戶捐助的約20萬首歌歌曲。
midomi的雄心正如其CEO莫哈爾所說“建設世界上最全面的可搜索音樂數據庫”。沒錯,達到這個目的最好辦法,就是依賴用戶。眼下,它已是一個集搜索、用戶添加、交友和音樂商店于一身專業社交類網站。用戶根據自己的喜好加入不同的歌手和樂隊“俱樂部”,在“俱樂部”里可以聽到粉絲們錄制的翻唱歌曲。不同音樂風格的愛好者,不同國家的人都可以在midomi里找到認同。而如果你的聲音夠好,或者足夠活躍的話,說不定沒多久就能成為這里的明星,同樣擁有自己的粉絲。
這樣的互動性已經讓midomi上的用戶添加歌曲超過了33種語言,網站也有包括中文在內的10個語言版本。數據庫中的歌曲更是漲到了200萬,并且還在不斷增加。而除了iPhone以外,諾基亞、三星和LG的一些型號如今也可以支持midomi的手機應用。
其實,由于用戶的相對確定性,聚焦音樂等領域的垂直搜索網站早就被有關專家認為是未來網絡世界的大勢所趨。在我們早已熟悉的根據關鍵詞來搜索音樂的網站中,既有像Last.fm和Pandora這樣可以在線收聽并推薦音樂的地方,也有像iTunes這樣提供音樂搜索和下載的玩家,更有Allmusie這樣提供詳細音樂資料和試聽的大型資料庫。而靠語音識別技術來搜索的音樂網站里,也不乏SongTapper和Musipedia這樣依靠敲擊鍵盤頻率或直接彈奏來搜索的有趣探索。
即使是兼容哼唱,midomi也并不是“開山鼻祖”。早在2006年,一家叫做Humming Search的網站就有過如此嘗試。甚至在此之前,另一家叫做411-Song的網站也推出過針對手機的類似服務,不過由于適用性單一,并要收取一定費用,始終沒有吸引太多用戶。而Humming Search也由于技術的不成熟,沒多久就消失了。確實,由于長期受到忽視加上技術的復雜性,語音搜索的發展仍遠遠落后于文字,然而面對Google也開始向各個專門的領域逐漸滲透,要想在其留下的日益狹小的夾縫中生長,“另辟捷徑”似乎是唯一選擇。
根據Alxea網站顯示,中國網民是midomi的第一大用戶群,占所有用戶的20.7%。而音樂搜索對中國網民而言的確是非常重要的一項功能。不過,隨著Google也在這一新市場玩起了音樂搜索和下載(詳情參看《環球企業家》2008年8月20日《軍備競賽》一文),如果就此斷言,目前在用戶體驗以及中文資料方面遠非完美的midomi,已經在這片對使用習慣和黏度要求較高的行業里占據了一席之地,也許還為時過早。