“音樂導航”技術作為微軟亞洲研究院眾多的創新的細胞之一,正被植入微軟的未來。
一杯茶、一本書,Allan坐在陽臺上的藤椅上,iPod里小野麗莎在低吟淺唱,一曲過后,傳來諾拉·瓊斯慵懶的聲音,Allan在柔和的歌曲中過了一個愜意的下午。健身時,充滿朋克風格的搖滾樂最適合Allan揮灑汗水……微軟亞洲研究院的技術正在讓機器變得如此聰明,你欣賞的音樂風格可能是RB或藍調、你也許在開車或是在慢跑,微軟音樂導航技術會為你挑出最適合當下情景的音樂,在與機器的交互中,科技與人產生了共鳴。
“我工作的大部分時間都在跟聲音打交道。”微軟亞洲研究院語音組蘆烈博士用一曲情歌代替了開場白。他拿著手機,把嘴湊到手機聲筒邊,瞇著眼睛唱“你問我愛你有多深,我愛你有幾分”,幾秒鐘后,儲存在手機里的鄧麗君的《月亮代表我的心》就被自動搜索出來。
用人哼唱出的曲調來找歌的技術,只是蘆烈和他的研究團隊眾多語音、音樂研究課題中的一個。
從2002年起,微軟亞洲研究院就開始了關于節奏分析、音樂分類、音樂情緒檢測一類的基礎性研究。有了一定的積累后,2005年左右開始考慮怎么把這些功能集成起來,從而做成一個方便的應用。整個過程中,蘆烈和同事們不斷搜集用戶的反饋,分析人們聽歌的習慣。為了讓用戶體驗更酷、更方便,蘆烈已經記不清有多少次與研究院的設計師們討論界面設計細節了。
音樂是突破了國界和語言的,與人們產生的是情緒上的共鳴,現在,蘆烈和同事們愈發偏執地為他們的音樂夢想努力,他們希望做“讀懂”音樂的人,再讓音樂“讀懂”人們的心。于是,就有了開頭的一幕。
心有靈犀的播放器
人們常常遇到Allan的情況——當你有幾千首歌儲存在音樂播放器中(比如Zune,iPod,和智能手機),如何選擇想要聽的音樂便成了一個問題。“你可能沒有時間從中選擇所有想聽的音樂;而且在不同的時候也想聽不同的音樂。目前音樂播放器提供的‘shuffle’功能,基本上是隨機播放音樂,只能滿足用戶最基本的需求。”于是,蘆烈和同事們想到了用“音樂導航”技術來解決這個問題。
“音樂導航提供給用戶一種‘smartshuffle’功能,用一種便捷的方式來選擇和欣賞音樂?!碧J烈對記者介紹,通過“音樂導航”,用戶可以只選擇一首音樂,系統就會自動生成一個“音樂電臺”,推薦給用戶一些相似的音樂。用戶還可以通過音樂篩選來選擇適合不同場景下聽的音樂,比如在閱讀時聽柔和的音樂。這個過程就好像機器會先猜測你的喜好,列出一個初步的菜單。用戶可以欣賞推薦的歌曲,也可以作進一步篩選,選擇喜歡或刪除不喜歡的歌曲。機器會基于用戶對于音樂的移除等行為反饋,進一步分析用戶的音樂偏好,自動調整組合歌曲推薦列表(電臺中的音樂),使推薦的音樂越來越接近于用戶的“口味”。通過音樂內容分析、推薦和篩選,交互式生成音樂列表,用戶就可以方便地找到想聽的歌曲。
一首簡單的歌
在蘆烈和他的同事們看來,即使是很簡單的一首歌,也包含著多重音樂要素,包括風格、樂器、音調、旋律和節奏等。這樣看來,所有曲子都并不簡單。 一種做研究的慣性使得蘆烈在聽歌時,耳朵自然而然變成一把鋒利的解剖刀,把每首歌的情緒、節奏、樂器、音色等重新解構。 “現在,我們會選擇十種要素來表征音樂的特性。把這些因素量化、檢測和分類之后,形成一個大體的框架,基本上就可以實現對音樂的描述。比如音樂風格,會分為流行、鄉村、搖滾、藍調等十幾種;樂器也會區分十幾種;音樂情感會有正面積極的感情、負面悲傷的感情和自然的中性表情三種;節奏的強弱和速度的快慢也量化為三種等等?!?/p>
在分析音樂的時候,最困難的就是多種樂器,多重旋律都混合在一起,很難把它們分離開來。不同的風格會用不同的樂器,每首歌里的起承轉臺又非常復雜。而且,在學術界甚至沒有對音色的一個標準的定義。所以只能不斷嘗試提取特征來表征不同的音樂要素。
蘆烈進一步向記者介紹道,作為一種算法,希望它能學習哪些要素在音樂中更加重要,這樣就能更準確的分析用戶偏好,現在就有算法正在做這個事情。另外,有時用戶對想要聽的歌只有一個粗略的概念,比如說想要聽一些優雅的歌,這時,mood filter(音樂篩選器)就可以幫助用戶設置選擇。同時,用戶還可以通過一些預先設定的場景,比如在睡覺前,運動時,和閱讀時,來找到符合自己場景的歌曲。這些,有的還是概念性的想法,正在蘆烈和同事們的不斷努力下越來越接近現實。
微軟創新之音
“剛加入微軟的時候,就開始做語音、音頻方面的處理,慢慢的我才能做到檢測一些精細的特性。現在自動音樂標注準確率其實也只有60%左右,但用戶還是比較能接受的?!倍殡S著蘆烈在微軟亞洲研究院成長的軌跡,音樂導航技術也在隨之完善。
“我們要更完善這些東西,希望能有更多的屬性,比如現在大部分的屬性都是針對歐美的一些流行音樂,對古典音樂現在還沒有涉及,對中文或日韓音樂的一些專有屬性也不能精確的表達。另外,因為我們是非專業的音樂人士,意味著我們標注的一些訓練數據質量不一定很高,所以,我們希望跟一些公司合作,用他們專業人員標好的數據來訓練模型,在這個的基礎上把自動音樂分析做得更加準確、完整?!?/p>
音樂導航技術可以用在手持設備、音樂播放器里,還可以用在電腦上。不過,現在自動音樂分析的計算強度很高,蘆烈和他的團隊正在想怎么在保證精度的情況下提高速度、應用、完整性、準確性。
把技術成果放進微軟產品里去是蘆烈和同事們一直以來引以為傲的事情和希望,現在,微軟的產品組非常喜歡“音樂導航”,蘆烈正在跟不同的團隊頻繁溝通,也在對產品集成作一些測試。這個過程,就像把一個個創新的細胞植入到微軟充滿活力的未來。