喻亞琴(南通航運職業技術學院圖書館,江蘇南通226010)
?
音樂數字圖書館系統架構研究
喻亞琴
(南通航運職業技術學院圖書館,江蘇南通226010)
[摘要]數字圖書館作為傳統圖書館在網絡信息時代的發展和延伸,從根本上改變了人們獲取、使用信息資源的方式方法。通過一個基本的音樂數字圖書館軟件系統框架結構,介紹了數字圖書館在音樂領域的應用,其中涉及跨通道導航、多模式搜索、基于內容的搜索、同步與匹配等技術。
[關鍵詞]音樂數字圖書館系統架構多模式檢索基于內容的搜索跨通道音樂處理
[分類號]G250.76
隨著信息產業技術飛速發展,信息種類和形式越來越豐富,需要存儲和傳播的信息量也越來越龐大,傳統圖書館機制已經無法滿足這些需求。數字圖書館作為傳統圖書館在信息時代的發展和延伸,借鑒傳統圖書館的資源組織模式,運用知識分類和精準的檢索手段,將文字、圖像、聲音等數字化信息通過互聯網實現信息資源共享,從根本上改變了人們獲取和使用信息資源的方式方法。
多年來,數字圖書館建設主要基于純文本文件,包括圖書、期刊、報紙等的數字化工作。在純文本文件的掃描識別、全文檢索和索引等方面取得了顯著成果。然而,對于音頻、視頻、圖形圖像數據,特別是需要工具來自動提取語義上有意義的實體,則缺乏相應解決方案。
音樂數字圖書館除了可以記錄和數字化音樂數據,關鍵任務是音樂在實際應用場景中的自動化處理和對音樂數據的訪問。為了最大程度地實現自動處理數字化音樂文件的創建、索引、標注和同步以及管理用戶接口、用戶訪問界面的設計和開發,筆者現給出一個音樂數字圖書館軟件系統框架,其中涉及多通道播放、交叉導航以及跨通道和多峰搜索等。
1.1音樂表示
音樂數字圖書館包含文本數據、符號數據、視覺資料、音頻數據和視聽資料等類型信息資源。各種類型的信息,由于不同的數據格式,而給音樂數據表示帶來了許多問題。這些數據格式取決于特定應用程序,根本區別在于各自的結構和內容。現選取3個廣泛使用的、具有代表性的音樂數據格式,分別是樂譜符號格式、純物理音頻格式和MIDI格式。①樂譜符號格式包含了音樂起始時間、音高、音長等信息,進一步涉及力度和節拍。②純物理音頻格式編碼的波形音頻信號用于光盤語音錄制。③MIDI格式可以認為是兩種數據格式的混合,既可以明確表示基于內容的信息,如起始音符和音高,也可以隨機動態處理一些特殊信息的編碼。MIDI音頻數據可以即時表示為數字格式,樂譜符號信息大部分情況下只能是通過OMR掃描獲取的樂譜。
用戶訪問音樂采用最廣泛的是音頻和視覺表示,因此,相應的多模式用戶接口得到高度重視。事實證明,設計這種接口和適當地預處理底層音樂文件的關鍵是:通過比較,找到基于相同音樂內容的各種音樂模式的共同表示。該音樂數字圖書館框架使用了圖書館界廣泛應用的書目記錄功能需求(FRBR)模型來實現各種類型音樂數據的共同表示。
1.2現有的音樂數字圖書館
近年來,現有的音樂數字圖書館系統在使用過程中大部分被發現存在以下幾個主要缺點:第一,系統不保持文件的完整性和一系列獨立的圖像文件;第二,同步介紹相關的音樂文件通常是不可能的;第三,不能一目了然地訪問當前選擇的音樂文件的元數據,進一步省略了有價值的信息。
除此以外,這些系統還限制了用戶體驗音樂作品的可能性。因為,一段音樂描述在不同的語義層次,針對不同的方式有不同的表示。所以,音樂數字圖書館系統應提供盡可能多的不同表示形式。因此,人們將多通道技術應用到音樂數字圖書館中,如歐洲數字圖書館項目。該項目為歐洲各大文化機構提供大量的文本、音頻、視頻和圖像文件的在線訪問,同時也收藏了大量音樂文件。
到目前為止,雖然音樂數字圖書館系統大多數局限于元數據搜索,但可以通過各種各樣的MIR技術來提高音樂數字圖書館的系統功能,實現基于內容的多通道搜索。IEEE1599標準則提供了將一個音樂作品的所有相關信息(如樂譜、歌詞、圖像標注等)通過一個單一的XML文件表現的可能,還提供了添加同步信息和MIR模型到XML文件的可能性。
音樂數字圖書館系統采用存儲與訪問數字音樂文件相結合的方式,通過對有效音樂內容(如錄音、樂譜、歌詞等)進行數字拷貝以實現保存,利用先進的MIR技術進行分析和標注以實現訪問。系統的一個關鍵任務是建立基于內容的索引,用于搜索如歌詞、樂譜、音頻等的音樂片段;另一個關鍵任務是加強同一段音樂所有可用信息文件之間彼此的聯系。映射和同步技術用于創建有意義的實體之間樂譜與音頻的同步、歌詞與音頻的同步以及音頻與音頻的同步;通過掃描樂譜和映射音頻提取有意義的實體,實現基于內容和跨通道搜索、多通道播放樂曲以及先進的跨通道瀏覽等功能[1]。特別是樂譜與音頻的同步,一方面,用戶能夠直觀地看到當前播放的音頻記錄在樂譜中的表示;另一方面,通過指定樂譜中一個特定的音符可以改變正在播放的音頻記錄的播放位置。歌詞與音頻同步應用于卡拉OK程序中,可以讓用戶在錄音聽唱的過程中看到歌詞;另外,可以通過一個特定的歌詞改變音頻記錄的播放位置。音頻與音頻的同步允許用戶在保持音樂實際播放位置的同時在不同錄音資料之間進行切換。
系統所有模塊功能結構描述如圖1所示,由傳統的三層體系結構組成,從左至右分別為表示層、服務器層和存儲層。存儲層通過離線程序來預處理各種類型的音樂文件,分析文件、提取特征,實現音頻索引、音頻與樂譜的映射以及音頻與樂譜或歌詞的同步等功能。服務器層的主要功能是訪問索引結構。表示層通過用戶界面組件來訪問音樂內容,同時向用戶提交搜索結果。查詢引擎用于實現檢索搜索結果和訪問音樂內容的系統交互。表示層和服務器層之間的通信采用面向服務的體系結構(SOA)和簡單對象訪問協議(SOAP)。SOAP是一個用于實現遠程過程調用和Web服務的網絡協議,使用超文本傳輸協議(HTTP)來傳遞不同網絡實體之間的XML信息。服務器層與存儲層之間的通信采用遠程方法調用(RMI)的形式。RMI以Java技術為核心,用于實現網絡交互。

圖1 音樂數字圖書館軟件系統架構
文件處理模塊功能包括音頻索引、音樂識別和同步以及文件特征提取等。為了在不同格式音樂文檔的數據流之間建立跨通道鏈接結構,考慮將各種音樂表達轉換為一個共同特征表示,實現不同類型數據的直接對照。圖2描述了在掃描樂譜和音頻記錄兩種不同形式音樂文檔的數據流之間建立“掃描—音頻”連接結構的過程。通過反向文件索引結構對特征提取音頻文件進行進一步處理。音頻索引用于識別掃描樂譜頁面和基于內容的音樂檢索。將每個樂譜掃描頁面分配給一個特定的音頻記錄進行樂譜識別,使每個音頻記錄與相應的樂譜頁面對應,建立單曲音頻記錄與樂譜數據的通信磁道。最后,使用中間層色度表示法和動態時間歸整(DTW)表示同步,建立視覺與聽覺的鏈接結構,為實現以時間同步演示樂譜和音頻記錄的樂譜查看器奠定基礎。而基于色度的音樂特征已經被證明是一個強大的中間層表示。以下討論如何使用信號處理方法從音頻記錄中或者是使用OMR掃描樂譜中獲取這些音樂特征。

圖2 “掃描-音頻”連接結構
3.1中間層特征表示
找到合適的中間層特征表示,讓不同的音樂表現類似,必須滿足幾個關鍵要求。一方面,這種特征表示必須具有強大的語義轉換功能,將各種類型的數據簡化為相同的中間層表示。另一方面,具有捕獲音樂中潛在的獨特音樂特征的功能。在同步和匹配的背景下,基于色度的音樂特征已經具備了這些要示。這里,采用12個色度與傳統的12個音高相對應。在西方音樂中,C的色度通常表示由C,C#,…,B組成的12個音高的屬性。
將音頻記錄的數字化信號轉換為一系列標準的十二維色度向量,每個向量表示其在12個音高中的能量分布[1]。基于信號處理技術,可以使用短時傅立葉分析結合分箱策略或使用多頻濾波器組技術得到色度表示。用來表示音頻信號中反映音高、音色、清晰度等參數變量分布的圖像稱為音頻色譜圖。圖3以貝多芬鋼琴奏鳴曲13號作品第三章為例,圖3(c)顯示從音頻記錄表示中獲取的音頻色譜圖。

圖3 貝多芬鋼琴奏鳴曲13號作品第三章音樂數據
從樂譜表示過渡到色度表示的步驟如下:
第一步,使用OMR提取樂譜符號,如音符、譜號、調號和時間等特征,類似于OCR從文本文件掃描圖像中提取文本內容的過程。注意,OMR提取步驟容易出錯,且識別精度在很大程度上取決于輸入圖像數據的質量以及基礎樂譜的復雜性。系統考慮使用1b/s色彩深度、600dpi分辨率的高品質掃描樂譜。除了樂譜符號,OMR過程也提供空間信息,這允許提取的樂譜符號本地化。
第二步,基于OMR輸出,從音樂符號中提取音樂初始時間、音高、持續時間等特征,得到一系列標準的十二維色度向量,也稱為掃描色譜圖。滑動掃描色譜圖中當前時間窗口的時間軸,以增加色度區間對應音高的能量。一個時間窗口等于一個色度向量。假定100BPM的恒定節奏,基于明確的音調和時間信息,可以根據相同類型的色度導出色譜圖。類似的方法在將MIDI數據表示轉換為色度表示的過程中提到,見參考文獻[2]。注意,假定的100BPM選項并不是最重要的,因為不同的節奏可以在隨后的同步和匹配過程中得到補償。圖3(b)顯示從掃描樂譜表示得到的掃描色譜圖。
掃描樂譜頁面的識別和基于內容的音頻檢索依賴于有效的音頻匹配機制。現在,從音頻記錄或音樂掃描樂譜中抽取一段簡短的樂曲片段,以摘錄的形式進行查詢,目標是從音頻數據庫中自動檢索所有摘錄對應的樂曲。相對于傳統的音樂識別,因為同一個樂曲片段的不同解釋,音頻匹配允許語義隨意變化。參考文獻[3]介紹了基于色度表示的音頻匹配方法。最近研究證明,音樂符號表示產生色度特征,例如上述OMR的獲取過程與音頻色譜圖兼容。因此,色度特征可以用來對音樂文件的音樂符號和音頻記錄執行音頻匹配和同步。
3.2音頻索引和匹配
音頻索引和匹配的關鍵是利用自動文檔分析法減去同一音樂兩種不同類型的數據(視覺和聽覺音樂數據)所對應色譜圖相同類型的表示,直接對兩種類型數據的特征進行比較。也可以通過使用代碼中描述的語義上有意義的向量來量化色度向量,進一步處理色度特征,實現有效對比。標準文本檢索常用的索引結構是根據分配的代碼向量,將特征存儲在一些反向索引文件中。
現采用音頻匹配來描述底層引擎中各種音樂檢索和識別任務。基本的匹配方法如下:將存儲庫中每個文件轉換為一個序列的十二維色度向量。實現過程中,使用一個特征1赫茲的采樣率。將所有色度序列連接成一個色度特征序列(d0,…,dK-1),用來保存文檔范圍。同樣,將給定的查詢音樂片段也轉換成一個色度特征序列(q0,…,qL-1)。然后,將這個查詢序列與數據庫序列中連續向量L組成的所有子序列(dk,dk+1,…,dk+L-1),k∈[0: K-L ]相比。這里使用距離測量Δ(k):=1-1∑L-1d,q,括號表示向量內Ll=0k+ll積,由此產生的曲線被稱為匹配曲線[1]。注意,△最小值接近于“0”的數據庫子序列對應于查詢序列,這些子序列將構成基于內容檢索所需的匹配[1]。因為保存了匹配文件的編號和精確位置,所以每個文檔很容易被恢復。
到目前為止,還無法對查詢片段與對應時間區域內的音頻文件因時差而做出合理的說明。另外,當樂譜表示轉換為特征表示時,需要設定一個可能會偏離對應音頻文件的節奏。處理這樣的節奏偏差,可以采用恢復到DTW的后繼變量或者基于不同的采樣率對各種色譜圖進行多重查詢的技術。特別是后者的技術支持上述索引結構促進音頻匹配的有效計算。
3.3掃描樂譜的識別和標注
文檔經過數字化處理,保存到數字圖書館之前需要進行適當的標注。在標注數字化音頻記錄時,必須指定每個記錄的元數據,如標題、藝術家或者歌詞等。除了人工標注,可以利用如Gracenote、DE-PARCON等專業數據庫軟件來標注各類元數據。而元數據的采集并不是一項輕松的任務,因為相對于舊的記錄現有的數據庫是不完整的,缺少特定類型要求的元數據或者包含錯誤和不一致。這些可通過抽取及合并多個數據源來改進。然而,因為有專業的數據提供商提供高質量的元數據,使得我們擁有了足夠數量和質量的元數據。
掃描樂譜數字化后,可以通過掃描儀自動翻頁功能標注每個頁面,以往這個標注過程通常是手工完成的。現在,描述掃描樂譜自動標注的過程如圖4。在掃描樂譜數字化過程中,假定音頻數據庫中包含的所有數字音頻記錄均已標注。首先,將音頻文件轉換為相應的音頻色譜圖并建立一個音頻索引結構。其次,將每個掃描頁面的樂譜轉換為一個單獨的掃描色譜圖。查詢每個掃描色譜圖,計算音頻文件的頭部匹配。假定每個頁面包含一個單一的音頻文件。將基于掃描樂譜頁面自動標注的元數據關聯到相應的音頻記錄,如圖4。根據假定,頭部匹配能可靠地識別對應的音頻文件。實驗顯示,這特別適用于OMR沒有嚴重誤差的情況。此外,所有段落的頭部匹配由音樂中對應頁面的音頻記錄組成,用于檢索和瀏覽應用程序。

圖4 掃描樂譜自動標注、匹配過程
可以使用多種策略支持單獨曲目對應的樂譜頁面到音頻記錄基于內容的比較。首先,從總譜中尋找縮進大的譜表。縮進通常表明一個新的樂章或音樂作品的開始,使用此信息,從包含縮進頁創建的掃描色譜圖開始,區分縮進大的譜表,以說明預期磁道變化。其次,將樂譜中的標題作為樂章或音樂作品的開始指標。此外,使用合適的算法,一些OMR提取錯誤可以在匹配步驟之前的后續步驟中被糾正。例如,在鋼琴音樂中,五線譜左手和右手彈出的不同音調符號可以通過鄰近的五線譜進行糾正。類似的,可以同時使用不同的OMR軟件包從各種OMR提取結果獲得穩定的匹配結果,改善OMR識別率。
3.4掃描-音頻同步
一旦確定了掃描樂譜頁面和對應的音頻記錄,兩種類型音樂表現中語義相關的音符就自動鏈接。不同的對齊和同步程序提出了自動鏈接數個類型音樂表現的功能,從而協調給定音樂多個相關信息源。這個過程稱為“掃描-音頻”同步,目的是鏈接給定的樂譜掃描圖像在語義上相對應時間音頻記錄的位置。
“掃描-音頻”同步的基本思想是:將給定的掃描樂譜及相應的音頻記錄轉換為色度特征序列,基于DTW等標準對齊技術,同步生成掃描色譜圖和音頻色譜圖。具體來說,就是建一個成本矩陣,計算每個掃描色譜向量和音頻色譜向量兩兩之間的距離,通過動態編程(DP)從這個矩陣決定一個最佳成本對齊路徑[1]。為了應對全球性調優音頻記錄的變化,執行色度循環轉移,通過兩個色度序列的時間對齊矩陣編碼生成路徑。而OMR輸出的空間信息指定了每個掃描色度向量到一個掃描樂譜圖像的相應區域。空間信息與“掃描-音頻”同步相結合,可以得到掃描圖像與音頻記錄的鏈接結構。
音樂的丟失或重復等結構性差異將影響“掃描-音頻”同步的質量。例如,樂譜可能包含部分不在音頻記錄中的內容或者是音頻記錄可能包含額外重復的不存在或不能識別的樂譜。這種結構性的差異可能是由于OMR錯誤或者源于樂譜沒有嚴格遵守組織要求。局部相似的音樂表現之間的同步問題也值得關注。例如,音樂作品中的音頻和樂譜表現偏離了音高或者音長,總譜中的琶音、顫音、花音或者其他裝飾音存在歧義等。通常,這類差異在一定的限制條件下對整體同步結果幾乎沒有影響。然而,節奏的顯著差異在同步過程中卻可能導致問題出現。此外,對于一個給定的音頻記錄,不能保證其基于特定的樂譜版本是同步的。
4.1多通道音樂表示
現給出多通道音樂表示的核心組件,視圖文檔查看器。文檔查看器允許同步播放當前選定音樂的相關音樂內容,包括音頻記錄、樂譜、歌詞和視頻。確切地說,除了播放音頻記錄,它提供了包括樂譜、歌詞和視頻的3種可視化播放模式。例如,重復播放音頻記錄,樂譜和歌詞繼續同步顯示。用戶可以直觀地跟蹤音頻記錄當前播放的旋律或當前傳唱的話語。由于多通道的音樂欣賞方式,文檔查看器可以被作為視頻播放器。此外,還提供先進的用戶交互選項,如導航和查詢優化。
文檔查看器分為頂部、中心和底部3個區域。頂部區域包含模式選項卡、當前選定音樂的標題以及用于變換影音播放樂譜或者音頻記錄的按鈕。除了聽覺模式以外,用戶還可以通過模式選項卡自由變換用于視聽演示的一段音樂作品的文檔模式。點擊選項卡中樂譜或者封面藝術圖標,彈出相應的菜單列表,列出了與音樂相關的所有可用的內容,用戶可以選擇用于播放的音頻或視頻內容。例如,如果一段音樂作品有不同的音頻記錄可用,用戶可以選擇他想聽的具體音頻記錄。通過這項功能,用戶可以在保留音樂實際播放位置的同時切換到不同的音頻記錄,還可以對不同的音頻記錄進行比較。類似的,多個可用的樂譜之間也可以切換。中心區域顯示各種可視化內容,根據當前選擇的可視化模式,為用戶提供樂譜視圖、歌詞視圖或視頻視圖。底部區域顯示一個時間軸,允許用戶通過移動滑動按鈕調整播放位置。時間軸的下方,還有更多的按鈕來控制播放狀態和播放位置。控制按鈕保持不變,標簽變換取決于當前選定的可視化模式。
4.2多通道查詢模式
基于內容的查詢到目前為止,有基于歌詞的檢索和基于音頻匹配的樂譜檢索兩種模式,且通過索引技術可以提高檢索效率。
歌詞檢索允許錄入幾句歌詞作為文本查詢,確定歌詞在音頻記錄中的位置。歌詞文本文檔的位置映射到音頻記錄的相應時間段。單詞或者音節的開始時間都給出明確的音樂背景,反之,這些信息被用于歌詞到音頻記錄的同步。隨后,使用基于反向文件索引技術的全文檢索和增強的歌詞搜索。搜索的容錯功能允許歌詞查詢出現拼寫錯誤和省略句。
基于樂譜檢索的查詢模式如下:在視覺形態下,選擇樂譜頁面的一部分作為查詢表述。系統檢索所有在音頻記錄中選定的音樂摘要。利用同步技術,將相關音頻記錄的片段用于搜索過程,而不是查詢選定的樂譜摘要。從摘要獲取一系列音頻特征,隨后在音頻特征索引的基礎上執行基于特征的查詢。由于可以提取音樂片段和音樂潛在的低級別連續特征,音頻檢索系統針對音質、樂器和響度等方面的變化有很好的適應性,因此能夠發現相似的音樂片段。詳細資料見參考文獻[4]。
4.3基于內容的多模式檢索和排列
系統接收到提交的查詢包后,立即打開查詢包,并根據其指定的查詢類型分派適當的查詢引擎。查詢引擎互相獨立,且每個類型查詢返回一個同類型的匹配列表。每個匹配段列表由文檔ID、匹配段的位置和排序值組成。在基于內容的查詢情況下,匹配段通常是文檔的一小部分。然而,由于文檔匹配采用元數據描述,所以匹配段的匹配范圍是從文檔的開始到結束。
由于不同文檔類型(如音頻記錄、樂譜和歌詞文檔)的同步,所有匹配段的邊界可以用時間域表示為開始時間戳和結束時間戳[1]。因此,隨后的綜合排序和合并中,所有匹配段都是直接進行對比。不同查詢引擎返回的多個結果列表排序、合并成一個單一的綜合結果列表。下面采用自底向上的方法來進行說明。
每個查詢引擎返回的結果列表由文檔ID、匹配段列表ID組成。將這些段列表插入一個哈希表,一個數據條目存儲一段樂曲的ID和相關段列表。對于每個插入的段列表,均有各自的存儲方式。與同一段樂曲相關的所有段列表集成存儲在一個哈希表數據條目中。隨后,為每個包含段列表的哈希表條目執行合并。
兩個段列表的合并步驟如下:設L1:=第i個條目的k段列表為,其中表示起始時間戳、eik表示結束時間戳、rik表示排序值,且每個段列表對應的形態沒有重疊部分,合并段列表Lk和Ll到綜合列表L。段ski與列表的其他任何段slj,如果沒有時間上的重疊,段sik直接復制到L列表;否則和slj合并到一個新的段列表),并將新的段列表插入L列表[1]。時間重疊的部分同時反映了產生的點擊數,因此,希望獲得更高的排名。rik,rjl在段列表有時間重疊部分的情況下,為了提升排名,定義排序值為r:=(rik +rjl)?fboost,1≤fboost≤M為全局常量系數。m個段列表的合并則是不斷進行迭代,直到不存在剩余的段列表。當所有段列表合并成一個單一的綜合列表時,所有段的排序值通過應用因子歸化為在區間[0,1 ]上的最終排序值。只要每個列表Lk的匹配段ik)的開始時間戳bki按升序排序,可以直接執行該算法計算線性列表長度的時間復雜度[1]。
為每段樂曲導入其綜合列表的多模式匹配段和分配的排序值。一段樂曲的整體排序值由其綜合段列表的最大排序值組成。最后,將每段樂曲按各自的排序值降序排序放入一個新的結果列表。最終的結果列表中,樂曲匹配的形態越多分配到的排序值越高,出現在列表中的位置就越靠前;反之,樂曲匹配的形態越少,出現在列表中的位置就越靠后。
4.4查詢結果顯示
通常情況下,搜索引擎為用戶直接提供一個由單一文件組成列表項的結果列表。然而,在音樂領域,一段樂曲有多種不同形態的文檔類型(如音頻記錄、樂譜、歌詞)表示。
該系統框架中,結果列表顯示關于查詢匹配的樂曲片段,文檔查看器提供訪問屬于當前選中樂曲的全部索引內容。每段樂曲呈現給用戶的匹配結果不在文檔層,而是當前查詢包含的一個或多個匹配的文檔表示。用戶查詢匹配屬于同一樂曲的所有文檔概括在一個列表項中。列表項顯示藝術家名字、樂曲標題、歌詞摘錄以及匹配文檔的數量。文檔查看器則給出了更詳細的匹配文檔視圖和準確的匹配位置。使用時間軸上的滑動按鈕除了調整當前的播放位置,還用來顯示用于播放當前選定的多模式內容的匹配位置。
4.5查詢優化和跨通道導航
在結果列表中,對于每段樂曲檢索,用戶可以通過快捷菜單選擇“從藝術家獲得更多作品標題”選項,請求獲得同一位藝術家更多的作品鏈接。一旦用戶選擇該項,將刷新查詢包,重建一個由藝術家名字和隨后執行的新搜索組成的簡單元數據查詢,最終結果的更新列表顯示數據庫中這位藝術家所有的作品。
用戶可以在視覺內容的查詢實例中利用基于內容的搜索功能,選擇部分樂譜頁面或歌詞文本作為新的查詢。用戶還可以選擇開始一個基于選定部分的全新搜索或者添加部分查詢到查詢包。部分樂譜可能包含總譜和文本兩種形態,用戶可以選擇同時查詢兩種形態或者是分開查詢。
沿著文檔查看器底部的時間軸顯示多通道匹配段的內容,可以同時用于導航的目的。通過點擊時間軸上的滑動按鈕在相應的時間位置開始播放或繼續播放。此功能允許直接跳轉到用戶查詢的匹配段。
本系統架構描述了音樂數字圖書館的系統框架結構和基本功能,滿足了用戶基本需求,但離實際應用還存在著很大的差距,未來需要改進的工作是多方面的。例如,系統工作流程的改進、進一步適應相關處理模式和文檔類型、預處理時間的詳細評估、搜索時間和搜索質量以及同步結果的評審等,都需要在日后的工作中不斷進行完善。
參考文獻:
[1] David,D.C.V.,Michael,C.F.M.·A digital library framework for heterogeneous music collections:from document acqui?sition to cross-modal interaction[J]. Int J Digit Libr,2012 (12):53-71.
[2] Hu,N.,Dannenberg,R.,Tzanetakis,G.·Polyphonic audio matching and alignment for music retrieval[J].Proceeding of the 4th IEEE Workshop on Applications of Signal Process?ing to Audio and Acoustics(WASPAA),2003.
[3] Kurth,F.,Muller,M·Efficient index-based audio matching. IEEE Trans[J]. Audio Speech Lang. Process,2008(2):382-395.
[4] Kurth,F.·Automated synchronization of scanned sheet music with audio recording[J].Proceeding of the 8th International Conference on Music Information Retrieval(ISMIR),2007 (b):261-266.
喻亞琴女,1981年生。本科學歷,館員。
收稿日期:(2015-06-02;責編:姚雪梅。)