基于內容的音樂信息檢索研究論文
摘 要:音樂信息檢索是從音樂資源中找到滿足用戶所需信息的匹配、定位過程。傳統的基于文本描述的音樂檢索技術已經無法滿足大量音頻數據的檢索需要,基于內容的音頻信息檢索技術應運而生。。本文根據音樂檢索的研究現狀, 論述了基于內容的音樂檢索步驟,討論了音樂檢索系統的基本組成。
關鍵詞:音樂檢索;音樂分類;音樂信息檢索系統
1.序言
隨著多媒體和Internet的技術的發展和深入普及,推動著各種基于Internet 的音頻應用逐步走向實用。各種音頻數據的數量正在呈指數增長,其信息量也在迅速膨脹。語音和音樂是兩類最重要的音頻信息。如何快速有效地在大量的音樂數據中查詢到所需要的內容,已經成為現代信息檢索領域的一個研究重點。
目前現有絕大多數的音樂搜索平臺都只支持文本的檢索,比如www.baibu.com。用戶可以通過歌名、歌詞等信息搜索到相關的音頻文件。但是,許多情況下,人們只記得一部分音樂內容,比如旋律。他們希望可以通過這些信息直接搜索到相關的歌曲。如何基于實際音樂內容快速查找到音樂信息成為當前的一個研究熱點。
2.數字音頻
要對音樂信息進行搜索,首先就需要了解音頻信息的記錄方式。當前音頻信息聲音可通過多種格式進行存儲,總結下來基本上可以分為兩類:記錄聲音波形變化的格式(如WAV格式)和記錄聲音指令的格式(以MIDI格式為代表)。
波形音頻文件是以數字方式來表示波形,使用采樣位數、采樣頻率和聲道數這三個參數:對聲波進行采樣、量化、編碼,最后轉換成數字形式,并壓縮儲存的聲音文件。
而與波形文件相MIDI是Musical Instrument Digital Interface的縮寫,又稱作樂器數字接口,是數字音樂/電子合成樂器的統一國際標準。MIDI文件相對波形文件來說較小,它記錄的內容是一系列可以被 PC 的聲卡解釋的數字音樂指令(音符)。
波形音頻文件是對實時播放的音樂信號進行采樣和數字編碼,記錄了實際的演奏效果。而MIDI格式則是記錄的一系列音符的演奏信息,如音符的起始、結束、控制變化等等信息。
另外隨著網絡和多媒體技術的進一步發展,人們對于數字音頻技術的研究進一步深入,又出現了多種有損壓縮的編碼格式,這些編碼格式,以極小的聲音失真換取了較高的壓縮比,比如在因特網上廣泛流傳的.MP3格式就是其中的代表。
正是由于不同的音頻記錄格式,并且在每一種格式下又各自有著一系列不同的格式,如何使不同的格式能夠統一為一種能夠為計算機檢索所識別的代碼就成為了音樂信息檢索面臨的主要問題。
3.音樂信息檢索
鑒于音樂信息的多種多樣,目前針對音樂信息的提取也提出的了多種方法。其中大致可以分為基于旋律和基于內容兩種方法。
由于MIDI音樂的編碼方式較為簡單,記錄的文件相對較小,目前音樂信息檢索的一個方向就是把復雜的波形文件進行一定的處理,使之成為一段類似于MIDI音樂文件的旋律編碼。目前有一些音樂信息檢索的研究方向就是以MIDI文件為核心,把一系類不同格式的音樂文件通過系統自動分析和處理,轉化成為以記錄音樂文件旋律為主的MIDI文件,再通過與其他MIDI文件之間的相互匹配,最終達到查找出相似旋律文件的目的。
而基于內容的音頻信息檢索技術則直接對音頻進行分析,從中抽取內容特征,然后利用這些內容特征建立索引并進行檢索,避免了用MIDI文件作為音頻信息的`轉化過程。因而基于內容的音頻數據信息檢索是目前發展比較迅速,研究較為深入的一個方向,它可以成為其他許多應用研究的基礎。
4.基于內容的音樂信息檢索
4.1音頻的抽。
對數字音樂進行搜索的前提條件,就需要明確那一段音樂是我們要進行搜索的目標,有的搜索是針對整個一個音樂文件而言,需要做到所有整個音樂文件的匹配,這樣的搜索相對費時,而有些搜索只要求搜索內容相近,或者部分相似的內容,這樣我們就不需要對整個音樂文件都去進行信息的抽取。在明確信息搜索的目標后,我們就需要對信息進行提取,目前提取特征有兩種方法:一是提取感性特征,如音高、響度、節奏;二是計算非感性屬性或稱物理特性,如Mel頻率倒頻譜系數、平均過零率、線性預測系數等
4.2音頻的分類:
由于目前的數字音樂文件數量龐大,要將所有的文件都遍歷之后進行查詢顯然不可能。因此目前常用的方法主要是實現按一定的方法將音樂文件進行分類,如分為然后根據特征文件的分類按圖索驥去進行有針對的查找。
目前常用的音頻分類方法主要有:
。1)基于決策樹的分類方法
所謂決策樹是一個類似流程圖的樹型結構,樹的每個結點代表一個屬性(取值) 的測試,其分支代表測試結果,樹的每個葉結點代表-個類別。樹的最高層結點是根結點。
(2)神經網絡分類算法
神經網絡是一組相互連接的輸入輸出單元,這些單元之間的每個連接都關聯一個權重。 在網絡學習階段,網絡通過調整權重來實現輸入樣本與其相應(正確) 類別的對應。 由于網絡學習主要是針對其中的連接權重進行,因此神經網絡的學習有時也稱為連接學習。
(3)貝葉斯分類方法
貝葉斯分類算法是統計學分類方法,它是一類利用概率統計知識進行分類的算法。在許多場合,樸素貝葉斯分類算法可以與決策樹和神經網絡分類算法相媲美,該算法能運用到大型數據庫中,且方法簡單、分類準確率高、速度快。[5]
(4)近鄰算法
用該方法進行預測的基本概念就是相互之間"接近"的對象具有相似的預測值。如果知道其中一個對象的預測值后,可以預測其最近的鄰居對象。
5.基于內容的音樂信息檢索系統
由于目前音樂信息檢索還不能做到完全自動化,因此目前的音樂信息檢索系統應該包含以下一些步驟:
第一步,建立數據庫。對數字音樂進行分析,并提取特征,再通過音頻分割,識別分類以后將音樂數據裝入數據庫的原始音頻庫,將特征裝入音頻特征庫。數據庫建立以后就可以進行音樂信息檢索。
第二步,確定查詢特征矢量。即用戶通過查詢界面確定樣本并設定屬性值,可以是一段哼唱的聲音,可以是具體的數字音樂文件,然后提交查詢,系統對樣本提取特征,結合屬性值確定查詢特征矢量。
第三步,查詢特征匹配。檢索引擎對特征矢量與聚類參數集匹配,按相關性從大到小的順序在特征庫和原始音樂庫中檢索一定數量的相應數據,并通過查詢接口返回給用戶。其中,原始音樂庫存放的是音樂數據;特征庫存放音樂數據的特征,按一定順序存放;聚類參數庫是對音頻特征進行聚類所得的參數集,包括特征矢量空間的碼本、閾值等信息。
第四步,查詢結果求精。用戶通過人機交互, 對檢索的結果逐步求精, 不斷縮小匹配集合的范圍, 從而定位到符合用戶需求的音樂文件。
【基于內容的音樂信息檢索研究論文】相關文章: