2021-4-9 | 音樂
音樂具有感染人心的魔力,可以拉近人與人之間的距離、創(chuàng)造共同的回憶、增加活動或戲劇的氣氛,更能輕易地引起我們的喜怒哀愁。熱情的歌曲讓我們慷慨激昂、悲傷的歌曲說出人們的心傷、悠揚(yáng)的歌曲則讓我們心情平靜。人們對于音樂的情緒具有這樣的欣賞力與鑒別力,但計算機(jī)卻還沒有。
如何讓計算機(jī)如人腦一般,具有辨別音樂情緒的能力呢?這就是“音樂情緒辨識”(MusicEmotionRecognition)所要研究的。
為什么要做音樂情緒辨識?
音樂與情緒有密不可分的關(guān)系,自古以來便有許多不同學(xué)科的學(xué)者在探究音樂與情緒的關(guān)系,包括哲學(xué)家、社會學(xué)家、音樂學(xué)家、人類學(xué)家、神經(jīng)科學(xué)家、音樂治療學(xué)家等,但在信息領(lǐng)域真正大量投入人力研究自動化音樂情緒辨識系統(tǒng),卻是遲至21世紀(jì)初期的事。
音樂情緒辨識的興起,主要是源于數(shù)字化時代的來臨,MP3壓縮技術(shù)以及硬盤儲存能力長足的發(fā)展。不僅儲存媒體空間越來越大,價格也越壓越低,人們能輕而易舉地在個人計算機(jī)或是便攜裝置上儲存成千上萬首的歌曲,可是如何在那么龐大的音樂庫中找到想聽的歌曲,就成了個棘手的問題。
傳統(tǒng)上,一般使用者還是習(xí)慣將歌曲以歌手名稱、專輯名稱等分文件夾存放,就如同一片片的光盤一樣。想要聽歌的時候,使用者必須在文件夾間瀏覽,選取自己想要聆聽的專輯,或是從不同專輯中挑出部分歌曲。較為熟練的使用者會將不同專輯的歌曲組合、儲存成播放列表,在不同的時機(jī)挑選不同的播放列表來聽。
然而,手動地挑歌是非常耗時的,播放列表的使用也造成只有少數(shù)部分歌曲被反復(fù)地聆聽,大多數(shù)的歌曲其實很少會被使用者選到,降低了音樂庫實質(zhì)上的豐富性。況且,在許多時候使用者并不清楚或不愿意選擇要聽哪些歌曲,而只想跟著當(dāng)下的情緒或是情境,聆聽符合那種感覺的歌曲。比如說,無聊的時候想要聽點(diǎn)讓人亢奮的音樂;專心念書或是工作的時候想要聽點(diǎn)優(yōu)雅安靜的音樂。這樣的需求必須透過音樂情緒辨識的幫助,深入分析音樂的內(nèi)容及情緒,方才能夠被滿足。
有了音樂情緒辨識系統(tǒng),用戶可以以情緒為索引來找尋歌曲。比如說,使用者可以指定特定的情緒,要求系統(tǒng)提供帶有這一類情緒的歌曲;用戶也可以指定一系列的情緒,例如說從平靜到亢奮再回歸平靜,從而產(chǎn)生一個音樂播放列表,其中歌曲情緒的變化依照使用者的設(shè)定。這樣的檢索方式不但便利、有趣也更加人性化。
除了讓用戶選擇音樂的情緒外,科技也可以讓計算機(jī)根據(jù)用戶的心情、狀態(tài)“主動地”推薦音樂。
例如某個特定空間,比如說客廳或是汽車內(nèi),計算機(jī)可以通過攝影機(jī)或是麥克風(fēng)捕捉用戶的表情、動作、音量等信息,自動判斷使用者當(dāng)前的心情,再主動地推薦符合該心情的歌曲。智能型手機(jī)或是音樂播放器也可結(jié)合時間、地點(diǎn)或是一些傳感器搜集到的資料,判斷使用者可能在從事怎樣的活動,比如說起床、運(yùn)動、工作或通勤等,借此來推薦適當(dāng)?shù)母枨S辛艘魳非榫w辨識,音樂將能更好地融入我們的日常生活。情緒標(biāo)定音樂情緒辨識本身是個跨領(lǐng)域的研究,需要心理學(xué)、音樂學(xué)及信息科學(xué)方面的相關(guān)知識。由于音樂情緒辨識關(guān)心的是人對于音樂的感受,因此也可以說研究的是一個藝術(shù)與科學(xué)的交會點(diǎn)。
就像我們教孩子認(rèn)字會使用許多范例一樣,要教計算機(jī)辨識音樂中的情緒,也需要先準(zhǔn)備一個標(biāo)定好的數(shù)據(jù)庫,在這個數(shù)據(jù)庫里面,我們很明確地知道哪些歌是屬于快樂的情緒、哪些歌是屬于悲傷的情緒,如此一來,計算機(jī)方能利用這些資料來找出各種音樂的特征與情緒的關(guān)系,分析出具有怎樣特性的音樂會引起怎樣的情緒。就像是有個老師在旁邊給小孩子許多范例,教導(dǎo)她學(xué)習(xí),這樣的過程也被稱之為“監(jiān)督式學(xué)習(xí)”(SupervisedLearning)。
音樂情緒數(shù)據(jù)庫的建立關(guān)系到心理學(xué)的“實驗設(shè)計”理論。由于情緒的感受沒有客觀的答案,因此通常還需要邀請一些受測者來替歌曲作情緒的標(biāo)定。這些標(biāo)定會被當(dāng)成是歌曲情緒的“標(biāo)準(zhǔn)答案”。
計算機(jī)會被要求能夠像人類受測者一樣準(zhǔn)確地判斷出這些歌曲的情緒。
由于情緒受到聽者個性、性別及年齡等等的影響,因此必須讓不止一名受測者聽我們選定的音樂,并記錄這些受測者聆聽之后所感受到的歌曲情緒。如果一首歌曲的情緒無法取得多數(shù)人的共識,那代表所要傳達(dá)的情緒是比較模糊的,或許就不適宜納入數(shù)據(jù)庫內(nèi)。使用者的選定必須均衡,例如一半是男生、一半是女生,背景皆固定為大學(xué)院校中的學(xué)生等;歌曲的選定則必須多元,我們希望數(shù)據(jù)庫里包含的音樂盡量越豐富越好,能涵蓋各種不同類別、不同情緒的音樂,如此數(shù)據(jù)庫才能具有代表性。另外,也需要注意實驗設(shè)計不能給受測者太多的負(fù)擔(dān),且標(biāo)定情緒的過程要明確且統(tǒng)一,例如,究竟是要以音樂旋律所傳達(dá)的情緒為準(zhǔn),還是以歌詞為準(zhǔn),或是兩者皆考慮?這些因素都必須被仔細(xì)考慮并設(shè)計,否則可能會影響標(biāo)準(zhǔn)答案的質(zhì)量,進(jìn)而限制了情緒辨識的可學(xué)習(xí)性。
情緒運(yùn)算
有了標(biāo)準(zhǔn)答案之后,我們還必須用到數(shù)字信號處理的技術(shù),結(jié)合音樂學(xué)知識和圖形辨認(rèn)技術(shù),分析音樂信號的特征,方能將音樂的特征與音樂的情緒做鏈接。
哪些音樂特征會跟情緒有關(guān)呢?我們不難猜到,情緒的亢奮與否和歌曲的音量大小、節(jié)奏快慢、音調(diào)高低以及音色是否明亮有關(guān);情緒是快樂或悲傷則可以從樂曲是大調(diào)或是小調(diào)、音色是否和諧順暢有關(guān)。雖然這些信息都可以在樂譜中得到,但在實際的情況中,許多時候我們只有音樂信號,并沒有相對應(yīng)的樂譜。再加上對現(xiàn)代科技而言,計算機(jī)還沒辦法像受過音樂訓(xùn)練的人腦一樣,精準(zhǔn)地將歌曲的樂譜從聲波中還原出來;計算機(jī)能夠做到的,是透過數(shù)字信號處理技術(shù),盡量去估測出這些音樂特征的值,例如估測一首歌一分鐘大約會有幾個拍子、或是估測一首歌音高的分布情形等。由于目前計算機(jī)尚無法精確地以音樂的語言來描述音樂,只能透過一些統(tǒng)計值及估計來大略評估,音樂情緒辨識的準(zhǔn)確率也因而受到影響。