中國科學院聲學研究所語音與智能信息處理實驗室團隊參加了IEEE信號處理協(xié)會和信號處理領(lǐng)域頂級會議EUSIPCO 2024聯(lián)合舉辦的個性化聲學信號處理挑戰(zhàn)賽(LAP Challenge:Listener Acoustic Personalization Challenge),在“面向數(shù)據(jù)集融合的HRTF標準化方法(HRTF normalization for merging different HRTF datasets)”任務(wù)中斬獲冠軍。
近年來,個性化頭相關(guān)傳遞函數(shù) (Head-Related Transfer Function, HRTF) 在提升混合現(xiàn)實中雙耳音頻的聽覺定位和沉浸感方面展現(xiàn)了潛力。然而,受試者個性化生理結(jié)構(gòu)的準確獲取、HRTF的高效仿真以及用戶體驗的有效驗證等相關(guān)問題,尚未形成一個國際公認的評估標準。
LAP Challenge是由IEEE信號處理協(xié)會和歐洲學術(shù)聯(lián)合組織SONICOM共同發(fā)起的面向個性化空間音頻信號處理的挑戰(zhàn)賽,其組織機構(gòu)包含了英國帝國理工學院、法國索邦大學等眾多知名高校和Dreamwaves、USound等空間音頻領(lǐng)域的頭部企業(yè)。該挑戰(zhàn)賽致力于提供一個讓研究人員探索空間音頻領(lǐng)域難題、推動沉浸式音頻處理技術(shù)進步的平臺,并為個性化空間音頻的標準化指標開發(fā)做出貢獻。
2024年首屆LAP挑戰(zhàn)賽聚焦于HRTF建模的空間采樣和數(shù)據(jù)標準化??臻g采樣關(guān)注從稀疏測量集重構(gòu)高空間分辨率的HRTF數(shù)據(jù)集;數(shù)據(jù)標準化著眼于將來自不同實驗室對不同受試者測量的HRTF數(shù)據(jù)進行標準化,其目標是補償由不同測量設(shè)置(如設(shè)備和環(huán)境)引入的差異,確保 HRTF數(shù)據(jù)不存在與聽感無關(guān)的數(shù)據(jù)集特征。
中國科學院聲學研究所語音與智能信息處理實驗室的李軍鋒研究員、姚鼎鼎副研究員帶領(lǐng)博士研究生趙佳樂、邱澤林、王成仲組成的團隊參加了此次比賽,并在“面向數(shù)據(jù)集融合的HRTF標準化方法(HRTF normalization for merging different HRTF datasets)”任務(wù)中取得第一名的成績。
在本次挑戰(zhàn)賽中,本團隊提出一個基于神經(jīng)網(wǎng)絡(luò)的HRTF數(shù)據(jù)集融合方法。由于HRTF測量存在測量流程復雜、成本高、時間長的缺點,單個HRTF數(shù)據(jù)集難以為基于機器學習的HRTF建模方法提供足夠的受試者數(shù)據(jù),進而使得模型對未知受試者的泛化性存在不足。同時,由于目前不同實驗室的HRTF數(shù)據(jù)集存在測量設(shè)備、后處理方法等方面的差異,使得不同HRTF數(shù)據(jù)集難以直接融合使用。因此,本團隊提出基于聽覺定位模型的損失函數(shù)設(shè)計,使得所提神經(jīng)網(wǎng)絡(luò)可被利用于處理HRTF幅度譜中與聽覺定位無關(guān)的數(shù)據(jù)集特征,進而使不同數(shù)據(jù)集的HRTF數(shù)據(jù)可以融合使用。該任務(wù)中使用不同數(shù)據(jù)集間HRTF的分類準確率作為排名指標,分類準確率越低表示去除數(shù)據(jù)集測量特征的效果越好。本次挑戰(zhàn)賽一共吸引了來自包括倫敦帝國理工學院、柏林工業(yè)大學、東京都立大學等著名高校和工業(yè)界研究機構(gòu)的11支參賽隊伍,所提方法于官方評估中獲得了第一名,其分類準確率為26.94%,顯著優(yōu)于其它參賽隊伍。
所提方法已在今年8月EUSIPCO 2024的學術(shù)會議中與國際同行進行了分享、討論。