科普文章丨嘿,siri!嘈雜的酒吧里,AI為什么聽不懂指令?
不知道你是否有這樣的經(jīng)歷,月底窮困潦倒的你中午走進(jìn)人潮喧嘩的食堂,正在心里瘋狂比較哪個(gè)菜更便宜時(shí),忽然聽到五米開外某人的一聲“咱們發(fā)工資了”,于是你理直氣壯地對(duì)食堂大媽喊道:“加個(gè)雞腿!”
(圖片來源:修改自《家有兒女》)
還有,不管在哪里,周圍有多吵,一旦有人叫自己的名字,總是能聽到。人能夠在如此嘈雜的環(huán)境下精確捕捉到想聽到的聲音,甚至還能知道聲音的方位,相比之下,現(xiàn)在的很多智能設(shè)備卻做不到這一點(diǎn),這究竟是為什么呢?
Part. 1
人的聽覺為什么具有選擇性
說起人的聽覺,有一個(gè)著名的效應(yīng)——雞尾酒會(huì)效應(yīng),它是指在喧鬧的雞尾酒會(huì)上,參會(huì)者大腦中的聽覺系統(tǒng)可以將他的注意力集中約束在他感興趣的談話內(nèi)容上,而自動(dòng)忽略其他“無關(guān)”的噪聲,即使周圍環(huán)境非常嘈雜。
然而,這種我們?nèi)祟愑脙芍欢渚湍芨愣ǖ男栴},對(duì)于智能音箱等語音交互設(shè)備來說,卻并不是那么容易的。當(dāng)它們身處嘈雜的環(huán)境時(shí),很容易就受到各種來路不明的聲音的連環(huán)暴擊,最終陷入我是誰我在哪我在干嘛的死循環(huán)中無法自拔(感興趣的同學(xué)可以打開你身邊的語音交互設(shè)備嘗試一下)…
于是,攻(工)城(程)獅(師)們本著大力出奇跡的原則,不惜斥巨資為它們裝上很多個(gè)金光閃閃的麥克風(fēng)用來接收聲音,又去全世界各地搜羅各種各樣的聲音數(shù)據(jù),沒日沒夜地投喂它們。但是,機(jī)器們學(xué)習(xí)的效果不是十分理想,雞尾酒會(huì)問題至今仍然困擾著世界各地的語音攻城獅們。
這時(shí)有的同學(xué)可能就要坐不住了:“就這?還用學(xué)?看來我的學(xué)霸屬性就要藏不住了!”這位同學(xué)你先冷靜一下,事情可并不是你想的那么簡單喲。
其實(shí),你能具有這種聽覺選擇能力首先要感謝你的媽媽給了你兩只忽閃忽閃的大耳朵,這使得你的耳膜并不是像麥克風(fēng)一樣是直接裸露在空氣中的。你的耳廓、頭部、肩膀、軀干等身體部位對(duì)于聲音來說像是一個(gè)“迷宮”,來自不同方位的聲音需要從不同的入口進(jìn)入,經(jīng)歷上述部位的一系列反射后最終到達(dá)“迷宮”的中心——耳膜,然后你的大腦就能感知到這個(gè)聲音啦。
由于聲波所走過的路徑不同,它們的頻譜也會(huì)發(fā)生不同程度的修改。在這個(gè)“迷宮”的不同位置,仿佛潛伏著一群造型師(沒錯(cuò),就是讓你又愛又恨的Tony老師),聲波路過時(shí)總是難免被“改造”一番。由于這些造型師們風(fēng)格迥異、水平參差不齊,在大腦看來,這些聲波就變得各有特色,所以很容易區(qū)分,怎么說呢…有點(diǎn)像…
所以當(dāng)你還是個(gè)小baby的時(shí)候,你還沒能累積足夠多的聽音經(jīng)驗(yàn),你的大腦對(duì)這些改造過的聲音可能一時(shí)無法辨認(rèn),因此導(dǎo)致你對(duì)聲音的辨別能力可能比較弱。隨著你慢慢長大,聽到的聲音越來越多,你的大腦就會(huì)慢慢摸清套路,建立一套自己的算法(數(shù)據(jù)庫),這樣即使是好幾個(gè)聲音同時(shí)出現(xiàn)在你面前,你也能很輕松地區(qū)分他們。
Part. 2
機(jī)器怎么獲取辨音能力
那么問題來了!能不能讓機(jī)器像我們?nèi)艘粯?,擁有能夠分辨不同聲音的能力呢?答案是肯定噠!前不久,中科院聲學(xué)所的楊軍研究員團(tuán)隊(duì)就提出了一種基于聲學(xué)超材料的單通道多聲源定位與分離系統(tǒng),只使用一個(gè)帶有超材料外殼的單通道傳聲器,即可實(shí)現(xiàn)三維空間中多個(gè)同時(shí)發(fā)聲聲源的實(shí)時(shí)定位與分離。研究成果發(fā)表在了綜合類期刊Advanced Science上。
別...別激動(dòng)…說人話就是——給麥克風(fēng)做了一個(gè)忽閃忽閃的“大耳朵”,不過這個(gè)耳朵跟我們的耳朵差別有點(diǎn)大,它長這樣…
左圖:超材料結(jié)構(gòu)模型圖 右圖:超材料結(jié)構(gòu)實(shí)物圖
?。▓D片來源:作者繪制與拍攝)
我們暫且叫他“蜂窩耳”吧。這個(gè)“蜂窩耳”由外中內(nèi)三層半球殼嵌套而成,每一層球殼上都隨機(jī)設(shè)置大小不一的圓孔,球殼之間隨機(jī)插入了若干塊橫向和縱向的擋板來制造大小不一的腔體,在球心位置則放著一個(gè)單通道的麥克風(fēng)。這些大小隨機(jī)的圓孔和隔板使“蜂窩耳”具有高度的空間不對(duì)稱性,因此會(huì)對(duì)來自不同方向的聲波起到不同的調(diào)制效果。
這個(gè)“蜂窩耳”中的聲學(xué)結(jié)構(gòu)就像是一個(gè)個(gè)風(fēng)格迥異的Tony老師,聲波經(jīng)過時(shí)總是難逃老師們的“改造”,這位老師畫個(gè)眉毛,那位老師涂個(gè)口紅,所以等它到麥克風(fēng)的面前時(shí),早就不是它原本的樣子啦。
你可能已經(jīng)猜到,“蜂窩耳”的學(xué)名就是——聲學(xué)濾波器。剛才所說的聲波的“改造”過程其實(shí)就是濾波過程,濾波后的聲信號(hào)頻譜會(huì)發(fā)生相應(yīng)的改變,因此被麥克風(fēng)接收到的信號(hào)就會(huì)產(chǎn)生與來波方向有關(guān)的差異性了。
那么問題又來了——你以為聲波們長得不一樣,機(jī)器就能很快辨別出來嗎?想得美!
我們還需要訓(xùn)練一個(gè)算法,讓機(jī)器提取這些聲波身上的獨(dú)家特征,最終定位和識(shí)別來自不同方向的聲音。擁有這個(gè)算法就好像擁有了一本Tony老師們的《造型百科全書》,里面記錄了各位Tony老師的改造技能和偏愛風(fēng)格。從某種意義上說,這個(gè)算法也可以幫助廣大男同胞完美應(yīng)對(duì)女朋友每日的靈魂拷問:“你覺得我今天有什么不一樣嗎?”是不是很想來一套!
Part. 3
機(jī)器戴耳記
一切準(zhǔn)備就緒,我們的“蜂窩耳”就可以正式上崗啦!
來自不同方向的聲波從外表面不同的位置進(jìn)入“蜂窩耳”,經(jīng)過不同的傳播路徑時(shí)被不同的造型師改造,被球心的麥克風(fēng)接收;熟讀《造型百科全書》的算法對(duì)接收信號(hào)進(jìn)行處理,最終重建出它們的來波方向和聲音的內(nèi)容。這種超材料結(jié)構(gòu)+智能算法的組合,只用一個(gè)麥克風(fēng)就能實(shí)現(xiàn)多聲源的實(shí)時(shí)定位和分離。攻城獅們?cè)僖膊挥脫?dān)心麥克風(fēng)數(shù)量不夠用啦!
“蜂窩耳”的工作流程
(圖片來源:作者繪制)
你是不是也很好奇“蜂窩耳”的效果如何呢?來看看研究人員針對(duì)多個(gè)生活場(chǎng)景進(jìn)行的聽音測(cè)試。
實(shí)驗(yàn)場(chǎng)景(圖片來源:作者拍攝)
“蜂窩耳”(圖片紅框里)放在中間,周圍均勻放置16個(gè)音響用于播放測(cè)試所用的聲音。測(cè)試所用到的聲音包括馬路上的鳴笛聲、動(dòng)物的叫聲、各種樂器聲、人說話的聲音等等,好奇心爆棚的筆者曾一度跑到“蜂窩耳”的位置,試圖挑戰(zhàn)一下這個(gè)聽音測(cè)試,當(dāng)時(shí)的場(chǎng)景大概是這個(gè)樣子的…
不過,這對(duì)訓(xùn)練有素的“蜂窩耳”來說就是小菜一碟啦。當(dāng)空間中同時(shí)發(fā)聲的聲源不超過三個(gè),定位與分離的準(zhǔn)確率可以達(dá)到90%以上,耗時(shí)也不超過1s,是不是棒棒噠!
當(dāng)然,現(xiàn)在的“蜂窩耳”還只能算一個(gè)小baby,它的聲學(xué)結(jié)構(gòu)設(shè)計(jì)和后端算法仍有待進(jìn)一步的磨合和提升,研究人員也正在馬不停蹄地研發(fā)“蜂窩耳”2.0版本。隨著語音技術(shù)的發(fā)展,我們身邊越來越多的電子設(shè)備都搭載了語音交互系統(tǒng),希望這個(gè)“蜂窩耳”能讓這些設(shè)備更加智能,使人與機(jī)器之間的交互更加流暢和便捷。
參考文獻(xiàn):
SUN Xuecong, JIA Han, ZHANG Zhe, YANG Yuzhen, SUN Zhaoyong, YANG Jun. Sound Localization and Separation in 3D Space Using a Single Microphone with a Metamaterial Enclosure. Advanced Science n/a, 1902271.
論文鏈接:https://doi.org/10.1002/advs.201902271
出品:科普中國
制作:孫雪聰(中科院聲學(xué)所 中科院噪聲與振動(dòng)重點(diǎn)實(shí)驗(yàn)室)
監(jiān)制:中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心
?。ū疚闹袠?biāo)明來源的圖片已獲得授權(quán))
文章僅代表作者觀點(diǎn),不代表中國科普博覽立場(chǎng)
本文來源于“中國科普博覽”公眾號(hào)(kepubolan),轉(zhuǎn)載請(qǐng)注明公眾號(hào)出處
附件下載: