IBM語音識別:仿生蝙蝠耳能用聲納精準(zhǔn)“聆聽”
2022-09-27 20:41:26 來源:
蝙蝠使用生物聲吶,為夜晚在叢林中飛行導(dǎo)航。他們的超聲波脈沖,可以比人造聲吶裝置更精確地對聲音進(jìn)行定位。為復(fù)制、駕馭這種能力,IBM學(xué)院獎獲得者Rolf Müller教授協(xié)同他在弗吉尼亞理工學(xué)院(Virginia Tech)的團(tuán)隊,設(shè)計了一種人造蝙蝠耳。
Rolf Müller的研究引起了IBM的注意。IBM專家韓金萍(音譯)的神經(jīng)計算團(tuán)隊,和IBM Watson語音專家崔曉東(音譯)和他的同事, 看到了Müller教授人造“動態(tài)外耳”(dynamic peripheral,蝙蝠可轉(zhuǎn)動的外耳使它們的生物聲吶更加準(zhǔn)確)的潛力 ,并希望借此提高人類語音理解的能力。他們把Müller的博士生Anupam Gupta納入團(tuán)隊,一同他們探索人造蝙蝠仿生耳在語音處理的應(yīng)用。
他們發(fā)現(xiàn),這些仿生耳不僅是很有效的聲吶裝置,對語音識別同樣能起到作用。
模仿菊頭蝠的人造耳
研究團(tuán)隊根據(jù)蝙蝠改變耳朵形狀的能力,仿制了一個動態(tài)接收系統(tǒng)。它能提高自動語音識別系統(tǒng)(ASR)的精確度,還能更準(zhǔn)確地對談話者定位。韓金萍將在他們的論文《受菊頭蝠啟發(fā)的接收動力學(xué)把動態(tài)特點加入語音信號》,及本周美國聲學(xué)協(xié)會第172屆會議上展示了這一發(fā)現(xiàn)。
這些動態(tài)系統(tǒng)有潛力發(fā)展成讓使用者“像蝙蝠那樣聆聽”的語音接收設(shè)備。這會改進(jìn)現(xiàn)有的助聽器和指向性傳聲器。并可應(yīng)用于任何需要對聲音來源進(jìn)行定位、理解的場景。
設(shè)想你身處一個忙碌、吵鬧的集市。聽清楚你旁邊的人在說什么都可能是一項挑戰(zhàn)。有了這項技術(shù),同伴的聲音就能被一個可變形的助聽器識別,然后翻譯成你能聽懂的話。它還可以過濾掉鬧市的雜音,和其他人嗡嗡的說話聲。
仿生蝙蝠耳的生物聲吶算法
蝙蝠的超聲波具有10 – 200 kHz的頻率,而人耳只能識別20 Hz – 20 kHz的聲音。因此對我們來說它聲調(diào)太高,大多數(shù)是聽不到的。為了駕馭蝙蝠的生物聲吶頻率和精度,Gupta加入韓金萍團(tuán)隊編寫能夠把語音訊號轉(zhuǎn)化為超聲波脈沖的代碼——然后再把超聲波轉(zhuǎn)化為我們能夠聽到的正常語言。
這首先需要建立一個數(shù)據(jù)庫。為了盡可能地簡化,韓金萍團(tuán)隊使用了卡內(nèi)基梅隆大學(xué)開源數(shù)據(jù)庫中,11個美式英語朗讀者的英語字母和數(shù)字的發(fā)音。
舉例子,以字母“A” 或者數(shù)字“1”形式出現(xiàn)的數(shù)據(jù),被麥克風(fēng)接收,然后轉(zhuǎn)化為超聲波信號。超聲波揚(yáng)聲器播放該信號。隨后,具有“動態(tài)外耳”的人造蝙蝠耳接收信號。最后,軟件把超聲波信號轉(zhuǎn)化為原始數(shù)據(jù)——字母“A” 或者數(shù)字“1”。
現(xiàn)實(鬧市)中的人造耳朵
雖然只包含字母和數(shù)字的聲音信號數(shù)據(jù)庫有較大限制,但通過分析它,韓金萍團(tuán)隊表示人造耳用“動態(tài)、方向性的的時間頻率模型”豐富了語音信號。下一步,研究人員把人造耳處理后的聲音與原始語音進(jìn)行對比,來衡量人造耳的精度。因此,他們把原始語音數(shù)據(jù)和經(jīng)人造耳處理的聲音數(shù)據(jù),放入分類器( classifier )中進(jìn)行識別。67% 的語音信號能被成功識別出來。而在沒有動態(tài)外耳的對照組中,只有35% 的聲音數(shù)據(jù)被識別。
有了更多的可用分析數(shù)據(jù)后,研究員們將著手用行業(yè)基準(zhǔn)來對該系統(tǒng)進(jìn)行測試,并開發(fā)仿生學(xué)習(xí)算法。再或者,將來他們可能會開發(fā)一個“聆聽” app,把智能手機(jī)麥克風(fēng)變成接入物聯(lián)網(wǎng)的指向性麥克風(fēng),來幫助使用者選擇現(xiàn)實中他想要聽到的聲音。IBM研究人員認(rèn)為,實現(xiàn)它并不是太遙遠(yuǎn)。
![]()
AI新時代-產(chǎn)業(yè)新動能,【點擊報名】參加2016中國人工智能產(chǎn)業(yè)大會,搶占通往未來的年票!(如無法點擊請打開網(wǎng)址4BYwdQ)
-
IBM語音識別:仿生蝙蝠耳能用聲納精準(zhǔn)“聆聽”
蝙蝠使用生物聲吶,為夜晚在叢林中飛行導(dǎo)航。他們的超聲波脈沖,可以比人造聲吶裝置更精確地對聲音進(jìn)行定位。為復(fù)制、駕馭這種能力,IB
2022-09-27 20:41
-
美國研發(fā)軟體章魚機(jī)器人未來會用在哪里?
(原標(biāo)題:章魚機(jī)器人:開啟軟體機(jī)器人新時代) 本報記者 劉霞 美國科學(xué)家攜手研制出了一款外表酷似章魚的章魚機(jī)器人(Octobot
2022-09-27 19:42
-
外媒評選2016十佳3D打印項目身體器官也能再生?
3D打印技術(shù)可以說已經(jīng)變得越來越成熟,越來越多的行業(yè)開始使用3D打印技術(shù),那么在即將過去的2016年里,又有哪些通過3D打印技術(shù)打造出來的
2022-09-27 19:13
-
:大白鯊如何吃飛鳥(2006-12-0409:44:23)
大白鯊是鯊魚家族中最兇猛的成員之一,很少有獵物能在它的厲齒下逃生,為了捕食,它一生中通常要更換上萬顆牙齒。由于大白鯊難以接
2022-09-27 14:28
-
手握西甲獨家版權(quán),愛奇藝體育踏上“出圈”之路
(原標(biāo)題:愛奇藝體育:出圈進(jìn)行時) 圖片來源:視覺中國 記者 陳丁睿 編輯 石一瑛 2019年8月中旬過后,2019-20賽季西
2022-09-27 06:32
-

夢幻聯(lián)動!ROG游戲手機(jī)6蝙蝠俠典藏限量版跨 -

Rokid加入首個元宇宙國際標(biāo)準(zhǔn)聯(lián)盟,共建開放 -
報告稱中國5G手機(jī)銷量近全球一半去年華為占 -

國內(nèi)首家:3D引擎Cocos正式宣布支持Switch平臺 -

全國十佳!華卓合作醫(yī)院榮獲縣域醫(yī)共體十佳 -

愛芯元智亮相WAIC2022,核心技術(shù)AI-ISP“愛 -

獨家專訪吳鷹:關(guān)注7500萬小靈通用戶安置問 -

樂迷團(tuán)親密值怎么刷網(wǎng)易云樂迷團(tuán)怎么提高親 -

冷板液冷系統(tǒng)設(shè)計參考來了,拿走不謝! -
知本家、資本家、智本家,測測你是哪種類型




