近日,清華大學(xué)集成電路學(xué)院任天令教授及合作團隊在智能語(yǔ)音交互方面取得重要進(jìn)展,其研發(fā)的可穿戴人工喉可以感知喉部發(fā)聲相關(guān)的多模態(tài)機械信號以用于語(yǔ)音識別,并依靠熱聲效應播放對應的聲音,研究結果為語(yǔ)音識別與交互系統提供了一條新的技術(shù)途徑。
圖1. 基于智能可穿戴人工喉的語(yǔ)音交互范式
語(yǔ)音是人類(lèi)交流的重要方式,但說(shuō)話(huà)人的健康狀態(tài)(例如神經(jīng)疾病、癌癥、外傷等原因導致的聲音障礙)和周?chē)h(huán)境(噪音干擾、傳播介質(zhì))往往會(huì )影響聲音的傳輸和識別。研究人員一直在改進(jìn)語(yǔ)音識別和交互技術(shù)以應對微弱的聲源或嘈雜的環(huán)境。多通道聲學(xué)傳感器可以顯著(zhù)提高聲音識別的精度,但會(huì )導致更大的設備體積。而可穿戴設備能夠獲取高質(zhì)量的原始語(yǔ)音或其他生理信號。然而,目前尚無(wú)充分的證據表明喉部肌肉的運動(dòng)模式和反映在體表的發(fā)聲器官振動(dòng)中隱含著(zhù)可識別的語(yǔ)音特征,且尚無(wú)實(shí)驗證明其作為語(yǔ)音識別技術(shù)的完備性。
圖2. 人工喉器件設計和性能表征
圖3. 人工喉器件與麥克風(fēng)采集的語(yǔ)音信息標注和共振峰特征分析
為解決這一問(wèn)題,任天令團隊成員開(kāi)發(fā)了一款基于石墨烯的智能可穿戴人工喉(AT),同商業(yè)麥克風(fēng)和壓電薄膜相比,人工喉對低頻的肌肉運動(dòng)、中頻食管振動(dòng)和高頻聲波信息有很高的靈敏度(圖1、圖2),同時(shí)也具有抗噪聲的語(yǔ)音感知能力(圖2)。對聲學(xué)信號和機械運動(dòng)的混合模態(tài)的感知使人工喉能夠獲得更低的語(yǔ)音基頻信號(圖3)。此外,該器件還可以通過(guò)熱聲效應實(shí)現聲音的播放功能。人工喉的制作過(guò)程簡(jiǎn)單、性能穩定、易于集成,為語(yǔ)音識別和交互提供了一種新的硬件平臺。
圖4. 人工喉語(yǔ)音識別性能
團隊還利用人工智能模型對人工喉感知的信號進(jìn)行語(yǔ)音識別和合成,實(shí)現了對基本語(yǔ)音元素(音素、聲調和詞語(yǔ))的高精度識別,以及對喉癌患者模糊語(yǔ)音的識別與再現,為聲音障礙者的溝通和交互提供了一種創(chuàng )新的解決方案。實(shí)驗結果表明,人工喉采集的混合模態(tài)語(yǔ)音信號可以識別基本語(yǔ)音元素(音素、音調和單詞),平均準確率為99.05%。同時(shí)人工喉的抗噪聲性能明顯優(yōu)于麥克風(fēng),在60dB以上環(huán)境噪聲下仍能保持識別能力。任天令研究團隊進(jìn)一步演示了它的語(yǔ)音交互式應用。通過(guò)集成AI模型,人工喉能夠識別一名喉切除術(shù)患者模糊說(shuō)出的日常詞匯,準確率超過(guò)90%。識別出的內容被合成為語(yǔ)音在人工喉上播放,可以初步恢復患者的語(yǔ)音交流能力。
圖5. 使用智能可穿戴人工喉進(jìn)行無(wú)聲語(yǔ)音交互
該人工喉還有很大的優(yōu)化和拓展空間,例如提高聲音的質(zhì)量和音量,增加語(yǔ)音的多樣性和表情,以及結合其他生理信號和環(huán)境信息實(shí)現更自然和智能的語(yǔ)音交互。研究團隊希望通過(guò)進(jìn)一步的研究和合作,讓人工喉造福更多的聲音障礙者和語(yǔ)音交互的用戶(hù)。
該成果以“使用可穿戴人工喉的混合模態(tài)語(yǔ)音識別與交互”(Mixed-modality speech recognition and interaction using a wearable artificial throat)為題,于2月24日在線(xiàn)發(fā)表在《自然》(Nature)人工智能子刊《自然·機器智能》(Nature Machine Intelligence)上。
論文通訊作者為清華大學(xué)集成電路學(xué)院任天令教授、田禾副教授、楊軼副教授和上海交通大學(xué)醫學(xué)院羅清泉教授,清華大學(xué)集成電路學(xué)院2019級博士生楊其晟、上海交通大學(xué)醫學(xué)院2019級博士生金偉秋為共同第一作者。該項目得到了國家自然科學(xué)基金委、科技部、教育部霍英東基金、北京市自然基金委、清華大學(xué)國強研究院、清華大學(xué)佛山先進(jìn)制造研究院、清華大學(xué)-豐田聯(lián)合研究院、清華-華發(fā)建筑光電子技術(shù)聯(lián)合研究院等的支持。