近日,清華大學(xué)電子工程系語(yǔ)音與音頻技術(shù)實(shí)驗室提出了一種端到端的基于注意力機制和能量評分器的關(guān)鍵詞檢索系統。該系統擺脫了語(yǔ)音識別的依賴(lài),并且取得了超越傳統方法的性能,尤其適用于低資源小語(yǔ)種關(guān)鍵詞檢索任務(wù)。
關(guān)鍵詞檢索即為在連續的語(yǔ)音流當中檢測和定位用戶(hù)給定的關(guān)鍵詞的技術(shù)。在移動(dòng)設備廣泛應用、海量音視頻源源不斷產(chǎn)出的今天,關(guān)鍵詞檢索能有效提高信息檢索的效率和多媒體資源的利用率。傳統的關(guān)鍵詞檢索技術(shù)依賴(lài)于連續語(yǔ)音識別系統,即先使用語(yǔ)音識別系統得到識別結果(一般為多候選結果),然后再從識別結果之中尋找關(guān)鍵詞并進(jìn)行置信度估計。然而,訓練出一個(gè)可靠的語(yǔ)音識別系統往往需要大量的標注語(yǔ)音數據,對于低資源語(yǔ)種,即可用的訓練數據較少的語(yǔ)種,傳統的方法往往會(huì )遇到一些困難。
為了解決低資源語(yǔ)種可訓練數據少而制約關(guān)鍵詞檢索效果的問(wèn)題,本工作采用的框架不再依賴(lài)于語(yǔ)音識別系統,大大降低對數據資源的依賴(lài)。以下是系統的整體結構框圖:該系統主要由四部分組成,包括語(yǔ)音編碼器(Speech Encoder),文本編碼器(Query Encoder),注意力機制(Attention Mechanism)以及能量評分器(Energy Scorer)。
圖1:端到端關(guān)鍵詞檢索系統的整體架構
語(yǔ)音編碼器和文本編碼器經(jīng)過(guò)特殊設計,采用聯(lián)結時(shí)序分類(lèi)(Connectionist Temporal Classification, CTC)、基于注意力機制的序列到序列以及自監督訓練等方法,使得生成的語(yǔ)音特征和文本特征包含關(guān)鍵詞檢索所需要的序列信息。其中,語(yǔ)音編碼器結構如下圖所示:
圖2:語(yǔ)音特征提取過(guò)程以及使用聯(lián)結時(shí)序分類(lèi)或基于注意力的解碼器從語(yǔ)音特征中預測字符或音素序列
然后,將語(yǔ)音和文本特征輸入注意力機制和能量評分器,得到最終的評判結果。注意力機制和能量評分器,專(zhuān)門(mén)為關(guān)鍵詞檢測所設計,是本工作的兩個(gè)重要創(chuàng )新點(diǎn),也是超越傳統方法的關(guān)鍵所在。圖3演示了注意力權重在正負樣本上的差異;圖4是能量評分器的具體結構。
圖3:負樣本(左)和正樣本(右)的注意力權重
圖4:能量評分器的結構
課題組首先根據注意力權重對語(yǔ)音特征進(jìn)行加權求和從而得到上下文特征。接著(zhù),通過(guò)計算上下文特征和語(yǔ)音特征的能量比。最終,課題組將能量比和由文本特征經(jīng)過(guò)多層感知機得到的門(mén)限進(jìn)行比較從而得到最后的判決結果。
該系統有效解決了低資源小語(yǔ)種缺乏標注數據和專(zhuān)家知識所帶來(lái)的制約,使得關(guān)鍵詞檢索技術(shù)在相關(guān)領(lǐng)域邁向實(shí)用。該論文發(fā)表于《神經(jīng)網(wǎng)絡(luò )》(Neural Networks),題為“基于注意力機制和能量評分器的端到端低資源語(yǔ)種關(guān)鍵詞檢索系統”(End-to-end keyword search system based on attention mechanism and energy scorer for lowresource languages),第一作者為清華大學(xué)電子工程系碩士研究生趙澤宇,通訊作者為其導師張衛強副研究員。
清華大學(xué)電子工程系語(yǔ)音與音頻技術(shù)實(shí)驗室近年來(lái)專(zhuān)注于低資源語(yǔ)音識別和關(guān)鍵詞檢索研究,主持國家自然科學(xué)基金聯(lián)合重點(diǎn)項目和國家重點(diǎn)研發(fā)計劃重點(diǎn)專(zhuān)項課題,2020年在美國國家標準與技術(shù)研究院(NIST)主辦的語(yǔ)音分析評測OpenSAT2020關(guān)鍵詞檢索任務(wù)取得國際第一名,在OpenASR2020低資源語(yǔ)音識別挑戰賽中十個(gè)低資源語(yǔ)種取得四個(gè)國際第一名。