Рис. 1. Интегральная модель, основанная на механизме внимания
Fig. 1. End-to-end encoder-decoder model with an attention mechanism
Схема архитектуры интегральной модели кодер-декодер, представленная на рис. 1, основана на механизме внимания.
Типы механизмов внимания
В работе [12] выделено три типа механизма внимания. Если функция Attend не зависит от i–1, т. е. iAttend(si–1, h), то это — механизм внимания по содержанию [13] (МВ-С). Attend можно представить как нормализованную сумму метрик каждого элемента h:
ei j, Score(si1, hj);
exp(ei j, )
i j, L ,
exp(ei j, ) j1
где Score — некоторая метрика.
Главное ограничение такой схемы в том, что одинаковые или очень похожие элементы h считаются одинаково, несмотря на их позиции в последовательности, что в распознавании речи имеет большое значение. Так, механизм внимания по расположению (МВ-Р) [10] учитывает историю выравнивания при вычислении выравнивания на текущем временном шаге. Механизм внимания по расположению вычисляет выравнивание с помощью состояния генератора и предыдущего выравнивания, т. е. iAttend(si–1, i–1).
Гибридный механизм внимания (МВ-Г) использует предыдущее выравнивание i–1, чтобы выбрать короткую часть h, по которой механизм внимания по содержанию выберет наиболее релевантные элементы без проблемы похожих фрагментов речи.
В работе [9] предложена модель с механизмом внимания по содержанию, в которой Score вычисляется следующим образом:
ei j, wtanh(Wsi1Vhj b),
где wℝm и bℝn — настраиваемые векторы; Wℝmnи Vℝn2n — матрицы весов, а n и m — число скрытых узлов в сети кодера и в сети декодера соответственно.
В работе [12] предложено обобщение этой модели до гибридной. Сначала выделяются k векторов fijℝk (сверточные признаки) для каждой позиции j предыдущего выравнивания i–1 с помощью свертки с матрицей Fℝkr:
fi F i1.
Затем выполняется операция Score eij wtanh(Wsi1Vhj Ufij b), где Uℝmr — матрица весов.
Достарыңызбен бөлісу: |