В экспериментах применена техника предварительного обучения (предобучение) нейронной сети. В работе [3] показано, что глубокие LSTMмодели могут давать лучше результаты, если использовать многоуровневое предобучение, начиная с одного или двух слоев, постепенно увеличивая количество слоев. Поэтому многоуровневое предобучение проводилось в течение 20 эпох (циклов обучения). Также в течение первых пяти эпох предобучения была отключена регуляризация параметров модели.
Было применено послойное предобучение сети кодера. Сначала были предобучены первые два слоя кодера и один промежуточный слой с коэффициентом сжатия 32. Затем были добавлены еще один LSTM-слой и промежуточный сжимающий слой. При этом коэффициент сжатия первого промежуточного слоя стал равным 16, но новый промежуточный слой имел множитель коэффициента сжатия, равный двум. Таким образом, общий коэффициент сжатия по временной оси в сети кодера всегда был равен 32.
Достарыңызбен бөлісу: |