Обычно в качестве элементов выходной последовательности выделяют буквы или графемы, но в работе [15] было показано, что использование частей слов в качестве таких элементов может дать наилучший результат. Поэтому в данной работе в экспериментах применялся метод кодирования байтовой пары [16]. Этот метод позволяет выбирать части слов, которые являются выходными узлами сети декодера. Выходная последовательность декодировалась алгоритмом лучевого поиска (beam search), который перебирает выходные части слов и выбирает лучший результат. В конце декодирования подстроки слов объединяются в слова, чтобы получить наилучший результат на уровне слов. В итоге был получен словарь из частей слов размером 4803.
Достарыңызбен бөлісу: |