Хотите усилить модель? Очевидный путь — добавить параметры. Но это быстро становится дорогим.
Looped Transformer пробует другой путь: повторно использовать те же блоки Transformer. Больше циклов при инференсе — лучше результат.
Проблема: при увеличении числа циклов обучение разрушается.
Решение
Два изменения, ноль дополнительных параметров:
Полностью циклическая архитектура. Распределение сигналов между циклами по всем слоям, что смягчает взрыв остатков.
Инъекция внимания. Переиспользование существующего модуля внимания для подавления осцилляции градиентов.
Результат: предыдущие модели разрушались на 12 циклах, Fully Looped Transformer обучался стабильно, улучшая производительность до 13.2%.
Статья: Fully Looped Transformer