Без масштабирования параметров, просто цикл: Fully Looped Transformer превращает вычисления при инференсе в настраиваемый параметр

Хотите усилить модель? Очевидный путь — добавить параметры. Но это быстро становится дорогим.

Looped Transformer пробует другой путь: повторно использовать те же блоки Transformer. Больше циклов при инференсе — лучше результат.

Проблема: при увеличении числа циклов обучение разрушается.

Решение

Два изменения, ноль дополнительных параметров:

Полностью циклическая архитектура. Распределение сигналов между циклами по всем слоям, что смягчает взрыв остатков.

Инъекция внимания. Переиспользование существующего модуля внимания для подавления осцилляции градиентов.

Результат: предыдущие модели разрушались на 12 циклах, Fully Looped Transformer обучался стабильно, улучшая производительность до 13.2%.

Статья: Fully Looped Transformer