Сравнение длинного контекста: Чьё окно в миллион токенов действительно работает

Сравнение длинного контекста: Чьё окно в миллион токенов действительно работает

Вывод

Миллион токенов контекста не означает «пригодно при миллионе токенов». GPT-5.5 — самая надёжная модель для поиска в длинном контексте (MRCR @ 1M: 74%), DeepSeek V4 и Gemini 2.5 Pro — в середине (~50-60%), Claude Opus 4.7 слаб при больших окнах (32.2%).

Если нужно, чтобы модель поняла весь документ или крупную кодовую базу — GPT-5.5 сейчас самый надёжный выбор.

Параметры

Точность поиска

MRCR — способность находить ключевую информацию в сверхдлинном контексте. При 1 млн токенов:

МодельMRCR @ 1MПримечание
GPT-5.574%Лучший поиск «иголки в стоге сена»
Gemini 2.5 Pro~60%Надёжно, но пропускает детали
DeepSeek V4~50%Пригодно, но сложные запросы теряют информацию
Claude Opus 4.732,2%Значительное рассеяние внимания

Затухание контекста

Все модели показывают эффект затухания — информация в начале и конце сохраняется лучше, середина часто теряется:

  • GPT-5.5: Наиболее плавное затухание
  • Gemini 2.5 Pro: Сильно на краях, умеренно в середине
  • Claude Opus 4.7: Длинный контекст не был приоритетом обучения

Новые технологии

AMD опубликовала архитектуру HyLo — доказано, что длинный контекст можно добавить после предобучения с минимальной потерей качества. Расширяет контекст до 2 млн токенов.

Рекомендации

Точный поиск в длинных документах: GPT-5.5.

Общее понимание: Любая флагманская модель — выбирайте самую дешёвую.

RAG vs Длинный контекст: Для «поиска конкретной информации в множестве документов» традиционный RAG надёжнее чистого длинного контекста.

Источники