Сравнение длинного контекста: Чьё окно в миллион токенов действительно работает

Вывод

Миллион токенов контекста не означает «пригодно при миллионе токенов». GPT-5.5 — самая надёжная модель для поиска в длинном контексте (MRCR @ 1M: 74%), DeepSeek V4 и Gemini 2.5 Pro — в середине (~50-60%), Claude Opus 4.7 слаб при больших окнах (32.2%).

Если нужно, чтобы модель поняла весь документ или крупную кодовую базу — GPT-5.5 сейчас самый надёжный выбор.

Параметры

Точность поиска

MRCR — способность находить ключевую информацию в сверхдлинном контексте. При 1 млн токенов:

Модель	MRCR @ 1M	Примечание
GPT-5.5	74%	Лучший поиск «иголки в стоге сена»
Gemini 2.5 Pro	~60%	Надёжно, но пропускает детали
DeepSeek V4	~50%	Пригодно, но сложные запросы теряют информацию
Claude Opus 4.7	32,2%	Значительное рассеяние внимания

Затухание контекста

Все модели показывают эффект затухания — информация в начале и конце сохраняется лучше, середина часто теряется:

GPT-5.5: Наиболее плавное затухание
Gemini 2.5 Pro: Сильно на краях, умеренно в середине
Claude Opus 4.7: Длинный контекст не был приоритетом обучения

Новые технологии

AMD опубликовала архитектуру HyLo — доказано, что длинный контекст можно добавить после предобучения с минимальной потерей качества. Расширяет контекст до 2 млн токенов.

Сравнение длинного контекста: Чьё окно в миллион токенов действительно работает

Вывод

Параметры

Точность поиска

Затухание контекста

Новые технологии

Рекомендации

Источники

Вывод

Параметры

Точность поиска

Затухание контекста

Новые технологии

Рекомендации

Источники

Похожие материалы

Kimi K2.6 возглавляет Design Arena: Moonshot AI превосходит все американские модели в 3D-дизайне

Обзор Qwen 3.6 Max BS Benchmark: способность к антигаллюцинациям превосходит все модели OpenAI

Бенчмарк цепочечного рассуждения Oxford/LLNL: GPT 95,7% по отдельности, коллапс до 9,83% в цепочке