C
ChaoBro

Anthropic внутренне тестирует "Claude Jupiter": Началось красное тестирование модели следующего поколения

Anthropic внутренне тестирует "Claude Jupiter": Началось красное тестирование модели следующего поколения

Ключевые выводы

Anthropic внутренне запустила красное тестирование новой модели с кодовым названием “claude-jupiter-v1-p”. Судя по именованию, “Jupiter” (Юпитер), вероятно, станет следующей флагманской моделью после текущей Claude 4.7 Opus. Тем временем данные оценки британского AISI показывают, что GPT-5.5 достиг почти паритета или превзошёл превью-версию “Mythos” от Claude на некоторых экспертных задачах — продуктовый темп Anthropic сталкивается с беспрецедентным давлением.

Что произошло

Экспозиция модели Jupiter

Пост из сообщества ИИ-безопасности подтвердил:

“ANTHROPIC 🚨: Anthropic started testing a new ‘claude-jupiter-v1-p’ model with red teams.”

Пост получил 698 лайков и 104 закладки, что указывает на высокий интерес сообщества.

Разбор ключевой информации:

  • claude-jupiter: Внутреннее кодовое название, продолжающее традицию Anthropic давать небесные имена (предыдущий “Opus” имеет аналогичный подтекст)
  • v1-p: Вероятно, означает “v1-preview”, указывая на превью-версию
  • red teams: Красное тестирование — стандартный процесс оценки безопасности Anthropic перед выпуском модели, что указывает на то, что Jupiter находится на поздней стадии разработки

Тонкие сдвиги в конкурентном ландшафте

Одновременно с экспозицией Jupiter данные оценки британского Института безопасности ИИ (AISI) раскрыли важный сигнал:

МодельTLO сквозное выполнениеЭкспертный уровень
GPT-5.52/1071,4%
Mythos Preview3/10Не раскрыто

Вывод AISI: “GPT-5.5 performs nearly on par with, or better than, mythos in several cases.” Это означает, что нарратив о «лидерстве в производительности», который Anthropic выстроила вокруг Mythos, может размываться.

Почему это важно

1. Анализ продуктового темпа Anthropic

Рассматривая ритм релизов Anthropic за последний год:

  • 2025 Q3: Claude 4.0 (Sonnet/Opus/Haiku — три уровня параллельно)
  • 2025 Q4: Серия Claude 4.5
  • 2026 Q1: Claude 4.7 Opus
  • 2026 Q2: Mythos (превью)
  • 2026 Q2-Q3: Jupiter (ожидается)

Название “Jupiter” предполагает, что это может быть более значимое обновление, чем Mythos. Если “Jupiter” представляет собой совершенно новую архитектуру модели (а не файн-тюн существующей), Anthropic может делать большую техническую ставку.

2. Значение таймлайна красного тестирования

Anthropic обычно начинает красное тестирование за 4-8 недель до публичного релиза модели. Если красное тестирование Jupiter началось в конце апреля:

  • Самое раннее окно публичного релиза: Июнь 2026 года
  • Самое позднее окно публичного релиза: Июль 2026 года

Это может создать «лобовое столкновение» с Google I/O (ожидается в мае-июне) и следующим циклом обновлений OpenAI.

3. Прозрачность оценки безопасности как инструмент конкуренции

Публичное сравнение GPT-5.5 и Mythos от AISI фактически вынуждает Anthropic ускорить разработку Jupiter. Если преимущество Mythos ослабевает из-за публичных данных, Anthropic нужен Jupiter для восстановления уверенности рынка.

Оценка ландшафта

Экспозиция Jupiter раскрывает три важных线索:

  1. Anthropic не замедляется: Быстрый переход к Jupiter после Claude 4.7 демонстрирует внутреннюю уверенность в технической дорожной карте
  2. Оценка безопасности становится конкурентным инструментом: Публичные данные от AISI и подобных институтов формируют рыночные нарративы — компании должны отвечать реальной производительностью
  3. Конкуренция следующего поколения может сконцентрироваться в июне-июле: Jupiter, новые модели Google I/O и последующие обновления OpenAI могут выйти в сжатом окне

Рекомендации к действию

  • Корпоративные пользователи: Если ваши текущие продакшн-воркфлоу на Claude 4.7 работают хорошо, не спешите ждать Jupiter — дождитесь официального релиза и проведите целевую оценку
  • Разработчики: Следите за новыми возможностями API, которые может принести Jupiter (особенно если он поддерживает нативную мульти-Agent коллаборацию)
  • Оценщики конкурентов: Июнь-июль — окно концентрированного обновления моделей — рассмотрите возможность переноса крупных закупочных решений до официального релиза Jupiter