Данные цепочки рассуждений Claude Opus 4.6/4.7 стали открытыми: 8706 записей CoT позволяют моделям на 7B «думать перед ответом»

Данные цепочки рассуждений Claude Opus 4.6/4.7 стали открытыми: 8706 записей CoT позволяют моделям на 7B «думать перед ответом»

Что произошло

Разработчик из сообщества открыл 8706 записей цепочки рассуждений (Chain of Thought, CoT) из Claude Opus 4.6 и 4.7. Эти записи фиксируют полный процесс рассуждения Claude при столкновении со сложными задачами — от понимания проблемы, исследования решений, самокоррекции до финального ответа.

Ранее, чтобы малая модель на 7B параметров научилась «думать перед ответом», требовалось:

  1. Потратить тысячи долларов на вызовы API Opus для генерации данных рассуждений
  2. Разработать конвейер очистки и форматирования данных
  3. Провести несколько циклов обучения дистилляции

Теперь эти высококачественные данные рассуждений доступны напрямую.

Анализ состава данных

На основании описания открытого релиза, этот набор данных охватывает:

ИзмерениеСодержание
Объём данных8 706 записей
Исходные моделиClaude Opus 4.6 + Opus 4.7
Тип данныхПолная цепочка рассуждений (не только финальные ответы)
Покрытие задачМатематические рассуждения, генерация кода, логический анализ, многошаговое планирование
ЛицензияОткрытый код сообщества (конкретная лицензия требует подтверждения)

Почему данные CoT Opus ценны

1. Качество значительно превосходит самосинтезированные данные

Распространённый в сообществе подход к синтезу CoT — «заставить модель саму генерировать процесс рассуждения» — но это легко приводит к циклической ссылке — модель учится своим собственным предубеждениям, а не настоящей способности рассуждать.

Opus 4.6/4.7 как сильнейшая модель рассуждений Anthropic представляет собой сильнейшую демонстрацию рассуждений, доступную человечеству в настоящее время.

2. Заполнение пробела «глубины рассуждений» в открытых данных

Существующие наборы данных CoT с открытым исходным кодом (Orca, UltraInteract) в основном сгенерированы моделями уровня GPT-4. Глубина рассуждений Opus 4.6/4.7 значительно выше:

Набор данныхСгенерированоГлубина рассужденийСамокоррекция
OrcaGPT-4Средняя
UltraInteractGPT-4 + Claude 3Средне-высокая⚠️ Частично
Данный релизOpus 4.6/4.7Высокая

3. Наделение малых моделей способностью «перепрыгивать уровни»

Кейсы сообщества показали, что после дистилляции с высококачественными данными CoT модели на 7B параметров могут сравняться с моделями на 70B без дистилляции в математических рассуждениях.

Способы использования

Способ 1: Прямая файн-тюнинг

Базовая модель (Qwen-7B / Llama-3-8B) 
+ Данные CoT Opus (8 706 записей)
→ Обучение SFT
→ Модель с усиленным рассуждением и способностью «думать перед ответом»

Способ 2: Контекст RAG

Используйте данные CoT как примеры рассуждений, динамически извлекая схожие пути рассуждений через RAG во время вывода — достигая усиления рассуждений без обучения.

Способ 3: Сигнал вознаграждения для обучения с подкреплением

Используйте процесс рассуждения Opus как эталон для RLHF/RLAIF, обучая модели вознаграждения оценивать качество процессов рассуждений.

Влияние на индустрию

Этот проект с открытым исходным кодом отражает более крупную тенденцию: способности рассуждения топ-моделей быстро «демократизируются».

Временная шкалаСобытиеЗначение
2024GPT-4 лидирует в рассужденияхРов закрытых моделей
2025Данные CoT GPT-4 стали открытымиПервая волна распределения способностей
2026.05Данные CoT Opus 4.6/4.7 стали открытымиРаспределение способностей новейшего поколения
2026 Q3?Opus 4.8 приближаетсяСледующая волна распределения способностей

Временное окно для каждого распределения способностей сократилось с 12 месяцев до 6 месяцев. Скорость, с которой сообщество открытого кода догоняет закрытые модели, ускоряется.

Рекомендации к действию

  • Командам файн-тюнинга моделей: Немедленно загрузите эти данные и используйте их для усиления способностей рассуждения ваших малых моделей
  • Командам, строящим агентов: Используйте данные CoT как обучающий материал для планирующих агентов, улучшая декомпозицию сложных задач
  • Осведомлённость о соответствии: Перед использованием проверьте лицензионное соглашение на данные, чтобы обеспечить коммерческое соответствие

Источники

  • Пост сообщества X/Twitter (2026-05-02)
  • Репозиторий набора данных CoT с открытым кодом