Данные цепочки рассуждений Claude Opus 4.6/4.7 стали открытыми: 8706 записей CoT позволяют моделям на 7B «думать перед ответом»

Что произошло

Разработчик из сообщества открыл 8706 записей цепочки рассуждений (Chain of Thought, CoT) из Claude Opus 4.6 и 4.7. Эти записи фиксируют полный процесс рассуждения Claude при столкновении со сложными задачами — от понимания проблемы, исследования решений, самокоррекции до финального ответа.

Ранее, чтобы малая модель на 7B параметров научилась «думать перед ответом», требовалось:

Потратить тысячи долларов на вызовы API Opus для генерации данных рассуждений
Разработать конвейер очистки и форматирования данных
Провести несколько циклов обучения дистилляции

Теперь эти высококачественные данные рассуждений доступны напрямую.

Анализ состава данных

На основании описания открытого релиза, этот набор данных охватывает:

Измерение	Содержание
Объём данных	8 706 записей
Исходные модели	Claude Opus 4.6 + Opus 4.7
Тип данных	Полная цепочка рассуждений (не только финальные ответы)
Покрытие задач	Математические рассуждения, генерация кода, логический анализ, многошаговое планирование
Лицензия	Открытый код сообщества (конкретная лицензия требует подтверждения)

Почему данные CoT Opus ценны

1. Качество значительно превосходит самосинтезированные данные

Распространённый в сообществе подход к синтезу CoT — «заставить модель саму генерировать процесс рассуждения» — но это легко приводит к циклической ссылке — модель учится своим собственным предубеждениям, а не настоящей способности рассуждать.

Opus 4.6/4.7 как сильнейшая модель рассуждений Anthropic представляет собой сильнейшую демонстрацию рассуждений, доступную человечеству в настоящее время.

2. Заполнение пробела «глубины рассуждений» в открытых данных

Существующие наборы данных CoT с открытым исходным кодом (Orca, UltraInteract) в основном сгенерированы моделями уровня GPT-4. Глубина рассуждений Opus 4.6/4.7 значительно выше:

Набор данных	Сгенерировано	Глубина рассуждений	Самокоррекция
Orca	GPT-4	Средняя	❌
UltraInteract	GPT-4 + Claude 3	Средне-высокая	⚠️ Частично
Данный релиз	Opus 4.6/4.7	Высокая	✅

3. Наделение малых моделей способностью «перепрыгивать уровни»

Кейсы сообщества показали, что после дистилляции с высококачественными данными CoT модели на 7B параметров могут сравняться с моделями на 70B без дистилляции в математических рассуждениях.

Способы использования

Способ 1: Прямая файн-тюнинг

Базовая модель (Qwen-7B / Llama-3-8B) 
+ Данные CoT Opus (8 706 записей)
→ Обучение SFT
→ Модель с усиленным рассуждением и способностью «думать перед ответом»

Способ 2: Контекст RAG

Используйте данные CoT как примеры рассуждений, динамически извлекая схожие пути рассуждений через RAG во время вывода — достигая усиления рассуждений без обучения.

Способ 3: Сигнал вознаграждения для обучения с подкреплением

Используйте процесс рассуждения Opus как эталон для RLHF/RLAIF, обучая модели вознаграждения оценивать качество процессов рассуждений.

Влияние на индустрию

Этот проект с открытым исходным кодом отражает более крупную тенденцию: способности рассуждения топ-моделей быстро «демократизируются».

Временная шкала	Событие	Значение
2024	GPT-4 лидирует в рассуждениях	Ров закрытых моделей
2025	Данные CoT GPT-4 стали открытыми	Первая волна распределения способностей
2026.05	Данные CoT Opus 4.6/4.7 стали открытыми	Распределение способностей новейшего поколения
2026 Q3?	Opus 4.8 приближается	Следующая волна распределения способностей

Временное окно для каждого распределения способностей сократилось с 12 месяцев до 6 месяцев. Скорость, с которой сообщество открытого кода догоняет закрытые модели, ускоряется.

Источники

Пост сообщества X/Twitter (2026-05-02)
Репозиторий набора данных CoT с открытым кодом