GENERAL365: Новый бенчмарк общего логического мышления

GENERAL365: Новый бенчмарк общего логического мышления

Вывод

GENERAL365, выпущенный 27 апреля 2026 года, — новый бенчмарк, тестирующий способность LLM решать сложные логические задачи в пределах знаний K-12. 365 задач составлены вручную. Лучшие модели набирают менее 10% — способность современных LLM к чистому рассуждению далека от человеческого уровня.

Дизайн бенчмарка

ХарактеристикаMMLU / GSM8KAIME / FrontierMathGENERAL365
Необходимые знанияЭкспертныеОлимпиадная математикаБазовые K-12
ИсточникАвто-сборОлимпиадные задачи365 ручных задач
ТестируетЗнанияГлубину математикиОбщую логику

Три измерения:

  1. Сложные ограничения: Множественные взаимоограничивающие условия
  2. Вложенная логика: Многоуровневые вложенные условия
  3. Семантические помехи: Ложная информация тестирует фильтрацию

Рекомендации

РольПрименение
Вендоры моделейВключить в внутреннюю оценку, отслеживать прогресс
ИсследователиАнализировать паттерны ошибок
РазработчикиДля сценариев с высокой логикой добавить человеческую проверку
Корпоративные покупателиGENERAL365 < 5% — не подходит для задач с высокой плотностью логики

Источники