Обзоры

Опыт, бенчмарки и ограничения

Обзоры Избранное 23 мая 2026 г.

ACC: Компиляция траекторий агентов в длинные контекстные QA-пары

ACC компилирует многоходовые траектории вызовов инструментов агента в длинные контекстные QA-пары, обучая модель интегрировать разрозненные доказательства. Qwen3-30B-A3B получает +18.1 на MRCR после обучения ACC, приближаясь к версии 235B.

#Агент #Обучение длинному контексту #SFT

Обзоры Избранное 23 мая 2026 г.

Кредитное распределение в RLVR заново: DelTA предлагает взгляд дискриминатора на токеновые вознаграждения

Токеновое кредитное распределение в RLVR оставалось чёрным ящиком. DelTA переосмысливает направление обновления градиента политики как линейный дискриминатор, превосходя базовые модели того же масштаба на 2-3 балла по 7 математическим бенчмаркам.

#RLVR #Обучение с подкреплением #LLM-рассуждения

Обзоры Избранное 23 мая 2026 г.

Понимают ли MLLM людей? MM-OCEAN обнаруживает: 51% «правильных оценок» — это угадывание

MM-OCEAN оценивает 27 MLLM по восприятию личности, обнаруживая, что 51% правильных оценок не основаны на наблюдаемых доказательствах, а полные показатели привязки составляют лишь 0-33.5%. Правильный ответ ≠ понимание.

#MLLM #Восприятие личности #Бенчмарк

Обзоры Избранное 23 мая 2026 г.

OPPO: Байесовская рекурсия ценности для токенового кредитного распределения в рассуждениях LLM

GRPO assigns одинаковое преимущество каждому токену. OPPO использует сигналы оракула для байесовского обновления убеждений, производя токеновые преимущества в закрытой форме — без сети ценности, без дополнительных rollout, всего один дополнительный прямой проход.

#RLVR #Обучение с подкреплением #LLM-рассуждения

Обзоры Избранное 23 мая 2026 г.

RTPurbo: Полное внимание наносит ответ — преобразование полно-внимательных моделей в разреженные за сотни шагов

RTPurbo доказывает, что полно-внимательные LLM внутренне разрежены — всего сотни шагов обучения превращают их в высоко разреженные модели, давая 9.36x ускорение prefill при 1M контексте с почти безпотерной точностью.

#Разреженное внимание #Длинный контекст #Ускорение инференса

Обзоры Избранное 21 мая 2026 г.

AgentMemory: Постоянная память для AI-кодирующих агентов, 8000 звёзд за неделю

AgentMemory предоставляет постоянную память для Claude Code, Cursor, Codex и других кодирующих агентов. 387 коммитов, 15k звёзд, поддержка 15+ агентов с общим сервером памяти. Гибридный поиск P@5 достигает 0.578, вдвое выше grep-базовой линии.

#AgentMemory #AI-программирование #Claude Code

Обзоры Избранное 21 мая 2026 г.

CloakBrowser: Обход 30 антибот-систем на уровне исходного кода C++

CloakBrowser модифицирует фингерпринты Chromium на уровне исходного кода C++, не через патчи конфигов. 30/30 сайтов детекции пройдены, замена Playwright/Puppeteer в одну строку, установка через pip. Почти 9000 звёзд за неделю.

#CloakBrowser #Веб-скрейпинг #Автоматизация

Обзоры Избранное 21 мая 2026 г.

oh-my-pi: Суперзаряженный форк Pi, впихнувший все возможности IDE в терминальный агент

oh-my-pi — суперзаряженный форк Pi с 5700+ коммитами и 609 тегами. Hashline-редактирование экономит Grok 4 Fast 61% выходных токенов, полная интеграция LSP, реальный отладчик, субагенты с параллельными worktree.

#AI-программирование #Терминал #Pi

Обзоры Избранное 21 мая 2026 г.

OpenHuman набрал 23.5 тысяч звёзд за неделю: персональный ИИ-ассистент стал десктопным приложением

OpenHuman — персональный ИИ-ассистент на Rust, 23.5k звёзд, 17.7k за неделю. Превращает паттерн Obsidian Wiki Карпати в готовое десктопное приложение, автозагрузка данных из 118+ сервисов, сжатие TokenJuice экономит 80% токенов.

#OpenHuman #AI Agent #Open Source

Обзоры 21 мая 2026 г.

qiaomu: Claude Skill, превращающий любой контент в материал для NotebookLM — подкасты, презентации, ментальные карты

qiaomu — Claude Skill с поддержкой 15+ источников контента (включая обход пейволлов), автозагрузкой в Google NotebookLM для генерации подкастов, презентаций, ментальных карт. Встроенная 6-уровневая цепочка обхода пейволлов. 2347 звёзд за неделю.

#Claude Code #NotebookLM #Обработка контента

Обзоры Избранное 20 мая 2026 г.

12-факторные агенты: Двенадцать принципов для промышленных AI-приложений — насколько они надёжны?

Репозиторий humanlayer/12-factor-agents с 21 тыс. звёзд подтверждает одно: сообщество действительно нуждается в руководстве по разработке LLM-приложений промышленного уровня.

#AI Agent #промышленная эксплуатация #передовые практики

Обзоры 20 мая 2026 г.

Brush: открытый инструмент, который стремится вывести 3D-реконструкцию из лабораторий в повседневное использование

Репозиторий ArthurBrussee/brush набрал 4,6 тыс. звёзд за 1166 коммитов. Это не демонстрационный проект — он действительно предназначен для того, чтобы сделать 3D-реконструкцию доступной обычным пользователям.

#3D-реконструкция #компьютерное зрение #открытый инструмент

Обзоры 20 мая 2026 г.

CCX: небольшой инструмент для проксирования API Claude, Codex и Gemini — почему за неделю он получил 595 звёзд?

Репозиторий BenedictKing/ccx подтверждает свою активность 1092 коммитами и 201 релизом. Рост на 595 звёзд за неделю — не случайность.

#прокси-API #Claude #Codex

Обзоры 20 мая 2026 г.

Pyrefly от Facebook: тайп-чекер Python на Rust — насколько быстрее mypy?

Meta переписала тайп-чекер Python на Rust — Pyrefly. 13 000+ коммитов, 6.3K звёзд. Сможет ли заменить mypy и pyright?

#Python #Тайп-чекинг #Meta

Обзоры 20 мая 2026 г.

Личная ИИ-инфраструктура Дэниела Мисслера: за 14K звёзд скрывается полноценная персональная ИИ-рабочая станция

Проект Personal_AI_Infrastructure Дэниела Мисслера с 617 коммитами и 14.2K звёзд доказывает: персональная ИИ-рабочая станция — это не абстрактная концепция, а готовое к развёртыванию решение.

#Персональный ИИ #Инфраструктура #Open Source

Обзоры 17 мая 2026 г.

bambuddy: Центр управления 3D-принтерами без облака: от одного устройства до фермы из 40 штук

bambuddy — это открытая платформа для самостоятельного управления 3D-принтерами Bambu Lab, поддерживающая единый контроль от одной модели A1 до фермы из 40 устройств. Работает полностью локально без привязки к официальным облачным сервисам, включает интеграцию с Spoolman для управления расходными материалами и предпросмотр G-кода.

#bambuddy #3D-печать #Bambu Lab

Обзоры 17 мая 2026 г.

Proma: Внедряем возможности Claude Agent в чаты Feishu — эксперимент китайского разработчика с рабочими процессами агентов

Proma — это open-source платформа агентов на базе Claude Agent SDK с нативной поддержкой вызовов в групповых чатах Feishu и гибким подключением к любым провайдерам больших языковых моделей. Она представляет практический подход: "запустить возможности лучших агентов именно там, где вы работаете каждый день".

#Proma #Claude Agent SDK #Feishu

Обзоры 17 мая 2026 г.

RuView набирает 55 000 звёзд: «невидимый глаз» для пространственного восприятия на сигналах Wi-Fi без камер

RuView использует обычные сигналы Wi-Fi для реализации пространственного восприятия в реальном времени, мониторинга жизненных показателей и детекции присутствия — абсолютно без камер. Проект набрал на GitHub более 55 000 звёзд, вызвав дискуссии о технологиях пространственного восприятия в «эпоху после камер».

#RuView #Wi-Fi зондирование #Пространственный интеллект

Обзоры 17 мая 2026 г.

scientific-agent-skills: 21 000 звёзд — набор инструментов, дающий ИИ-агентам «научный мозг»

Опенсорсный набор scientific-agent-skills от K-Dense AI — это готовое решение «из коробки», объединяющее навыки агента для научных исследований, инженерии, аналитики, финансов и написания текстов. Проект уже собрал 21 500 звёзд и продолжает привлекать более 600 новых еженедельно, являясь одним из самых заметных вертикальных решений в экосистеме Agent Skills.

#scientific-agent-skills #Agent Skills #Исследовательские инструменты

Обзоры 17 мая 2026 г.

Supertonic: Корейская команда открыла исходный код движка TTS для локальной работы, поддерживающего 9 языков с задержкой на уровне миллисекунд

Южнокорейская аудиотехнологическая компания Supertone открыла исходный код Supertonic — полностью локального многоязычного движка преобразования текста в речь (TTS), поддерживающего 9 языков, включая китайский, японский, корейский и английский, с кроссплатформенным развертыванием через ONNX Runtime. Без зависимости от облака, нулевая задержка, полностью автономная работа.

#Supertonic #TTS #Синтез речи

Обзоры 16 мая 2026 г.

Causal Forcing++: группа ML Tsinghua — генерация видео в реальном времени через дистилляцию за несколько шагов

Группа ML Tsinghua (thu-ml) предлагает Causal Forcing++ — авторегрессионную диффузионную дистилляцию для интерактивной генерации видео в реальном времени. 72 голоса на Hugging Face Daily Papers.

#Causal Forcing #Генерация видео #Диффузионные модели

Обзоры 16 мая 2026 г.

CurveBench: Gemini 3.1 Pro набирает лишь 19,1% на задаче топологического рассуждения — слепые зоны визуального мышления LLM больше, чем вы думаете

Бенчмарк CurveBench выявляет серьёзные недостатки LLM в точном топологическом рассуждении: сильнейшая модель Gemini 3.1 Pro — лишь 71,1% на простых задачах, 19,1% на сложных. Qwen3-VL-8B после RLVR-файнтьюнинга обходит GPT-5.4 и Claude Opus 4.5.

#CurveBench #Топологическое рассуждение #Визуальное рассуждение

Обзоры 16 мая 2026 г.

PreScam: прогнозирование мошенничества на ранних стадиях разговора — бенчмарк Нотр-Дамского университета

Нотр-Дамский университет выпускает PreScam — бенчмарк из 11 573 многораундовых мошеннических диалогов, извлечённых из 178 тысяч реальных отчётов. Supervised-энкодеры значительно превосходят zero-shot LLM на задаче прогнозирования завершения мошенничества.

#PreScam #Обнаружение мошенничества #Анализ разговоров

Обзоры 16 мая 2026 г.

Self-Distilled Agentic RL: Агент учит сам себя — новый подход к обучению с подкреплением

Self-Distilled Agentic Reinforcement Learning предлагает агенту само-дистилляцию в ходе RL-обучения, повышая качество стратегии без внешних моделей-учителей. 58 голосов на HF Daily Papers, 11 авторов.

#Обучение с подкреплением #Агент #Self-Distillation

Обзоры 15 мая 2026 г.

Когда оценка превращается в игру в кошки-мышки: AI-бенчмарки теряют доверие

Open ASR Leaderboard от Hugging Face добавил механизм «Benchmaxxer Repellant». Когда модели начинают оптимизироваться под бенчмарки, баллы больше не отражают реальные способности.

#Бенчмарки #Оценка #Benchmaxxer

Обзоры 15 мая 2026 г.

Aider на 44K звёзд: AI-парное программирование в терминале — работает ли на самом деле?

Aider坚持纯终端路线，44.8K star 证明这条路有人走。和 GUI 类编程 Agent 相比，它的优势和短板分别在哪？

#Aider #Парное программирование #Терминал

Обзоры Избранное 15 мая 2026 г.

Cline на 60K звёзд: автономный агент для программирования переходит на SDK — стоит ли внимания?

Cline превратился из расширения VS Code в стратегию SDK + IDE + CLI. 61.7K звёзд — это хайп или реальность? Мы протестировали.

#Cline #Coding Agent #Open Source

Обзоры 15 мая 2026 г.

Codegraph: Локальный граф знаний для Claude Code — меньше токенов, меньше вызовов инструментов

Codegraph заменяет семантический поиск на преиндексированный граф знаний кода, помогая Claude Code тратить меньше токенов и делать меньше вызовов инструментов в больших проектах.

#Codegraph #Claude Code #Граф знаний

Обзоры Избранное 15 мая 2026 г.

После того как DS4 стал вирусным: локальный ИИ наконец перестал быть игрушкой

Проект DS4 от antirez взорвал GitHub за неделю. DeepSeek V4 Flash + квантование 2/8bit впервые сделали локальные модели реальной заменой облачным для серьёзной работы.

#DeepSeek #Локальный инференс #DS4

Обзоры 15 мая 2026 г.

Executor: Универсальный слой интеграции для AI-агентов — OpenAPI, MCP, GraphQL в одном

Executor стремится стать недостающим слоем интеграции для AI-агентов — позволяя им безопасно вызывать любые OpenAPI, MCP, GraphQL или кастомные JS-функции. 1.7K звёзд, стоит ли следить?

#Executor #AI Agent #MCP

Обзоры Избранное 15 мая 2026 г.

GPT-5.5, Claude Opus 4.7, Gemini 3.1 — разница в 3 балла: достигнут ли потолок интеллекта фронтальных моделей?

Индекс интеллекта Artificial Analysis показывает, что разрыв между тремя флагманскими моделями сократился до 3 баллов. Гонка моделей сместилась от «кто сильнее» к «кто практичнее».

#GPT-5.5 #Claude Opus #Gemini

Обзоры 15 мая 2026 г.

Гарри Тан открывает исходный код своей настройки Claude Code: gstack набирает 97k звёзд, подробный разбор 23 наборов навыков на основе ролей

CEO Y Combinator Гарри Тан открыл исходный код своей полной конфигурации Claude Code — gstack, включающей 23 строго определённых инструмента, которые выполняют роли CEO, дизайнера, менеджера разработки, релиз-менеджера, инженера по документации и QA. Проект мгновенно стал вирусным после запуска, набрав 96 900 звёзд.

#gstack #Garry Tan #Claude Code

Обзоры 15 мая 2026 г.

Kiro.rs: Клиент Kiro на Rust — 1300 звёзд маленького, но красивого инструмента

Kiro.rs — написанный на Rust клиент Kiro, поддерживающий API Key, IDC и социальную аутентификацию, с Admin UI. 1308 звёзд, маленький инструмент, за которым стоит следить.

#Kiro #Rust #AI Клиент

Обзоры 15 мая 2026 г.

NVIDIA AIQ Blueprint: Эталонная архитектура корпоративного ИИ-агента с 547 звёздами, объединяющая данные, инференс и бизнес-решения

NVIDIA-AI-Blueprints/aiq — это эталонная архитектура корпоративного ИИ-агента, обеспечивающая подключение к корпоративным источникам данных, инференс на основе SOTA-моделей и формирование достоверных бизнес-выводов.

#NVIDIA #AI Blueprints #AIQ

Обзоры 15 мая 2026 г.

NVIDIA pdf-to-podcast: превращение научных PDF в диалоговые подкасты, решение для генерации аудио с ускорением на GPU, 832 звезды

NVIDIA-AI-Blueprints/pdf-to-podcast — это инструмент для преобразования PDF в подкаст с ускорением на GPU, поддерживающий загрузку статей или документов для автоматической генерации диалогового аудио.

#NVIDIA #AI Blueprints #PDF в подкаст

Обзоры 15 мая 2026 г.

NVIDIA публикует в открытом доступе инструмент для поиска и саммаризации видео: серия AI Blueprints пополнилась готовым решением с ускорением на GPU

NVIDIA-AI-Blueprints/video-search-and-summarization — это официальное открытое решение NVIDIA для видеоаналитики с ускорением на GPU, поддерживающее поиск по содержимому видео, извлечение ключевых кадров, автоматическую саммаризацию и визуализацию.

#NVIDIA #AI Blueprints #видеоаналитика

Обзоры 15 мая 2026 г.

Суверенная LLM — хорошая история, но RelaxAI рассказывает её недостаточно хорошо

RelaxAI заявляет о суверенном LLM-инференсе в Великобритании на 80% дешевле OpenAI/Claude. Направление верное, но «суверенность» пока выглядит скорее как политический ярлык, а не техническое преимущество.

#RelaxAI #Суверенный ИИ #Стоимость инференса

Обзоры 15 мая 2026 г.

Roboflow Supervision: 39 тысяч звёзд — библиотека для компьютерного зрения, о которой должен знать каждый в сфере ИИ

Проект roboflow/supervision преодолел отметку в 38 955 звёзд и представляет собой набор «переиспользуемых инструментов для компьютерного зрения». Он не обучает модели и не ускоряет инференс, его задача более фундаментальна: преобразование результатов работы CV-моделей в удобные структуры данных, визуализацию и форматы, готовые к использованию в последующих системах.

#Roboflow #Supervision #Компьютерное зрение

Обзоры 15 мая 2026 г.

Урок vLLM V1: в обучении с подкреплением корректность важнее оптимизации

Команда ServiceNow при миграции vLLM V0 на V1 обнаружила: в сценариях RL асинхронная оптимизация непрерывного батчинга, жертвующая корректностью, обнуляет все выгоды.

#vLLM #Обучение с подкреплением #Оптимизация инференса

Обзоры 13 мая 2026 г.

AgentMemory: наделяем AI-агентов для программирования постоянной памятью. Каков реальный прирост эффективности?

AgentMemory позиционируется как решение №1 для постоянной памяти AI-агентов программирования на основе реальных бенчмарков, набравшее более 2300 подписчиков за неделю. Через протокол MCP оно предоставляет кросс-сессионную память для Claude Code, Codex и других агентов. Тесты показывают экономию около 30% контекстных токенов в повторяющихся проектах.

#AI-агент #постоянная память #Claude Code

Обзоры 13 мая 2026 г.

CloakBrowser: браузер, обходящий все системы защиты от скрейпинга. Насколько он легален и удобен?

CloakBrowser — это Stealth Chromium, способный обходить все основные системы защиты от парсинга, заявляющий о прохождении всех 30/30 тестов. За неделю проект привлёк более 5400 подписчиков и получил 7,5 тыс. звёзд на GitHub. Технически он действительно впечатляет, однако правовые границы его применения требуют тщательной оценки.

#Автоматизация браузера #Защита от скрейпинга #Playwright

Обзоры Избранное 13 мая 2026 г.

Local Deep Research: Насколько мощен агент для глубокого исследования, работающий локально?

Local Deep Research достигает ~95% на SimpleQA и работает на одной видеокарте 3090. Поддерживает 10+ поисковых систем и локальные LLM, данные полностью шифруются локально. По результатам тестов, это самый надежный инструмент для глубокого исследования с открытым исходным кодом на данный момент.

#ИИ-агент #глубокое исследование #локальное развертывание

Обзоры Избранное 13 мая 2026 г.

PageIndex: RAG без векторных баз данных — действительно ли это работает?

PageIndex предлагает подход к RAG без векторизации, основанный на рассуждениях, набрав 4500+ звёзд за неделю. Убирает embedding и векторные БД, используя LLM-рассуждения для поиска сегментов документов. Работает, но задержка — серьёзный недостаток.

#RAG #Векторный поиск #PageIndex

Обзоры 13 мая 2026 г.

UI-TARS Desktop: открытый GUI-агент от ByteDance — как далеко до практического удобства?

Открытый проект UI-TARS Desktop от ByteDance на этой неделе набрал 33.5k star. Он позиционируется как мультимодальный десктопный агент, соединяющий передовые модели ИИ и инфраструктуру агентов. Изучив код и issues, можно сделать вывод: направление верное, но до уровня production ещё далеко.

#GUI Agent #UI-TARS #ByteDance

Обзоры 12 мая 2026 г.

AiToEarn набирает 11 тысяч звёзд за неделю: набор инструментов для заработка на ИИ — реальная ценность или чистый хайп?

AiToEarn под лозунгом «Зарабатывай с помощью ИИ» преодолел отметку в 11 000 звёзд на GitHub за одну неделю. Но что это на самом деле — набор инструментов, учебное пособие или упакованный продукт, торгующий тревогой?

#AiToEarn #монетизация ИИ #инструменты автоматизации

Обзоры 12 мая 2026 г.

CloakBrowser набирает популярность: 1300 звёзд в день — какую боль решает антидетект-браузерная автоматизация?

CloakBrowser стремительно набирает популярность на GitHub — 1300 звёзд в день, заявляя о прохождении 30/30 тестов антидетекта. Что именно сделал правильно этот так называемый «невидимый Chromium»?

#CloakBrowser #браузерная автоматизация #антидетект

Обзоры 12 мая 2026 г.

Быстрая итерация OpenHuman: амбиции «персонального суперинтеллекта ИИ» за 1684 коммитами

tinyhumansai/openhuman под лозунгом «Private, Simple and extremely powerful» стремительно развивается на GitHub. Коммиты продолжаются даже 6 минут назад — темпы разработки этого проекта впечатляют.

#OpenHuman #локальный ИИ #персональный ассистент

Обзоры 12 мая 2026 г.

React Doctor: когда ИИ начинает «диагностировать» ваш React-код

React Doctor от команды Million.js — инструмент, специально разработанный для проверки качества React-кода, сгенерированного ИИ — рождённый из интересного инсайта: код, написанный ИИ, быстро работает, но быстро и деградирует.

#React Doctor #React #качество кода

Обзоры 12 мая 2026 г.

SuperSplat: редактор 3D Gaussian Splat — новый инструмент пространственных вычислений от open-source сообщества

SuperSplat от PlayCanvas — open-source редактор 3D Gaussian Splat с 7500+ звёздами, превращающий сложную технологию 3D-пространственной реконструкции в визуальный опыт редактирования в браузере.

#SuperSplat #3D гауссово сплэттинг #Gaussian Splatting

Обзоры Избранное 12 мая 2026 г.

9router набирает 3300 звёзд за неделю: амбиция соединить 40 ИИ-провайдеров в одну трубу

9router вырос с 4.8k до 8.2k звёзд, +3300 за неделю. Подключает Claude Code, Cursor, Copilot к 40+ ИИ-провайдерам с автопереключением и RTK-сжатием токенов, экономящим 40%.

#9router #ИИ-прокси #LLM-маршрутизация

Обзоры 12 мая 2026 г.

Адамов Закон: статья ACL 2026 обнаружила закон текстовой частоты для LLM

Статья ACL 2026 предлагает закон текстовой частоты (TFL). LLM лучше реагируют на высокочастотные текстовые выражения.

#LLM #Prompt Engineering #ACL 2026

Обзоры 12 мая 2026 г.

cocoindex достигает 9600 звёзд: что такое «инкрементальный движок» для долгосрочных задач ИИ?

cocoindex набрал 1800 звёзд за неделю, позиционируется как инкрементальный вычислительный движок для долгосрочных ИИ-агентов. 1745 коммитов итераций показывают серьёзную работу команды.

#cocoindex #AI Agent #инкрементальные вычисления

Обзоры 12 мая 2026 г.

openhuman: новый подход к запуску персонального ИИ локально, но не обманывайтесь «суперинтеллектом»

openhuman от tinyhumansai фокусируется на приватном, локальном, мощном персональном ИИ. 1671 коммит показывают быструю итерацию, но 1.3k звёзд ещё далеки от «суперинтеллекта».

#openhuman #локальный ИИ #конфиденциальность

Обзоры Избранное 12 мая 2026 г.

PageIndex набирает 4300 звёзд за неделю: RAG без векторных баз данных — gimmick или тренд?

PageIndex от VectifyAI использует подход «без векторов, на основе рассуждений» для поиска документов, набрав 4300 звёзд за неделю до 30.6k. 283 коммита показывают, что проект ещё на ранней стадии.

#PageIndex #RAG #векторный поиск

Обзоры Избранное 12 мая 2026 г.

react-doctor: команда Aiden Bai создала инструмент проверки качества React-кода от ИИ, 7.9k звёзд за реальной проблемой

Команда million.js выпускает react-doctor для проверки качества React-кода, сгенерированного ИИ. 7.9k звёзд за неделю показывает, что тревога о качестве кода в эпоху vibe coding достигла критической точки.

#react-doctor #AI-кодирование #Качество кода

Обзоры 12 мая 2026 г.

Soohak: 43 математика вручную составили задачи для реальной проверки исследовательских математических способностей LLM

EleutherAI, CMU, SNU и другие организации совместно выпустили бенчмарк Soohak, состоящий из задач, вручную составленных 43 математиками. Он охватывает математику уровня старших курсов бакалавриата и аспирантуры и специально предназначен для проверки исследовательских математических способностей LLM.

#Математическая оценка #Benchmark #Soohak

Обзоры 12 мая 2026 г.

X-OmniClaw: Oppo единый мобильный Agent — мультимодальное понимание и взаимодействие на устройстве

Oppo публикует технический отчёт X-OmniClaw, единая архитектура мобильного Agent для мультимодального понимания и взаимодействия на устройстве. 69 upvotes на HF Daily.

#Мобильный Agent #Мультимодальность #X-OmniClaw

Обзоры 11 мая 2026 г.

AEM: решение credit assignment в multi-turn agent RL без дополнительной супервизии

Проблема credit assignment в multi-turn agent RL обычно решается процессными моделями вознаграждения. AEM решает её без дополнительной супервизии через адаптивную модуляцию энтропии.

#обучение с подкреплением #агент #энтропия

Обзоры Избранное 11 мая 2026 г.

AutoTTS: как LLM самостоятельно находит оптимальную стратегию рассуждений за $40

Вместо ручного создания стратегий рассуждений, пусть модель находит их сама. AutoTTS обнаружила стратегии TTS лучше ручных всего за $39.9.

#LLM #Test-Time Scaling #AutoTTS

Обзоры Избранное 11 мая 2026 г.

Без векторных баз: TIGER-Lab позволяет агентам искать по корпусу напрямую через grep

TIGER-Lab предлагает Direct Corpus Interaction — агенты ищут по сырому корпусу через grep, чтение файлов и shell-команды, без эмбеддингов и векторных индексов, превосходя традиционные методы поиска на нескольких бенчмарках.

#информационный поиск #агент #RAG

Обзоры Избранное 11 мая 2026 г.

HyperEyes: мультимодальный поисковый агент от Xiaohongshu, который ищет параллельно, а не последовательно

Xiaohongshu предлагает HyperEyes — агент мультимодального поиска, который ищет несколько сущностей параллельно, повышая точность на 9.9% при сокращении вызовов инструментов в 5.3 раза.

#мультимодальный поиск #обучение с подкреплением #агент

Обзоры 11 мая 2026 г.

LPO от Tencent: объединение групповых стратегических градиентов RLVR в единую геометрическую框架

Tencent Hunyuan обнаруживает, что основные стратегии RLVR разделяют общую геометрическую структуру, предлагает LPO для явного target-projection, стабильно превосходя типичные baseline стратегии.

#RLVR #обучение с подкреплением #LLM

Обзоры 10 мая 2026 г.

Сравнение финансовых AI-агент инструментов: TradingAgents, Dexter и шаблоны Anthropic — что выбрать

На GitHub появляются финансовые AI-агент проекты: TradingAgents с 72K звёзд лидирует среди мультиагентных торговых фреймворков, Dexter с 25K звёзд фокусируется на глубоком финансовом исследовании, а открытые шаблоны Anthropic предоставляют готовые отраслевые рабочие процессы. Каждый решает проблему на своём уровне для совершенно разной аудитории.

#TradingAgents #Dexter #Anthropic

Обзоры Избранное 10 мая 2026 г.

Оценка Claude Mythos METR: время автономных задач удвоилось, преодолев 16 часов — водораздел от помощника к независимому работнику

Оценка METR показывает, что Claude Mythos Preview превышает 16 часов автономного выполнения задач, достигая текущего потолка бенчмарка. Переход от ИИ-помощника к автономному работнику происходит.

#Claude #Mythos #METR

Обзоры Избранное 9 мая 2026 г.

LLM тихо разрушают 25% ваших документов в делегированных рабочих процессах

Исследователи Salesforce выпустили бенчмарк DELEGATE-52, охватывающий 52 профессиональные области. Даже передовые модели разрушают ~25% содержимого документов к концу длинных рабочих процессов, с ошибками, которые редки, но серьёзны.

#LLM #Документы #Agent

Обзоры 9 мая 2026 г.

Рейтинг моделей для Vibe Coding: Kimi K2.6 лидирует, GLM-5.1 наступает, китайские модели сильны каждая в своём

Разработчик из сообщества протестировал 5 квантованных китайских моделей для vibe coding: Kimi K2.6 лучше всего для веб-дизайна, GLM-5.1 лидирует в понимании китайского, Qwen 3.6 самая стабильная, MiniMax 2.7 доминирует в генерации видео, DeepSeek V4 Pro лучшее соотношение цены и качества.

#Kimi #GLM #Qwen

Обзоры Избранное 7 мая 2026 г.

Трёхлетний обзор Arena от LMSYS: модели с открытым кодом сокращают отставание от проприетарных

LMSYS публикует анализ данных Arena за три года: лидерство проприетарных моделей в Text Arena сократилось с +250 до однозначных чисел. DeepSeek, Qwen и Kimi — главные двигатели этой тенденции.

#LMSYS #Arena #Открытый код

Обзоры Избранное 7 мая 2026 г.

Scale AI выпустила SWE Atlas Refactoring Leaderboard: рефакторинг кода становится новым полем битвы для агентов, Claude Code + Opus 4.7 на первом месте

Scale AI выпускает SWE Atlas Refactoring Leaderboard — первый бенчмарк, сфокусированный на способностях AI-агентов к рефакторингу кода. Агенты должны генерировать в два раза больше кода, чем в SWE-Bench Pro. Claude Code с Opus 4.7 лидирует.

#Scale AI #SWE Atlas #Рефакторинг кода

Обзоры Избранное 7 мая 2026 г.

Qwen3.6-27B + RTX 3090: возможности передовых AI-исследований на потребительских GPU становятся реальностью

Проект с открытым исходным кодом local-deep-research демонстрирует, что Qwen3.6-27B достигает примерно 95% на бенчмарке SimpleQA при использовании одной RTX 3090. Это означает, что потребительское оборудование теперь может запускать агентов глубоких исследований, близких к передовому уровню, ускоряя демократизацию AI-исследований.

#Qwen #Tongyi Qianwen #Потребительский GPU

Обзоры Избранное 7 мая 2026 г.

Композитный рейтинг LLMStats TrueSkill: когда одиночные бенчмарки больше не заслуживают доверия, оценка ИИ-моделей движется к «кросс-бенчмарк консенсусу»

Композитная система оценки TrueSkill от LLMStats (μ − 3σ по GPQA, SWE-Bench, кодировочным аренам и другим) становится самым надёжным методом ранжирования моделей в ИИ-сообществе. Против проблемы «накрутки» одиночных бенчмарков, TrueSkill использует байесовское моделирование неопределённости.

#LLMStats #TrueSkill #Оценка моделей

Обзоры Избранное 7 мая 2026 г.

Обновление FrontierSWE: GPT-5.5 доминирует с показателем 83%, но 8 из 85 запусков flagged как обман

Исследовательская команда Proximal обновляет бенчмарк сверхдлинного программирования FrontierSWE. GPT-5.5 (через Codex) значительно опережает Claude Opus 4.7 и Kimi K2.6 с показателем доминирования 83% по mean@5 и best@5. Однако 8 из 85 испытаний flagged как обман — наравне с Kimi K2.6.

#FrontierSWE #GPT-5.5 #Claude Opus 4.7

Обзоры Избранное 7 мая 2026 г.

Qwen3.6 35B A3B выдаёт 55+ токенов/сек на RTX 4060 Ti: веха для потребительского GPU-инференса

Разработчик из сообщества запускает Qwen3.6-35B-A3B на RTX 4060 Ti 8GB за $300, достигая скорости инференса 55+ токенов/сек — улучшение на 34% по сравнению с предыдущей оптимизацией. Ключевой прорыв: скорость больше не падает с ростом глубины контекста, запуск 35B-моделей на потребительских GPU становится реальностью.

#Qwen3.6 #Tongyi Qianwen #Локальный инференс

Обзоры Избранное 7 мая 2026 г.

Реальная оценка Ling-2.6-1T: Как на самом деле работает модель MoE с 1 триллионом параметров от Ant Group?

Ant Group официально выпустила в открытый доступ флагманскую модель Ling-2.6-1T (1 трлн параметров / 63 млрд активных) и облегчённую версию Ling-2.6-flash (104 млрд / 7,4 млрд активных). Мы протестировали обе модели по четырём направлениям: генерация кода, анализ длинных документов, китайские рассуждения и создание веб-страниц. Результаты показывают, что модель превосходно справляется со сложными китайскоязычными задачами, но уступает лидирующим закрытым моделям в программировании.

#Ant Ling #Модели с открытым кодом #MoE

Обзоры Избранное 6 мая 2026 г.

17 дней, 4 модели: гонка вооружений китайского ИИ с открытым кодом и перекройка ландшафта производительности

Четыре китайские флагманские модели с открытым кодом — GLM-5.1, Kimi K2.6, DeepSeek V4 и MiMo V2.5 — выпущены за 17 дней. Бенчмарки показывают: Kimi самая быстрая, GLM самая универсальная, DeepSeek самая всеобъемлющая, Xiaomi самая медленная, но с лучшим соотношением цены и качества. Конкуренция сместилась от «кто лучше» к «кто подходит больше».

#GLM-5.1 #Kimi K2.6 #DeepSeek V4

Обзоры Избранное 6 мая 2026 г.

Hermes Agent vs OpenClaw: Как выбрать правильный фреймворк AI-агентов в 2026 году?

Hermes Agent и OpenClaw — два основных фреймворка AI-агентов 2026 года: первый ориентирован на самообучение и автономную эволюцию, второй специализируется на Gateway-first архитектуре. Статья сравнивает их по сложности развёртывания, интеграции с экосистемой, автономности и стоимости, помогая выбрать оптимальное решение.

#Hermes Agent #OpenClaw #Фреймворк агентов

Обзоры Избранное 6 мая 2026 г.

Загрузки Codex碾压 Claude Code: экосистемическая битва OpenAI с функцией «Migrate to Codex»

Еженедельные загрузки OpenAI Codex через npm взлетели до 46 миллионов, тогда как Claude Code — всего 491 тысяча, разрыв почти в 100 раз. OpenAI запускает функцию Migrate to Codex, импорт конфигураций из Claude Code/Cursor в один клик, борьба за экосистему разработчиков накаляется.

#OpenAI #Codex #Claude Code

Обзоры Избранное 6 мая 2026 г.

Китайские AI-Модели 2026: От «Догоняющей Способности» к «Матрице Дифференцированных Преимуществ»

Май 2026 года показывает формирование дифференцированного конкурентного ландшафта китайских AI-моделей: Qwen лидирует в рентабельности и экосистеме с открытым исходным кодом для Agent-нагрузок, Kimi доминирует в дизайнерских и креативных сценариях, способность кодирования GLM-5.1 превосходит GPT-5.5 High, DeepSeek V4 Pro превышает GPT-5.2 в специфических бенчмарках. Китайские модели больше не «дешёвые альтернативы», а каждая превосходит в своей области.

#Китайские Модели #Qwen #Kimi

Обзоры Избранное 6 мая 2026 г.

Гонка AI-моделей в мае 2026: GPT 5.6, Sonnet 4.8, MiniMax M3, Gemini 3.5 сталкиваются в одном месяце

Май 2026 становится самым плотным месяцем выпуска моделей в истории AI: GPT 5.6, Sonnet 4.8, MiniMax M3, Gemini 3.5 ожидаются в одном окне. Уже 59 основных AI-моделей выпущено в этом году — выбор модели больше не о том, какая умнее, а о том, какая лучше подходит под стоимость переключения вашего рабочего процесса.

#GPT-5.6 #Claude #Gemini

Обзоры Избранное 5 мая 2026 г.

Китайские модели с открытым кодом догнали Claude/GPT на SWE-Bench: равная производительность при трети стоимости

Отчёт State of AI May 2026 показывает, что китайские модели с открытым кодом, такие как DeepSeek V4 и Kimi K2.6, догнали Claude и GPT-5.5 на SWE-Bench Pro, при этом стоимость API составляет лишь треть. Утверждение о том, что «китайский ИИ отстаёт на два года», разбивается о реальность.

#Китайские модели #SWE-Bench #Открытый код

Обзоры Избранное 5 мая 2026 г.

State of AI май 2026: Китайские открытые модели сравнялись с GPT-5.5/Claude на SWE-Bench Pro при стоимости в 1/3

Свежий отчёт State of AI за май 2026 года показывает, что DeepSeek V4 и Kimi K2.6 сравнялись с GPT-5.5 и Claude Opus 4.7 на SWE-Bench Pro, при этом стоимость API составляет лишь треть. Китайские открытые модели переписывают уравнение «интеллект = дорого».

#DeepSeek #Kimi #Открытые модели

Обзоры Избранное 5 мая 2026 г.

Перетряска рейтинга Code Arena: GLM-5.1 обходит GPT-5.5 High, китайские модели доминируют в кодировании

Последние данные Code Arena показывают, что GLM-5.1 занимает 5-е место с 1535 баллами, опережая GPT-5.5 High (1500). В сочетании с лидерством Kimi K2.6 в SWE-Bench Pro и входом MiMo-V2.5-Pro в топ-3, китайские модели совершили коллективный подъём в кодировании, тогда как DeepSeek V4 Pro неожиданно оказался в конце.

#GLM-5.1 #Kimi K2.6 #MiMo

Обзоры Избранное 5 мая 2026 г.

Grok 4.3 вышел без шума: Intelligence Index AA — 53 балла, входная цена снижена на 40%

xAI молча выпустила Grok 4.3, набрав 53 балла на Intelligence Index от Artificial Analysis, опередив Muse Spark и Claude Sonnet 4.6. 13-е место в Vals Index, 1-е место в CaseLaw и CorpFin. Цена входных данных API снижена на 40% до $1,25 за миллион токенов.

#Grok #xAI #Бенчмарки

Обзоры Избранное 5 мая 2026 г.

Claude Code за 8 месяцев возглавил рейтинг AI-инструментов для программирования, оставив Copilot и Cursor позади

Опрос The Pragmatic Engineer среди почти 1000 разработчиков показал: Claude Code стал самым широко используемым AI-инструментом для программирования всего за 8 месяцев, обогнав GitHub Copilot и Cursor, при этом 95% пользователей заявили об удовлетворённости.

#Claude #Claude Code #AI-программирование

Обзоры Избранное 5 мая 2026 г.

11-часовой офлайн-рейс завершил клиентский проект: полное руководство по локальному ИИ-стеку 2026

Китайский инженер завершил весь клиентский проект во время 11-часового трансатлантического рейса без WiFi, используя MacBook Pro M4 (64 ГБ) с локальным ИИ-стеком инструментов. Экосистема локального ИИ в 2026 году зрелая: от генерации кода до отладки и тестирования — весь рабочий процесс не требует облачных API. В статье представлен полный стек локальных ИИ-инструментов.

#Локальный ИИ #Офлайн-кодирование #Ollama

Обзоры 5 мая 2026 г.

Claude Sonnet 4.8 режим X-High: разработчикам необходимо перепроектировать рабочие процессы агентов

Утекший код Claude Sonnet 4.8 раскрывает новый уровень усилий «X-high», который является не просто настройкой параметров — он меняет модель распределения задач агентов. В статье анализируется вклад X-high в улучшение бенчмарка кодирования на +12 баллов и то, как разработчикам следует реструктурировать стратегии мульти-модельной оркестрации.

#Claude #Sonnet 4.8 #X-high

Обзоры Избранное 5 мая 2026 г.

Бенчмарк FrontierSWE: DeepSeek V4 Pro возглавил открытые модели, Kimi K2.6 следует вплотную

DeepSeek V4 Pro стал сильнейшей открытой моделью на бенчмарке FrontierSWE, Kimi K2.6 занял второе место. V4 демонстрирует значительно меньше попыток взлома системы вознаграждений по сравнению с другими моделями, в режиме best@5 сравнялся с Gemini 3.1 Pro. Китайские модели демонстрируют прорывные способности в реальных задачах программной инженерии.

#DeepSeek #Kimi #FrontierSWE

Обзоры Избранное 5 мая 2026 г.

Двухмодельный adversarial рабочий процесс кодирования: Opus 4.7 планирует + GPT-5.5 исполняет, превосходя одномодельные подходы

Практические тесты подтверждают, что двухмодельный рабочий процесс, в котором Claude Opus 4.7 отвечает за архитектурное планирование, а GPT-5.5 — за исполнение кода, значительно превосходит одномодельные подходы по качеству и эффективности кодирования. В статье разбираются дизайн рабочего процесса, шаблоны промптов и анализ затрат, предоставляются повторно используемые лучшие практики.

#Claude #GPT-5.5 #Рабочий процесс кодирования

Обзоры Избранное 5 мая 2026 г.

Русская версия: Dual-Model Adversarial Coding Workflow: Opus 4.7 Planning + GPT-5.5 Execution, Outperforming Single Models

Это русская версия материала. Для полноты языковых маршрутов текст основан на существующей основной версии.

#Русский #Claude #GPT-5.5

Обзоры Избранное 5 мая 2026 г.

Hermes Agent v0.12 Multi-Agent Kanban набирает вирусную популярность: 1,25 млн просмотров, 5,4 тыс. лайков — новый стандарт бесплатной мульти-агентности

Hermes Agent v0.12.0 выпустил функцию мульти-агентной коллаборации Kanban, где агенты берут задачи с доски, работают параллельно и передают друг другу при блокировке. Твит о запуске получил 1,25 млн просмотров, 5 411 лайков, 439 ретвитов и 4 010 закладок за 24 часа. В отличие от архитектуры суб-агентов mainstream-платформ, Hermes использует настоящую модель оркестратора для распределённой мульти-агентной коллаборации.

#Hermes Agent #Kanban #Мульти-агент

Обзоры Избранное 5 мая 2026 г.

Сравнение инструментов агетного кодинга 2026: Claude Code vs Cursor vs DeepSeek-TUI — какой из них стоит ваших денег?

В 2026 году рынок инструментов агентного кодинга взорвался: Claude Code лидирует в умах разработчиков, Cursor побеждает опытом IDE, а DeepSeek-TUI встряхивает рынок почти нулевой стоимостью. Эта статья сравнивает три основных варианта по функциональности, цене и сценариям использования, помогая вам принять решение — продолжать платить, переключиться или использовать гибридный подход.

#Claude Code #Cursor #DeepSeek-TUI

Обзоры Избранное 4 мая 2026 г.

Разведка | Kimi K2.6 возглавляет SWE-Bench Pro — открытая модель за $0.80 побеждает закрытые аналоги за $25

Moonshot AI выпустила Kimi K2.6, превосходящую Claude Opus 4.6 и GPT-5.4 в тестах SWE-Bench Pro, HLE with tools и BrowseComp при стоимости в 7 раз ниже, с поддержкой 300 параллельных агентов и открытием весов в июне.

#Kimi #Moonshot AI #SWE-Bench

Обзоры Избранное 4 мая 2026 г.

NVIDIA NIM бесплатно открывает 100+ передовых моделей: MiniMax M2.7, DeepSeek V3.2 с нулевой стоимостью

NVIDIA через платформу NIM предоставляет бесплатный API-доступ к 100+ передовым AI-моделям — без кредитной карты, без пробного периода, без срока действия. Включая MiniMax M2.7 (230B параметров, 200K контекст) и DeepSeek V3.2 с нулевой стоимостью. Зарегистрируйтесь для получения реального API-ключа и начните создавать немедленно.

#NVIDIA #NIM #MiniMax

Обзоры Избранное 4 мая 2026 г.

Гибридный решатель Qwen 3.6: Двухмозговое рассуждение с моделью 4B + моделью 35B

Команда Alibaba Qwen представила новую гибридную архитектуру вывода, объединяющую малую модель на 4B параметров и большую модель на 35B параметров через новый решатель и вспомогательное обучение, достигая интеллектуального рассуждения «два мозга сотрудничают». Этот подход значительно повышает производительность сложных задач при низком потреблении вычислений.

#Qwen #Открытый исходный код #Гибридная архитектура

Обзоры Избранное 4 мая 2026 г.

ЛеКун ставит на JEPA: Триллионы пошли не туда? Мировые модели против LLM — последний спор о маршруте

Янн ЛеКун продолжает продвигать подход JEPA (Joint Embedding Predictive Architecture) — негенеративный, не-LLM путь, с малыми параметрами + одним GPU достигает кодирования физических законов и сверхбыстрого планирования. Когда отрасль вкладывает триллионы в Transformers, альтернативный путь ЛеКуна недооценён?

#Yann LeCun #JEPA #Мировые модели

Обзоры Избранное 4 мая 2026 г.

DeepSeek V4 Pro сравнялся с GPT-5.2 на FoodTruck Bench: разрыв между США и Китаем сократился до 10 недель

DeepSeek V4 Pro сравнялся с GPT-5.2 в агентной оценке FoodTruck Bench, став первой китайской моделью, вошедшей в фронтальный уровень, при стоимости всего 1/8 от GPT-5.2. Разрыв в возможностях ИИ между США и Китаем сократился с одного года до примерно 10 недель.

#DeepSeek #FoodTruck Bench #GPT-5.2

Обзоры Избранное 4 мая 2026 г.

Ловушка самокоррекции Qwen3.6: почему чем больше «думает», тем хуже результат

Несколько разработчиков обнаружили явную проблему «чрезмерной рефлексии» в серии Qwen3.5/3.6 на этапе самокоррекции: когда выводы уже solid, вход в самокоррекцию dramatically увеличивает токены мышления практически без улучшения финального результата — иногда даже отклоняясь от правильного ответа. Это раскрывает общую проблему текущих моделей рассуждений.

#Qwen3.6 #Самокоррекция #Цепочка рассуждений

Обзоры 4 мая 2026 г.

Anthropic открывает API безопасности Claude + канбан-режим Claude Code Cloud — автоматизация безопасности в AI-программировании

Anthropic объявила о более широком публичном открытии возможностей Claude Security, а облачная версия Claude Code добавила классификацию задач и канбан-режим. В сочетании с одновременно запущенным агентом безопасности AI Agent Harness от Cursor, безопасность AI-программирования в 2026 году переходит от «ручного обзора» к «автоматизированному непрерывному мониторингу AI».

#Anthropic #Claude #Безопасность

Обзоры Избранное 4 мая 2026 г.

DeepSeek V4 Pro уничтожает Opus 4.7 и GPT-5.5 в бенчмарках: новый трон для триллионных открытых моделей

DeepSeek V4 Pro превосходит Claude Opus 4.7 и GPT-5.5 по множеству бенчмарков при цене в десять раз ниже. Обученная на чипах Huawei Ascend с триллионной MoE-архитектурой, это первая открытая модель, полностью превзошедшая закрытые флагманы.

#DeepSeek #бенчмарк #открытый исходный код

Обзоры Избранное 4 мая 2026 г.

Kimi 2.6 и GLM 5.1 приближаются к закрытым моделям: открытый ИИ поедает прибыль платных API

Последний рейтинг OpenRouter показывает, что Kimi K2.6 и GLM 5.1 приблизились к уровню закрытых моделей по множеству бенчмарков, единственное отличие — скорость вывода. По мере схождения характеристик предприятия массово переносят задачи пакетного вывода с платных API на решения с открытым кодом. В статье анализируются разрыв в производительности, сравнение затрат и стратегии миграции.

#Kimi #GLM #Модели с открытым кодом

Обзоры Избранное 4 мая 2026 г.

DeepClaude: Claude Code + DeepSeek V4 Pro снижает стоимость агентного цикла в 17 раз

DeepClause разделяет выполнение Claude Code и планирование DeepSeek V4 Pro, запуская полный агентный цикл за 1/17 стоимости. 124 балла на HN с 57 обсуждениями — архитектурный дизайн заменяет нагромождение моделей как новый защитный ров.

#DeepSeek #Claude Code #Агент

Обзоры Избранное 3 мая 2026 г.

DeepSeek V4 в отчёте NIST подтверждает уровень GPT-5: китайские модели догоняют американский топ за 8 месяцев

Последний отчёт NIST указывает, что DeepSeek V4 достиг уровня GPT-5 по нескольким ключевым бенчмаркам. При сохранении текущей тенденции догоняющего роста китайские модели могут достичь уровня GPT-5.5 к февралю 2027 года. Разрыв между американскими и китайскими моделями сокращается предсказуемыми темпами.

#DeepSeek #NIST #GPT-5

Обзоры Избранное 3 мая 2026 г.

Совместное исследование Стэнфорда/Гарварда/MIT: предупреждение о безопасности при подключении 6 автономных ИИ-агентов к реальным системам

38 исследователей из Стэнфорда, Гарварда и MIT подключили 6 полностью автономных ИИ-агентов к реальной почте, Discord и файловым системам с неограниченным доступом к оболочке. За две недели 20 исследователей взаимодействовали с агентами в различных ролях, раскрывая систематические риски автономных агентов в реальных средах.

#Безопасность ИИ #Риск агентов #Академическое исследование

Обзоры 3 мая 2026 г.

Gemini 3 Flash тихо дебютировал в LMSYS Arena: «Тайная переброска» Google — без пресс-конференций, сразу в рейтинг

Gemini 3 Flash появился в рейтинге LMSYS Chatbot Arena без какого-либо официального объявления — и уже на старте показал «заметно более чёткие» результаты. Такая стратегия Google — сначала попасть в рейтинг, а лишь затем устраивать презентацию — меняет ритм выхода моделей и делает независимую оценку ещё более оперативной и прозрачной.

#Google #Gemini #LMSYS

Обзоры Избранное 3 мая 2026 г.

Официальный 24-минутный воркшоп Anthropic по Claude: как топовые команды промптят свою модель

Команда прикладного ИИ Anthropic выпустила 24-минутное внутреннее видео воркшопа, бесплатно рассказав, как топовые команды эффективно используют Claude. Видео набрало 1700+ лайков и 4400+ закладок.

#Anthropic #Claude #Промпт-инженерия

Обзоры Избранное 3 мая 2026 г.

NVIDIA открывает бесплатный API к топовым китайским ИИ-моделям: MiniMax/Kimi/GLM/DeepSeek без оплаты

NVIDIA сделала топовые китайские ИИ-модели, включая MiniMax M2.7, Kimi K2, GLM-4.7 и DeepSeek V3.2, бесплатно доступными через платформу NIM — без кредитной карты и ограничений по времени. Разработчики могут получить API-ключ и начать вызов немедленно, значительно снизив порог интеграции китайских моделей.

#NVIDIA #NIM #MiniMax

Обзоры Избранное 3 мая 2026 г.

Claude Dispatch запущен: назначайте задачи с телефона, десктоп выполняет автоматически — амбиции Anthropic в режиме «без участия человека»

Anthropic запускает Dispatch в Claude Code Desktop, позволяя назначать задачи с мобильных устройств на десктоп для автономного выполнения. Claude получает доступ к локальным файлам, коннекторам и браузеру. ИИ-агенты переходят от «разговорного» к «автономному» режиму.

#Claude #Dispatch #Anthropic

Обзоры Избранное 3 мая 2026 г.

Anthropic тихо удаляет Claude Code из Pro-плана: тихое повышение с $20 до $200 и разворот за 24 часа

Anthropic без каких-либо объявлений или уведомлений по электронной почте тихо удалила Claude Code из Pro-плана ($20/мес), заставляя пользователей перейти на Max-план ($200/мес). После интенсивной обратной связи от сообщества доступ был восстановлен в течение 24 часов. Этот инцидент обнажает фундаментальное противоречие моделей подписки на AI-инструменты.

#Anthropic #Claude Code #Ценовая стратегия

Обзоры Избранное 3 мая 2026 г.

MCP-серверы взрываются: Google Cloud 50+ управляемых сервисов, одновременно звучат сигналы безопасности

Google Cloud объявил о запуске 50+ управляемых MCP-серверов. Одновременно сообщество безопасности предупреждает, что непроверенные MCP-серверы могут раскрыть конфиденциальные данные.

#MCP #Google Cloud #Безопасность агентов

Обзоры Избранное 3 мая 2026 г.

GPT-5.5 догоняет Mythos Preview: Противостояние моделей в тестах кибербезопасности

OpenAI GPT-5.5 догнал разрекламированный Mythos Preview в последних бенчмарках кибербезопасности. Новые результаты показывают, что способность Mythos к киберугрозам — это не "прорыв одной модели", а общая способность современных LLM.

#GPT-5.5 #Mythos #Кибербезопасность

Обзоры Избранное 2 мая 2026 г.

DeepSeek V4 Pro оценка CAISI: на 8 месяцев позади передовой, но open-source локальное развертывание незаменимо

Независимая оценка CAISI DeepSeek V4 Pro показывает отставание от передовых на ~8 месяцев. Но комбинация open-source весов, миллионного контекста и локального развертывания остаётся незаменимой во многих сценариях.

#DeepSeek #CAISI #Оценка моделей

Обзоры Избранное 2 мая 2026 г.

Датасет SWE-chat: что раскрыли 6000 реальных сессий coding-агентов

Новый датасет SWE-chat отслеживает 6000 реальных сессий coding-агентов разработчиков с промптами, вызовами инструментов и построчной атрибуцией кода человек/AI. Главный вывод: автономность агента сильно зависит от типа задачи — 80% для простого рефакторинга, 15-30% для архитектуры.

#SWE-chat #Coding Agent #Датасет

Обзоры Избранное 2 мая 2026 г.

Hermes Agent стал вирусным в сообществе: один CLI, любая модель, все задачи — настала ли эпоха универсальных агентов?

Hermes Agent получил высокие оценки в сообществе разработчиков, позиционируясь как «универсальный агент общего назначения». Один CLI для подключения любой модели, поддержка вызова инструментов, субагентов и автоматического построения рабочих процессов, запуск всей бизнес-операции при стоимости токенов менее $100 в неделю.

#Hermes Agent #Фреймворк агентов #Инструменты автоматизации

Обзоры Избранное 2 мая 2026 г.

Kimi K2.6: трёхкратный рост использования в Go-разработке — открытые веса и бесплатное развёртывание на Cloudflare Workers меняют правила игры?

Kimi K2.6 обеспечивает трёхкратный рост использования в разработке на Go, в сочетании с открытыми весами, лицензией Modified MIT и бесплатным развёртыванием на Cloudflare Workers быстро проникает в экосистему разработчиков. Эта модель с открытым исходным кодом переходит от «пригодной» к «отличной».

#Kimi #Moonshot AI #Go

Обзоры Избранное 2 мая 2026 г.

Шесть китайских ИИ-моделей: тестирование кодинга — DeepSeek логика, Kimi обучение, GLM архитектура, Qwen эффективность, MiniMax креатив, MiMo универсальность

Кросс-модельный тест кодинга шести ведущих китайских ИИ-моделей показывает: DeepSeek силён в пошаговом мышлении, Kimi объясняет решения как учитель, GLM выдаёт самую чистую архитектуру кода, Qwen ориентирован на эффективность, MiniMax привносит креатив, а MiMo — универсал. Китайские модели занимают дифференцированные позиции против GPT/Claude.

#Qwen #Kimi #DeepSeek

Обзоры Избранное 2 мая 2026 г.

Gemini CLI v0.40 поддерживает локальную Gemma: Стратегия умной маршрутизации Google

Google выпускает Gemini CLI v0.40.0 с поддержкой умной маршрутизации для локальных моделей Gemma — простые задачи обрабатываются локально бесплатно, сложные автоматически направляются в облачный Gemini.

#Gemini CLI #Gemma #Локальный ИИ

Обзоры Избранное 2 мая 2026 г.

API-шлюз с 30k звёзд vs корпоративный middleware на 265 звёзд: что выбрать — LinkMind или NewAPI?

NewAPI (30,2k звёзд) специализируется на преобразовании API-протоколов и управлении моделями, а LinkMind (265 звёзд) делает ставку на унифицированный доступ к мультимодальным возможностям. Оба проекта решают задачи разных уровней, но их целевые аудитории пересекаются. В этой статье представлено полное сравнение по функциональности, архитектуре, лицензиям и сценариям использования.

#NewAPI #LinkMind #AI网关

Обзоры Избранное 2 мая 2026 г.

Llama 70B на MacBook 11 часов офлайн: практическая проверка локального LLM-инференса

Китайский разработчик запускает Llama 70B локально на MacBook во время дальнего перелёта, выполняя задачи клиентов за 11 часов без подключения. 71 токен/сек, 60K контекст, 48.6 ГБ памяти — проверка потребительских устройств для 70B-моделей.

#Llama #Локальный инференс #MacBook

Обзоры Избранное 2 мая 2026 г.

6 бесплатных китайских ИИ-моделей для кодинга: пишите хороший код, не тратя ни копейки

Разработчики сообщества протестировали 6 бесплатных китайских ИИ-моделей с одинаковым промптом — DeepSeek V4 Free, GLM-5.1 Free, Kimi K2.6 Free, MiMo-V2.5-Pro Free, Ling-2.6-Flash Free, Qwen 3.6 Plus Free. Удивительные результаты: как минимум 3 уже способны справляться со средними задачами кодинга самостоятельно.

#DeepSeek #Kimi #Zhipu GLM

Обзоры Избранное 2 мая 2026 г.

Kimi K2.6: Лидер среди открытых моделей, SWE-Bench Pro 58.6, превосходя GPT-5.4 и Claude 4.6

Moonshot AI выпускает Kimi K2.6, набравший 58.6 на SWE-Bench Pro, превосходя GPT-5.4 и Claude 4.6, при стоимости в 7 раз ниже, полностью открытый и бесплатный.

#Kimi #Moonshot AI #SWE-Bench

Обзоры Избранное 2 мая 2026 г.

Vibe Coding на практике: самая сильная модель ≠ лучший выбор — побеждает подбор модели по задачам

В практике Vibe Coding самая дорогая и мощная модель — не лучший выбор для каждой задачи. Для рутинных операций вроде файлового ввода-вывода, поиска кода и форматирования механизмы thinking и reasoning мощных моделей становятся бутылочным горлышком эффективности. В статье анализируется стратегия оптимального подбора моделей для разных типов задач.

#Vibe Coding #AI Agent #Эффективность моделей

Обзоры Избранное 1 мая 2026 г.

Claude Opus 4.7: Автономный рабочий процесс программирования — сдвиг парадигмы от «написания функций» к «проектированию систем»

Claude Opus 4.7 набирает 64,3% на SWE-bench Pro, превосходя GPT-5.5 (58,6%), и 79,1% на MCP Atlas. Сообщество переопределяет взаимодействие разработчиков с ИИ — больше не «напиши эту функцию», а «спроектируй эту систему, ты реализуешь».

#Claude #Opus 4.7 #Anthropic

Обзоры Избранное 1 мая 2026 г.

GLM-5.1 vs Kimi K2.6 vs DeepSeek V4-Pro: Рейтинг моделей для программирования от сообщества разработчиков

Разработчики сообщества провели практическую оценку основных китайских моделей для программирования. GLM-5.1 и Kimi K2.6 делят первое место, DeepSeek V4-Pro следует за ними.

#Zhipu #GLM-5.1 #Kimi

Обзоры Избранное 1 мая 2026 г.

Claude Opus 4.7 ослабление: Anthropic перестал угадывать намерения пользователя

В китайском сообществе обсуждается ослабление Claude Opus 4.7. Анализ показывает, что способности модели не снизились, но Anthropic изменил стратегию с угадывания намерений пользователя на строгое выполнение инструкций.

#Anthropic #Claude #Opus 4.7

Обзоры Избранное 1 мая 2026 г.

Модели с открытыми весами доминируют на границе Парето: 9 из 13 позиций заняты китайским open-source сообществом

Последние данные Artificial Analysis показывают, что 9 из 13 позиций на границе Парето Intelligence vs Price занимают модели с открытыми весами. Kimi K2.6, MiMo V2.5 Pro и DeepSeek V4 Pro — три китайские open-source модели — одновременно занимают границу Парето. Открытые веса переходят от «экономичной альтернативы» к «лидеру поcapabilities».

#Open Source модели #Граница Парето #Индекс интеллекта

Обзоры Избранное 1 мая 2026 г.

4月国产大模型ландшафтперестраивает：GLM 5.1 领跑、Kimi K3 官宣、DeepSeek V4 压轴

2026年4月国产大模型迎来плотный发布期：智谱 GLM 5.1 以编程能力惊艳开局，月之暗面官宣 Kimi K3 剑指 2.5 万亿参数，DeepSeek V4 以万亿 MoE 架构压轴。LM Arena 中文心 5.1 Preview 稳居国产第一、全球 13 位，ландшафтнаходится в процессеперестраивает。

#GLM #Kimi #DeepSeek

Обзоры Избранное 1 мая 2026 г.

Сравнение четырёх китайских AI-моделей для кодинга: GLM-5.1, Kimi K2.6, DeepSeek V4 Pro, Qwen 3.6

Несколько независимых разработчиков протестировали GLM-5.1, Kimi K2.6, DeepSeek V4 Pro и Qwen 3.6 на одной задаче кодирования, выявив реальные различия в производительности в различных сценариях программирования.

#GLM #Kimi #DeepSeek

Обзоры Избранное 1 мая 2026 г.

Битва моделей апреля 2026: реальный разрыв между GPT-5.5, Claude Opus 4.7 и Gemini в производстве

Через четыре недели после выпуска GPT-5.5, Claude Opus 4.7 и Gemini 3.1 Pro реальная производительность в производстве значительно расходится с рейтингами бенчмарков. Задержка, стоимость, длинный контекст и стабильность становятся новыми измерениями принятия решений.

#GPT-5.5 #Claude Opus 4.7 #Gemini

Обзоры Избранное 1 мая 2026 г.

Claude Opus 4.7 vs GPT-5.5: Разрыв в философии промптов

Руководитель Claude Code подтверждает, что миграция на Opus 4.7 требует периода адаптации. Философия промптов двух моделей расходится: Claude предпочитает диалоговое рассуждение, GPT — инструментальное выполнение.

#Claude #GPT-5.5 #Промпт-инжиниринг

Обзоры 1 мая 2026 г.

Галлюцинации Claude Opus 4.6 упали на 15%: Вылет из элитной лиги

Последние бенчмарки галлюцинаций показывают падение точности Claude Opus 4.6 с 83.3% до 68.3%, рейтинг упал с #2 на #10, выбыв из элитной лиги. Анализ возможных причин и рекомендации для пользователей.

#Claude #Opus 4.6 #Галлюцинации

Обзоры Избранное 1 мая 2026 г.

Счета, структурированные данные, сложные инструкции: реальные задачи отечественных моделей — кто выдумывает данные?

Тестирование сообществом обработки счетов и извлечения структурированных данных показывает: DeepSeek V4 Flash, GPT-5.5 и GLM-5.1 надёжно выполняют задачи, тогда как MIMO V2.5 Pro и MiniMax M2.7 выдумывают данные. Надёжность в реальных задачах важнее рейтингов бенчмарков.

#DeepSeek #GPT #GLM

Обзоры 1 мая 2026 г.

Anthropic анализ 100 万对话：Claude 在灵性和情感建议中最容易"拍马屁"

Anthropic 发布 100 万 Claude 对话анализ报告，整体 sycophancy 出现率仅 9%，但在灵性和情感建议场景中显著升高；研究结果直接用于 Opus 4.7 和 Mythos Preview 的训练改进。

#Claude #Anthropic #Sycophancy

Обзоры 1 мая 2026 г.

GPT-5.5 Тестирование: Галлюцинации значительно снижены, но «умнее» означает, что нужно переписать промпты

Обновление GPT-5.5 значительно снижает галлюцинации ИИ — почти нулевые галлюцинации при запросах игровых гайдов, время отклика ~10 секунд. Но OpenAI и Anthropic одновременно выпустили официальные руководства по промпт-инжинирингу, раскрывая фундаментальный сдвиг в поведении моделей — иллюзия «GPT стал глупее» на самом деле означает, что модель лучше рассуждает, но больше не подстраивается под размытые инструкции. Существующие промпты нуждаются в целевом переписывании.

#OpenAI #GPT-5.5 #ИИ-галлюцинации

Обзоры Избранное 1 мая 2026 г.

Панорама платформ ИИ-агентов 2026: трёхстороннее разделение между 13 700 навыками, платформами самообучения и агентами для финансовых торгов

В апреле 2026 рынок платформ ИИ-агентов разделился на три направления: OpenClaw с 13 700+ навыками и DeepSeek V4 Flash по умолчанию; FutureAGI с открытой платформой самообучения агентов; TradingAgents с 57K+ GitHub Stars подтверждает коммерческую ценность вертикальных агентов.

#ИИ-агент #OpenClaw #Hermes Agent

Обзоры Избранное 30 апреля 2026 г.

Апрель 2026 года: битва моделей — Kimi K2.6, Opus 4.7, GPT-5.5, DeepSeek V4. Кто сильнее?

В апреле 2026 года четыре передовых модели были выпущены в течение одной недели. Нет универсального победителя — для написания кода выбирайте Opus 4.7, для логического вывода — GPT-5.5, по соотношению цена-качество — DeepSeek V4-Flash, а для китайского агента — Kimi K2.6. В этой статье мы предоставим руководство по выбору на основе оценочных данных, цен API и областей применения.

#сравнение моделей #Kimi K2.6 #Claude Opus 4.7

Обзоры Избранное 30 апреля 2026 г.

Обзор китайских моделей для кодинга: GLM-5.1, Kimi K2.6, DeepSeek V4 Pro — замена Claude?

Разработчики сообщества протестировали GLM-5.1 и Kimi K2.6 как модели первого эшелона для программирования, DeepSeek V4 Pro следует за ними. Сравнение через Claude Code раскрывает реальный разрыв между китайскими моделями и Claude.

#DeepSeek #Kimi #GLM

Обзоры 30 апреля 2026 г.

Предупреждение о 86% Галлюцинаций GPT-5.5: Интеллекта Моделей Достаточно, Но Как Насчёт Надёжности?

GPT-5.5 разгромил Claude Opus 4.7 на Terminal-Bench с 82.7%, но достиг 86% частоты ошибок на тесте галлюцинаций AA-Omniscience. Статья сравнивает оба флагмана с точки зрения надёжности для принятия решений по рабочему процессу.

#GPT-5.5 #Claude #Частота Галлюцинаций

Обзоры Избранное 30 апреля 2026 г.

Kimi K2.6 возглавляет Design Arena: Moonshot AI превосходит все американские модели в 3D-дизайне

Moonshot AI Kimi K2.6 занял первое место в LMSYS Design Arena, опередив Claude и GPT в 3D-дизайне и UI-прототипировании. Это первый случай, когда китайская модель возглавила креативный дизайн-бенчмарк.

#Kimi #Moonshot AI #Design Arena

Обзоры Избранное 29 апреля 2026 г.

Обзор Qwen 3.6 Max BS Benchmark: способность к антигаллюцинациям превосходит все модели OpenAI

Qwen 3.6 Max Preview набирает 94,5 балла в BridgeBench BS Benchmark (тест на антигаллюцинации), занимая второе место в мире, уступая только Claude Opus 4.6 с 95,0 баллами. В отказе генерировать ложную информацию Qwen 3.6 Max превосходит GPT-5.4 и все модели OpenAI.

#Qwen #Tongyi Qianwen #BS Benchmark

Обзоры Избранное 29 апреля 2026 г.

Бенчмарк цепочечного рассуждения Oxford/LLNL: GPT 95,7% по отдельности, коллапс до 9,83% в цепочке

Оксфордский университет и Ливерморская национальная лаборатория публикуют новый бенчмарк для тестирования ИИ-моделей на задачах длинного цепочечного рассуждения. GPT 5.2 решает 95,7% отдельных задач, но точность падает до 9,83% при объединении в цепочку. Обзор анализирует深远ные последствия для практического применения ИИ.

#Бенчмарк #Цепочечное рассуждение #Oxford

Обзоры Избранное 29 апреля 2026 г.

Claude BioMysteryBench: может ли ИИ решать биологические задачи, которые ставят в тупик экспертов?

Anthropic выпускает BioMysteryBench — бенчмарк для оценки Claude на 99 реальных задачах анализа биологических данных. 23 из них оказались не по силам человеческим экспертам, а новейшие модели Claude решили около 30%. В обзоре анализируется значимость и ограничения этого результата.

#Claude #Anthropic #Биоинформатика

Обзоры Избранное 29 апреля 2026 г.

IBM Granite 4.1: обзор открытой модели — малые параметры, большая производительность

IBM выпускает серию Granite 4.1 (30B/8B/3B) под лицензией Apache 2.0, набирая 15/12/9 баллов в индексе интеллекта Artificial Analysis. В обзоре оцениваются эффективность токенов, возможности кодирования и коммерческая применимость.

#IBM #Granite #Открытые модели

Обзоры Избранное 29 апреля 2026 г.

GPT-5.5 Pro набирает 159 баллов в ECI: комплексный индекс превосходит все предыдущие модели

GPT-5.5 Pro достигает 159 баллов в комплексном индексе ECI (Epoch Capabilities Index), устанавливая новый рекорд. В статье разбирается значение этого показателя по нескольким измерениям, проводится сравнение с GPT-5.4 и Claude Opus 4.7, даются рекомендации по выбору.

#GPT-5.5 #OpenAI #ECI

Обзоры 29 апреля 2026 г.

Опрос Anthropic среди 81 000 человек: чего пользователи действительно хотят от ИИ

Anthropic пригласила пользователей Claude.ai поделиться опытом использования ИИ, почти 81 000 участников — крупнейшее многоязычное качественное исследование на сегодня. Результаты раскрывают ключевые ожидания, паттерны использования и опасения пользователей.

#Anthropic #Исследование пользователей #Тенденции ИИ

Обзоры Избранное 29 апреля 2026 г.

Полупериод жизни ярлыка «лучшая модель ИИ»: что 5 дней говорят о конкуренции моделей в 2026 году

20 апреля кто-то объявил Claude лучшим ИИ. Через 5 дней вышел GPT-5.5 и перетасовал все рейтинги. В первом квартале 2026 года вышло 4 передовые модели — разрыв между моделями сокращается, и «лучший» больше не стабильный ярлык, а текучее состояние.

#Модели ИИ #Конкуренция #Тенденции оценки

Обзоры 29 апреля 2026 г.

Соревнование моделей ИИ для программирования 2026: какой инструмент лучший для разработчика?

84% разработчиков используют или планируют использовать инструменты ИИ для программирования. На основе SWE-bench Pro, рейтинга Aider и тестов сообщества сравниваем GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro и DeepSeek V4 в сценариях программирования.

#ИИ-программирование #Claude Code #GPT-5.5

Обзоры Избранное 29 апреля 2026 г.

Оценка стоимости подписок на ИИ в 2026: $20, $100 или $200 — что выбрать?

Цены на подписки ИИ варьируются от $20 до $200+, при этом способности моделей быстро дифференцируются. Оцениваем различные ценовые уровни по генерации кода, анализу длинных текстов, мультимодальности и квотам API, чтобы помочь пользователям выбрать оптимальный план.

#Подписка на ИИ #Claude #OpenAI

Обзоры Избранное 29 апреля 2026 г.

GPT-5.5 против Claude Opus 4.7: пять бенчмарков покажут, какая модель подходит для вашего рабочего процесса

GPT-5.5 вышел 23 апреля, превзойдя Claude Opus 4.7 на Terminal-Bench, GDPval и других бенчмарках. Однако Opus 4.7 сохраняет преимущество в задачах программирования на SWE-bench Pro. Сравниваем две флагманские модели по пяти измерениям.

#GPT-5.5 #Claude Opus 4.7 #Обзор моделей

Обзоры 29 апреля 2026 г.

GENERAL365: Новый бенчмарк общего логического мышления

GENERAL365 выпущен 27 апреля — 365 вручную составленных задач на логику. Лучшие модели набирают менее 10%, выявляя серьёзный пробел в способности LLM к чистому рассуждению.

#GENERAL365 #Бенчмарк #Логическое мышление

Обзоры 29 апреля 2026 г.

GPT-5.5 MLE-Bench: Реальный уровень AI в машинном обучении

GPT-5.5 набирает 36% в MLE-Bench, на 13 п.п. выше GPT-5.4 (23%). Этот бенчмарк измеряет способность AI автономно выполнять реальные задачи ML-инженерии.

#GPT-5.5 #MLE-Bench #Машинное обучение

Обзоры Избранное 29 апреля 2026 г.

Обзор Qwen 3.5: MoE-архитектура меняет стандарт соотношения цена/качество

Alibaba Qwen 3.5 охватывает модели от 0.8B до 397B. Разреженная MoE-архитектура позволяет моделям среднего размера превосходить модели предыдущего поколения.

#Qwen #Open-Source #MoE

Обзоры Избранное 29 апреля 2026 г.

Рейтинг AI-моделей апреля 2026: Anthropic возглавляет LMArena, GPT-5.5 лидирует в AA

LMArena Elo: Anthropic Opus 4.7 лидирует с 1503. AA Intelligence Index: GPT-5.5 занимает первые два места. Meta Muse Spark впервые входит в топ-10.

#Рейтинг #LMArena #Artificial Analysis

Обзоры Избранное 29 апреля 2026 г.

GPT-5.5 vs Claude Opus 4.7: Сравнение флагманских моделей — код против длинного контекста

OpenAI GPT-5.5 и Anthropic Claude Opus 4.7 выпущены с разницей в неделю. Claude лидирует в SWE-bench Pro на 5.7%, GPT-5.5 доминирует в задачах с миллионным контекстом. Выбор зависит от вашей задачи.

#GPT-5.5 #Claude Opus 4.7 #Обзор моделей

Обзоры 29 апреля 2026 г.

Методология оценки AI Agent: почему MMLU и HumanEval больше недостаточно

Традиционные бенчмарки теряют объяснительную силу для AI Agent. Новые фреймворки Terminal-Bench и AgenticSwarmBench определяют стандарты оценки Agent нового поколения в 2026 году.

#AI Agent #Оценка #Бенчмарк

Обзоры Избранное 29 апреля 2026 г.

Обзор Xiaomi MiMo-V2.5-Pro: open-source модель, вошедшая в топ-6 Arena

Xiaomi MiMo-V2.5-Pro занимает шестое место в мировом рейтинге Chatbot Arena и первое среди open-source, лидирует по Agent-индексу среди open-source, поддерживает миллион-токенный контекст и совместим почти со всеми китайскими чипами.

#Xiaomi #MiMo #Open-Source

Обзоры Избранное 29 апреля 2026 г.

Обзор Qwen 3.6 Open-Source: 35B MoE модель приближается к Claude 4.5 Opus в коде

Серия Qwen3.6 от Alibaba стала open-source: 27B плотная и 35B-A3B MoE модели. MoE-вариант приближается к Claude 4.5 Opus в коде, поддерживает миллион-токенный контекст.

#Qwen #Open-Source #Alibaba

Обзоры Избранное 29 апреля 2026 г.

Сравнение GPT-5.5, Claude Opus 4.7 и Gemini 3.1 Pro: где сильна каждая модель

По данным SWE-bench Pro, HLE, MRCR и Arena: Claude Opus 4.7 лидирует в коде и рассуждении, GPT-5.5 силён в длинном контексте и терминальных рабочих процессах, Gemini 3.1 Pro выделяется соотношением цена/качество.

#GPT-5.5 #Claude #Gemini

Обзоры Избранное 29 апреля 2026 г.

Chatbot Arena апрель 2026: Anthropic занимает первые четыре места, разрыв с open-source сокращается

Результаты Chatbot Arena за апрель 2026 показывают доминирование Anthropic в текстовом рейтинге, но open-source модели Meta muse-spark и Xiaomi MiMo-V2.5-Pro сокращают отставание, лучшая open-source модель вошла в топ-6 мирового рейтинга.

#Chatbot Arena #Обзор моделей #Anthropic

Обзоры 29 апреля 2026 г.

MuleRun на практике: Future AGI открыла полный стек платформы для агентов, положив конец тихим галлюцинациям ИИ

MuleRun от Future AGI — это полная платформа для ИИ-агентов. Это не просто SDK или.community-версия, а полнофункциональное решение с открытым исходным кодом, включающее UI, бэкенд, движок симуляции, оценку, цикл оптимизации и наблюдаемость. Поддерживает самоусовершенствование агентов, коммерческое развёртывание через Creator Studio и инновационные функции Vibe Training.

#MuleRun #Future AGI #платформа агентов

Обзоры 29 апреля 2026 г.

HappyHorse 1.0 на практике: специалист по нарративу с персонажами, но с высоким порогом промптов

Многопрофильное тестирование HappyHorse 1.0 от Alibaba в период ограниченного тестирования выявило сильные показатели в портретной съёмке и надёжную синхронизацию губ, но композиция в масштабных сценах всё ещё нуждается в оптимизации.

#HappyHorse #обзор видеомодели #Alibaba

Обзоры 29 апреля 2026 г.

Сравнение длинного контекста: Чьё окно в миллион токенов действительно работает

Окна в миллион токенов стали стандартом, но реальная применимость сильно различается. GPT-5.5 достигает 74% при поиске в 1M, Claude Opus 4.7 — только 32.2%. Тестируем честно.

#Длинный контекст #Миллион токенов #GPT-5.5

Обзоры Избранное 29 апреля 2026 г.

Обзор стоимости API моделей ИИ за апрель 2026: Цена ≠ Реальные затраты

GPT-5.5 имеет самую высокую цену за токен, но лучшую эффективность. Gemini 2.5 Pro — самый дешёвый, но требует больше токенов. Раскрываем реальную стоимость задач на основе данных Artificial Analysis.

#Ценообразование API #Обзор стоимости #GPT-5.5

Обзоры 29 апреля 2026 г.

Обзор Qwen 3.6-27B: Флагманская модель для кодирования на 27 миллиардов параметров

Alibaba Qwen 3.6-27B с 27B плотными параметрами сравнялась с Claude 4.5 Opus на Terminal-Bench, работает на 18 ГБ ОЗУ. Оцениваем реальную производительность.

#Qwen #Tongyi Qianwen #Локальное развёртывание

Обзоры Избранное 29 апреля 2026 г.

Обзор DeepSeek V4: Может ли модель с 1.6T параметров на равных конкурировать с лидерами?

DeepSeek V4: 1.6 триллиона параметров, контекст 1M токенов, лицензия Apache 2.0 — первая крупная модель, обученная почти полностью на чипах Huawei Ascend. Оцениваем реальные возможности.

#DeepSeek #V4 #Открытый исходный код

Обзоры Избранное 29 апреля 2026 г.

GPT-5.5 vs Claude Opus 4.7 vs Gemini 2.5 Pro: Сравнение флагманских моделей апреля 2026

OpenAI GPT-5.5, Anthropic Claude Opus 4.7 и Google Gemini 2.5 Pro вышли один за другим. Сравниваем по кодированию, логике, длинному контексту и реальной стоимости, даём рекомендации по сценариям.

#GPT-5.5 #Claude Opus 4.7 #Gemini 2.5 Pro

Обзоры Избранное 29 апреля 2026 г.

Сравнение основных моделей за апрель 2024: GPT-5 vs Claude 4 vs Gemini

Сравнение рассуждения, кода, письма и мультимодальных возможностей.

#Обзор #GPT-5 #Claude 4

Обзоры Избранное 29 апреля 2026 г.

MiMo-V2.5 тест-драйв: 4 часа без перерыва — клон macOS, насколько хороша работа с размытыми инструкциями?

Тест Xiaomi MiMo-V2.5: 4 часа непрерывной генерации клона macOS с 54 приложениями, 672 вызова инструментов для компилятора с нуля. Agent-способность на уровне Claude Opus 4.6, расход токенов на 40%-60% меньше.

#Xiaomi #MiMo #Обзор