C
ChaoBro

Обзоры

Опыт, бенчмарки и ограничения

Обзоры

qiaomu: Claude Skill, превращающий любой контент в материал для NotebookLM — подкасты, презентации, ментальные карты

qiaomu — Claude Skill с поддержкой 15+ источников контента (включая обход пейволлов), автозагрузкой в Google NotebookLM для генерации подкастов, презентаций, ментальных карт. Встроенная 6-уровневая цепочка обхода пейволлов. 2347 звёзд за неделю.

#Claude Code #NotebookLM #Обработка контента
Обзоры

Brush: открытый инструмент, который стремится вывести 3D-реконструкцию из лабораторий в повседневное использование

Репозиторий ArthurBrussee/brush набрал 4,6 тыс. звёзд за 1166 коммитов. Это не демонстрационный проект — он действительно предназначен для того, чтобы сделать 3D-реконструкцию доступной обычным пользователям.

#3D-реконструкция #компьютерное зрение #открытый инструмент
Обзоры

Личная ИИ-инфраструктура Дэниела Мисслера: за 14K звёзд скрывается полноценная персональная ИИ-рабочая станция

Проект Personal_AI_Infrastructure Дэниела Мисслера с 617 коммитами и 14.2K звёзд доказывает: персональная ИИ-рабочая станция — это не абстрактная концепция, а готовое к развёртыванию решение.

#Персональный ИИ #Инфраструктура #Open Source
Обзоры

bambuddy: Центр управления 3D-принтерами без облака: от одного устройства до фермы из 40 штук

bambuddy — это открытая платформа для самостоятельного управления 3D-принтерами Bambu Lab, поддерживающая единый контроль от одной модели A1 до фермы из 40 устройств. Работает полностью локально без привязки к официальным облачным сервисам, включает интеграцию с Spoolman для управления расходными материалами и предпросмотр G-кода.

#bambuddy #3D-печать #Bambu Lab
Обзоры

Proma: Внедряем возможности Claude Agent в чаты Feishu — эксперимент китайского разработчика с рабочими процессами агентов

Proma — это open-source платформа агентов на базе Claude Agent SDK с нативной поддержкой вызовов в групповых чатах Feishu и гибким подключением к любым провайдерам больших языковых моделей. Она представляет практический подход: "запустить возможности лучших агентов именно там, где вы работаете каждый день".

#Proma #Claude Agent SDK #Feishu
Обзоры

RuView набирает 55 000 звёзд: «невидимый глаз» для пространственного восприятия на сигналах Wi-Fi без камер

RuView использует обычные сигналы Wi-Fi для реализации пространственного восприятия в реальном времени, мониторинга жизненных показателей и детекции присутствия — абсолютно без камер. Проект набрал на GitHub более 55 000 звёзд, вызвав дискуссии о технологиях пространственного восприятия в «эпоху после камер».

#RuView #Wi-Fi зондирование #Пространственный интеллект
Обзоры

scientific-agent-skills: 21 000 звёзд — набор инструментов, дающий ИИ-агентам «научный мозг»

Опенсорсный набор scientific-agent-skills от K-Dense AI — это готовое решение «из коробки», объединяющее навыки агента для научных исследований, инженерии, аналитики, финансов и написания текстов. Проект уже собрал 21 500 звёзд и продолжает привлекать более 600 новых еженедельно, являясь одним из самых заметных вертикальных решений в экосистеме Agent Skills.

#scientific-agent-skills #Agent Skills #Исследовательские инструменты
Обзоры

Supertonic: Корейская команда открыла исходный код движка TTS для локальной работы, поддерживающего 9 языков с задержкой на уровне миллисекунд

Южнокорейская аудиотехнологическая компания Supertone открыла исходный код Supertonic — полностью локального многоязычного движка преобразования текста в речь (TTS), поддерживающего 9 языков, включая китайский, японский, корейский и английский, с кроссплатформенным развертыванием через ONNX Runtime. Без зависимости от облака, нулевая задержка, полностью автономная работа.

#Supertonic #TTS #Синтез речи
Обзоры

Causal Forcing++: группа ML Tsinghua — генерация видео в реальном времени через дистилляцию за несколько шагов

Группа ML Tsinghua (thu-ml) предлагает Causal Forcing++ — авторегрессионную диффузионную дистилляцию для интерактивной генерации видео в реальном времени. 72 голоса на Hugging Face Daily Papers.

#Causal Forcing #Генерация видео #Диффузионные модели
Обзоры

CurveBench: Gemini 3.1 Pro набирает лишь 19,1% на задаче топологического рассуждения — слепые зоны визуального мышления LLM больше, чем вы думаете

Бенчмарк CurveBench выявляет серьёзные недостатки LLM в точном топологическом рассуждении: сильнейшая модель Gemini 3.1 Pro — лишь 71,1% на простых задачах, 19,1% на сложных. Qwen3-VL-8B после RLVR-файнтьюнинга обходит GPT-5.4 и Claude Opus 4.5.

#CurveBench #Топологическое рассуждение #Визуальное рассуждение
Обзоры

PreScam: прогнозирование мошенничества на ранних стадиях разговора — бенчмарк Нотр-Дамского университета

Нотр-Дамский университет выпускает PreScam — бенчмарк из 11 573 многораундовых мошеннических диалогов, извлечённых из 178 тысяч реальных отчётов. Supervised-энкодеры значительно превосходят zero-shot LLM на задаче прогнозирования завершения мошенничества.

#PreScam #Обнаружение мошенничества #Анализ разговоров
Обзоры

Self-Distilled Agentic RL: Агент учит сам себя — новый подход к обучению с подкреплением

Self-Distilled Agentic Reinforcement Learning предлагает агенту само-дистилляцию в ходе RL-обучения, повышая качество стратегии без внешних моделей-учителей. 58 голосов на HF Daily Papers, 11 авторов.

#Обучение с подкреплением #Агент #Self-Distillation
Обзоры

Когда оценка превращается в игру в кошки-мышки: AI-бенчмарки теряют доверие

Open ASR Leaderboard от Hugging Face добавил механизм «Benchmaxxer Repellant». Когда модели начинают оптимизироваться под бенчмарки, баллы больше не отражают реальные способности.

#Бенчмарки #Оценка #Benchmaxxer
Обзоры

Codegraph: Локальный граф знаний для Claude Code — меньше токенов, меньше вызовов инструментов

Codegraph заменяет семантический поиск на преиндексированный граф знаний кода, помогая Claude Code тратить меньше токенов и делать меньше вызовов инструментов в больших проектах.

#Codegraph #Claude Code #Граф знаний
Обзоры

Гарри Тан открывает исходный код своей настройки Claude Code: gstack набирает 97k звёзд, подробный разбор 23 наборов навыков на основе ролей

CEO Y Combinator Гарри Тан открыл исходный код своей полной конфигурации Claude Code — gstack, включающей 23 строго определённых инструмента, которые выполняют роли CEO, дизайнера, менеджера разработки, релиз-менеджера, инженера по документации и QA. Проект мгновенно стал вирусным после запуска, набрав 96 900 звёзд.

#gstack #Garry Tan #Claude Code
Обзоры

NVIDIA AIQ Blueprint: Эталонная архитектура корпоративного ИИ-агента с 547 звёздами, объединяющая данные, инференс и бизнес-решения

NVIDIA-AI-Blueprints/aiq — это эталонная архитектура корпоративного ИИ-агента, обеспечивающая подключение к корпоративным источникам данных, инференс на основе SOTA-моделей и формирование достоверных бизнес-выводов.

#NVIDIA #AI Blueprints #AIQ
Обзоры

NVIDIA pdf-to-podcast: превращение научных PDF в диалоговые подкасты, решение для генерации аудио с ускорением на GPU, 832 звезды

NVIDIA-AI-Blueprints/pdf-to-podcast — это инструмент для преобразования PDF в подкаст с ускорением на GPU, поддерживающий загрузку статей или документов для автоматической генерации диалогового аудио.

#NVIDIA #AI Blueprints #PDF в подкаст
Обзоры

NVIDIA публикует в открытом доступе инструмент для поиска и саммаризации видео: серия AI Blueprints пополнилась готовым решением с ускорением на GPU

NVIDIA-AI-Blueprints/video-search-and-summarization — это официальное открытое решение NVIDIA для видеоаналитики с ускорением на GPU, поддерживающее поиск по содержимому видео, извлечение ключевых кадров, автоматическую саммаризацию и визуализацию.

#NVIDIA #AI Blueprints #видеоаналитика
Обзоры

Суверенная LLM — хорошая история, но RelaxAI рассказывает её недостаточно хорошо

RelaxAI заявляет о суверенном LLM-инференсе в Великобритании на 80% дешевле OpenAI/Claude. Направление верное, но «суверенность» пока выглядит скорее как политический ярлык, а не техническое преимущество.

#RelaxAI #Суверенный ИИ #Стоимость инференса
Обзоры

Roboflow Supervision: 39 тысяч звёзд — библиотека для компьютерного зрения, о которой должен знать каждый в сфере ИИ

Проект roboflow/supervision преодолел отметку в 38 955 звёзд и представляет собой набор «переиспользуемых инструментов для компьютерного зрения». Он не обучает модели и не ускоряет инференс, его задача более фундаментальна: преобразование результатов работы CV-моделей в удобные структуры данных, визуализацию и форматы, готовые к использованию в последующих системах.

#Roboflow #Supervision #Компьютерное зрение
Обзоры

Урок vLLM V1: в обучении с подкреплением корректность важнее оптимизации

Команда ServiceNow при миграции vLLM V0 на V1 обнаружила: в сценариях RL асинхронная оптимизация непрерывного батчинга, жертвующая корректностью, обнуляет все выгоды.

#vLLM #Обучение с подкреплением #Оптимизация инференса
Обзоры

AgentMemory: наделяем AI-агентов для программирования постоянной памятью. Каков реальный прирост эффективности?

AgentMemory позиционируется как решение №1 для постоянной памяти AI-агентов программирования на основе реальных бенчмарков, набравшее более 2300 подписчиков за неделю. Через протокол MCP оно предоставляет кросс-сессионную память для Claude Code, Codex и других агентов. Тесты показывают экономию около 30% контекстных токенов в повторяющихся проектах.

#AI-агент #постоянная память #Claude Code
Обзоры

CloakBrowser: браузер, обходящий все системы защиты от скрейпинга. Насколько он легален и удобен?

CloakBrowser — это Stealth Chromium, способный обходить все основные системы защиты от парсинга, заявляющий о прохождении всех 30/30 тестов. За неделю проект привлёк более 5400 подписчиков и получил 7,5 тыс. звёзд на GitHub. Технически он действительно впечатляет, однако правовые границы его применения требуют тщательной оценки.

#Автоматизация браузера #Защита от скрейпинга #Playwright
Обзоры

UI-TARS Desktop: открытый GUI-агент от ByteDance — как далеко до практического удобства?

Открытый проект UI-TARS Desktop от ByteDance на этой неделе набрал 33.5k star. Он позиционируется как мультимодальный десктопный агент, соединяющий передовые модели ИИ и инфраструктуру агентов. Изучив код и issues, можно сделать вывод: направление верное, но до уровня production ещё далеко.

#GUI Agent #UI-TARS #ByteDance
Обзоры

AiToEarn набирает 11 тысяч звёзд за неделю: набор инструментов для заработка на ИИ — реальная ценность или чистый хайп?

AiToEarn под лозунгом «Зарабатывай с помощью ИИ» преодолел отметку в 11 000 звёзд на GitHub за одну неделю. Но что это на самом деле — набор инструментов, учебное пособие или упакованный продукт, торгующий тревогой?

#AiToEarn #монетизация ИИ #инструменты автоматизации
Обзоры

CloakBrowser набирает популярность: 1300 звёзд в день — какую боль решает антидетект-браузерная автоматизация?

CloakBrowser стремительно набирает популярность на GitHub — 1300 звёзд в день, заявляя о прохождении 30/30 тестов антидетекта. Что именно сделал правильно этот так называемый «невидимый Chromium»?

#CloakBrowser #браузерная автоматизация #антидетект
Обзоры

Быстрая итерация OpenHuman: амбиции «персонального суперинтеллекта ИИ» за 1684 коммитами

tinyhumansai/openhuman под лозунгом «Private, Simple and extremely powerful» стремительно развивается на GitHub. Коммиты продолжаются даже 6 минут назад — темпы разработки этого проекта впечатляют.

#OpenHuman #локальный ИИ #персональный ассистент
Обзоры

React Doctor: когда ИИ начинает «диагностировать» ваш React-код

React Doctor от команды Million.js — инструмент, специально разработанный для проверки качества React-кода, сгенерированного ИИ — рождённый из интересного инсайта: код, написанный ИИ, быстро работает, но быстро и деградирует.

#React Doctor #React #качество кода
Обзоры

SuperSplat: редактор 3D Gaussian Splat — новый инструмент пространственных вычислений от open-source сообщества

SuperSplat от PlayCanvas — open-source редактор 3D Gaussian Splat с 7500+ звёздами, превращающий сложную технологию 3D-пространственной реконструкции в визуальный опыт редактирования в браузере.

#SuperSplat #3D гауссово сплэттинг #Gaussian Splatting
Обзоры

cocoindex достигает 9600 звёзд: что такое «инкрементальный движок» для долгосрочных задач ИИ?

cocoindex набрал 1800 звёзд за неделю, позиционируется как инкрементальный вычислительный движок для долгосрочных ИИ-агентов. 1745 коммитов итераций показывают серьёзную работу команды.

#cocoindex #AI Agent #инкрементальные вычисления
Обзоры

openhuman: новый подход к запуску персонального ИИ локально, но не обманывайтесь «суперинтеллектом»

openhuman от tinyhumansai фокусируется на приватном, локальном, мощном персональном ИИ. 1671 коммит показывают быструю итерацию, но 1.3k звёзд ещё далеки от «суперинтеллекта».

#openhuman #локальный ИИ #конфиденциальность
Обзоры

Soohak: 43 математика вручную составили задачи для реальной проверки исследовательских математических способностей LLM

EleutherAI, CMU, SNU и другие организации совместно выпустили бенчмарк Soohak, состоящий из задач, вручную составленных 43 математиками. Он охватывает математику уровня старших курсов бакалавриата и аспирантуры и специально предназначен для проверки исследовательских математических способностей LLM.

#Математическая оценка #Benchmark #Soohak
Обзоры

X-OmniClaw: Oppo единый мобильный Agent — мультимодальное понимание и взаимодействие на устройстве

Oppo публикует технический отчёт X-OmniClaw, единая архитектура мобильного Agent для мультимодального понимания и взаимодействия на устройстве. 69 upvotes на HF Daily.

#Мобильный Agent #Мультимодальность #X-OmniClaw
Обзоры

AEM: решение credit assignment в multi-turn agent RL без дополнительной супервизии

Проблема credit assignment в multi-turn agent RL обычно решается процессными моделями вознаграждения. AEM решает её без дополнительной супервизии через адаптивную модуляцию энтропии.

#обучение с подкреплением #агент #энтропия
Обзоры

LPO от Tencent: объединение групповых стратегических градиентов RLVR в единую геометрическую框架

Tencent Hunyuan обнаруживает, что основные стратегии RLVR разделяют общую геометрическую структуру, предлагает LPO для явного target-projection, стабильно превосходя типичные baseline стратегии.

#RLVR #обучение с подкреплением #LLM
Обзоры

Сравнение финансовых AI-агент инструментов: TradingAgents, Dexter и шаблоны Anthropic — что выбрать

На GitHub появляются финансовые AI-агент проекты: TradingAgents с 72K звёзд лидирует среди мультиагентных торговых фреймворков, Dexter с 25K звёзд фокусируется на глубоком финансовом исследовании, а открытые шаблоны Anthropic предоставляют готовые отраслевые рабочие процессы. Каждый решает проблему на своём уровне для совершенно разной аудитории.

#TradingAgents #Dexter #Anthropic
Обзоры

Рейтинг моделей для Vibe Coding: Kimi K2.6 лидирует, GLM-5.1 наступает, китайские модели сильны каждая в своём

Разработчик из сообщества протестировал 5 квантованных китайских моделей для vibe coding: Kimi K2.6 лучше всего для веб-дизайна, GLM-5.1 лидирует в понимании китайского, Qwen 3.6 самая стабильная, MiniMax 2.7 доминирует в генерации видео, DeepSeek V4 Pro лучшее соотношение цены и качества.

#Kimi #GLM #Qwen
Обзоры

Claude Sonnet 4.8 режим X-High: разработчикам необходимо перепроектировать рабочие процессы агентов

Утекший код Claude Sonnet 4.8 раскрывает новый уровень усилий «X-high», который является не просто настройкой параметров — он меняет модель распределения задач агентов. В статье анализируется вклад X-high в улучшение бенчмарка кодирования на +12 баллов и то, как разработчикам следует реструктурировать стратегии мульти-модельной оркестрации.

#Claude #Sonnet 4.8 #X-high
Обзоры

Anthropic открывает API безопасности Claude + канбан-режим Claude Code Cloud — автоматизация безопасности в AI-программировании

Anthropic объявила о более широком публичном открытии возможностей Claude Security, а облачная версия Claude Code добавила классификацию задач и канбан-режим. В сочетании с одновременно запущенным агентом безопасности AI Agent Harness от Cursor, безопасность AI-программирования в 2026 году переходит от «ручного обзора» к «автоматизированному непрерывному мониторингу AI».

#Anthropic #Claude #Безопасность
Обзоры

Gemini 3 Flash тихо дебютировал в LMSYS Arena: «Тайная переброска» Google — без пресс-конференций, сразу в рейтинг

Gemini 3 Flash появился в рейтинге LMSYS Chatbot Arena без какого-либо официального объявления — и уже на старте показал «заметно более чёткие» результаты. Такая стратегия Google — сначала попасть в рейтинг, а лишь затем устраивать презентацию — меняет ритм выхода моделей и делает независимую оценку ещё более оперативной и прозрачной.

#Google #Gemini #LMSYS
Обзоры

Галлюцинации Claude Opus 4.6 упали на 15%: Вылет из элитной лиги

Последние бенчмарки галлюцинаций показывают падение точности Claude Opus 4.6 с 83.3% до 68.3%, рейтинг упал с #2 на #10, выбыв из элитной лиги. Анализ возможных причин и рекомендации для пользователей.

#Claude #Opus 4.6 #Галлюцинации
Обзоры

GPT-5.5 Тестирование: Галлюцинации значительно снижены, но «умнее» означает, что нужно переписать промпты

Обновление GPT-5.5 значительно снижает галлюцинации ИИ — почти нулевые галлюцинации при запросах игровых гайдов, время отклика ~10 секунд. Но OpenAI и Anthropic одновременно выпустили официальные руководства по промпт-инжинирингу, раскрывая фундаментальный сдвиг в поведении моделей — иллюзия «GPT стал глупее» на самом деле означает, что модель лучше рассуждает, но больше не подстраивается под размытые инструкции. Существующие промпты нуждаются в целевом переписывании.

#OpenAI #GPT-5.5 #ИИ-галлюцинации
Обзоры

Предупреждение о 86% Галлюцинаций GPT-5.5: Интеллекта Моделей Достаточно, Но Как Насчёт Надёжности?

GPT-5.5 разгромил Claude Opus 4.7 на Terminal-Bench с 82.7%, но достиг 86% частоты ошибок на тесте галлюцинаций AA-Omniscience. Статья сравнивает оба флагмана с точки зрения надёжности для принятия решений по рабочему процессу.

#GPT-5.5 #Claude #Частота Галлюцинаций
Обзоры

Опрос Anthropic среди 81 000 человек: чего пользователи действительно хотят от ИИ

Anthropic пригласила пользователей Claude.ai поделиться опытом использования ИИ, почти 81 000 участников — крупнейшее многоязычное качественное исследование на сегодня. Результаты раскрывают ключевые ожидания, паттерны использования и опасения пользователей.

#Anthropic #Исследование пользователей #Тенденции ИИ
Обзоры

Соревнование моделей ИИ для программирования 2026: какой инструмент лучший для разработчика?

84% разработчиков используют или планируют использовать инструменты ИИ для программирования. На основе SWE-bench Pro, рейтинга Aider и тестов сообщества сравниваем GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro и DeepSeek V4 в сценариях программирования.

#ИИ-программирование #Claude Code #GPT-5.5
Обзоры

GENERAL365: Новый бенчмарк общего логического мышления

GENERAL365 выпущен 27 апреля — 365 вручную составленных задач на логику. Лучшие модели набирают менее 10%, выявляя серьёзный пробел в способности LLM к чистому рассуждению.

#GENERAL365 #Бенчмарк #Логическое мышление
Обзоры

MuleRun на практике: Future AGI открыла полный стек платформы для агентов, положив конец тихим галлюцинациям ИИ

MuleRun от Future AGI — это полная платформа для ИИ-агентов. Это не просто SDK или.community-версия, а полнофункциональное решение с открытым исходным кодом, включающее UI, бэкенд, движок симуляции, оценку, цикл оптимизации и наблюдаемость. Поддерживает самоусовершенствование агентов, коммерческое развёртывание через Creator Studio и инновационные функции Vibe Training.

#MuleRun #Future AGI #платформа агентов
Обзоры

HappyHorse 1.0 на практике: специалист по нарративу с персонажами, но с высоким порогом промптов

Многопрофильное тестирование HappyHorse 1.0 от Alibaba в период ограниченного тестирования выявило сильные показатели в портретной съёмке и надёжную синхронизацию губ, но композиция в масштабных сценах всё ещё нуждается в оптимизации.

#HappyHorse #обзор видеомодели #Alibaba
Обзоры

Сравнение длинного контекста: Чьё окно в миллион токенов действительно работает

Окна в миллион токенов стали стандартом, но реальная применимость сильно различается. GPT-5.5 достигает 74% при поиске в 1M, Claude Opus 4.7 — только 32.2%. Тестируем честно.

#Длинный контекст #Миллион токенов #GPT-5.5