C
ChaoBro

AI-исследования

Важные статьи, бенчмарки, датасеты и экспериментальные подходы

Исследования

CiteVQA: бенчмарк для интеллектуальной обработки документов от OpenDataLab, делающий каждую ссылку ИИ проверяемой

OpenDataLab выпустила бенчмарк CiteVQA, специально предназначенный для оценки способности систем интеллектуальной обработки документов отслеживать источники ответов. Набрав 143 голоса, он возглавил список Daily Papers на HuggingFace — доверенный ИИ превращается из лозунга в измеримый технический показатель.

#CiteVQA #OpenDataLab #интеллектуальная обработка документов
Исследования

CLI-Anything набирает 1000 звёзд за неделю: как сделать всё ПО «Agent-Native» — новый подход команды из Гонконгского университета

Проект CLI-Anything от команды HKUDS Гонконгского университета возглавил GitHub Trending, собрав более 36 000 звёзд. Его ключевая идея — превратить всё программное обеспечение в «Agent-Native». Это не просто инструмент, а смена парадигмы в архитектуре ПО.

#CLI-Anything #Agent-Native #Гонконгский университет
Исследования

MMSkills: Шанхайский университет Цзяотун разделил возможности визуального агента на «набор навыков» — новая парадигма мультимодальных ИИ-агентов

Шанхайский университет Цзяотун представил фреймворк MMSkills, который разделяет возможности мультимодального визуального агента на комбинируемые и переиспользуемые единицы навыков. Статья набрала 99 голосов и попала в тренды HuggingFace — переход к «навыковой» архитектуре агентов может оказаться ближе к будущему, чем подход, основанный исключительно на «моделях».

#MMSkills #мультимодальный агент #Шанхайский университет Цзяотун
Исследования

Разбор технического отчета PhysBrain 1.0: ИИ наконец начинает «понимать» физический мир

DeepCybo выпустила технический отчет PhysBrain 1.0, посвященный созданию системы ИИ, способной понимать законы физики. От интуитивной физики до проверки через генерацию видео — этот технологический путь может оказаться ближе к истинному «интеллекту», чем чистые языковые модели.

#PhysBrain #физическое рассуждение #DeepCybo
Исследования

Новая статья Tencent Hunyuan: Сколько эффективности на самом деле высвобождает On-Policy Distillation?

Команда Tencent Hunyuan опубликовала новую статью, в которой систематически исследуется эффективность On-Policy Distillation в раскрытии потенциала моделей. В работе показано ключевое влияние выбора стратегии дистилляции на производительность моделей, что предоставляет эмпирическую основу для обучения крупномасштабных моделей.

#On-Policy Distillation #Tencent Hunyuan #дистилляция моделей
Исследования

TideGS: обучение более 1 млрд 3D-гауссов на одной GPU с 24 ГБ видеопамяти, Spotlight на ICML 2026

Благодаря иерархическому управлению памятью SSD-CPU-GPU, TideGS позволяет обучать 3DGS с использованием более 1 млрд гауссовых примитивов на одной GPU с 24 ГБ памяти. Это в 10 раз больше, чем у предыдущих out-of-core базовых решений (~100 млн), и примерно в 100 раз больше, чем у обучения в оперативной памяти (~11 млн). Статья принята в формате Spotlight на конференцию ICML 2026.

#TideGS #3D Gaussian Splatting #Out-of-Core
Исследования

CogOmniControl: превращение «понимания творческого замысла» в движок рассуждений для генерации видео

Статья CogOmniControl представляет рамочную архитектуру контролируемой генерации видео, управляемую рассуждениями: процесс генерации разделяется на два этапа — когнитивное понимание творческого замысла и непосредственную генерацию видео. CogVLM, обученная на профессиональных данных анимационного производства, точно интерпретирует разреженные абстрактные условия; в сочетании с CogOmniDiT и алгоритмом обучения с подкреплением (RL) для выравнивания она превосходит существующие открытые модели на двух специально созданных бенчмарках.

#CogOmniControl #генерация видео #контролируемая генерация
Исследования

Полностью автоматизированный исследовательский процесс на основе ИИ: одна научная статья может быть сгенерирована всего за 15 долларов США, однако её достоверность остаётся серьёзной проблемой

Совместно с Национальным университетом Сингапура и другими учреждениями опубликована «Дорожная карта ИИ для автоматизированных исследований», в которой системно анализируются границы возможностей ИИ на всех этапах научного цикла: генерация одной статьи обходится всего в 15 долларов США, однако языковые модели по-прежнему склонны к выдумыванию результатов, пропуску скрытых ошибок и неспособны надёжно оценивать новизну исследований.

#ИИ в науке #Автоматизированные исследования #Научная добросовестность
Исследования

SkillsVote: «система голосования» для навыков AI-агентов, позволяющая модели самоэволюционировать без обновления весов

IAAR-Shanghai и Memtensor Research Group представили SkillsVote — фреймворк для управления полным жизненным циклом навыков агентов. Оффлайн-эволюция повысила показатели GPT-5.2 в Terminal-Bench 2.0 на 7,9 процентных пункта, а онлайн-эволюция улучшила результаты в SWE-Bench Pro на 2,6 процентных пункта.

#Agent #SkillsVote #эволюция навыков
Исследования

ByteDance представила Lance: нативную унифицированную мультимодальную модель, обученную с нуля и объединяющую понимание, генерацию и редактирование

ByteDance анонсировала Lance — мультимодальную унифицированную модель, полностью обученную с нуля, поддерживающую понимание, генерацию и редактирование изображений и видео. Архитектура модели основана на двухпотоковой смеси экспертов (MoE), обеспечивая заметное превосходство в качестве генерации по сравнению с существующими открытыми унифицированными моделями при сохранении высокой точности понимания.

#ByteDance #Lance #мультимодальность
Исследования

Код как средство управления агентами: когда код перестаёт быть выходным результатом и превращается в «операционную систему» агента

Статья дня на Hugging Face №1 — обзорная работа 42 авторов систематически представляет концепцию «Код как средство управления агентами» (Code as Agent Harness), позиционируя код как единый инфраструктурный уровень для рассуждений, действий и моделирования среды агентов.

#агент #генерация кода #средство управления агентами
Исследования

NVIDIA LongLive-2.0: полностековая параллельная инфраструктура на базе NVFP4, ускорение обучения генерации длинных видео в 2.15 раза, скорость вывода — 45.7 FPS

Команда NVIDIA представила LongLive-2.0 — первую полностековую систему для обучения и вывода при генерации длинных видео на базе точности NVFP4. Внедрены параллелизм по последовательности при авторегрессионном обучении и вывод в формате W4A4, что ускоряет обучение в 2.15 раза, а вывод — в 1.84 раза. 5B-модель достигает скорости 45.7 FPS.

#NVIDIA #LongLive-2.0 #генерация видео
Исследования

Полная дорожная карта автоматизированных исследований с ИИ: статью можно написать автоматически, но подводные камни научной добросовестности остаются весьма серьёзными

Команда NUS опубликовала дорожную карту AI for Auto-Research, системно анализирующую границы надёжности ИИ на протяжении всего жизненного цикла научных исследований: от генерации идей до публикации статей — какие этапы ИИ может выполнять самостоятельно, а какие требуют обязательного контроля со стороны человека.

#Исследования с ИИ #Автоматизация науки #Генерация статей
Исследования

KVPO от Цинхуа: интеграция GRPO в генерацию видео, семантическое исследование через KV Cache и создание AI-видео, отвечающих человеческой эстетике

Исследователи из Цинхуа представили KVPO — онлайн-фреймворк GRPO, изначально разработанный для ОДУ (ODE-native). Перенеся источник исследования со случайного шума на исторический KV Cache, метод позволяет согласовать автогрегрессивные модели генерации видео с человеческими предпочтениями, обеспечивая улучшение визуального качества, плавности движений и соответствия текстовому запросу.

#Университет Цинхуа #KVPO #генерация видео
Исследования

ZEDA от Цинхуа: готовые MoE-модели пропускают половину экспертов благодаря самодистилляции, ускоряя инференс в 1,2 раза

Команда из Цинхуа представила ZEDA — низкозатратный фреймворк, преобразующий предварительно обученные статические MoE-модели в динамические. На моделях Qwen3-30B-A3B и GLM-4.7-Flash он устраняет более 50% FLOPs экспертов, ускоряя сквозной инференс примерно в 1,2 раза.

#Университет Цинхуа #ZEDA #MoE
Исследования

ByteDance Lance: отказ от наращивания параметров в пользу «синергии многозадачности» для объединения мультимодального понимания, генерации и редактирования

ByteDance Research представила Lance — легковесную нативную унифицированную мультимодальную модель. Благодаря двухпотоковой архитектуре MoE и обучению с синергией многозадачности она одновременно обеспечивает понимание, генерацию и редактирование изображений/видео, не полагаясь на простое увеличение емкости модели.

#ByteDance #Lance #мультимодальность
Исследования

NVIDIA LongLive-2.0: преодоление вычислительных ограничений генерации длинных видео с помощью параллельной инфраструктуры NVFP4

NVIDIA выпустила LongLive-2.0 — инфраструктуру для генерации длинных видео, основанную на квантовании NVFP4 и параллельном выводе. Проект набрал 1.22k звёзд на GitHub и исследует, как создавать более длинные видеопоследовательности без потери качества.

#NVIDIA #LongLive #генерация видео
Исследования

Можно ли стать сильнее без обучения? Семейство Darwin использует эволюционное объединение для повышения рассуждающих способностей LLM до 86,9 % на GPQA Diamond

Семейство Darwin предложило фреймворк эволюционного объединения без обучения, который комбинирует скрытые возможности существующих моделей посредством градиентно-независимой перестройки весового пространства. Флагманская модель Darwin-27B-Opus достигает 86,9 % на GPQA Diamond и занимает 6-е место среди 1252 оценённых моделей — без какого-либо градиентного обучения.

#Darwin Family #объединение моделей #эволюционное объединение
Исследования

Новая статья KAIST: заставляем обучение RL активно «выходить из зоны комфорта» — повышение эффективности исследования с помощью стратегического руководства

В статье, опубликованной лабораторией искусственного интеллекта KAIST, предлагается метод стратегически управляемого исследования, который побуждает процесс обучения в задачах обучения с подкреплением (RL) целенаправленно выходить из зоны комфорта и повышает эффективность обучения без увеличения объёма обучающих данных. Статья получила внимание в ежедневной подборке научных работ Hugging Face Daily Papers.

#обучение с подкреплением #RLVR #стратегии исследования
Исследования

Позвольте LLM самостоятельно прогнозировать эпидемии: исследовательская группа Гарварда использует автономный древовидный поиск для прогнозирования заболеваний, вызываемых несколькими патогенами

Исследовательская группа Гарвардского университета и Массачусетской общей больницы (MGH) предложила новый метод прогнозирования заболеваний, вызываемых несколькими патогенами, основанный на автономном древовидном поиске под управлением языковой модели (LLM). LLM перестаёт быть лишь инструментом диалога и превращается в автономного агента поиска, способного систематически исследовать сложное пространство гипотез в поисках оптимальной прогнозной модели. Эта работа демонстрирует новую роль LLM в научном моделировании.

#AI for Science #прогнозирование заболеваний #автономный поиск
Исследования

Даже ИИ-учителя «хромают» на слабых предметах: новое исследование показывает, что агенты-репетиторы на основе LLM дают наименее качественную обратную связь именно там, где она наиболее необходима

Новое исследование систематически оценивает качество обратной связи от агентов-репетиторов на основе больших языковых моделей (LLM) в различных учебных ситуациях и выявляет контринтуитивный результат: ИИ-репетиторы хорошо справляются с подтверждением правильных ответов учащихся, но в тех случаях, когда учащийся ошибается — то есть там, где особенно важна высококачественная обратная связь — они чаще всего дают неточные или неполные ответы.

#ИИ-образование #агенты-репетиторы #LLM
Исследования

NVIDIA представляет MemLens: у «памяти» мультимодальных больших моделей наконец появился стандартизированный экзамен

Представленный NVIDIA бенчмарк MemLens впервые системно оценивает способность больших визуально-языковых моделей к мультимодальной долгосрочной памяти. Он раскрывает реальный уровень современных мультимодальных моделей в плане запоминания, а также показывает, насколько далеко им ещё до «настоящего запоминания».

#NVIDIA #Мультимодальные большие модели #Долгосрочная память
Исследования

OpenDeepThink: Замена «оценки» на «голосование» повышает уровень Gemini в Codeforces на 405 баллов

OpenDeepThink предлагает новую архитектуру рассуждений во время оценки, основанную на попарных сравнениях по модели Брэдли–Терри. Всего за 8 итераций вызовов ЯИМ (около 27 минут реального времени) Elo-рейтинг Gemini 3.1 Pro в Codeforces возрастает на 405 пунктов. Одновременно представлен открытый набор данных CF-73 — 73 задачи с Codeforces, промаркированные международными гроссмейстерами.

#OpenDeepThink #параллельные рассуждения #модель Брэдли–Терри
Исследования

SANA-WM: 2,6 млрд параметров, обучение на 64 GPU H100 в течение 15 дней — NVIDIA реализовала модель мира минутного масштаба с развертыванием на одной видеокарте

SANA-WM — это открытая модель мира с 2,6 млрд параметров, изначально поддерживающая генерацию видео продолжительностью одну минуту. Обучена на 64 GPU H100 в течение 15 дней с использованием примерно 213 тыс. общедоступных видеороликов. Её вариант, полученный методом дистилляции, способен денойзить 60-секундное видео разрешения 720p за 34 секунды на одной видеокарте RTX 5090 с квантованием NVFP4.

#SANA-WM #модель мира #генерация видео
Исследования

SDAR: Как проблема нестабильности GRPO решается, когда самообучение-дистилляция встречается с агентным обучением с подкреплением

SDAR (Self-Distilled Agentic Reinforcement Learning) вводит on-policy самообучение-дистилляцию в качестве управляемой вспомогательной цели в процесс обучения с подкреплением для LLM-агентов. По сравнению с GRPO, SDAR демонстрирует улучшение на 9,4 %, 10,2 % и 7,0 % соответственно на наборах данных ALFWorld, WebShop и Search-QA, одновременно избегая нестабильности, присущей наивному сочетанию GRPO и OPSD.

#SDAR #самообучение-дистилляция #агентное обучение с подкреплением
Исследования

Solvita: как Нанкинский университет улучшает навыки соревновательного программирования в больших языковых моделях через «эволюцию агентов»

Опубликованный лабораторией NJU-LINK Lab Нанкинского университета проект Solvita предлагает парадигму эволюции агентов для повышения способностей больших языковых моделей в соревновательном программировании. В отличие от традиционного обучения с учителем, Solvita позволяет агенту развивать более сильные навыки программирования и логического вывода в процессе самоигры и непрерывной итерации.

#Соревновательное программирование #Эволюция агентов #LLM
Исследования

SU-01: 30-миллиардный модель, достигшая уровня золотой медали на IMO и IPhO — какой рецепт ей в этом помог?

SU-01 — это 30B-A3B MoE-модель, достигшая уровня золотой медали на IMO 2025, USAMO 2026 и IPhO 2024/2025 с помощью простого и единого рецепта обучения. Основной процесс: SFT-обучение по обратной перплексии → двухэтапное обучение с подкреплением (RL) (с объективно верифицируемым вознаграждением → RL на уровне строгих доказательств) → масштабирование во время тестирования. Модель обеспечивает стабильную генерацию рассуждений длиной более 100 000 токенов.

#SU-01 #олимпиадные рассуждения #IMO
Исследования

Слепые зоны в оценке безопасности ИИ для психического здоровья: почему оценка отдельных раундов не выявляет постепенный вред

Последняя статья на arXiv указывает на фундаментальный недостаток современных методов оценки безопасности ИИ для психического здоровья: они анализируют изолированные ответы или итоговый результат, в то время как клинически наиболее опасный вред часто возникает из-за кумулятивного эффекта в последовательности взаимодействий: постепенно растущая зависимость, многократное закрепление негативных паттернов поведения, медленное ухудшение состояния от раунда к раунду. Авторы предлагают теоретическую основу «временной неидентифицируемости безопасности» и стандарт оценки SCOPE-MH.

#Безопасность ИИ #Психическое здоровье #Временная оценка
Исследования

NVIDIA AnyFlow: Эксперимент с «произвольным количеством шагов» в видео-диффузионных моделях — сможет ли On-Policy дистилляция положить конец тревогам по поводу количества шагов инференса

В недавно опубликованной статье NVIDIA о модели AnyFlow представлен подход к созданию видео-диффузионной модели с «произвольным количеством шагов» — одна и та же модель может гибко переключаться между 1 и несколькими десятками шагов, не требуя отдельного обучения для каждого варианта. Ключевой метод On-Policy Flow Map Distillation позволяет модели сохранять стабильное качество генерации при любом количестве шагов инференса благодаря случайной выборке шагов во время обучения и само-направляемой дистилляции.

#Генерация видео #Диффузионные модели #NVIDIA