AI-исследования

Важные статьи, бенчмарки, датасеты и экспериментальные подходы

Исследования 26 мая 2026 г.

APWA: Распределённая архитектура для истинной параллелизации мультиагентных систем

APWA предлагает распределённую архитектуру, ориентированную на параллелизуемые рабочие нагрузки агентов, которая решает проблемы масштабирования инференса, координации и вычислений в мультиагентных системах при росте масштаба и сложности задач.

#Мультиагентные системы #Распределённая архитектура #Разбор статьи

Исследования 26 мая 2026 г.

Dual-Dimensional Consistency: новый метод, позволяющий сократить расход токенов при масштабировании во время вывода в 10 раз

DDC предлагает унифицированную структуру масштабирования во время вывода, которая с помощью байесовского протокола, взвешенного по уверенности, и стратифицированного отсечения с учетом тенденций снижает потребление токенов более чем в 10 раз, сохраняя или превосходя точность базовых моделей на пяти бенчмарках.

#Оптимизация вывода #Эффективность токенов #Инференс LLM

Исследования 26 мая 2026 г.

MemEye: Визуально-ориентированная платформа оценки памяти мультимодальных агентов

MemEye представляет собой визуально-ориентированную платформу оценки памяти мультимодальных агентов, разработанную в сотрудничестве 17 исследователей и восполняющую пробел в оценке систем памяти агентов.

#Мультимодальность #Память агента #Платформа оценки

Исследования 26 мая 2026 г.

MemLens: NVIDIA создала бенчмарк для оценки долгосрочной памяти мультимодальных больших моделей

NVIDIA представила MemLens — первый бенчмарк, оценивающий способность крупных визуально-языковых моделей к мультимодальной долгосрочной памяти, восполняющий пробел в оценке памяти LVLM.

#NVIDIA #мультимодальность #бенчмарк

Исследования 26 мая 2026 г.

Фреймворк Microsoft Orchard: парадигма обучения агентов, полученная путем дистилляции из 107 000 траекторий

Исследовательское подразделение Microsoft открыло исходный код Orchard — масштабируемого фреймворка для моделирования агентов. От кодовых агентов до GUI-агентов и персональных помощников: единый легкий слой среды обеспечивает кросс-доменное обучение. На SWE-bench Verified достигнут показатель 67,5%, а GUI-агент стал сильнейшим среди открытых моделей, используя всего 400 дистиллированных траекторий.

#Microsoft #открытый фреймворк #обучение агентов

Исследования 23 мая 2026 г.

CiteVQA: бенчмарк для интеллектуальной обработки документов от OpenDataLab, делающий каждую ссылку ИИ проверяемой

OpenDataLab выпустила бенчмарк CiteVQA, специально предназначенный для оценки способности систем интеллектуальной обработки документов отслеживать источники ответов. Набрав 143 голоса, он возглавил список Daily Papers на HuggingFace — доверенный ИИ превращается из лозунга в измеримый технический показатель.

#CiteVQA #OpenDataLab #интеллектуальная обработка документов

Исследования 23 мая 2026 г.

CLI-Anything набирает 1000 звёзд за неделю: как сделать всё ПО «Agent-Native» — новый подход команды из Гонконгского университета

Проект CLI-Anything от команды HKUDS Гонконгского университета возглавил GitHub Trending, собрав более 36 000 звёзд. Его ключевая идея — превратить всё программное обеспечение в «Agent-Native». Это не просто инструмент, а смена парадигмы в архитектуре ПО.

#CLI-Anything #Agent-Native #Гонконгский университет

Исследования 23 мая 2026 г.

MMSkills: Шанхайский университет Цзяотун разделил возможности визуального агента на «набор навыков» — новая парадигма мультимодальных ИИ-агентов

Шанхайский университет Цзяотун представил фреймворк MMSkills, который разделяет возможности мультимодального визуального агента на комбинируемые и переиспользуемые единицы навыков. Статья набрала 99 голосов и попала в тренды HuggingFace — переход к «навыковой» архитектуре агентов может оказаться ближе к будущему, чем подход, основанный исключительно на «моделях».

#MMSkills #мультимодальный агент #Шанхайский университет Цзяотун

Исследования 23 мая 2026 г.

Разбор технического отчета PhysBrain 1.0: ИИ наконец начинает «понимать» физический мир

DeepCybo выпустила технический отчет PhysBrain 1.0, посвященный созданию системы ИИ, способной понимать законы физики. От интуитивной физики до проверки через генерацию видео — этот технологический путь может оказаться ближе к истинному «интеллекту», чем чистые языковые модели.

#PhysBrain #физическое рассуждение #DeepCybo

Исследования 23 мая 2026 г.

Новая статья Tencent Hunyuan: Сколько эффективности на самом деле высвобождает On-Policy Distillation?

Команда Tencent Hunyuan опубликовала новую статью, в которой систематически исследуется эффективность On-Policy Distillation в раскрытии потенциала моделей. В работе показано ключевое влияние выбора стратегии дистилляции на производительность моделей, что предоставляет эмпирическую основу для обучения крупномасштабных моделей.

#On-Policy Distillation #Tencent Hunyuan #дистилляция моделей

Исследования 20 мая 2026 г.

TideGS: обучение более 1 млрд 3D-гауссов на одной GPU с 24 ГБ видеопамяти, Spotlight на ICML 2026

Благодаря иерархическому управлению памятью SSD-CPU-GPU, TideGS позволяет обучать 3DGS с использованием более 1 млрд гауссовых примитивов на одной GPU с 24 ГБ памяти. Это в 10 раз больше, чем у предыдущих out-of-core базовых решений (~100 млн), и примерно в 100 раз больше, чем у обучения в оперативной памяти (~11 млн). Статья принята в формате Spotlight на конференцию ICML 2026.

#TideGS #3D Gaussian Splatting #Out-of-Core

Исследования Избранное 20 мая 2026 г.

Анти-самодистилляция: обратная самодистилляция, ускоряющая обучение RL для рассуждений в 2–10 раз

Anti-SD выявляет с помощью анализа точечной взаимной информации (PMI), что привилегированный контекст подавляет токены, отвечающие за рассуждения (deliberation tokens), и предлагает метод «анти-самодистилляции» — вместо сближения ученика и учителя он намеренно увеличивает их расхождение. На бенчмарках математических рассуждений метод достигает той же точности, что и базовый алгоритм GRPO, за 2–10 раз меньшее число шагов, а максимальный прирост итоговой точности составляет 11,5 балла.

#Anti-Self-Distillation #RL для рассуждений #GRPO

Исследования 20 мая 2026 г.

CogOmniControl: превращение «понимания творческого замысла» в движок рассуждений для генерации видео

Статья CogOmniControl представляет рамочную архитектуру контролируемой генерации видео, управляемую рассуждениями: процесс генерации разделяется на два этапа — когнитивное понимание творческого замысла и непосредственную генерацию видео. CogVLM, обученная на профессиональных данных анимационного производства, точно интерпретирует разреженные абстрактные условия; в сочетании с CogOmniDiT и алгоритмом обучения с подкреплением (RL) для выравнивания она превосходит существующие открытые модели на двух специально созданных бенчмарках.

#CogOmniControl #генерация видео #контролируемая генерация

Исследования Избранное 20 мая 2026 г.

GoLongRL: Открытая схема обучения с подкреплением для моделей с длинным контекстом — модель на 30 млрд параметров сопоставима по качеству с DeepSeek-R1-0528

GoLongRL представляет полностью открытую схему дообучения с подкреплением (RL) для задач с длинным контекстом, включая публикацию набора данных RLVR из 23 000 образцов и полного исходного кода обучения. Модель Qwen3-30B-A3B демонстрирует производительность на задачах с длинным контекстом, сопоставимую с DeepSeek-R1-0528 и Qwen3-235B-A22B-Thinking-2507.

#GoLongRL #длинный контекст #обучение с подкреплением

Исследования Избранное 20 мая 2026 г.

OpenComputer: создание проверяемого программного мира для Computer-Use Agent, 33 приложения и 1000 задач

OpenComputer предлагает основанную на валидаторах архитектуру для создания проверяемой программной среды для computer-use agent. Охватывая 33 настольных приложения и 1000 задач, эксперименты показывают, что её жестко закодированные валидаторы ближе к человеческим оценкам, чем подход LLM-as-judge.

#OpenComputer #Computer-Use Agent #проверяемая среда

Исследования 20 мая 2026 г.

Полностью автоматизированный исследовательский процесс на основе ИИ: одна научная статья может быть сгенерирована всего за 15 долларов США, однако её достоверность остаётся серьёзной проблемой

Совместно с Национальным университетом Сингапура и другими учреждениями опубликована «Дорожная карта ИИ для автоматизированных исследований», в которой системно анализируются границы возможностей ИИ на всех этапах научного цикла: генерация одной статьи обходится всего в 15 долларов США, однако языковые модели по-прежнему склонны к выдумыванию результатов, пропуску скрытых ошибок и неспособны надёжно оценивать новизну исследований.

#ИИ в науке #Автоматизированные исследования #Научная добросовестность

Исследования 20 мая 2026 г.

SkillsVote: «система голосования» для навыков AI-агентов, позволяющая модели самоэволюционировать без обновления весов

IAAR-Shanghai и Memtensor Research Group представили SkillsVote — фреймворк для управления полным жизненным циклом навыков агентов. Оффлайн-эволюция повысила показатели GPT-5.2 в Terminal-Bench 2.0 на 7,9 процентных пункта, а онлайн-эволюция улучшила результаты в SWE-Bench Pro на 2,6 процентных пункта.

#Agent #SkillsVote #эволюция навыков

Исследования 19 мая 2026 г.

ByteDance представила Lance: нативную унифицированную мультимодальную модель, обученную с нуля и объединяющую понимание, генерацию и редактирование

ByteDance анонсировала Lance — мультимодальную унифицированную модель, полностью обученную с нуля, поддерживающую понимание, генерацию и редактирование изображений и видео. Архитектура модели основана на двухпотоковой смеси экспертов (MoE), обеспечивая заметное превосходство в качестве генерации по сравнению с существующими открытыми унифицированными моделями при сохранении высокой точности понимания.

#ByteDance #Lance #мультимодальность

Исследования 19 мая 2026 г.

Код как средство управления агентами: когда код перестаёт быть выходным результатом и превращается в «операционную систему» агента

Статья дня на Hugging Face №1 — обзорная работа 42 авторов систематически представляет концепцию «Код как средство управления агентами» (Code as Agent Harness), позиционируя код как единый инфраструктурный уровень для рассуждений, действий и моделирования среды агентов.

#агент #генерация кода #средство управления агентами

Исследования 19 мая 2026 г.

NVIDIA LongLive-2.0: полностековая параллельная инфраструктура на базе NVFP4, ускорение обучения генерации длинных видео в 2.15 раза, скорость вывода — 45.7 FPS

Команда NVIDIA представила LongLive-2.0 — первую полностековую систему для обучения и вывода при генерации длинных видео на базе точности NVFP4. Внедрены параллелизм по последовательности при авторегрессионном обучении и вывод в формате W4A4, что ускоряет обучение в 2.15 раза, а вывод — в 1.84 раза. 5B-модель достигает скорости 45.7 FPS.

#NVIDIA #LongLive-2.0 #генерация видео

Исследования 19 мая 2026 г.

Полная дорожная карта автоматизированных исследований с ИИ: статью можно написать автоматически, но подводные камни научной добросовестности остаются весьма серьёзными

Команда NUS опубликовала дорожную карту AI for Auto-Research, системно анализирующую границы надёжности ИИ на протяжении всего жизненного цикла научных исследований: от генерации идей до публикации статей — какие этапы ИИ может выполнять самостоятельно, а какие требуют обязательного контроля со стороны человека.

#Исследования с ИИ #Автоматизация науки #Генерация статей

Исследования 19 мая 2026 г.

KVPO от Цинхуа: интеграция GRPO в генерацию видео, семантическое исследование через KV Cache и создание AI-видео, отвечающих человеческой эстетике

Исследователи из Цинхуа представили KVPO — онлайн-фреймворк GRPO, изначально разработанный для ОДУ (ODE-native). Перенеся источник исследования со случайного шума на исторический KV Cache, метод позволяет согласовать автогрегрессивные модели генерации видео с человеческими предпочтениями, обеспечивая улучшение визуального качества, плавности движений и соответствия текстовому запросу.

#Университет Цинхуа #KVPO #генерация видео

Исследования 19 мая 2026 г.

ZEDA от Цинхуа: готовые MoE-модели пропускают половину экспертов благодаря самодистилляции, ускоряя инференс в 1,2 раза

Команда из Цинхуа представила ZEDA — низкозатратный фреймворк, преобразующий предварительно обученные статические MoE-модели в динамические. На моделях Qwen3-30B-A3B и GLM-4.7-Flash он устраняет более 50% FLOPs экспертов, ускоряя сквозной инференс примерно в 1,2 раза.

#Университет Цинхуа #ZEDA #MoE

Исследования 19 мая 2026 г.

ByteDance Lance: отказ от наращивания параметров в пользу «синергии многозадачности» для объединения мультимодального понимания, генерации и редактирования

ByteDance Research представила Lance — легковесную нативную унифицированную мультимодальную модель. Благодаря двухпотоковой архитектуре MoE и обучению с синергией многозадачности она одновременно обеспечивает понимание, генерацию и редактирование изображений/видео, не полагаясь на простое увеличение емкости модели.

#ByteDance #Lance #мультимодальность

Исследования 19 мая 2026 г.

NVIDIA LongLive-2.0: преодоление вычислительных ограничений генерации длинных видео с помощью параллельной инфраструктуры NVFP4

NVIDIA выпустила LongLive-2.0 — инфраструктуру для генерации длинных видео, основанную на квантовании NVFP4 и параллельном выводе. Проект набрал 1.22k звёзд на GitHub и исследует, как создавать более длинные видеопоследовательности без потери качества.

#NVIDIA #LongLive #генерация видео

Исследования Избранное 18 мая 2026 г.

ARIS от Шанхайского университета Цзяотун: ИИ как самостоятельный исследователь и амбиции состязательного многоагентного взаимодействия

Разработанная в Шанхайском университете Цзяотун система ARIS позволяет нескольким AI-агентам автономно выполнять научные задачи с помощью состязательного взаимодействия. На платформе Papers with Code проект получил 116 голосов upvote и 9.7k звёзд на GitHub, став одним из самых заметных проектов в сфере AI for Science за последнее время.

#Многоагентные системы #Автономные научные исследования #Состязательное взаимодействие

Исследования Избранное 18 мая 2026 г.

Команда из Цинхуа Causal Forcing++: превращает генерацию видео из «ожидания нескольких минут» в «интерактивность в реальном времени»

В исследовании группы машинного обучения Цинхуа Causal Forcing++ предложен масштабируемый метод авторегрессионной диффузионной дистилляции с малым числом шагов, который превращает интерактивную генерацию видео из процесса, требующего ожидания в несколько минут, в мгновенный отклик в реальном времени. Что это значит для игр, VR и создания интерактивного контента?

#генерация видео #диффузионные модели #дистилляция

Исследования 18 мая 2026 г.

Можно ли стать сильнее без обучения? Семейство Darwin использует эволюционное объединение для повышения рассуждающих способностей LLM до 86,9 % на GPQA Diamond

Семейство Darwin предложило фреймворк эволюционного объединения без обучения, который комбинирует скрытые возможности существующих моделей посредством градиентно-независимой перестройки весового пространства. Флагманская модель Darwin-27B-Opus достигает 86,9 % на GPQA Diamond и занимает 6-е место среди 1252 оценённых моделей — без какого-либо градиентного обучения.

#Darwin Family #объединение моделей #эволюционное объединение

Исследования Избранное 18 мая 2026 г.

FORGE: Эволюция памяти агента без обновления весов — подход этой статьи действительно нестандартен

Новая статья FORGE на arXiv предлагает метод самостоятельной эволюции памяти агента без обновления весов модели. Благодаря механизму группового вещания агенты могут обмениваться опытом и обучаться друг у друга, обеспечивая непрерывное развитие своей памяти. Этот подход обходит традиционную дообучение, открывая лёгкий путь к постоянному обучению агентов.

#память_агента #самоэволюция #групповое_вещание

Исследования Избранное 18 мая 2026 г.

Рассуждения на уровне золотой медали олимпиады: большие модели добились этого простым масштабированием, и это тревожит

Новая работа доказывает, что с помощью простой и унифицированной стратегии масштабирования большие языковые модели могут достичь уровня рассуждений, соответствующего золотой медали Международной математической олимпиады. Никаких сложных новых архитектур, никаких хитроумных техник обучения — только масштабирование. Значение этого факта, возможно, заслуживает более глубокого осмысления, чем сама статья.

#Рассуждения больших моделей #Математическая олимпиада #Законы масштабирования

Исследования 18 мая 2026 г.

Новая статья KAIST: заставляем обучение RL активно «выходить из зоны комфорта» — повышение эффективности исследования с помощью стратегического руководства

В статье, опубликованной лабораторией искусственного интеллекта KAIST, предлагается метод стратегически управляемого исследования, который побуждает процесс обучения в задачах обучения с подкреплением (RL) целенаправленно выходить из зоны комфорта и повышает эффективность обучения без увеличения объёма обучающих данных. Статья получила внимание в ежедневной подборке научных работ Hugging Face Daily Papers.

#обучение с подкреплением #RLVR #стратегии исследования

Исследования 18 мая 2026 г.

Позвольте LLM самостоятельно прогнозировать эпидемии: исследовательская группа Гарварда использует автономный древовидный поиск для прогнозирования заболеваний, вызываемых несколькими патогенами

Исследовательская группа Гарвардского университета и Массачусетской общей больницы (MGH) предложила новый метод прогнозирования заболеваний, вызываемых несколькими патогенами, основанный на автономном древовидном поиске под управлением языковой модели (LLM). LLM перестаёт быть лишь инструментом диалога и превращается в автономного агента поиска, способного систематически исследовать сложное пространство гипотез в поисках оптимальной прогнозной модели. Эта работа демонстрирует новую роль LLM в научном моделировании.

#AI for Science #прогнозирование заболеваний #автономный поиск

Исследования 18 мая 2026 г.

Даже ИИ-учителя «хромают» на слабых предметах: новое исследование показывает, что агенты-репетиторы на основе LLM дают наименее качественную обратную связь именно там, где она наиболее необходима

Новое исследование систематически оценивает качество обратной связи от агентов-репетиторов на основе больших языковых моделей (LLM) в различных учебных ситуациях и выявляет контринтуитивный результат: ИИ-репетиторы хорошо справляются с подтверждением правильных ответов учащихся, но в тех случаях, когда учащийся ошибается — то есть там, где особенно важна высококачественная обратная связь — они чаще всего дают неточные или неполные ответы.

#ИИ-образование #агенты-репетиторы #LLM

Исследования 18 мая 2026 г.

NVIDIA представляет MemLens: у «памяти» мультимодальных больших моделей наконец появился стандартизированный экзамен

Представленный NVIDIA бенчмарк MemLens впервые системно оценивает способность больших визуально-языковых моделей к мультимодальной долгосрочной памяти. Он раскрывает реальный уровень современных мультимодальных моделей в плане запоминания, а также показывает, насколько далеко им ещё до «настоящего запоминания».

#NVIDIA #Мультимодальные большие модели #Долгосрочная память

Исследования Избранное 18 мая 2026 г.

MMSkills: Шанхайский Цзяотунский университет стремится научить визуальных агентов по-настоящему «видеть» и «действовать», а не просто заучивать наизусть

MMSkills, представленный Шанхайским Цзяотунским университетом, предлагает мультимодальную рамочную модель обучения навыкам для универсальных визуальных агентов. В отличие от существующих подходов, основанных на механическом запоминании, MMSkills позволяет агентам по-настоящему понимать мультимодальную природу навыков — не только «что видеть», но и «как действовать». Статья получила 39 лайков в разделе Hugging Face Daily Papers.

#мультимодальность #визуальные агенты #обучение навыкам

Исследования 18 мая 2026 г.

OpenDeepThink: Замена «оценки» на «голосование» повышает уровень Gemini в Codeforces на 405 баллов

OpenDeepThink предлагает новую архитектуру рассуждений во время оценки, основанную на попарных сравнениях по модели Брэдли–Терри. Всего за 8 итераций вызовов ЯИМ (около 27 минут реального времени) Elo-рейтинг Gemini 3.1 Pro в Codeforces возрастает на 405 пунктов. Одновременно представлен открытый набор данных CF-73 — 73 задачи с Codeforces, промаркированные международными гроссмейстерами.

#OpenDeepThink #параллельные рассуждения #модель Брэдли–Терри

Исследования 18 мая 2026 г.

SANA-WM: 2,6 млрд параметров, обучение на 64 GPU H100 в течение 15 дней — NVIDIA реализовала модель мира минутного масштаба с развертыванием на одной видеокарте

SANA-WM — это открытая модель мира с 2,6 млрд параметров, изначально поддерживающая генерацию видео продолжительностью одну минуту. Обучена на 64 GPU H100 в течение 15 дней с использованием примерно 213 тыс. общедоступных видеороликов. Её вариант, полученный методом дистилляции, способен денойзить 60-секундное видео разрешения 720p за 34 секунды на одной видеокарте RTX 5090 с квантованием NVFP4.

#SANA-WM #модель мира #генерация видео

Исследования 18 мая 2026 г.

SDAR: Как проблема нестабильности GRPO решается, когда самообучение-дистилляция встречается с агентным обучением с подкреплением

SDAR (Self-Distilled Agentic Reinforcement Learning) вводит on-policy самообучение-дистилляцию в качестве управляемой вспомогательной цели в процесс обучения с подкреплением для LLM-агентов. По сравнению с GRPO, SDAR демонстрирует улучшение на 9,4 %, 10,2 % и 7,0 % соответственно на наборах данных ALFWorld, WebShop и Search-QA, одновременно избегая нестабильности, присущей наивному сочетанию GRPO и OPSD.

#SDAR #самообучение-дистилляция #агентное обучение с подкреплением

Исследования Избранное 18 мая 2026 г.

Самодистиллируемое агентное обучение с подкреплением: ИИ-агенты больше не нуждаются в данных от человека — они учатся эволюционировать самостоятельно

«Самодистиллируемое агентное обучение с подкреплением» представляет новую парадигму обучения агентов: агенты обучаются путём самодистилляции на основе собственного опыта, без зависимости от человеческой разметки или внешних сигналов подкрепления. Это может кардинально изменить фундаментальные принципы обучения ИИ-агентов.

#обучение с подкреплением #агентный ИИ #самодистилляция

Исследования 18 мая 2026 г.

Solvita: как Нанкинский университет улучшает навыки соревновательного программирования в больших языковых моделях через «эволюцию агентов»

Опубликованный лабораторией NJU-LINK Lab Нанкинского университета проект Solvita предлагает парадигму эволюции агентов для повышения способностей больших языковых моделей в соревновательном программировании. В отличие от традиционного обучения с учителем, Solvita позволяет агенту развивать более сильные навыки программирования и логического вывода в процессе самоигры и непрерывной итерации.

#Соревновательное программирование #Эволюция агентов #LLM

Исследования 18 мая 2026 г.

SU-01: 30-миллиардный модель, достигшая уровня золотой медали на IMO и IPhO — какой рецепт ей в этом помог?

SU-01 — это 30B-A3B MoE-модель, достигшая уровня золотой медали на IMO 2025, USAMO 2026 и IPhO 2024/2025 с помощью простого и единого рецепта обучения. Основной процесс: SFT-обучение по обратной перплексии → двухэтапное обучение с подкреплением (RL) (с объективно верифицируемым вознаграждением → RL на уровне строгих доказательств) → масштабирование во время тестирования. Модель обеспечивает стабильную генерацию рассуждений длиной более 100 000 токенов.

#SU-01 #олимпиадные рассуждения #IMO

Исследования Избранное 15 мая 2026 г.

Kronos: Прогнозирование фондового рынка с помощью трансформеров. Эксперимент с финансовой фундаментальной моделью, собравшей 24 900 звёзд

Kronos — это фундаментальная модель для финансовых рынков, которая рассматривает финансовые данные как «язык» для моделирования. Проект собрал 24 946 звёзд на GitHub, предлагая подход, в котором токенизатор дискретизирует финансовые временные ряды в последовательности токенов, а затем трансформер предсказывает их. Является ли этот путь жизнеспособным?

#Финансы #Фундаментальная модель #Временные ряды

Исследования 15 мая 2026 г.

Слепые зоны в оценке безопасности ИИ для психического здоровья: почему оценка отдельных раундов не выявляет постепенный вред

Последняя статья на arXiv указывает на фундаментальный недостаток современных методов оценки безопасности ИИ для психического здоровья: они анализируют изолированные ответы или итоговый результат, в то время как клинически наиболее опасный вред часто возникает из-за кумулятивного эффекта в последовательности взаимодействий: постепенно растущая зависимость, многократное закрепление негативных паттернов поведения, медленное ухудшение состояния от раунда к раунду. Авторы предлагают теоретическую основу «временной неидентифицируемости безопасности» и стандарт оценки SCOPE-MH.

#Безопасность ИИ #Психическое здоровье #Временная оценка

Исследования 15 мая 2026 г.

NVIDIA AnyFlow: Эксперимент с «произвольным количеством шагов» в видео-диффузионных моделях — сможет ли On-Policy дистилляция положить конец тревогам по поводу количества шагов инференса

В недавно опубликованной статье NVIDIA о модели AnyFlow представлен подход к созданию видео-диффузионной модели с «произвольным количеством шагов» — одна и та же модель может гибко переключаться между 1 и несколькими десятками шагов, не требуя отдельного обучения для каждого варианта. Ключевой метод On-Policy Flow Map Distillation позволяет модели сохранять стабильное качество генерации при любом количестве шагов инференса благодаря случайной выборке шагов во время обучения и само-направляемой дистилляции.

#Генерация видео #Диффузионные модели #NVIDIA

Исследования Избранное 15 мая 2026 г.

OpenDeepThink: вместо «зацикливания» на одной цепи рассуждений — «турнир на вылет», где LLM сам находит правильный ответ

В новой статье на arXiv OpenDeepThink предлагается подход к рассуждению, основанный на групповой конкуренции: вместо принудительного следования единственной цепи рассуждений система организует попарное сравнение кандидатов, агрегируя результаты с помощью модели Брэдли-Терри. Благодаря этому Gemini 3.1 Pro увеличила свой рейтинг Elo на Codeforces на 405 баллов, а весь процесс занял всего около 27 минут.

#Способность к рассуждению #Test-time Compute #LLM