MMSkills: Шанхайский университет Цзяотун разделил возможности визуального агента на «набор навыков» — новая парадигма мультимодальных ИИ-агентов

За последние два года подход к развитию ИИ-агентов был примерно следующим: взять мощную большую модель, добавить ей возможность вызова инструментов и надеяться, что она справится со всем самостоятельно.

Проблема этого подхода заключается в том, что: когда задачи усложняются, одного «универсального мозга» недостаточно.

Точно так же, как вы не доверите кардиохирургию врачу общей практики, не стоит поручать универсальному агенту выполнение всех визуальных задач.

Фреймворк MMSkills от Шанхайского университета Цзяотун предлагает иной подход: разделить возможности агента на отдельные «навыки», которые можно комбинировать по мере необходимости и гибко вызывать.

Что такое мультимодальный «навык»?

«Навык» (Skill) в MMSkills — это не вызов API в традиционном понимании, а полноценный блок «восприятие — принятие решений — выполнение».

Каждый навык включает три элемента:

Условие активации: при каких обстоятельствах следует вызывать этот навык
Входная модальность: какой визуальный ввод требуется (скриншоты, иконки, структура страницы и т. д.)
Выходное действие: какую операцию необходимо выполнить (клик, ввод текста, прокрутка и т. д.)

Например, «найти поисковую строку и ввести ключевое слово» — это один навык, «распознать и ввести капчу» — другой, а «извлечь данные из определённого столбца таблицы» — третий.

Эти навыки можно обучать, тестировать и обновлять независимо друг от друга, а затем, при необходимости, агент может собирать их в единый рабочий процесс.

Почему этот подход ценен?

Во-первых, компонуемость. Подобно конструктору LEGO, из ограниченного набора навыков можно собрать бесконечное количество рабочих процессов. Для добавления новой задачи не нужно заново обучать всю модель — достаточно скомбинировать существующие навыки или добавить один новый.

Во-вторых, отлаживаемость. Если агент допускает ошибку, вы можете точно определить, какой именно навык дал сбой, вместо того чтобы беспомощно смотреть на чёрный ящик сквозной модели.

В-третьих, переносимость. Навык «поиск товаров», обученный на сайте электронной коммерции, может быть адаптирован для использования на других ресурсах с минимальными доработками. Перенос на уровне навыков более гибок и обходится дешевле, чем перенос на уровне моделей.

Технические детали

В архитектуре MMSkills есть несколько примечательных решений:

Реестр навыков (Skill Registry). Это структурированная база навыков, где каждый из них имеет стандартизированное описание и метаданные. При выполнении задачи агент сначала ищет в реестре подходящие навыки, а затем комбинирует их по мере необходимости.

Мультимодальное выравнивание. Навыки должны понимать не только визуальную информацию, но и текстовые инструкции. MMSkills реализует механизм тонкого выравнивания между визуальными и языковыми данными, гарантируя, что навыки корректно интерпретируют намерения пользователя.

Динамический выбор навыков. Столкнувшись с новой задачей, агент не действует наугад, а на основе описания задачи и исторических данных выбирает из реестра наиболее подходящую комбинацию навыков. Сам процесс выбора также является частью обучения.

Связь с экосистемой Agent Skills

Возможно, вы заметили, что в последнее время на GitHub появилось множество проектов в сфере Agent Skills — academic-research-skills, scientific-agent-skills, tech-leads-club/agent-skills и другие.

Связь MMSkills с этими проектами заключается в следующем: первый фокусируется на навыковой архитектуре в области визуального/мультимодального взаимодействия, тогда как остальные в основном касаются навыков программирования и исследований. Однако их объединяет одна ключевая идея — перевести возможности агента из состояния «встроенных в модель» в формат «внешних подключаемых модулей».

Это не совпадение. По мере того как агенты переходят от стадии «экспериментов» к «промышленному использованию», модульность, компонуемость и поддерживаемость их возможностей становятся критически важными.

Вызовы

Подход MMSkills выглядит логично, однако он сталкивается с рядом трудностей:

Взрывной рост числа навыков. С расширением областей применения количество навыков может резко возрасти. Как управлять тысячами навыков? Как избежать конфликтов и дублирования между ними?

Координация между навыками. Когда несколько навыков должны работать совместно, как гарантировать точную и эффективную передачу информации между ними?

Оценка навыков. Как измерить качество навыка? Одного показателя успешности может быть недостаточно — некоторые навыки могут хорошо работать в большинстве случаев, но давать сбой в критических пограничных сценариях.

Прогноз тенденций

Появление MMSkills не является изолированным событием. Вместе с CLI-Anything (нативные программные агенты), agentmemory (долговременная память агентов) и FORGE (самоэволюционирующая память агентов) он указывает на более масштабную тенденцию:

Агенты превращаются из «умной большой модели» в «систему, состоящую из множества специализированных компонентов».

Значение этого перехода может оказаться гораздо более глубоким, чем мы предполагаем. Поскольку архитектура агентов движется от монолитной к модульной, их масштабируемость, надёжность и настраиваемость совершат качественный скачок.

Это не означает, что большие модели теряют свою важность — напротив, они выступают «диспетчерским центром» и «связующим звеном» данной системы. Однако самому диспетчеру не нужно знать каждую деталь; ему достаточно понимать, как координировать совместную работу различных профессиональных навыков.

Вероятно, именно этот путь станет правильным вектором для масштабного внедрения агентов.

Что такое мультимодальный «навык»?

Почему этот подход ценен?

Технические детали

Связь с экосистемой Agent Skills

Вызовы

Прогноз тенденций

Похожие материалы

APWA: Распределённая архитектура для истинной параллелизации мультиагентных систем

Dual-Dimensional Consistency: новый метод, позволяющий сократить расход токенов при масштабировании во время вывода в 10 раз

MemEye: Визуально-ориентированная платформа оценки памяти мультимодальных агентов