Технический отчёт GLM-5V-Turbo: Zhipu строит нативную мультимодальную агентную модель

GLM-5V-Turbo от Zhipu ранее появлялся в сценариях design-to-code, но полного технического отчёта ни у кого не было. Сегодняшний отчёт раскладывает карты на стол.

Одно предложение подводит итог: они строят нативную мультимодальную агентную модель, а не прикручивают зрение к языковой модели.

Цикл восприятия-планирования-исполнения

Самая интересная часть отчёта — дизайн цепочки инструментов. GLM-5V-Turbo связывает мультимодальные инструменты — поиск, кроппинг, аннотирование, чтение веб-страниц — в замкнутый цикл: модель воспринимает входные данные, затем планирует, какие инструменты вызвать, затем исполняет.

Это не простой function calling. Function calling — это «вы говорите мне, что делать, и я делаю». Этот цикл — «я сам решаю, какие инструменты мне нужны, сколько раз и в каком порядке».

Разница в том, что в первом случае люди должны разработать логику вызовов, а во втором модель решает сама.

Интеграция с Claude Code и OpenClaw

Отчёт специально упоминает, что GLM-5V-Turbo может интегрироваться в Claude Code и OpenClaw как модуль визуального понимания. Это означает, что Zhipu позиционирует свою модель как подключаемый компонент в агентной экосистеме.

Прагматичный подход. Не всем нужно строить агентный фреймворк с нуля. Встраивание визуальных возможностей в существующие цепочки инструментов проще реализовать.

Роль обучения с подкреплением

Обучение с подкреплением получает значительное место в отчёте. RL-обучение для мультимодальных агентов намного сложнее, чем для чистого текста — сигналы вознаграждения должны поступать из трёх измерений: визуального, текстового и результатов вызова инструментов. Zhipu инвестирует в это направление раньше большинства конкурентов.

Но отчёт не даёт конкретных бенчмарк-чисел, по крайней мере в публичной версии. Это жаль, потому что пространству мультимодальных агентов всё ещё не хватает авторитетных кросс-модельных сравнений.

Где границы

Сила GLM-5V-Turbo — в интеграции цепочки инструментов и адаптации к агентным фреймворкам. Но если ваши потребности — чистая генерация кода или написание текстов, модель может не иметь преимущества перед同等-ценовыми чисто текстовыми моделями.

Премиум мультимодальной агентной модели заключается в «может видеть и может оперировать». Если вам нужно только «видеть» или только «оперировать», возможно, не стоит платить за другую способность.

Основные источники:

Цикл восприятия-планирования-исполнения

Интеграция с Claude Code и OpenClaw

Роль обучения с подкреплением

Где границы

Похожие материалы

Самая большая ловушка при написании LLM кода для комбинаторной оптимизации: просишь оптимизировать — модель только всё портит

Чем детальнее оценочные критерии, тем больше модель находит лазейки: взлом системы вознаграждения в обучении с подкреплением на основе рубрик

RLHF тихонько разрушает «честность» ИИ: в чём суть Semantic Reward Collapse