GLM-5V-Turbo от Zhipu ранее появлялся в сценариях design-to-code, но полного технического отчёта ни у кого не было. Сегодняшний отчёт раскладывает карты на стол.
Одно предложение подводит итог: они строят нативную мультимодальную агентную модель, а не прикручивают зрение к языковой модели.
Цикл восприятия-планирования-исполнения
Самая интересная часть отчёта — дизайн цепочки инструментов. GLM-5V-Turbo связывает мультимодальные инструменты — поиск, кроппинг, аннотирование, чтение веб-страниц — в замкнутый цикл: модель воспринимает входные данные, затем планирует, какие инструменты вызвать, затем исполняет.
Это не простой function calling. Function calling — это «вы говорите мне, что делать, и я делаю». Этот цикл — «я сам решаю, какие инструменты мне нужны, сколько раз и в каком порядке».
Разница в том, что в первом случае люди должны разработать логику вызовов, а во втором модель решает сама.
Интеграция с Claude Code и OpenClaw
Отчёт специально упоминает, что GLM-5V-Turbo может интегрироваться в Claude Code и OpenClaw как модуль визуального понимания. Это означает, что Zhipu позиционирует свою модель как подключаемый компонент в агентной экосистеме.
Прагматичный подход. Не всем нужно строить агентный фреймворк с нуля. Встраивание визуальных возможностей в существующие цепочки инструментов проще реализовать.
Роль обучения с подкреплением
Обучение с подкреплением получает значительное место в отчёте. RL-обучение для мультимодальных агентов намного сложнее, чем для чистого текста — сигналы вознаграждения должны поступать из трёх измерений: визуального, текстового и результатов вызова инструментов. Zhipu инвестирует в это направление раньше большинства конкурентов.
Но отчёт не даёт конкретных бенчмарк-чисел, по крайней мере в публичной версии. Это жаль, потому что пространству мультимодальных агентов всё ещё не хватает авторитетных кросс-модельных сравнений.
Где границы
Сила GLM-5V-Turbo — в интеграции цепочки инструментов и адаптации к агентным фреймворкам. Но если ваши потребности — чистая генерация кода или написание текстов, модель может не иметь преимущества перед同等-ценовыми чисто текстовыми моделями.
Премиум мультимодальной агентной модели заключается в «может видеть и может оперировать». Если вам нужно только «видеть» или только «оперировать», возможно, не стоит платить за другую способность.
Основные источники: