Ключевой вывод
Лучшие модели генерации изображений становятся всё сильнее, но обычные люди всё ещё не могут создать картинки из своей головы даже с топовыми моделями.
Проблема не в модели — она в рабочем процессе. Модели вроде GPT-Image-2 уже мощные, но между «одной фразой» и «изображением профессионального качества» всё ещё остаётся огромный промежуток промпт-инжиниринга, управления стилями, пакетной согласованности и интеграции цепочки инструментов. Передача этого конвейера мультиагентной системе collaboration — ключ к превращению моделей генерации изображений в настоящие инструменты продуктивности.
Что произошло
Блогер «袋鼠帝» открыл исходный код Skill генерации изображений на базе GPT-Image-2 + Hermes Multi-Agent, трансформировав традиционную модель «человек пишет промпт → вручную генерирует → дорабатывает» в автоматизированный конвейер.
Самый наглядный результат этого рабочего процесса: пользователю достаточно сказать «сделай игру типа Марио», и система автоматически заставляет GPT-Image-2 генерировать персонажей, сцены и UI-ассеты, а затем использует Codex для подключения логики прыжков, столкновений и взаимодействий — собирая играбельное демо с нуля.
Не нужно учиться писать сложные промпты или копировать-вставлять между инструментами.
Разбор архитектуры: Трёхуровневое разделение
Основа этого рабочего процесса — трёхуровневая архитектура, каждый уровень со своей ролью:
Уровень 1: Agent (Мозг)
Отвечает за понимание естественного языка пользователя, разбиение задач и организацию порядка выполнения. Определяет, является ли задача дизайном постера, персонажа, игровых ассетов или бренд-материалов. Действует как менеджер проекта, переводя размытые требования в исполнимые дизайн-спецификации.
Уровень 2: Skill (Руки)
Кодифицирует проверенные методологии: компиляцию промптов, управление стилями, спецификации размеров, пакетные шаблоны и логику ревью. Как «кулинарная книга» — успешно завершённые проекты накапливаются в библиотеке кейсов, и при следующей похожей задаче система вызывает и переиспользует рецепт вместо того, чтобы начинать с нуля.
Уровень 3: GPT-Image-2 (Двигатель)
Отвечает за генерацию высококачественных изображений из профессиональных инструкций, подготовленных предыдущими слоями. Модели не нужно понимать намерения пользователя — ей нужно лишь выполнять стандартизированные задачи высококачественной генерации.
Фундамент: Hermes Multi-Agent Collaboration
Чтобы各个环节 работали слаженно, нижний уровень использует систему мультиагентного сотрудничества Hermes. Агент рисования, агент дизайна, агент доработки, агент контроля качества и агент кодирования — каждый делает свою работу и автоматически передаёт результат следующему. Эта конвейерная модель сотрудничества сжимает работу, ранее требовавшую дизайнеров, продакт-менеджеров и разработчиков, в одного человека + одну систему.
Практические кейсы
Автор протестировал этот рабочий процесс в нескольких типичных сценариях:
Автоматизация товарных изображений для e-commerce
Загрузите описание товара → Agent извлекает визуальные ключевые слова → Skill вызывает шаблоны → GPT-Image-2 выводит товарные изображения, соответствующие спецификациям платформы. Поддерживает пакетную обработку, единый стиль, отсутствие ретуши.
Генерация маркетинговых постеров в один клик
Введите тему мероприятия и фирменные цвета → Agent планирует стратегию композиции → Skill внедряет промпты фирменного стиля → GPT-Image-2 генерирует высококачественные постеры. Не-дизайнеры могут создавать материалы профессионального уровня.
Рендеры интерьерного дизайна
Введите размеры комнаты, предпочтительный стиль (например, «скандинавский минимализм», «новый китайский») и ключевые слова бюджета → Agent разбивает элементы дизайна → Skill генерирует профессиональные промпты для интерьерного дизайна → Выводит несколько вариантов рендеров для выбора.
UI-наброски → высококачественные визуальные макеты
Загрузите手绘 wireframe или скриншот низкокачественного прототипа → Agent识别结构 страницы и логику взаимодействия → Skill внедряет спецификации визуального бренда (цвета, стили шрифтов, радиусы скругления) → Генерирует высококачественные UI-визуалы, близкие к реальному продукту. Поддерживает стиль Apple,手绘 стиль и несколько визуальных языков.
Значение для индустрии
Ценность этого Skill не в «ещё одном инструменте AI-рисования» — он решает три ключевые болевые точки AI-генерации изображений:
- Высокий порог промптов: Обычные люди не могут писать точные промпты уровня научных статей. Agent переводит простой язык в профессиональные дизайн-требования
- Разрозненный рабочий процесс: Разрозненный процесс копирайтинг → ключевые слова → генерация → загрузка → дизайн-софт унифицирован в автоматизированный конвейер
- Трудности пакетной генерации: Проблемы согласованности персонажей и единого стиля системно решаются через библиотеку кейсов и шаблоны Skill
Это перекликается с тенденцией Harness Engineering, обсуждавшейся ранее — способность модели лишь основа. Система исполнения, рабочий процесс и механизмы сотрудничества, обёрнутые вокруг модели, определяют, станет ли AI по-настоящему продуктивным.
Для дизайнеров, операторов e-commerce и независимых разработчиков этот рабочий процесс открывает путь, где «один человек — целая дизайн-команда». В сочетании с возможностями прототипирования GPT-5.5, полная автоматизация цепочки от дизайна до кода становится реальностью.