C
ChaoBro

Qwen3.6 35B A3B выдаёт 55+ токенов/сек на RTX 4060 Ti: веха для потребительского GPU-инференса

Qwen3.6 35B A3B выдаёт 55+ токенов/сек на RTX 4060 Ti: веха для потребительского GPU-инференса

Главный вывод

MoE-модель Qwen3.6-35B-A3B достигает скорости инференса 55+ токенов/сек на RTX 4060 Ti 8GB (~$300). По сравнению с виральным постом на 41 т/с, разработчик оптимизировал производительность ещё на 34%. Самое важное: скорость больше не падает с увеличением глубины контекста.

Что произошло

Аппаратная конфигурация

Компонент Характеристики
GPU NVIDIA RTX 4060 Ti 8GB
Цена GPU ~$300
Модель Qwen3.6-35B-A3B (MoE-архитектура)
Скорость 55+ токенов/сек
Контекст 81 920 токенов

От 41 до 55+: улучшение на 34%

Ранее, когда тот же разработчик опубликовал результат 41 т/с, пост стал виральным. Он вернулся к проекту и провёл дальнейшую оптимизацию, увеличив скорость инференса на 34%.

Ключевая ценность этой оптимизации не в абсолютных цифрах — в том, что глубина контекста больше не штрафует скорость. В традиционном инференсе LLM длинный контекст означает больший KV Cache означает меньшую скорость. MoE-архитектура Qwen3.6 (35B общих параметров, активируются только 3B) естественным образом снижает требования к KV Cache, и с целевой оптимизацией достигается стабильная скорость, не зависящая от контекста.

Почему Qwen3.6-35B-A3B?

  • MoE-архитектура: 35B общих параметров, на каждый проход инференса активируется лишь 3B. Это означает, что фактические вычисления значительно ниже, чем у плотной модели эквивалентного размера.
  • Дружественность к квантованию: ~20GB в формате GGUF, запускаема на 8GB VRAM с послойным оффлоадом.
  • Доминирование в персональных бенчмарках: Среди моделей сопоставимого размера Qwen3.6 лидирует в нескольких персональных бенчмарках, с отзывами пользователей «производительность значительно превосходит аналоги, доходит до сомнения в самих бенчмарках».

Сравнение с другими потребительскими решениями

Модель GPU Скорость Особенности
Qwen3.6-35B-A3B RTX 4060 Ti 8GB 55+ т/с MoE-архитектура, скорость не зависит от контекста
Qwen3.6-27B RTX 4090 int8 Медленно, но работает Плотная модель, большие требования к VRAM
Qwopus3.6-35B RTX 4090 Работает Сообщественная дообученная версия
GLM-5.1 Потребительский GPU Медленнее Отзывы сообщества уступают Qwen3.6
Kimi K2.6 Потребительский GPU Медленнее Отзывы сообщества уступают Qwen3.6

Почему это важно

1. $300 для запуска 35B: порог потребительского AI-инференса продолжает снижаться

Год назад для запуска 35B-модели требовались мультикарточные A100 или A6000. Теперь одна потребительская видеокарта за $300 может запускать её на рабочей скорости. MoE-архитектура — ключевой драйвер этой тенденции.

2. Глубина контекста больше не штрафует скорость инференса

Это ключевой инженерный прорыв. Многие демо «локальный LLM пригоден» работают только на коротком контексте — как только разговор удлиняется или документы растут, скорость рушится. Qwen3.6-35B-A3B решает эту проблему.

3. Китайские открытые модели лидируют в потребительских сценариях

Qwen3.6 (Tongyi Qianwen) — серия открытых моделей Alibaba. В конкретном сценарии потребительского GPU-инференса она сейчас превосходит одноклассников GLM-5.1 и Kimi K2.6.

Практические рекомендации

  • Пользователям: если у вас есть RTX 4060 Ti 8GB или лучше, вы можете напрямую попробовать квантованную GGUF-версию Qwen3.6-35B-A3B. Квантованные модели уже доступны на Hugging Face.
  • Разработчикам: следите за потенциалом оптимизации MoE-архитектур на потребительских GPU. 4-битное и 3-битное квантование могут ещё больше снизить требования к VRAM.
  • Предприятиям: для сценариев с высокими требованиями к конфиденциальности (здравоохранение, юриспруденция, финансы) локальный запуск 35B-моделей теперь имеет производительность уровня production.