Главный вывод
MoE-модель Qwen3.6-35B-A3B достигает скорости инференса 55+ токенов/сек на RTX 4060 Ti 8GB (~$300). По сравнению с виральным постом на 41 т/с, разработчик оптимизировал производительность ещё на 34%. Самое важное: скорость больше не падает с увеличением глубины контекста.
Что произошло
Аппаратная конфигурация
| Компонент | Характеристики |
|---|---|
| GPU | NVIDIA RTX 4060 Ti 8GB |
| Цена GPU | ~$300 |
| Модель | Qwen3.6-35B-A3B (MoE-архитектура) |
| Скорость | 55+ токенов/сек |
| Контекст | 81 920 токенов |
От 41 до 55+: улучшение на 34%
Ранее, когда тот же разработчик опубликовал результат 41 т/с, пост стал виральным. Он вернулся к проекту и провёл дальнейшую оптимизацию, увеличив скорость инференса на 34%.
Ключевая ценность этой оптимизации не в абсолютных цифрах — в том, что глубина контекста больше не штрафует скорость. В традиционном инференсе LLM длинный контекст означает больший KV Cache означает меньшую скорость. MoE-архитектура Qwen3.6 (35B общих параметров, активируются только 3B) естественным образом снижает требования к KV Cache, и с целевой оптимизацией достигается стабильная скорость, не зависящая от контекста.
Почему Qwen3.6-35B-A3B?
- MoE-архитектура: 35B общих параметров, на каждый проход инференса активируется лишь 3B. Это означает, что фактические вычисления значительно ниже, чем у плотной модели эквивалентного размера.
- Дружественность к квантованию: ~20GB в формате GGUF, запускаема на 8GB VRAM с послойным оффлоадом.
- Доминирование в персональных бенчмарках: Среди моделей сопоставимого размера Qwen3.6 лидирует в нескольких персональных бенчмарках, с отзывами пользователей «производительность значительно превосходит аналоги, доходит до сомнения в самих бенчмарках».
Сравнение с другими потребительскими решениями
| Модель | GPU | Скорость | Особенности |
|---|---|---|---|
| Qwen3.6-35B-A3B | RTX 4060 Ti 8GB | 55+ т/с | MoE-архитектура, скорость не зависит от контекста |
| Qwen3.6-27B | RTX 4090 int8 | Медленно, но работает | Плотная модель, большие требования к VRAM |
| Qwopus3.6-35B | RTX 4090 | Работает | Сообщественная дообученная версия |
| GLM-5.1 | Потребительский GPU | Медленнее | Отзывы сообщества уступают Qwen3.6 |
| Kimi K2.6 | Потребительский GPU | Медленнее | Отзывы сообщества уступают Qwen3.6 |
Почему это важно
1. $300 для запуска 35B: порог потребительского AI-инференса продолжает снижаться
Год назад для запуска 35B-модели требовались мультикарточные A100 или A6000. Теперь одна потребительская видеокарта за $300 может запускать её на рабочей скорости. MoE-архитектура — ключевой драйвер этой тенденции.
2. Глубина контекста больше не штрафует скорость инференса
Это ключевой инженерный прорыв. Многие демо «локальный LLM пригоден» работают только на коротком контексте — как только разговор удлиняется или документы растут, скорость рушится. Qwen3.6-35B-A3B решает эту проблему.
3. Китайские открытые модели лидируют в потребительских сценариях
Qwen3.6 (Tongyi Qianwen) — серия открытых моделей Alibaba. В конкретном сценарии потребительского GPU-инференса она сейчас превосходит одноклассников GLM-5.1 и Kimi K2.6.
Практические рекомендации
- Пользователям: если у вас есть RTX 4060 Ti 8GB или лучше, вы можете напрямую попробовать квантованную GGUF-версию Qwen3.6-35B-A3B. Квантованные модели уже доступны на Hugging Face.
- Разработчикам: следите за потенциалом оптимизации MoE-архитектур на потребительских GPU. 4-битное и 3-битное квантование могут ещё больше снизить требования к VRAM.
- Предприятиям: для сценариев с высокими требованиями к конфиденциальности (здравоохранение, юриспруденция, финансы) локальный запуск 35B-моделей теперь имеет производительность уровня production.