После того как мы разобрались, зачем QA-инженеру локальная LLM, пора выбирать конкретную модель. И тут начинается самое интересное: на Hugging Face сотни вариантов, каждый автор утверждает, что его квантизация — самая лучшая, а в комментариях люди спорят, стоит ли жертвовать 2% качества ради 15% скорости.
Я потратил несколько дней на тестирование разных моделей под реальные QA-задачи: генерация чек-листов, написание автотестов на Playwright и pytest, анализ логов, работа с русским языком. В этом посте — результат этих тестов без маркетинговой шумихи.
Как я тестировал
Прежде чем перейти к моделям, расскажу о методологии.
Для каждой модели я замерял:
Скорость генерации — токенов в секунду на CPU
Качество кода — насколько генерируемый код компилируется без правок
Качество тест-кейсов — полнота покрытия, наличие граничных случаев
Русский язык — грамматика, терминология, естественность
Tool calling — способность работать с MCP-инструментами
Все модели запускались через Ollama с параметрами по умолчанию, temperature=0.7, контекст 4096 токенов (если модель позволяет больше — укажу отдельно).
Лёгкие модели: 3-4 миллиарда параметров
Этот сегмент — для старых ноутбуков, нетбуков, ситуаций "мне просто быстро проверить гипотезу". Модели весят 2-4 GB, запускаются на любом железе, но качество — соответствующее.
Llama 3.2 3B Instruct
Размер: 2.0 GB (Q4_K_M)
Скорость на M3: 45-55 ток/сек
Скорость на i7-1265U: 12-18 ток/сек
Скорость на i5-8250U: 6-10 ток/сек
Meta сделала отличную работу: модель на 3 миллиарда параметров пишет код лучше, чем многие 7B-модели двухгодичной давности. Для простых задач — генерация чек-листа по ТЗ, написание простого API-теста — вполне сгодится.
Плюсы: летает даже на старом железе, отличный английский, хорошо следует инструкциям
Минусы: слабый русский (переходит на английский под давлением), не умеет tool calling, короткий контекст (4K токенов)
Для кого: если у вас старый ноутбук и вы работаете преимущественно с англоязычными проектами.
Qwen 2.5 4B Instruct
Размер: 2.5 GB (Q4_K_M)
Скорость на M3: 40-50 ток/сек
Скорость на i7-1265U: 10-15 ток/сек
Скорость на i5-8250U: 5-8 ток/сек
Alibaba создаёт серьёзную конкуренцию в сегменте малых моделей. Qwen 2.5 4B — мой выбор для корпоративных ноутбуков: она заметно лучше Llama 3.2 3B на русском языке и умеет базовый tool calling.
На практике: генерация чек-листа для формы регистрации — 8 пунктов из 10 релевантны (против 6 у Llama). Код автотеста на Playwright — компилируется с первого раза, но требует доработки локаторов.
Плюсы: лучший русский в классе, базовый tool calling, 32K контекст
Минусы: код хуже, чем у Llama, иногда галлюцинирует на сложных промптах
Для кого: основная рабочая лошадка для корпоративных ноутбуков. Если у вас i5/i7 с 16 GB RAM — начните с этой модели.
Gemma 4 E4B (Effective 4B)
Размер: 4.2 GB (Q4_K_M)
Скорость на M3: 35-45 ток/сек
Скорость на i7-1265U: 8-12 ток/сек
Скорость на i5-8250U: 4-6 ток/сек
Google экспериментирует с архитектурой: E4B — это Gemma 4, уменьшенная до 4 миллиардов параметров с помощью дистилляции. Результат неоднозначный: модель интересная, но сыроватая.
Контекст 128K токенов — это впечатляет для 4B-модели. Можно скормить целое ТЗ и попросить анализ. Но качество кода заметно хуже Qwen 2.5 4B, а русский язык — на уровне Llama (то есть слабый).
Плюсы: огромный контекст (128K), нативный tool calling, thinking mode
Минусы: низкое качество кода, слабый русский, медленнее конкурентов
Для кого: если вам критично иметь большой контекст на слабом железе. Но я бы подождал следующих версий.
Средние модели: 7-9 миллиардов параметров
Золотая середина. Достаточно умные для сложных задач, достаточно лёгкие для запуска на MacBook и современных корпоративных ноутбуках.
Qwen 3.5 9B
Размер: 5.8 GB (Q4_K_M)
Скорость на M3: 25-35 ток/сек
Скорость на i7-1265U: 6-10 ток/сек
Скорость на i5-8250U: 3-5 ток/сек
Мой главный рекомендованный выбор для MacBook. Qwen 3.5 9B — это модель, которая умеет практически всё, что нужно QA-автоматизатору.
Контекст 256K токенов — можно скормить целый документ с требованиями, логи прогона на несколько тысяч строк, или кодовую базу целиком. Tool calling работает стабильно: я тестировал интеграцию с Jira через MCP — модель корректно формирует JSON для создания тикетов в 90% случаев.
Код на Playwright/TypeScript — компилируется в 80% случаев. Остаётся поправить локаторы и добавить ожидания. Для pytest/Appium — чуть хуже, около 70%, потому что мобильная автоматизация специфичнее.
Русский язык — отличный. Модель понимает техническую терминологию, не путает падежи, генерирует естественные формулировки для тест-кейсов.
Плюсы: лучший баланс качества и скорости, отличный русский, стабильный tool calling, огромный контекст
Минусы: на старых CPU может тормозить, весит почти 6 GB
Для кого: основная модель для MacBook и мощных Windows-ноутбуков. Если у вас 16+ GB RAM и современный процессор — берите эту.
Llama 3.1 8B Instruct
Размер: 4.7 GB (Q4_K_M)
Скорость на M3: 30-40 ток/сек
Скорость на i7-1265U: 8-12 ток/сек
Скорость на i5-8250U: 4-6 ток/сек
Классика от Meta. Llama 3.1 8B — надёжный выбор, если вам важна скорость и вы работаете с англоязычными проектами. Код пишет чуть лучше Qwen 3.5 9B, особенно на TypeScript/JavaScript. Но русский язык — слабее, и tool calling работает через костыли (нужно форматировать промпт специальным образом).
Контекст 128K — достаточно для большинства задач, но вдвое меньше Qwen.
Плюсы: быстрее Qwen, лучший код на JS/TS, стабильная и предсказуемая
Минусы: слабый русский, tool calling через костыли, меньше контекста
Для кого: если ваш основной стек — JavaScript/TypeScript, и вы готовы мириться с английским языком.
Мощные модели: 12-14 миллиардов параметров
Для сложных задач: написание архитектуры автотестов, анализ больших логов, работа с legacy-кодом. Требуют 16+ GB RAM и терпения на CPU.
Qwen 2.5 Coder 14B
Размер: 9.2 GB (Q4_K_M)
Скорость на M3: 12-18 ток/сек
Скорость на i7-1265U: 3-5 ток/сек
Скорость на i5-8250U: 1-2 ток/сек (почти неюзабельно)
Специализированная модель для написания кода. Если ваша основная задача — генерация автотестов, и вы готовы ждать 30-60 секунд на ответ — это лучший выбор.
Код на Playwright компилируется в 90%+ случаев. Модель понимает паттерны Page Object, умеет работать с fixtures, генерирует осмысленные названия тестов и переменных. Для pytest — тоже отлично, особенно если показать примеры существующих тестов в контексте.
Но для генерации тест-кейсов и чек-листов она хуже Qwen 3.5 9B — слишком уж заточена под код.
Плюсы: лучший код в классе, понимает архитектурные паттерны, 128K контекст
Минусы: медленная, тяжёлая, плохо подходит для не-кодовых задач
Для кого: если вы пишете много автотестов и у вас MacBook Pro или мощная рабочая станция.
DeepSeek-R1 Distill Qwen 14B
Размер: 9.0 GB (Q4_K_M)
Скорость на M3: 10-15 ток/сек
Скорость на i7-1265U: 2-4 ток/сек
Скорость на i5-8250U: 1 ток/сек (неюзабельно)
DeepSeek-R1 — это модель, которая "думает" перед ответом. Она генерирует цепочку рассуждений (chain of thought), анализирует разные варианты, выбирает лучший. Для QA-задач это означает, что она лучше справляется с анализом сложных сценариев.
Например, когда я просил проанализировать покрытие требований, DeepSeek-R1 не просто сопоставлял списки — она рассуждала: "Требование N говорит о валидации email, но тест-кейс M проверяет только формат, а не проверку на дубликаты. Значит, покрытие неполное". Такой уровень анализа — редкость даже среди больших моделей.
Но цена — скорость. На CPU модель работает очень медленно, и её reasoning добавляет 20-30% к времени генерации.
Плюсы: лучший аналитический интеллект, отлично справляется со сложными задачами, хороший русский
Минусы: очень медленная на CPU, тяжёлая, избыточные рассуждения иногда мешают
Для кого: для сложных аналитических задач: анализ покрытия, review тест-кейсов, поиск edge cases. Не для ежедневной рутины.
Специализированные модели
Qwen 3 VL 8B (Vision-Language)
Размер: 5.5 GB (Q4_K_M)
Особенность: понимает изображения
Единственная модель в обзоре с поддержкой зрения. Можете скормить ей скриншот интерфейса, и она опишет элементы, предложит локаторы, сгенерирует тест. Или скриншот ошибки — она проанализирует stack trace на изображении.
На практике качество распознавания интерфейсов среднее: модель находит основные элементы, но мелкие детали (иконки, всплывающие подсказки) часто пропускает. Для скриншотов ошибок — отлично, читает текст даже с низким разрешением.
Плюсы: единственная модель с vision, полезна для мобильной автоматизации
Минусы: дороже в вычислениях, vision замедляет текстовую генерацию
Для кого: если вы часто работаете со скриншотами: мобильное тестирование, визуальное регрессионное тестирование.
Сводная таблица
Модель | Размер | Скорость (M3) | Скорость (i7) | Код | Русский | Tool calling | Контекст |
|---|---|---|---|---|---|---|---|
Llama 3.2 3B | 2.0 GB | 45-55 ток/с | 12-18 ток/с | ⭐⭐⭐ | ⭐⭐ | ❌ | 4K |
Qwen 2.5 4B | 2.5 GB | 40-50 ток/с | 10-15 ток/с | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⚠️ Базовый | 32K |
Gemma 4 E4B | 4.2 GB | 35-45 ток/с | 8-12 ток/с | ⭐⭐ | ⭐⭐ | ✅ | 128K |
Llama 3.1 8B | 4.7 GB | 30-40 ток/с | 8-12 ток/с | ⭐⭐⭐⭐ | ⭐⭐ | ⚠️ Костыли | 128K |
Qwen 3.5 9B | 5.8 GB | 25-35 ток/с | 6-10 ток/с | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ | 256K |
Qwen 3 VL 8B | 5.5 GB | 20-30 ток/с | 5-8 ток/с | ⭐⭐⭐ | ⭐⭐⭐⭐ | ✅ | 128K |
Qwen 2.5 Coder 14B | 9.2 GB | 12-18 ток/с | 3-5 ток/с | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ✅ | 128K |
DeepSeek-R1 14B | 9.0 GB | 10-15 ток/с | 2-4 ток/с | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ✅ | 128K |
Мои рекомендации
Для MacBook (M1/M2/M3, 16+ GB RAM)
Основная модель: Qwen 3.5 9B. Лучший баланс всего: скорость, качество, русский язык, tool calling. Установите как основную рабочую лошадку.
Для кода: Qwen 2.5 Coder 14B. Запускайте, когда нужно написать сложный автотест или разобраться с архитектурой. Да, медленнее, но качество кода того стоит.
Для аналитики: DeepSeek-R1 14B. Когда нужно глубоко проанализировать требования, найти edge cases, сделать review чужих тест-кейсов.
Для корпоративных ноутбуков (i5/i7, 16 GB RAM)
Основная модель: Qwen 2.5 4B. Летает на i5, даёт приемлемое качество для 80% задач. Если нужно больше — можно попробовать Qwen 3.5 9B, но будьте готовы к паузам в 10-15 секунд.
Альтернатива: Llama 3.2 3B, если вы работаете с англоязычными проектами и приоритет — скорость.
Для старых машин (i5 8-го поколения, 8-16 GB RAM)
Выбор: Llama 3.2 3B или Qwen 2.5 4B. Обе модели работают на 8 GB RAM, хотя с 16 GB комфортнее. Gemma 4 E4B тоже вариант, если нужен большой контекст, но качество кода немного разочарует.
Что дальше
В следующем посте — практическая часть. Я покажу, как установить Ollama на Mac и Windows, скачать модель с Hugging Face, и запустить первый промпт. Без теории, только команды и скриншоты.
Если у вас есть вопросы по конкретным моделям — спрашивайте в комментариях. Проверю и дополню обзор.
Discussion
No comments yet - start the thread.