Обзор локальных LLM для QA: какую модель выбрать под своё железо

После того как мы разобрались, зачем QA-инженеру локальная LLM, пора выбирать конкретную модель. И тут начинается самое интересное: на Hugging Face сотни вариантов, каждый автор утверждает, что его квантизация — самая лучшая, а в комментариях люди спорят, стоит ли жертвовать 2% качества ради 15% скорости.

Я потратил несколько дней на тестирование разных моделей под реальные QA-задачи: генерация чек-листов, написание автотестов на Playwright и pytest, анализ логов, работа с русским языком. В этом посте — результат этих тестов без маркетинговой шумихи.

Как я тестировал

Прежде чем перейти к моделям, расскажу о методологии.

Для каждой модели я замерял:

Скорость генерации — токенов в секунду на CPU
Качество кода — насколько генерируемый код компилируется без правок
Качество тест-кейсов — полнота покрытия, наличие граничных случаев
Русский язык — грамматика, терминология, естественность
Tool calling — способность работать с MCP-инструментами

Все модели запускались через Ollama с параметрами по умолчанию, temperature=0.7, контекст 4096 токенов (если модель позволяет больше — укажу отдельно).

Лёгкие модели: 3-4 миллиарда параметров

Этот сегмент — для старых ноутбуков, нетбуков, ситуаций "мне просто быстро проверить гипотезу". Модели весят 2-4 GB, запускаются на любом железе, но качество — соответствующее.

Llama 3.2 3B Instruct

Размер: 2.0 GB (Q4_K_M)
Скорость на M3: 45-55 ток/сек
Скорость на i7-1265U: 12-18 ток/сек
Скорость на i5-8250U: 6-10 ток/сек

Meta сделала отличную работу: модель на 3 миллиарда параметров пишет код лучше, чем многие 7B-модели двухгодичной давности. Для простых задач — генерация чек-листа по ТЗ, написание простого API-теста — вполне сгодится.

Плюсы: летает даже на старом железе, отличный английский, хорошо следует инструкциям
Минусы: слабый русский (переходит на английский под давлением), не умеет tool calling, короткий контекст (4K токенов)

Для кого: если у вас старый ноутбук и вы работаете преимущественно с англоязычными проектами.

Qwen 2.5 4B Instruct

Размер: 2.5 GB (Q4_K_M)
Скорость на M3: 40-50 ток/сек
Скорость на i7-1265U: 10-15 ток/сек
Скорость на i5-8250U: 5-8 ток/сек

Alibaba создаёт серьёзную конкуренцию в сегменте малых моделей. Qwen 2.5 4B — мой выбор для корпоративных ноутбуков: она заметно лучше Llama 3.2 3B на русском языке и умеет базовый tool calling.

На практике: генерация чек-листа для формы регистрации — 8 пунктов из 10 релевантны (против 6 у Llama). Код автотеста на Playwright — компилируется с первого раза, но требует доработки локаторов.

Плюсы: лучший русский в классе, базовый tool calling, 32K контекст
Минусы: код хуже, чем у Llama, иногда галлюцинирует на сложных промптах

Для кого: основная рабочая лошадка для корпоративных ноутбуков. Если у вас i5/i7 с 16 GB RAM — начните с этой модели.

Gemma 4 E4B (Effective 4B)

Размер: 4.2 GB (Q4_K_M)
Скорость на M3: 35-45 ток/сек
Скорость на i7-1265U: 8-12 ток/сек
Скорость на i5-8250U: 4-6 ток/сек

Google экспериментирует с архитектурой: E4B — это Gemma 4, уменьшенная до 4 миллиардов параметров с помощью дистилляции. Результат неоднозначный: модель интересная, но сыроватая.

Контекст 128K токенов — это впечатляет для 4B-модели. Можно скормить целое ТЗ и попросить анализ. Но качество кода заметно хуже Qwen 2.5 4B, а русский язык — на уровне Llama (то есть слабый).

Плюсы: огромный контекст (128K), нативный tool calling, thinking mode
Минусы: низкое качество кода, слабый русский, медленнее конкурентов

Для кого: если вам критично иметь большой контекст на слабом железе. Но я бы подождал следующих версий.

Средние модели: 7-9 миллиардов параметров

Золотая середина. Достаточно умные для сложных задач, достаточно лёгкие для запуска на MacBook и современных корпоративных ноутбуках.

Qwen 3.5 9B

Размер: 5.8 GB (Q4_K_M)
Скорость на M3: 25-35 ток/сек
Скорость на i7-1265U: 6-10 ток/сек
Скорость на i5-8250U: 3-5 ток/сек

Мой главный рекомендованный выбор для MacBook. Qwen 3.5 9B — это модель, которая умеет практически всё, что нужно QA-автоматизатору.

Контекст 256K токенов — можно скормить целый документ с требованиями, логи прогона на несколько тысяч строк, или кодовую базу целиком. Tool calling работает стабильно: я тестировал интеграцию с Jira через MCP — модель корректно формирует JSON для создания тикетов в 90% случаев.

Код на Playwright/TypeScript — компилируется в 80% случаев. Остаётся поправить локаторы и добавить ожидания. Для pytest/Appium — чуть хуже, около 70%, потому что мобильная автоматизация специфичнее.

Русский язык — отличный. Модель понимает техническую терминологию, не путает падежи, генерирует естественные формулировки для тест-кейсов.

Плюсы: лучший баланс качества и скорости, отличный русский, стабильный tool calling, огромный контекст
Минусы: на старых CPU может тормозить, весит почти 6 GB

Для кого: основная модель для MacBook и мощных Windows-ноутбуков. Если у вас 16+ GB RAM и современный процессор — берите эту.

Llama 3.1 8B Instruct

Размер: 4.7 GB (Q4_K_M)
Скорость на M3: 30-40 ток/сек
Скорость на i7-1265U: 8-12 ток/сек
Скорость на i5-8250U: 4-6 ток/сек

Классика от Meta. Llama 3.1 8B — надёжный выбор, если вам важна скорость и вы работаете с англоязычными проектами. Код пишет чуть лучше Qwen 3.5 9B, особенно на TypeScript/JavaScript. Но русский язык — слабее, и tool calling работает через костыли (нужно форматировать промпт специальным образом).

Контекст 128K — достаточно для большинства задач, но вдвое меньше Qwen.

Плюсы: быстрее Qwen, лучший код на JS/TS, стабильная и предсказуемая
Минусы: слабый русский, tool calling через костыли, меньше контекста

Для кого: если ваш основной стек — JavaScript/TypeScript, и вы готовы мириться с английским языком.

Мощные модели: 12-14 миллиардов параметров

Для сложных задач: написание архитектуры автотестов, анализ больших логов, работа с legacy-кодом. Требуют 16+ GB RAM и терпения на CPU.

Qwen 2.5 Coder 14B

Размер: 9.2 GB (Q4_K_M)
Скорость на M3: 12-18 ток/сек
Скорость на i7-1265U: 3-5 ток/сек
Скорость на i5-8250U: 1-2 ток/сек (почти неюзабельно)

Специализированная модель для написания кода. Если ваша основная задача — генерация автотестов, и вы готовы ждать 30-60 секунд на ответ — это лучший выбор.

Код на Playwright компилируется в 90%+ случаев. Модель понимает паттерны Page Object, умеет работать с fixtures, генерирует осмысленные названия тестов и переменных. Для pytest — тоже отлично, особенно если показать примеры существующих тестов в контексте.

Но для генерации тест-кейсов и чек-листов она хуже Qwen 3.5 9B — слишком уж заточена под код.

Плюсы: лучший код в классе, понимает архитектурные паттерны, 128K контекст
Минусы: медленная, тяжёлая, плохо подходит для не-кодовых задач

Для кого: если вы пишете много автотестов и у вас MacBook Pro или мощная рабочая станция.

DeepSeek-R1 Distill Qwen 14B

Размер: 9.0 GB (Q4_K_M)
Скорость на M3: 10-15 ток/сек
Скорость на i7-1265U: 2-4 ток/сек
Скорость на i5-8250U: 1 ток/сек (неюзабельно)

DeepSeek-R1 — это модель, которая "думает" перед ответом. Она генерирует цепочку рассуждений (chain of thought), анализирует разные варианты, выбирает лучший. Для QA-задач это означает, что она лучше справляется с анализом сложных сценариев.

Например, когда я просил проанализировать покрытие требований, DeepSeek-R1 не просто сопоставлял списки — она рассуждала: "Требование N говорит о валидации email, но тест-кейс M проверяет только формат, а не проверку на дубликаты. Значит, покрытие неполное". Такой уровень анализа — редкость даже среди больших моделей.

Но цена — скорость. На CPU модель работает очень медленно, и её reasoning добавляет 20-30% к времени генерации.

Плюсы: лучший аналитический интеллект, отлично справляется со сложными задачами, хороший русский
Минусы: очень медленная на CPU, тяжёлая, избыточные рассуждения иногда мешают

Для кого: для сложных аналитических задач: анализ покрытия, review тест-кейсов, поиск edge cases. Не для ежедневной рутины.

Специализированные модели

Qwen 3 VL 8B (Vision-Language)

Размер: 5.5 GB (Q4_K_M)
Особенность: понимает изображения

Единственная модель в обзоре с поддержкой зрения. Можете скормить ей скриншот интерфейса, и она опишет элементы, предложит локаторы, сгенерирует тест. Или скриншот ошибки — она проанализирует stack trace на изображении.

На практике качество распознавания интерфейсов среднее: модель находит основные элементы, но мелкие детали (иконки, всплывающие подсказки) часто пропускает. Для скриншотов ошибок — отлично, читает текст даже с низким разрешением.

Плюсы: единственная модель с vision, полезна для мобильной автоматизации
Минусы: дороже в вычислениях, vision замедляет текстовую генерацию

Для кого: если вы часто работаете со скриншотами: мобильное тестирование, визуальное регрессионное тестирование.

Сводная таблица

Модель	Размер	Скорость (M3)	Скорость (i7)	Код	Русский	Tool calling	Контекст
Llama 3.2 3B	2.0 GB	45-55 ток/с	12-18 ток/с	⭐⭐⭐	⭐⭐	❌	4K
Qwen 2.5 4B	2.5 GB	40-50 ток/с	10-15 ток/с	⭐⭐⭐	⭐⭐⭐⭐	⚠️ Базовый	32K
Gemma 4 E4B	4.2 GB	35-45 ток/с	8-12 ток/с	⭐⭐	⭐⭐	✅	128K
Llama 3.1 8B	4.7 GB	30-40 ток/с	8-12 ток/с	⭐⭐⭐⭐	⭐⭐	⚠️ Костыли	128K
Qwen 3.5 9B	5.8 GB	25-35 ток/с	6-10 ток/с	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	✅	256K
Qwen 3 VL 8B	5.5 GB	20-30 ток/с	5-8 ток/с	⭐⭐⭐	⭐⭐⭐⭐	✅	128K
Qwen 2.5 Coder 14B	9.2 GB	12-18 ток/с	3-5 ток/с	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	✅	128K
DeepSeek-R1 14B	9.0 GB	10-15 ток/с	2-4 ток/с	⭐⭐⭐⭐	⭐⭐⭐⭐	✅	128K

Мои рекомендации

Для MacBook (M1/M2/M3, 16+ GB RAM)

Основная модель: Qwen 3.5 9B. Лучший баланс всего: скорость, качество, русский язык, tool calling. Установите как основную рабочую лошадку.

Для кода: Qwen 2.5 Coder 14B. Запускайте, когда нужно написать сложный автотест или разобраться с архитектурой. Да, медленнее, но качество кода того стоит.

Для аналитики: DeepSeek-R1 14B. Когда нужно глубоко проанализировать требования, найти edge cases, сделать review чужих тест-кейсов.

Для корпоративных ноутбуков (i5/i7, 16 GB RAM)

Основная модель: Qwen 2.5 4B. Летает на i5, даёт приемлемое качество для 80% задач. Если нужно больше — можно попробовать Qwen 3.5 9B, но будьте готовы к паузам в 10-15 секунд.

Альтернатива: Llama 3.2 3B, если вы работаете с англоязычными проектами и приоритет — скорость.

Для старых машин (i5 8-го поколения, 8-16 GB RAM)

Выбор: Llama 3.2 3B или Qwen 2.5 4B. Обе модели работают на 8 GB RAM, хотя с 16 GB комфортнее. Gemma 4 E4B тоже вариант, если нужен большой контекст, но качество кода немного разочарует.

Что дальше

В следующем посте — практическая часть. Я покажу, как установить Ollama на Mac и Windows, скачать модель с Hugging Face, и запустить первый промпт. Без теории, только команды и скриншоты.

Если у вас есть вопросы по конкретным моделям — спрашивайте в комментариях. Проверю и дополню обзор.