Inference cost в 2026: сравнение 7 провайдеров на реальном workload

2025-10-10 · Мария Петрова

Inference cost в 2026

Раз в квартал мы пересчитываем экономику инференса на нашем workload. Делимся результатами последнего замера.

Методика

Трафик: 50k запросов из прода, случайная выборка за неделю
Средняя длина: 520 input / 140 output токенов
Метрика качества: LLM-as-judge score (Claude 3 Opus как судья) + human spot-check на 200 примерах
Latency: измерена с той же geo-зоны (Frankfurt)

Провайдеры в сравнении

OpenAI GPT-4 Turbo
OpenAI GPT-4o
Anthropic Claude 3 Sonnet
Anthropic Claude 3 Haiku
Google Gemini 1.5 Pro
Together AI (Llama-3-70B)
Groq (Llama-3-70B)

Cost

Цены на октябрь 2025, $ per 1M запросов при нашем профиле:

Провайдер	Input	Output	Total ($/1M req)
Claude 3 Haiku	$0.25/Mtok	$1.25/Mtok	$310
Groq (Llama-3-70B)	$0.59/Mtok	$0.79/Mtok	$420
Together (Llama-3-70B)	$0.90/Mtok	$0.90/Mtok	$594
GPT-4o	$2.50/Mtok	$10.00/Mtok	$2,700
Claude 3 Sonnet	$3.00/Mtok	$15.00/Mtok	$3,660
Gemini 1.5 Pro	$3.50/Mtok	$10.50/Mtok	$3,290
GPT-4 Turbo	$10.00/Mtok	$30.00/Mtok	$9,400

Quality (judge score, шкала 1–5)

Провайдер	Score
GPT-4 Turbo	4.42
Claude 3 Sonnet	4.39
GPT-4o	4.31
Gemini 1.5 Pro	4.18
Llama-3-70B (Groq)	3.92
Llama-3-70B (Together)	3.91
Claude 3 Haiku	3.78

Latency (p50 / p95, ms)

Провайдер	p50	p95
Groq	180	320
Claude 3 Haiku	290	520
GPT-4o	450	890
Claude 3 Sonnet	420	780
Gemini 1.5 Pro	780	1400
GPT-4 Turbo	890	1640
Together	960	1800

Cost-to-quality frontier

Если откинуть Pareto-доминируемые варианты, остаётся: - Haiku — самая дешёвая «рабочая» опция для простых задач - Groq Llama-3 — лучшая latency при умеренной цене - Claude 3 Sonnet — лучший баланс quality/cost для среднего сегмента - GPT-4 Turbo — премиальное качество за деньги

GPT-4o и Gemini Pro в нашем workload оказались Pareto-доминируемыми Claude Sonnet — дороже или хуже по quality.

Выводы для практики

Для production с 60%+ простых задач — Haiku или Groq на простые, Sonnet на сложные. Routing окупается.
«Всегда самая дорогая» — почти гарантированная переплата 2–3x без заметного роста quality на большинстве workload'ов.
Latency сильно разнится — если вы latency-sensitive (chat, voice), Groq стоит отдельного рассмотрения.
Цены меняются быстро. Этот замер устареет через 2–3 месяца. Пересчитывайте.

Вывод

Разница между «дешёвым» и «дорогим» провайдером в нашем workload — 30x по стоимости при разнице в качестве ~15%. Правильный routing даёт почти всё преимущество цены без заметной деградации.

← Ко всем постам