Inference cost в 2026: сравнение 7 провайдеров на реальном workload
2025-10-10 · Мария Петрова
Inference cost в 2026
Раз в квартал мы пересчитываем экономику инференса на нашем workload. Делимся результатами последнего замера.
Методика
- Трафик: 50k запросов из прода, случайная выборка за неделю
- Средняя длина: 520 input / 140 output токенов
- Метрика качества: LLM-as-judge score (Claude 3 Opus как судья) + human spot-check на 200 примерах
- Latency: измерена с той же geo-зоны (Frankfurt)
Провайдеры в сравнении
- OpenAI GPT-4 Turbo
- OpenAI GPT-4o
- Anthropic Claude 3 Sonnet
- Anthropic Claude 3 Haiku
- Google Gemini 1.5 Pro
- Together AI (Llama-3-70B)
- Groq (Llama-3-70B)
Cost
Цены на октябрь 2025, $ per 1M запросов при нашем профиле:
| Провайдер | Input | Output | Total ($/1M req) |
|---|---|---|---|
| Claude 3 Haiku | $0.25/Mtok | $1.25/Mtok | $310 |
| Groq (Llama-3-70B) | $0.59/Mtok | $0.79/Mtok | $420 |
| Together (Llama-3-70B) | $0.90/Mtok | $0.90/Mtok | $594 |
| GPT-4o | $2.50/Mtok | $10.00/Mtok | $2,700 |
| Claude 3 Sonnet | $3.00/Mtok | $15.00/Mtok | $3,660 |
| Gemini 1.5 Pro | $3.50/Mtok | $10.50/Mtok | $3,290 |
| GPT-4 Turbo | $10.00/Mtok | $30.00/Mtok | $9,400 |
Quality (judge score, шкала 1–5)
| Провайдер | Score |
|---|---|
| GPT-4 Turbo | 4.42 |
| Claude 3 Sonnet | 4.39 |
| GPT-4o | 4.31 |
| Gemini 1.5 Pro | 4.18 |
| Llama-3-70B (Groq) | 3.92 |
| Llama-3-70B (Together) | 3.91 |
| Claude 3 Haiku | 3.78 |
Latency (p50 / p95, ms)
| Провайдер | p50 | p95 |
|---|---|---|
| Groq | 180 | 320 |
| Claude 3 Haiku | 290 | 520 |
| GPT-4o | 450 | 890 |
| Claude 3 Sonnet | 420 | 780 |
| Gemini 1.5 Pro | 780 | 1400 |
| GPT-4 Turbo | 890 | 1640 |
| Together | 960 | 1800 |
Cost-to-quality frontier
Если откинуть Pareto-доминируемые варианты, остаётся: - Haiku — самая дешёвая «рабочая» опция для простых задач - Groq Llama-3 — лучшая latency при умеренной цене - Claude 3 Sonnet — лучший баланс quality/cost для среднего сегмента - GPT-4 Turbo — премиальное качество за деньги
GPT-4o и Gemini Pro в нашем workload оказались Pareto-доминируемыми Claude Sonnet — дороже или хуже по quality.
Выводы для практики
- Для production с 60%+ простых задач — Haiku или Groq на простые, Sonnet на сложные. Routing окупается.
- «Всегда самая дорогая» — почти гарантированная переплата 2–3x без заметного роста quality на большинстве workload'ов.
- Latency сильно разнится — если вы latency-sensitive (chat, voice), Groq стоит отдельного рассмотрения.
- Цены меняются быстро. Этот замер устареет через 2–3 месяца. Пересчитывайте.
Вывод
Разница между «дешёвым» и «дорогим» провайдером в нашем workload — 30x по стоимости при разнице в качестве ~15%. Правильный routing даёт почти всё преимущество цены без заметной деградации.
← Ко всем постам