Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Inception: Mercury 2

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-04

Метрика Claude Sonnet 4.6 Claude Sonnet 4.6 none Релиз: 2026-02-17 Mercury 2 Mercury 2 medium Релиз: 2026-02-24
Оценка 6.8 6.6
Ранг #77 #81
Надежность 10.0 10.0
Стабильность 9.7 8.8
Тестов верно
Доля успешных попыток 55.6% 54.0%
Нестабильные тесты 1 3
Всего запусков 63 63
Стоимость за результат 2.870 0.578
Общая стоимость $0.316 $0.058
Цена входа $3.000 / 1M $0.250 / 1M
Цена выхода $15.000 / 1M $0.750 / 1M
Общее число входных токенов 57,886 35,116
Выходные токены 9,465 4,048
Токены рассуждений 0 61,219
Время ответа (среднее) 5.04s 2.24s
Время ответа (макс.) 23.84s 14.63s
Время ответа (суммарно) 70.60s 44.72s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 4.6 4.8 10.0 25.0% 0 2.94s 636 1,214 0
Mercury 2 6.9 9.9 50.0% 0 1.12s 554 2,546 2,609
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 4.6 5.5 10.0 33.3% 0 5.19s 8,522 2,127 0
Mercury 2 8.2 7.7 77.8% 1 2.04s 7,065 296 11,328
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 4.6 9.5 10.0 100.0% 0 23.84s 26,024 3,766 0
Mercury 2 10.0 10.0 100.0% 0 3.28s 12,909 268 4,887
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 4.6 10.0 10.0 100.0% 0 3.43s 8,574 252 0
Mercury 2 7.3 5.9 83.3% 1 1.11s 6,234 183 1,656
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 4.6 7.7 10.0 66.7% 0 3.54s 759 413 0
Mercury 2 2.9 7.2 11.1% 1 6.48s 695 41 30,754
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 4.6 6.1 3.1 66.7% 1 2.56s 513 192 0
Mercury 2 4.8 10.0 0.0% 0 821ms 456 137 542
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 4.6 6.5 10.0 50.0% 0 1.96s 690 90 0
Mercury 2 10.0 10.0 100.0% 0 1.07s 340 14 958
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 4.6 7.7 10.0 66.7% 0 2.53s 663 533 0
Mercury 2 5.4 10.0 33.3% 0 949ms 601 361 2,781
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 4.6 10.0 10.0 100.0% 0 4.11s 11,301 447 0
Mercury 2 10.0 10.0 100.0% 0 1.89s 6,080 180 1,956
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 4.6 3.0 10.0 0.0% 0 4.67s 204 431 0
Mercury 2 3.0 10.0 0.0% 0 2.58s 182 22 3,748

Быстрое сравнение

Сменить пару сравнения