Сравнить Графики

Язык:

❤️ Made by XCS

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Inception: Mercury 2

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-05

Метрика	Anthropic: Claude Opus 4.6 medium Релиз: 2026-02-05	Inception: Mercury 2 none Релиз: 2026-02-24
Средний балл	6.4	3.4
Тестов верно
Ранг	#30	#50
Стабильность	8.9	8.9
Стоимость за результат	14.411	0.147
Общая стоимость	$1.297	$0.006
Доля успешных попыток	64.4%	33.3%
Нестабильные тесты	2	2
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
Выходные токены	26,066	1,144
Токены рассуждений	17,071	0
Время ответа (среднее)	25.08s	594ms
Время ответа (макс.)	83.40s	1.27s
Время ответа (суммарно)	200.67s	8.91s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Anthropic: Claude Opus 4.6	4.0	4.4	55.6%	2		11.88s	897	1,000
Inception: Mercury 2	10.0	10.0	0.0%	0		466ms	274	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Inception: Mercury 2	10.0	10.0	0.0%	0		606ms	131	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Anthropic: Claude Opus 4.6	9.9	10.0	100.0%	0		7.37s	691	757
Inception: Mercury 2	5.5	5.9	83.3%	1		667ms	180	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Anthropic: Claude Opus 4.6	10.0	10.0	0.0%	0		83.40s	14,642	8,687
Inception: Mercury 2	4.0	7.2	44.4%	1		534ms	46	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Inception: Mercury 2	5.5	10.0	50.0%	0		551ms	82	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Anthropic: Claude Opus 4.6	7.0	10.0	66.7%	0		4.60s	531	637
Inception: Mercury 2	10.0	10.0	0.0%	0		533ms	234	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Inception: Mercury 2	10.0	10.0	100.0%	0		1.27s	197	0

Быстрое сравнение

Сменить пару сравнения

Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsGLM 5none Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Opus 4.6mediumvsGemini 2.5 Flashnone Claude Opus 4.6mediumvsDeepSeek V3.2none Claude Opus 4.6mediumvsGPT-5.2 Chatnone Claude Opus 4.6mediumvsQwen3.5-122B-A10Bnone