Сравнить Графики

Язык:

❤️ Made by XCS

AI BENCHY Compare

Inception: Mercury 2 vs xAI: Grok 4.1 Fast

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-05

Метрика	Inception: Mercury 2 none Релиз: 2026-02-24	xAI: Grok 4.1 Fast medium Релиз: 2025-11-19
Средний балл	3.4	6.4
Тестов верно
Ранг	#50	#28
Стабильность	8.9	7.8
Стоимость за результат	0.147	0.541
Общая стоимость	$0.006	$0.049
Доля успешных попыток	33.3%	71.1%
Нестабильные тесты	2	4
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
Выходные токены	1,144	1,056
Токены рассуждений	0	80,419
Время ответа (среднее)	594ms	27.61s
Время ответа (макс.)	1.27s	121.79s
Время ответа (суммарно)	8.91s	220.87s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	10.0	10.0	0.0%	0		466ms	274	0
xAI: Grok 4.1 Fast	10.0	10.0	100.0%	0		5.65s	102	4,021

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	10.0	10.0	0.0%	0		606ms	131	0
xAI: Grok 4.1 Fast	10.0	10.0	100.0%	0		37.64s	261	12,272

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	5.5	5.9	83.3%	1		667ms	180	0
xAI: Grok 4.1 Fast	9.9	10.0	100.0%	0		6.63s	180	5,409

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	4.0	7.2	44.4%	1		534ms	46	0
xAI: Grok 4.1 Fast	4.0	4.4	66.7%	2		121.79s	11	37,657

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	5.5	10.0	50.0%	0		551ms	82	0
xAI: Grok 4.1 Fast	5.5	10.0	50.0%	0		5.30s	55	3,489

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	10.0	10.0	0.0%	0		533ms	234	0
xAI: Grok 4.1 Fast	4.0	7.2	44.4%	1		8.08s	187	6,086

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	10.0	10.0	100.0%	0		1.27s	197	0
xAI: Grok 4.1 Fast	10.0	1.6	33.3%	1		27.71s	260	11,485

Быстрое сравнение

Сменить пару сравнения

Qwen3.5 Plus 2026-02-15nonevsGrok 4.1 Fastmedium Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Claude Sonnet 4.6nonevsGrok 4.1 Fastmedium Gemini 3 Flash PreviewnonevsGrok 4.1 Fastmedium Grok 4.1 FastmediumvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsGrok 4.1 Fastmedium GPT-5.3 ChatnonevsGrok 4.1 Fastmedium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.1 Fastmedium Gemini 2.5 FlashnonevsGrok 4.1 Fastmedium DeepSeek V3.2nonevsGrok 4.1 Fastmedium GPT-5.2 ChatnonevsGrok 4.1 Fastmedium