Сравнить Графики

Язык:

❤️ Made by XCS

AI BENCHY Compare

Inception: Mercury 2 vs xAI: Grok 4.1 Fast

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-05

Метрика	Inception: Mercury 2 medium Релиз: 2026-02-24	xAI: Grok 4.1 Fast none Релиз: 2025-11-19
Средний балл	5.4	2.9
Тестов верно
Ранг	#35	#53
Стабильность	8.3	8.9
Стоимость за результат	0.622	0.239
Общая стоимость	$0.044	$0.008
Доля успешных попыток	57.8%	26.7%
Нестабильные тесты	3	2
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
Выходные токены	3,571	1,036
Токены рассуждений	45,379	0
Время ответа (среднее)	2.47s	2.01s
Время ответа (макс.)	14.63s	5.51s
Время ответа (суммарно)	34.56s	16.06s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	7.3	9.8	66.7%	0		1.30s	2,531	2,410
xAI: Grok 4.1 Fast	1.3	10.0	0.0%	0		1.73s	229	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887
xAI: Grok 4.1 Fast	10.0	10.0	0.0%	0		3.33s	105	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	5.5	5.9	83.3%	1		1.11s	183	1,656
xAI: Grok 4.1 Fast	9.9	10.0	100.0%	0		943ms	180	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	10.0	7.2	11.1%	1		6.48s	41	30,754
xAI: Grok 4.1 Fast	4.0	7.2	55.6%	1		1.06s	15	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958
xAI: Grok 4.1 Fast	10.0	10.0	0.0%	0		923ms	56	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	1.7	7.5	22.2%	1		934ms	354	2,758
xAI: Grok 4.1 Fast	1.3	10.0	0.0%	0		1.28s	243	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956
xAI: Grok 4.1 Fast	10.0	1.6	33.3%	1		5.51s	208	0

Быстрое сравнение

Сменить пару сравнения

Gemini 2.5 FlashnonevsMercury 2medium DeepSeek V3.2nonevsMercury 2medium Mercury 2mediumvsQwen3.5-122B-A10Bnone Mercury 2mediumvsGLM 5none Grok 4.1 FastnonevsGLM 4.7 Flashmedium Qwen3 Coder NextmediumvsGrok 4.1 Fastnone Mercury 2mediumvsQwen3.5-Flashnone Mercury 2mediumvsQwen3.5-27Bnone Mercury 2mediumvsQwen3.5-35B-A3Bnone Mercury 2mediumvsGPT-5.4none Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Trinity Large Preview (free)noneБесплатно доступноvsMercury 2medium