Сравнить Графики

Язык:

❤️ Made by XCS

AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: gpt-oss-120b

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-05

Метрика	Inception: Mercury 2 none Релиз: 2026-02-24	OpenAI: gpt-oss-120b medium Релиз: 2025-08-05 Бесплатно доступно
Средний балл	3.4	5.2
Тестов верно
Ранг	#50	#36
Стабильность	8.9	7.2
Стоимость за результат	0.147	0.133
Общая стоимость	$0.006	$0.010
Доля успешных попыток	33.3%	57.8%
Нестабильные тесты	2	5
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
Выходные токены	1,144	13,103
Токены рассуждений	0	33,843
Время ответа (среднее)	594ms	17.75s
Время ответа (макс.)	1.27s	50.92s
Время ответа (суммарно)	8.91s	141.98s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	10.0	10.0	0.0%	0		466ms	274	0
OpenAI: gpt-oss-120b	7.0	9.8	66.7%	0		19.76s	3,463	2,077

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	10.0	10.0	0.0%	0		606ms	131	0
OpenAI: gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	5.5	5.9	83.3%	1		667ms	180	0
OpenAI: gpt-oss-120b	5.5	5.9	66.7%	1		1.98s	241	1,114

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	4.0	7.2	44.4%	1		534ms	46	0
OpenAI: gpt-oss-120b	10.0	4.4	22.2%	2		50.92s	6,784	20,606

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	5.5	10.0	50.0%	0		551ms	82	0
OpenAI: gpt-oss-120b	9.5	10.0	100.0%	0		7.63s	126	1,799

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	10.0	10.0	0.0%	0		533ms	234	0
OpenAI: gpt-oss-120b	1.7	4.7	22.2%	2		11.80s	1,508	2,092

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	10.0	10.0	100.0%	0		1.27s	197	0
OpenAI: gpt-oss-120b	9.0	10.0	100.0%	0		6.91s	287	1,083

Быстрое сравнение

Сменить пару сравнения

Gemini 2.5 Flashnonevsgpt-oss-120bmediumБесплатно доступно DeepSeek V3.2nonevsgpt-oss-120bmediumБесплатно доступно Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium gpt-oss-120bmediumБесплатно доступноvsQwen3.5-122B-A10Bnone gpt-oss-120bmediumБесплатно доступноvsQwen3.5-Flashnone gpt-oss-120bmediumБесплатно доступноvsQwen3.5-27Bnone gpt-oss-120bmediumБесплатно доступноvsQwen3.5-35B-A3Bnone gpt-oss-120bmediumБесплатно доступноvsGLM 5none Trinity Large Preview (free)noneБесплатно доступноvsgpt-oss-120bmediumБесплатно доступно gpt-oss-120bmediumБесплатно доступноvsQwen3.5 Plus 2026-02-15none gpt-oss-120bmediumБесплатно доступноvsGLM 4.7 Flashnone