Сравнить Графики

Язык:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.5-35B-A3B

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-05

Метрика	OpenAI: GPT-5.4 none Релиз: 2026-03-05	Qwen: Qwen3.5-35B-A3B none Релиз: 2026-02-24
Ранг	#44	#43
Средний балл	4.6	4.7
Тестов верно
Стабильность	8.9	8.9
Стоимость за результат	1.496	0.233
Общая стоимость	$0.090	$0.014
Доля успешных попыток	44.4%	48.9%
Нестабильные тесты	2	2
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
Выходные токены	1,635	3,642
Токены рассуждений	0	0
Время ответа (среднее)	1.46s	4.30s
Время ответа (макс.)	2.89s	47.43s
Время ответа (суммарно)	21.86s	64.43s

Лучшие модели по оценке

Время ответа (среднее)

Оценка vs общая стоимость

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0
Qwen: Qwen3.5-35B-A3B	10.0	7.2	22.2%	1		1.76s	569	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0
Qwen: Qwen3.5-35B-A3B	10.0	10.0	0.0%	0		47.43s	1,833	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0
Qwen: Qwen3.5-35B-A3B	9.9	10.0	100.0%	0		1.16s	243	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0
Qwen: Qwen3.5-35B-A3B	7.0	10.0	66.7%	0		485ms	15	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0
Qwen: Qwen3.5-35B-A3B	5.0	10.0	50.0%	0		809ms	63	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0
Qwen: Qwen3.5-35B-A3B	1.7	7.4	22.2%	1		1.34s	655	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
Qwen: Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		2.30s	264	0

Быстрое сравнение

Сменить пару сравнения

MiniMax M2.5mediumvsQwen3.5-35B-A3Bnone MiniMax M2.5mediumvsGPT-5.4none gpt-oss-120bmediumБесплатно доступноvsQwen3.5-35B-A3Bnone Mercury 2mediumvsQwen3.5-35B-A3Bnone Mercury 2mediumvsGPT-5.4none GPT-5 NanomediumvsQwen3.5-35B-A3Bnone GPT-5.4nonevsQwen3.5-35B-A3Bmedium GPT-5.4nonevsQwen3 Coder Nextmedium GPT-5.4nonevsGLM 4.7 Flashmedium GPT-5 MinimediumvsQwen3.5-35B-A3Bnone Qwen3.5-35B-A3BnonevsGLM 4.7 Flashmedium Claude Opus 4.6mediumvsQwen3.5-35B-A3Bnone