Сравнить Графики

Язык:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3 Coder Next

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-05

Метрика	OpenAI: GPT-5.4 none Релиз: 2026-03-05	Qwen: Qwen3 Coder Next medium Релиз: 2026-02-03
Ранг	#44	#51
Средний балл	4.6	3.3
Тестов верно
Стабильность	8.9	9.5
Стоимость за результат	1.496	0.224
Общая стоимость	$0.090	$0.007
Доля успешных попыток	44.4%	24.4%
Нестабильные тесты	2	1
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
Выходные токены	1,635	2,793
Токены рассуждений	0	0
Время ответа (среднее)	1.46s	13.77s
Время ответа (макс.)	2.89s	81.80s
Время ответа (суммарно)	21.86s	123.93s

Лучшие модели по оценке

Время ответа (среднее)

Оценка vs общая стоимость

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0
Qwen: Qwen3 Coder Next	1.3	7.5	22.2%	1		15.28s	1,246	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0
Qwen: Qwen3 Coder Next	10.0	10.0	0.0%	0		4.28s	317	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0
Qwen: Qwen3 Coder Next	5.4	10.0	50.0%	0		81.80s	246	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0
Qwen: Qwen3 Coder Next	4.0	10.0	33.3%	0		638ms	25	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0
Qwen: Qwen3 Coder Next	4.5	10.0	0.0%	0		7.34s	63	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0
Qwen: Qwen3 Coder Next	10.0	10.0	0.0%	0		2.30s	641	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
Qwen: Qwen3 Coder Next	10.0	10.0	100.0%	0		2.64s	255	0

Быстрое сравнение

Сменить пару сравнения

Mercury 2nonevsQwen3 Coder Nextmedium MiniMax M2.5mediumvsGPT-5.4none Qwen3 Coder NextmediumvsGrok 4.1 Fastnone Kimi K2.5nonevsQwen3 Coder Nextmedium Qwen3 Coder NextmediumvsMiMo-V2-Flashnone Qwen3 Coder NextmediumvsGLM 4.7 Flashnone LFM2-24B-A2BnonevsQwen3 Coder Nextmedium GPT-4o-mininonevsQwen3 Coder Nextmedium Mercury 2mediumvsGPT-5.4none Trinity Large Preview (free)noneБесплатно доступноvsQwen3 Coder Nextmedium GPT-5.4nonevsQwen3.5-35B-A3Bmedium GPT-5.4nonevsGLM 4.7 Flashmedium