Сравнить Графики Методология

Язык:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5 Mini vs Qwen: Qwen3.5-Flash

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-06

Метрика	OpenAI: GPT-5 Mini medium Релиз: 2025-08-07	Qwen: Qwen3.5-Flash none Релиз: 2026-02-24
Средний балл	6.1	4.9
Ранг	#31	#40
Тестов верно
Стабильность	8.9	9.5
Стоимость за результат	1.401	0.088
Общая стоимость	$0.113	$0.006
Доля успешных попыток	62.2%	42.2%
Нестабильные тесты	2	1
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Выходные токены	5,477	3,674
Токены рассуждений	46,912	0
Время ответа (среднее)	25.92s	3.73s
Время ответа (макс.)	88.15s	13.73s
Время ответа (суммарно)	388.79s	55.90s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5 Mini	7.0	9.6	66.7%	0		16.45s	1,645	5,824
Qwen: Qwen3.5-Flash	2.3	7.8	11.1%	1		1.62s	687	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5 Mini	10.0	10.0	100.0%	0		88.15s	754	11,520
Qwen: Qwen3.5-Flash	10.0	10.0	0.0%	0		6.22s	1,794	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5 Mini	9.9	10.0	100.0%	0		12.58s	453	3,200
Qwen: Qwen3.5-Flash	9.9	10.0	100.0%	0		1.57s	243	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5 Mini	10.0	7.2	22.2%	1		44.63s	293	14,016
Qwen: Qwen3.5-Flash	7.0	10.0	66.7%	0		905ms	15	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5 Mini	7.5	6.6	83.3%	1		15.66s	318	4,992
Qwen: Qwen3.5-Flash	5.0	10.0	50.0%	0		8.81s	63	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5 Mini	4.3	9.8	33.3%	0		14.09s	1,527	5,760
Qwen: Qwen3.5-Flash	1.3	10.0	0.0%	0		5.90s	608	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5 Mini	10.0	10.0	100.0%	0		18.64s	487	1,600
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		3.67s	264	0

Быстрое сравнение

Сменить пару сравнения

MiniMax M2.5mediumvsQwen3.5-Flashnone GPT-5 MinimediumvsGLM 5none gpt-oss-120bmediumБесплатно доступноvsQwen3.5-Flashnone GPT-5 MinimediumvsQwen3.5 Plus 2026-02-15none Mercury 2mediumvsQwen3.5-Flashnone GPT-5 NanomediumvsQwen3.5-Flashnone Claude Sonnet 4.6nonevsGPT-5 Minimedium Gemini 2.5 FlashnonevsGPT-5 Minimedium DeepSeek V3.2nonevsGPT-5 Minimedium Gemini 3 Flash PreviewnonevsGPT-5 Minimedium GPT-5 MinimediumvsQwen3.5-122B-A10Bnone GPT-5 MinimediumvsQwen3.5-27Bnone