AI BENCHY Compare

OpenAI: GPT-4o-mini vs Qwen: Qwen3.6 Flash

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-21

Метрика	GPT-4o-mini GPT-4o-mini none Релиз: 2024-07-18	Qwen3.6 Flash Qwen3.6 Flash none Релиз: 2026-04-20

Метрика	GPT-4o-mini GPT-4o-mini none Релиз: 2024-07-18	Qwen3.6 Flash Qwen3.6 Flash none Релиз: 2026-04-20
Оценка	4.9	5.6
Ранг	#136	#114
Надежность	10.0	10.0
Стабильность	9.9	10.0
Тестов верно
Доля успешных попыток	26.3%	36.8%
Нестабильные тесты	0	0
Всего запусков	57	57
Стоимость за результат	0.099	0.251
Общая стоимость	$0.005	$0.018
???? ?????	$0.150 / 1M	$0.188 / 1M
???? ??????	$0.600 / 1M	$1.125 / 1M
Выходные токены	1,962	4,170
Токены рассуждений	0	0
Время ответа (среднее)	1.90s	1.60s
Время ответа (макс.)	7.58s	4.60s
Время ответа (суммарно)	22.79s	30.43s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	4.8	10.0	25.0%	0		1.34s	186	0
Qwen3.6 Flash	3.1	10.0	0.0%	0		1.63s	1,554	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	3.0	8.7	0.0%	0		2.55s	347	0
Qwen3.6 Flash	10.0	10.0	100.0%	0		2.23s	867	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	3.0	10.0	0.0%	0		7.58s	568	0
Qwen3.6 Flash	3.0	10.0	0.0%	0		4.22s	315	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	10.0	10.0	100.0%	0		1.27s	183	0
Qwen3.6 Flash	10.0	10.0	100.0%	0		2.13s	243	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	3.0	10.0	0.0%	0		637ms	15	0
Qwen3.6 Flash	5.3	10.0	33.3%	0		1.11s	15	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	4.0	10.0	0.0%	0		909ms	66	0
Qwen3.6 Flash	10.0	10.0	100.0%	0		947ms	132	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	6.3	10.0	50.0%	0		1.27s	69	0
Qwen3.6 Flash	6.3	10.0	50.0%	0		1.10s	66	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	3.5	10.0	0.0%	0		1.30s	308	0
Qwen3.6 Flash	3.5	10.0	0.0%	0		1.20s	697	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	10.0	10.0	100.0%	0		2.51s	205	0
Qwen3.6 Flash	10.0	10.0	100.0%	0		2.49s	272	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	3.0	10.0	0.0%	0		794ms	15	0
Qwen3.6 Flash	3.0	10.0	0.0%	0		649ms	9	0

Быстрое сравнение

Сменить пару сравнения

MiniMax M2.5mediumБесплатно доступноvsQwen3.6 Flashnone Mistral Small 4mediumvsQwen3.6 Flashnone gpt-oss-120bmediumБесплатно доступноvsQwen3.6 Flashnone Elephant AlphamediumvsQwen3.6 Flashnone GPT-4o-mininonevsQwen3 Coder Nextmedium MiniMax M2.7mediumvsGPT-4o-mininone CobuddymediumБесплатно доступноvsQwen3.6 Flashnone Owl AlphamediumvsQwen3.6 Flashnone GPT-4o-mininonevsGLM 4.7 Flashmedium Nemotron 3 SupermediumБесплатно доступноvsQwen3.6 Flashnone MiniMax M2.7mediumvsQwen3.6 Flashnone GPT-4o-mininonevsElephant Alphamedium