Рейтинг Программирование x Неверный ответ

Сбои по категориям AI BENCHY

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Программирование, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

230

Наиболее затронутая модель

Qwen3.6 Flash 3

Причины сбоев

Неверный ответ230 Ошибка API43 Тайм-аут25 Нет ответа18 Не соблюдены инструкции16 Лишнее форматирование12

Категории

Предметно-ориентированное368 Анти-ИИ уловки270 Программирование230 Решение головоломок173 Эрудиция150 Комбинированный58 Следование инструкциям56 Общий интеллект49 Парсинг и извлечение данных36 Вызов инструментов3

134/134

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#58	GPT-5.3 Chat none	OpenAI	2	5.6	$0.433	1/3	10.5s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.433 Время ответа (среднее) 10.5s
#59	GPT-5.4 Nano medium	OpenAI	2	6.1	$0.107	1/3	19.1s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.107 Время ответа (среднее) 19.1s
#65	Gemini 3 Flash Preview low	Google	2	5.8	$0.111	1/3	6.00s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.111 Время ответа (среднее) 6.00s
#66	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.609 Время ответа (среднее) 109.9s
#69	GLM 5V Turbo medium	Z.ai	2	6.0	$0.457	1/3	63.4s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.457 Время ответа (среднее) 63.4s
#73	Qwen3.7 Plus none	Qwen	2	5.5	$0.023	1/3	2.15s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.023 Время ответа (среднее) 2.15s
#74	GLM 5.2 none	Z.ai	2	3.7	$0.042	0/3	7.55s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.042 Время ответа (среднее) 7.55s
#78	Laguna XS 2.1 medium	Poolside	2	5.5	$0.036	1/3	70.3s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.036 Время ответа (среднее) 70.3s
#81	Gemini 3 Flash Preview none	Google	2	5.5	$0.025	1/3	1.80s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.025 Время ответа (среднее) 1.80s
#82	Qwen3.7 Max none	Qwen	2	5.5	$0.054	1/3	1.35s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.054 Время ответа (среднее) 1.35s
#84	Qwen3.5-Flash medium	Qwen	2	3.7	$0.080	0/3	58.9s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.080 Время ответа (среднее) 58.9s
#90	MiMo-V2.5 medium	Xiaomi	2	6.2	$0.061	1/3	97.1s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.061 Время ответа (среднее) 97.1s
#92	gpt-oss-120b medium	OpenAI	2	5.9	$0.013	1/3	38.4s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.013 Время ответа (среднее) 38.4s
#93	GPT-5 Nano medium	OpenAI	2	7.0	$0.081	1/3	41.6s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.081 Время ответа (среднее) 41.6s
#96	Gemini 3.1 Flash Lite Preview low	Google	2	5.5	$0.026	1/3	1.39s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.026 Время ответа (среднее) 1.39s

←

1 2 3 4 9

→

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Программирование: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь