Рейтинг Программирование x Неверный ответ

Сбои по категориям AI BENCHY

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Программирование, чтобы быстрее находить слабые места. Сортировать по: Тестов верно ↑.

Показано моделей

Всего сбоев

230

Наиболее затронутая модель

Qwen3.6 Flash 3

Причины сбоев

Неверный ответ230 Ошибка API43 Тайм-аут25 Нет ответа18 Не соблюдены инструкции16 Лишнее форматирование12

Категории

Предметно-ориентированное368 Анти-ИИ уловки270 Программирование230 Решение головоломок173 Эрудиция150 Комбинированный58 Следование инструкциям56 Общий интеллект49 Парсинг и извлечение данных36 Вызов инструментов3

134/134

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#60	Qwen3.6 Flash medium	Qwen	3	5.0	$0.288	0/3	42.9s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.288 Время ответа (среднее) 42.9s
#74	GLM 5.2 none	Z.ai	2	3.7	$0.042	0/3	7.55s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.042 Время ответа (среднее) 7.55s
#76	Step 3.7 Flash high	Stepfun	1	4.0	$1.148	0/3	206.2s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $1.148 Время ответа (среднее) 206.2s
#84	Qwen3.5-Flash medium	Qwen	2	3.7	$0.080	0/3	58.9s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.080 Время ответа (среднее) 58.9s
#87	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.683 Время ответа (среднее) 183.9s
#116	Qwen3.6 Max Preview none	Qwen	3	3.8	$0.075	0/3	3.12s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.075 Время ответа (среднее) 3.12s
#118	GLM 5 none	Z.ai	3	4.0	$0.027	0/3	5.12s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.027 Время ответа (среднее) 5.12s
#123	Qwen3.5 Plus 2026-02-15 none	Qwen	3	4.3	$0.016	0/3	2.05s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.016 Время ответа (среднее) 2.05s
#124	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.000 Время ответа (среднее) 320.4s
#131	Mimo V2 Omni none	Xiaomi	1	4.4	$0.021	0/3	2.75s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.021 Время ответа (среднее) 2.75s
#132	Claude Sonnet 5 none	Anthropic	3	4.6	$0.287	0/3	3.67s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.287 Время ответа (среднее) 3.67s
#134	GLM 5.1 none	Z.ai	3	3.9	$0.057	0/3	4.96s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.057 Время ответа (среднее) 4.96s
#135	DeepSeek V4 Flash none	DeepSeek	3	4.2	$0.007	0/3	17.1s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.007 Время ответа (среднее) 17.1s
#137	MiMo-V2.5-Pro none	Xiaomi	2	4.3	$0.017	0/3	1.41s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.017 Время ответа (среднее) 1.41s
#139	Gemma 4 26B A4B none	Google	2	3.7	$0.004	0/3	4.16s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.004 Время ответа (среднее) 4.16s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Программирование: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь