Рейтинг Программирование x Неверный ответ

Сбои по категориям AI BENCHY

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Программирование, чтобы быстрее находить слабые места. Сортировать по: Время ответа (среднее) ↓.

Показано моделей

Всего сбоев

230

Наиболее затронутая модель

North Mini Code 3

Причины сбоев

Неверный ответ230 Ошибка API43 Тайм-аут25 Нет ответа18 Не соблюдены инструкции16 Лишнее форматирование12

Категории

Предметно-ориентированное368 Анти-ИИ уловки270 Программирование230 Решение головоломок173 Эрудиция150 Комбинированный58 Следование инструкциям56 Общий интеллект49 Парсинг и извлечение данных36 Вызов инструментов3

134/134

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#124	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.000 Время ответа (среднее) 320.4s
#61	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.042	1/3	248.7s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.042 Время ответа (среднее) 248.7s
#63	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.044 Время ответа (среднее) 220.5s
#76	Step 3.7 Flash high	Stepfun	1	4.0	$1.148	0/3	206.2s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $1.148 Время ответа (среднее) 206.2s
#166	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.303 Время ответа (среднее) 188.6s
#87	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.683 Время ответа (среднее) 183.9s
#34	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	6.6	$0.310	1/3	180.7s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.310 Время ответа (среднее) 180.7s
#35	Qwen3.5-27B medium	Qwen	2	6.2	$0.536	1/3	160.7s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.536 Время ответа (среднее) 160.7s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.175 Время ответа (среднее) 156.7s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.696 Время ответа (среднее) 155.7s
#37	Qwen3.6 Plus medium	Qwen	1	6.1	$0.294	1/3	153.1s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.294 Время ответа (среднее) 153.1s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.960 Время ответа (среднее) 146.5s
#42	Qwen3.5 Plus 2026-04-20 medium	Qwen	2	6.2	$0.317	1/3	125.3s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.317 Время ответа (среднее) 125.3s
#45	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.588 Время ответа (среднее) 114.5s
#66	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.609 Время ответа (среднее) 109.9s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Программирование: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь