Рейтинг Программирование x Неверный ответ

Сбои по категориям AI BENCHY

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Программирование, чтобы быстрее находить слабые места. Сортировать по: Время ответа (среднее) ↑.

Показано моделей

Всего сбоев

230

Наиболее затронутая модель

Laguna XS 2.1 3

Причины сбоев

Неверный ответ230 Ошибка API43 Тайм-аут25 Нет ответа18 Не соблюдены инструкции16 Лишнее форматирование12

Категории

Предметно-ориентированное368 Анти-ИИ уловки270 Программирование230 Решение головоломок173 Эрудиция150 Комбинированный58 Следование инструкциям56 Общий интеллект49 Парсинг и извлечение данных36 Вызов инструментов3

134/134

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#142	Laguna XS 2.1 none	Poolside	3	4.3	$0.003	0/3	623ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.003 Время ответа (среднее) 623ms
#109	Gemini 2.5 Flash none	Google	2	5.5	$0.016	1/3	736ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.016 Время ответа (среднее) 736ms
#183	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.003 Время ответа (среднее) 775ms
#110	Gemini 3.1 Flash Lite minimal	Google	2	5.5	$0.013	1/3	831ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.013 Время ответа (среднее) 831ms
#113	Qwen3.5-Flash none	Qwen	2	5.5	$0.005	1/3	850ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.005 Время ответа (среднее) 850ms
#149	Mistral Small 4 none	Mistral	3	3.7	$0.007	0/3	901ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.007 Время ответа (среднее) 901ms
#144	GPT-5.4 Mini none	OpenAI	2	5.5	$0.038	1/3	913ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.038 Время ответа (среднее) 913ms
#168	Qwen3 Coder Next medium	Qwen	2	3.7	$0.008	0/3	924ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.008 Время ответа (среднее) 924ms
#112	Gemini 3.1 Flash Lite none	Google	2	5.5	$0.013	1/3	938ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.013 Время ответа (среднее) 938ms
#98	Gemini 3.1 Flash Lite Preview none	Google	2	5.5	$0.018	1/3	967ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.018 Время ответа (среднее) 967ms
#143	GPT-5.6 Luna none	OpenAI	3	3.8	$0.047	0/3	980ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.047 Время ответа (среднее) 980ms
#117	GPT-5.6 Terra none	OpenAI	2	5.5	$0.130	1/3	1.00s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.130 Время ответа (среднее) 1.00s
#115	Nemotron 3 Ultra 550b A55b none	NVIDIA	2	5.5	$0.027	1/3	1.02s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.027 Время ответа (среднее) 1.02s
#171	Mercury 2 none	Inception	3	3.4	$0.011	0/3	1.03s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.011 Время ответа (среднее) 1.03s
#169	Grok 4.20 Beta none	X AI	1	1.8	$0.087	0/1	1.14s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.087 Время ответа (среднее) 1.14s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Программирование: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь