Рейтинг Программирование x Неверный ответ

Сбои по категориям AI BENCHY

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Программирование, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

230

Наиболее затронутая модель

Qwen3.6 Flash 3

Причины сбоев

Неверный ответ230 Ошибка API43 Тайм-аут25 Нет ответа18 Не соблюдены инструкции16 Лишнее форматирование12

Категории

Предметно-ориентированное368 Анти-ИИ уловки270 Программирование230 Решение головоломок173 Эрудиция150 Комбинированный58 Следование инструкциям56 Общий интеллект49 Парсинг и извлечение данных36 Вызов инструментов3

134/134

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#98	Gemini 3.1 Flash Lite Preview none	Google	2	5.5	$0.018	1/3	967ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.018 Время ответа (среднее) 967ms
#99	Gemini 3.1 Flash Lite low	Google	2	5.5	$0.028	1/3	1.53s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.028 Время ответа (среднее) 1.53s
#102	GPT-5.6 Sol none	OpenAI	2	5.5	$0.225	1/3	1.39s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.225 Время ответа (среднее) 1.39s
#105	GPT-5.5 none	OpenAI	2	5.5	$0.231	1/3	1.35s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.231 Время ответа (среднее) 1.35s
#107	Seed-2.0-Lite none	Bytedance Seed	2	5.6	$0.019	1/3	2.83s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.019 Время ответа (среднее) 2.83s
#108	GPT-5.6 Luna low	OpenAI	2	5.5	$0.141	1/3	4.61s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.141 Время ответа (среднее) 4.61s
#109	Gemini 2.5 Flash none	Google	2	5.5	$0.016	1/3	736ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.016 Время ответа (среднее) 736ms
#110	Gemini 3.1 Flash Lite minimal	Google	2	5.5	$0.013	1/3	831ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.013 Время ответа (среднее) 831ms
#112	Gemini 3.1 Flash Lite none	Google	2	5.5	$0.013	1/3	938ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.013 Время ответа (среднее) 938ms
#113	Qwen3.5-Flash none	Qwen	2	5.5	$0.005	1/3	850ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.005 Время ответа (среднее) 850ms
#114	Gemma 4 31B none	Google	2	5.5	$0.004	1/3	11.2s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.004 Время ответа (среднее) 11.2s
#115	Nemotron 3 Ultra 550b A55b none	NVIDIA	2	5.5	$0.027	1/3	1.02s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.027 Время ответа (среднее) 1.02s
#117	GPT-5.6 Terra none	OpenAI	2	5.5	$0.130	1/3	1.00s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.130 Время ответа (среднее) 1.00s
#119	Qwen3.6 Flash none	Qwen	2	5.4	$0.015	1/3	1.79s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.015 Время ответа (среднее) 1.79s
#120	Qwen3.5-35B-A3B none	Qwen	2	5.5	$0.012	1/3	1.39s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.012 Время ответа (среднее) 1.39s

←

1 3 4 5 9

→

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Программирование: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь