Рейтинг Программирование x Неверный ответ

Сбои по категориям AI BENCHY

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Программирование, чтобы быстрее находить слабые места. Сортировать по: Число сбоев ↑.

Показано моделей

Всего сбоев

230

Наиболее затронутая модель

Gemini 3 Flash Preview 1

Причины сбоев

Неверный ответ230 Ошибка API43 Тайм-аут25 Нет ответа18 Не соблюдены инструкции16 Лишнее форматирование12

Категории

Предметно-ориентированное368 Анти-ИИ уловки270 Программирование230 Решение головоломок173 Эрудиция150 Комбинированный58 Следование инструкциям56 Общий интеллект49 Парсинг и извлечение данных36 Вызов инструментов3

134/134

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#2	Gemini 3 Flash Preview medium	Google	1	8.6	$0.667	2/3	84.4s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.667 Время ответа (среднее) 84.4s
#8	Gemini 3.5 Flash low	Google	1	7.8	$0.349	2/3	6.71s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.349 Время ответа (среднее) 6.71s
#10	Gemini 3.1 Pro Preview medium	Google	1	7.9	$1.054	2/3	40.2s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.054 Время ответа (среднее) 40.2s
#12	GPT-5.5 medium	OpenAI	1	8.8	$3.679	2/3	59.8s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $3.679 Время ответа (среднее) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.960 Время ответа (среднее) 146.5s
#16	Claude Opus 4.7 medium	Anthropic	1	7.6	$0.679	2/3	13.0s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.679 Время ответа (среднее) 13.0s
#17	GLM 5.2 medium	Z.ai	1	8.2	$0.179	2/3	41.0s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.179 Время ответа (среднее) 41.0s
#20	GPT-5.4 medium	OpenAI	1	8.8	$1.210	2/3	44.4s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.210 Время ответа (среднее) 44.4s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.175 Время ответа (среднее) 156.7s
#22	GPT-5.2 Chat none	OpenAI	1	8.8	$0.393	2/3	9.82s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.393 Время ответа (среднее) 9.82s
#23	Step 3.7 Flash medium	Stepfun	1	8.8	$0.376	2/3	27.4s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.376 Время ответа (среднее) 27.4s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.696 Время ответа (среднее) 155.7s
#27	DeepSeek V4 Flash high	DeepSeek	1	7.8	$0.027	2/3	50.6s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.027 Время ответа (среднее) 50.6s
#28	Gemini 2.5 Flash medium	Google	1	7.8	$0.379	2/3	41.0s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.379 Время ответа (среднее) 41.0s
#29	GPT-5.6 Terra high	OpenAI	1	7.6	$0.852	2/3	9.14s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.852 Время ответа (среднее) 9.14s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Программирование: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь