Рейтинг Программирование x Лишнее форматирование

Сбои по категориям AI BENCHY

Посмотрите, какие AI-модели чаще всего сталкиваются с Лишнее форматирование в Программирование, чтобы быстрее находить слабые места. Сортировать по: Тестов верно ↓.

Показано моделей

Всего сбоев

Наиболее затронутая модель

Claude Sonnet 4.6 1

Причины сбоев

Неверный ответ230 Ошибка API43 Тайм-аут23 Нет ответа18 Не соблюдены инструкции16 Лишнее форматирование12

Категории

Анти-ИИ уловки20 Предметно-ориентированное13 Программирование12 Решение головоломок6 Парсинг и извлечение данных4 Следование инструкциям3 Комбинированный1

12/12

Ранг	Модель	Компания	Количество Лишнее форматирование	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#38	Claude Sonnet 4.6 medium	Anthropic	1	5.7	$1.418	1/3	33.3s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $1.418 Время ответа (среднее) 33.3s
#45	Claude Opus 4.8 low	Anthropic	1	6.6	$1.270	1/3	7.58s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $1.270 Время ответа (среднее) 7.58s
#46	Grok 4.3 medium	X AI	1	5.9	$0.614	1/3	41.2s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.614 Время ответа (среднее) 41.2s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $2.053 Время ответа (среднее) 30.1s
#51	MiniMax M3 medium	Minimax	1	6.1	$0.131	1/3	144.7s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.131 Время ответа (среднее) 144.7s
#53	Grok Build 0.1 medium	X AI	1	5.7	$0.927	1/3	108.5s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.927 Время ответа (среднее) 108.5s
#63	MiMo-V2.5-Pro medium	Xiaomi	1	6.2	$0.106	1/3	92.1s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.106 Время ответа (среднее) 92.1s
#67	Claude Sonnet 4.6 none	Anthropic	1	5.5	$0.316	1/3	5.19s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.316 Время ответа (среднее) 5.19s
#126	Owl Alpha none	Openrouter	1	5.6	$0.000	1/3	36.9s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.000 Время ответа (среднее) 36.9s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.288 Время ответа (среднее) 109.6s
#130	Mimo V2 Omni none	Xiaomi	1	4.4	$0.021	0/3	2.75s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.021 Время ответа (среднее) 2.75s
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.003 Время ответа (среднее) 775ms

Фильтровать модели

Лучшие модели по Количество Лишнее форматирование

Количество Лишнее форматирование против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Программирование: Лишнее форматирование

Фильтровать модели

Лучшие модели по Количество Лишнее форматирование

Количество Лишнее форматирование против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь