Рейтинг Программирование x Нет ответа

Сбои по категориям AI BENCHY

Посмотрите, какие AI-модели чаще всего сталкиваются с Нет ответа в Программирование, чтобы быстрее находить слабые места. Сортировать по: Число сбоев ↑.

Показано моделей

Всего сбоев

Наиболее затронутая модель

GLM 5 Turbo 1

Причины сбоев

Неверный ответ230 Ошибка API43 Тайм-аут23 Нет ответа18 Не соблюдены инструкции16 Лишнее форматирование12

Категории

Программирование18 Эрудиция10 Предметно-ориентированное6 Парсинг и извлечение данных5 Анти-ИИ уловки4 Комбинированный3 Вызов инструментов2 Решение головоломок2 Следование инструкциям2

16/16

Ранг	Модель	Компания	Количество Нет ответа	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#24	GLM 5 Turbo medium	Z.ai	1	8.2	$0.323	2/3	45.9s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.323 Время ответа (среднее) 45.9s
#43	Kimi K2.6 medium	Moonshot AI	1	5.7	$0.888	1/3	214.4s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.888 Время ответа (среднее) 214.4s
#55	Kimi K2.5 medium	Moonshot AI	1	6.1	$0.348	1/3	217.5s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.348 Время ответа (среднее) 217.5s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.288 Время ответа (среднее) 109.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.683 Время ответа (среднее) 183.9s
#88	Qwen3.6 35B A3B medium	Qwen	1	7.7	$0.146	2/3	50.5s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.146 Время ответа (среднее) 50.5s
#93	Step 3.5 Flash medium	Stepfun	1	2.4	$0.070	0/2	258.4s
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.070 Время ответа (среднее) 258.4s
#94	Qwen3.6 27B medium	Qwen	1	7.7	$0.336	2/3	143.0s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.336 Время ответа (среднее) 143.0s
#102	Gemma 4 31B medium	Google	1	4.3	$0.033	0/3	219.8s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.033 Время ответа (среднее) 219.8s
#103	Qwen3.5-35B-A3B medium	Qwen	1	5.9	$0.401	1/3	206.6s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.401 Время ответа (среднее) 206.6s
#146	MiniMax M2.7 medium	Minimax	1	5.7	$0.100	1/3	101.9s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.100 Время ответа (среднее) 101.9s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.303 Время ответа (среднее) 188.6s
#176	GLM 4.7 Flash medium	Z.ai	1	3.2	$0.054	0/3	55.3s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.054 Время ответа (среднее) 55.3s
#184	Qwen3.5-9B medium	Qwen	1	2.9	$0.036	0/3	100.9s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.036 Время ответа (среднее) 100.9s
#71	Gemma 4 26B A4B medium	Google	2	2.9	$0.045	0/3	272.5s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.045 Время ответа (среднее) 272.5s

Фильтровать модели

Лучшие модели по Количество Нет ответа

Количество Нет ответа против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Программирование: Нет ответа

Фильтровать модели

Лучшие модели по Количество Нет ответа

Количество Нет ответа против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь