Рейтинг Решение головоломок x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Решение головоломок, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

204

Наиболее затронутая модель

Qwen3.5-Flash 3

Причины сбоев

Неверный ответ204 Не соблюдены инструкции90 Ошибка API12 Лишнее форматирование8 Тайм-аут5 Нет ответа3

Категории

Предметно-ориентированное421 Анти-ИИ уловки293 Программирование259 Решение головоломок204 Эрудиция172 Комбинированный69 Общий интеллект62 Следование инструкциям61 Парсинг и извлечение данных41 Вызов инструментов3

145/145

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#206	MiMo-V2-Flash none	Xiaomi	2	5.3	$0.025	1/3	1.86s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.025 Время ответа (среднее) 1.86s
#207	Granite 4.1 8B none	IBM Granite	2	3.2	$0.007	0/3	608ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.007 Время ответа (среднее) 608ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2	2.9	$0.000	0/3	1.40s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.000 Время ответа (среднее) 1.40s
#216	LFM2-24B-A2B none	Liquid	2	3.8	$0.001	0/3	1.78s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.001 Время ответа (среднее) 1.78s
#5	GPT-5.6 Sol low	OpenAI	1	8.2	$0.971	2/3	3.44s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.971 Время ответа (среднее) 3.44s
#7	GPT-5.6 Sol medium	OpenAI	1	8.2	$1.316	2/3	2.98s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.316 Время ответа (среднее) 2.98s
#12	Gemini 3.5 Flash medium	Google	1	7.7	$0.642	2/3	2.38s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.642 Время ответа (среднее) 2.38s
#26	Claude Sonnet 5 medium	Anthropic	1	7.7	$0.922	2/3	2.98s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.922 Время ответа (среднее) 2.98s
#28	Gemini 2.5 Flash medium	Google	1	7.7	$0.643	2/3	3.18s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.643 Время ответа (среднее) 3.18s
#29	GPT-5 Mini medium	OpenAI	1	5.6	$0.237	1/3	15.2s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.237 Время ответа (среднее) 15.2s
#31	Gemini 3.5 Flash-Lite high	Google	1	8.2	$0.584	2/3	1.85s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.584 Время ответа (среднее) 1.85s
#32	Inkling high	Thinkingmachines	1	6.9	$1.006	1/3	10.7s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $1.006 Время ответа (среднее) 10.7s
#34	GPT-5.2 Chat none	OpenAI	1	7.7	$0.604	2/3	4.10s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.604 Время ответа (среднее) 4.10s
#35	GLM 5.2 high	Z.ai	1	6.0	$0.817	1/3	33.7s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.817 Время ответа (среднее) 33.7s
#38	GPT-5.6 Terra high	OpenAI	1	7.7	$1.055	2/3	5.45s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.055 Время ответа (среднее) 5.45s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Решение головоломок: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь