Рейтинг моделей по Решение головоломок

Посмотрите, какие AI-модели лучше всего справляются с Решение головоломок, какие остаются надежными и где заметнее всего разница.

Показано моделей

Среднее значение Оценка Решение головоломок

6.7

Лучшая модель

Gemini 3 Flash Preview 10.0

Причины сбоев

С причиной сбоя Неверный ответ201 С причиной сбоя Не соблюдены инструкции90 С причиной сбоя Ошибка API12 С причиной сбоя Лишнее форматирование8 С причиной сбоя Тайм-аут5 С причиной сбоя Нет ответа3

210/210

Ранг	Модель	Компания	Оценка Решение головоломок	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#33	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	3/3	7.36s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $3.112 Время ответа (среднее) 7.36s
#36	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	3/3	16.4s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $0.267 Время ответа (среднее) 16.4s
#37	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	3/3	6.34s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $0.405 Время ответа (среднее) 6.34s
#40	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	3/3	5.31s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $2.057 Время ответа (среднее) 5.31s
#41	Claude Opus 4.8 low	Anthropic	10.0	7.8	$2.077	3/3	3.01s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $2.077 Время ответа (среднее) 3.01s
#42	GLM 5 medium	Z.ai	10.0	7.7	$0.307	3/3	11.3s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $0.307 Время ответа (среднее) 11.3s
#54	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	3/3	2.99s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $0.571 Время ответа (среднее) 2.99s
#55	GPT-5.6 Terra low	OpenAI	10.0	7.5	$0.519	3/3	4.46s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $0.519 Время ответа (среднее) 4.46s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	3/3	32.5s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $0.437 Время ответа (среднее) 32.5s
#59	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	3/3	1.13s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $0.197 Время ответа (среднее) 1.13s
#61	Gemini 3 Flash Preview low	Google	10.0	7.4	$0.177	3/3	5.77s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $0.177 Время ответа (среднее) 5.77s
#72	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	3/3	17.9s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $1.046 Время ответа (среднее) 17.9s
#79	Gemini 3.5 Flash none	Google	10.0	7.0	$1.079	3/3	3.13s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $1.079 Время ответа (среднее) 3.13s
#82	DeepSeek V4 Pro none	DeepSeek	10.0	6.9	$0.096	3/3	3.61s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $0.096 Время ответа (среднее) 3.61s
#88	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	3/3	1.45s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $0.300 Время ответа (среднее) 1.45s

Рейтинг Решение головоломок

Фильтровать модели

Лучшие модели по Оценка Решение головоломок

Оценка Решение головоломок vs общая стоимость

Лучшие модели по Время ответа (среднее)