Рейтинг моделей по Решение головоломок

Посмотрите, какие AI-модели лучше всего справляются с Решение головоломок, какие остаются надежными и где заметнее всего разница. Сортировать по: Метрика ↑.

Показано моделей

Среднее значение Оценка Решение головоломок

6.7

Лучшая модель

Step 3.5 Flash 0.0

Причины сбоев

С причиной сбоя Неверный ответ204 С причиной сбоя Не соблюдены инструкции90 С причиной сбоя Ошибка API12 С причиной сбоя Лишнее форматирование8 С причиной сбоя Тайм-аут5 С причиной сбоя Нет ответа3

216/216

Ранг	Модель	Компания	Оценка Решение головоломок	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#94	Qwen3.6 35B A3B medium	Qwen	8.0	6.7	$0.746	2/3	5.95s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.746 Время ответа (среднее) 5.95s
#62	Qwen3.5-27B medium	Qwen	8.2	7.4	$1.627	2/3	59.6s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.627 Время ответа (среднее) 59.6s
#5	GPT-5.6 Sol low	OpenAI	8.2	9.5	$0.971	2/3	3.44s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.971 Время ответа (среднее) 3.44s
#7	GPT-5.6 Sol medium	OpenAI	8.2	9.4	$1.316	2/3	2.98s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.316 Время ответа (среднее) 2.98s
#21	GPT-5.4 medium	OpenAI	8.2	8.5	$1.533	2/3	9.14s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.533 Время ответа (среднее) 9.14s
#31	Gemini 3.5 Flash-Lite high	Google	8.2	8.1	$0.584	2/3	1.85s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.584 Время ответа (среднее) 1.85s
#42	GLM 5.2 medium	Z.ai	8.2	7.8	$0.187	2/3	13.1s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.187 Время ответа (среднее) 13.1s
#49	DeepSeek V4 Flash high	DeepSeek	8.2	7.7	$0.041	2/3	26.1s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.041 Время ответа (среднее) 26.1s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	8.2	7.2	$0.482	2/3	3.38s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.482 Время ответа (среднее) 3.38s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8.2	7.2	$0.317	2/3	17.7s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.317 Время ответа (среднее) 17.7s
#78	GLM 5.1 medium	Z.ai	8.2	7.1	$0.535	2/3	31.6s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.535 Время ответа (среднее) 31.6s
#84	Seed-2.0-Mini medium	Bytedance Seed	8.2	7.0	$0.101	2/3	31.8s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.101 Время ответа (среднее) 31.8s
#89	Qwen3.6 Flash medium	Qwen	8.2	6.9	$0.738	2/3	6.29s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.738 Время ответа (среднее) 6.29s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	8.2	6.7	$0.476	2/3	3.03s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.476 Время ответа (среднее) 3.03s
#107	MiMo-V2.5 medium	Xiaomi	8.2	6.5	$0.082	2/3	20.3s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.082 Время ответа (среднее) 20.3s

Рейтинг Решение головоломок

Фильтровать модели

Лучшие модели по Оценка Решение головоломок

Оценка Решение головоломок vs общая стоимость

Лучшие модели по Время ответа (среднее)