Рейтинг моделей по Решение головоломок

Посмотрите, какие AI-модели лучше всего справляются с Решение головоломок, какие остаются надежными и где заметнее всего разница. Сортировать по: Тестов верно ↑.

Показано моделей

Среднее значение Оценка Решение головоломок

6.7

Лучшая модель

GPT-5.4 Nano 4.1

Причины сбоев

С причиной сбоя Неверный ответ204 С причиной сбоя Не соблюдены инструкции90 С причиной сбоя Ошибка API12 С причиной сбоя Лишнее форматирование8 С причиной сбоя Тайм-аут5 С причиной сбоя Нет ответа3

216/216

Ранг	Модель	Компания	Оценка Решение головоломок	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#35	GLM 5.2 high	Z.ai	6.0	8.0	$0.817	1/3	33.7s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.817 Время ответа (среднее) 33.7s
#50	DeepSeek V4 Pro high	DeepSeek	6.9	7.7	$0.200	1/3	56.8s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.200 Время ответа (среднее) 56.8s
#55	Nemotron 3 Ultra medium	NVIDIA	5.5	7.5	$0.774	1/3	3.54s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.774 Время ответа (среднее) 3.54s
#56	Kimi K2.7 Code medium	Moonshot AI	5.9	7.5	$0.740	1/3	41.0s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.740 Время ответа (среднее) 41.0s
#64	LongCat 2.0 medium	Meituan	5.4	7.4	$0.478	1/3	8.84s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.478 Время ответа (среднее) 8.84s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	6.4	7.4	$0.387	1/3	3.11s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.387 Время ответа (среднее) 3.11s
#71	Step 3.7 Flash low	Stepfun	5.5	7.3	$0.454	1/3	1.84s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.454 Время ответа (среднее) 1.84s
#72	Kimi K2.6 medium	Moonshot AI	6.0	7.2	$1.036	1/3	25.1s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $1.036 Время ответа (среднее) 25.1s
#77	Grok 4.3 medium	X AI	5.9	7.1	$0.779	1/3	22.5s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.779 Время ответа (среднее) 22.5s
#80	DeepSeek V3.2 medium	DeepSeek	7.0	7.0	$0.078	1/3	37.7s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.078 Время ответа (среднее) 37.7s
#81	Kimi K2.5 medium	Moonshot AI	5.3	7.0	$0.600	1/3	43.2s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.600 Время ответа (среднее) 43.2s
#82	Mercury 2 medium	Inception	5.4	7.0	$0.093	1/3	949ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.093 Время ответа (среднее) 949ms
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	5.9	6.9	$0.467	1/3	3.20s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.467 Время ответа (среднее) 3.20s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.7	6.9	$0.187	1/3	5.31s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.187 Время ответа (среднее) 5.31s
#90	Step 3.7 Flash high	Stepfun	5.3	6.9	$1.207	1/3	10.2s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $1.207 Время ответа (среднее) 10.2s

Рейтинг Решение головоломок

Фильтровать модели

Лучшие модели по Оценка Решение головоломок

Оценка Решение головоломок vs общая стоимость

Лучшие модели по Время ответа (среднее)