Рейтинг моделей по Комбинированный

Посмотрите, какие AI-модели лучше всего справляются с Комбинированный, какие остаются надежными и где заметнее всего разница.

Показано моделей

Среднее значение Оценка Комбинированный

5.6

Лучшая модель

Gemini 3.6 Flash 10.0

Причины сбоев

С причиной сбоя Недопустимый вызов инструмента91 С причиной сбоя Неверный ответ69 С причиной сбоя Нет ответа32 С причиной сбоя Ошибка API26 С причиной сбоя Тайм-аут5 С причиной сбоя Лишнее форматирование1 С причиной сбоя Не соблюдены инструкции1

216/216

Ранг	Модель	Компания	Оценка Комбинированный	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#164	KAT-Coder-Air V2.5 low	Kwaipilot	6.4	5.4	$0.041	1/2	55.9s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.041 Время ответа (среднее) 55.9s
#100	Gemma 4 26B A4B medium	Google	6.3	6.6	$0.089	1/2	492.9s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.089 Время ответа (среднее) 492.9s
#108	Laguna XS 2.1 medium	Poolside	6.3	6.5	$0.068	1/2	218.1s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.068 Время ответа (среднее) 218.1s
#55	Nemotron 3 Ultra medium	NVIDIA	6.3	7.5	$0.774	1/2	218.2s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.774 Время ответа (среднее) 218.2s
#95	Gemini 3.5 Flash-Lite low	Google	6.3	6.7	$0.145	1/2	8.96s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.145 Время ответа (среднее) 8.96s
#30	Muse Spark 1.1 high	Meta	5.9	8.1	$1.694	0/2	70.3s
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $1.694 Время ответа (среднее) 70.3s
#148	Qwen3.5-122B-A10B none	Qwen	5.2	5.7	$0.247	0/2	129.3s
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.247 Время ответа (среднее) 129.3s
#42	GLM 5.2 medium	Z.ai	5.0	7.8	$0.187	1/1	52.0s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.187 Время ответа (среднее) 52.0s
#46	GLM 5 medium	Z.ai	5.0	7.7	$0.307	1/1	29.0s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.307 Время ответа (среднее) 29.0s
#53	GLM 5 Turbo medium	Z.ai	5.0	7.6	$0.323	1/1	13.9s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.323 Время ответа (среднее) 13.9s
#106	Hy3 preview medium	Tencent	5.0	6.5	$0.018	1/1	46.0s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.018 Время ответа (среднее) 46.0s
#137	Grok 4.20 Beta medium	X AI	5.0	6.0	$0.750	1/1	20.9s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.750 Время ответа (среднее) 20.9s
#140	Mimo V2 Omni medium	Xiaomi	5.0	5.9	$0.683	1/1	25.9s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.683 Время ответа (среднее) 25.9s
#141	Hy3 preview high	Tencent	5.0	5.9	$0.048	1/1	113.1s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.048 Время ответа (среднее) 113.1s
#149	Gemini 3.1 Flash Lite high	Google	5.0	5.6	$2.044	1/1	149.2s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $2.044 Время ответа (среднее) 149.2s

Рейтинг Комбинированный

Фильтровать модели

Лучшие модели по Оценка Комбинированный

Оценка Комбинированный vs общая стоимость

Лучшие модели по Время ответа (среднее)