Рейтинг моделей по Комбинированный

Посмотрите, какие AI-модели лучше всего справляются с Комбинированный, какие остаются надежными и где заметнее всего разница. Сортировать по: Время ответа (среднее) ↓.

Показано моделей

Среднее значение Оценка Комбинированный

5.6

Лучшая модель

Qwen3.6 35B A3B 3.0

Причины сбоев

С причиной сбоя Недопустимый вызов инструмента91 С причиной сбоя Неверный ответ69 С причиной сбоя Нет ответа32 С причиной сбоя Ошибка API26 С причиной сбоя Тайм-аут5 С причиной сбоя Лишнее форматирование1 С причиной сбоя Не соблюдены инструкции1

216/216

Ранг	Модель	Компания	Оценка Комбинированный	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#26	Claude Sonnet 5 medium	Anthropic	7.3	8.3	$0.922	1/2	51.9s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.922 Время ответа (среднее) 51.9s
#182	GLM 4.7 Flash none	Z.ai	3.0	4.9	$0.016	0/2	50.2s
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.016 Время ответа (среднее) 50.2s
#101	GLM 5.2 none	Z.ai	6.9	6.6	$0.128	1/2	50.2s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.128 Время ответа (среднее) 50.2s
#194	Cobuddy medium	Baidu	1.5	4.7	$0.000	0/1	47.4s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 47.4s
#157	GLM 5.1 none	Z.ai	2.8	5.5	$0.164	0/2	46.9s
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.164 Время ответа (среднее) 46.9s
#106	Hy3 preview medium	Tencent	5.0	6.5	$0.018	1/1	46.0s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.018 Время ответа (среднее) 46.0s
#12	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.642	2/2	44.4s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.642 Время ответа (среднее) 44.4s
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	2/2	43.4s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $1.477 Время ответа (среднее) 43.4s
#19	Muse Spark 1.1 medium	Meta	8.3	8.6	$1.357	1/2	42.6s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $1.357 Время ответа (среднее) 42.6s
#79	Grok 4.20 medium	X AI	8.7	7.1	$0.777	1/2	42.2s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.777 Время ответа (среднее) 42.2s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	2/2	42.1s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.831 Время ответа (среднее) 42.1s
#90	Step 3.7 Flash high	Stepfun	8.7	6.9	$1.207	1/2	41.2s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $1.207 Время ответа (среднее) 41.2s
#36	Inkling medium	Thinkingmachines	7.3	8.0	$0.391	1/2	41.2s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.391 Время ответа (среднее) 41.2s
#10	Gemini 3.1 Pro Preview medium	Google	9.8	9.2	$1.361	2/2	40.4s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $1.361 Время ответа (среднее) 40.4s
#167	Qwen3.6 35B A3B none	Qwen	3.8	5.3	$0.061	0/2	39.5s
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.061 Время ответа (среднее) 39.5s

Рейтинг Комбинированный

Фильтровать модели

Лучшие модели по Оценка Комбинированный

Оценка Комбинированный vs общая стоимость

Лучшие модели по Время ответа (среднее)