Рейтинг моделей по Комбинированный

Посмотрите, какие AI-модели лучше всего справляются с Комбинированный, какие остаются надежными и где заметнее всего разница. Сортировать по: Тестов верно ↓.

Показано моделей

Среднее значение Оценка Комбинированный

5.6

Лучшая модель

Gemini 3.6 Flash 10.0

Причины сбоев

С причиной сбоя Недопустимый вызов инструмента91 С причиной сбоя Неверный ответ69 С причиной сбоя Нет ответа32 С причиной сбоя Ошибка API26 С причиной сбоя Тайм-аут5 С причиной сбоя Лишнее форматирование1 С причиной сбоя Не соблюдены инструкции1

216/216

Ранг	Модель	Компания	Оценка Комбинированный	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#52	Grok Build 0.1 medium	X AI	10.0	7.6	$1.097	2/2	65.1s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $1.097 Время ответа (среднее) 65.1s
#53	GLM 5 Turbo medium	Z.ai	5.0	7.6	$0.323	1/1	13.9s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.323 Время ответа (среднее) 13.9s
#54	GPT-5.6 Luna medium	OpenAI	10.0	7.6	$0.352	2/2	14.6s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.352 Время ответа (среднее) 14.6s
#57	GPT-5.4 Nano medium	OpenAI	9.9	7.5	$0.138	2/2	32.2s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.138 Время ответа (среднее) 32.2s
#58	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	2/2	15.1s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.571 Время ответа (среднее) 15.1s
#67	Claude Sonnet 4.6 none	Anthropic	9.8	7.3	$0.661	2/2	37.5s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.661 Время ответа (среднее) 37.5s
#70	Claude Opus 4.8 none	Anthropic	9.8	7.3	$1.166	2/2	26.4s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $1.166 Время ответа (среднее) 26.4s
#75	Qwen3.7 Plus none	Qwen	10.0	7.2	$0.106	2/2	117.7s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.106 Время ответа (среднее) 117.7s
#78	GLM 5.1 medium	Z.ai	9.8	7.1	$0.535	2/2	175.9s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.535 Время ответа (среднее) 175.9s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	2/2	130.2s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.391 Время ответа (среднее) 130.2s
#99	Claude Opus 4.7 none	Anthropic	4.8	6.6	$0.505	1/1	18.3s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.505 Время ответа (среднее) 18.3s
#102	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	2/2	167.1s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.469 Время ответа (среднее) 167.1s
#106	Hy3 preview medium	Tencent	5.0	6.5	$0.018	1/1	46.0s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.018 Время ответа (среднее) 46.0s
#119	MiMo-V2-Flash medium	Xiaomi	4.9	6.3	$0.043	1/1	75.7s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.043 Время ответа (среднее) 75.7s
#137	Grok 4.20 Beta medium	X AI	5.0	6.0	$0.750	1/1	20.9s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.750 Время ответа (среднее) 20.9s

Рейтинг Комбинированный

Фильтровать модели

Лучшие модели по Оценка Комбинированный

Оценка Комбинированный vs общая стоимость

Лучшие модели по Время ответа (среднее)