Рейтинг моделей по Вызов инструментов

Посмотрите, какие AI-модели лучше всего справляются с Вызов инструментов, какие остаются надежными и где заметнее всего разница. Сортировать по: Время ответа (среднее) ↑.

Показано моделей

Среднее значение Оценка Вызов инструментов

8.7

Лучшая модель

Kimi K3 3.0

Причины сбоев

С причиной сбоя Ошибка API17 С причиной сбоя Недопустимый вызов инструмента9 С причиной сбоя Не соблюдены инструкции8 С причиной сбоя Неверный ответ3 С причиной сбоя Нет ответа2

210/210

Ранг	Модель	Компания	Оценка Вызов инструментов	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#33	Kimi K3 max	Moonshot AI	3.0	8.0	$3.112	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $3.112 Время ответа (среднее) 0ms
#52	Kimi K2.7 Code medium	Moonshot AI	3.0	7.5	$0.751	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.751 Время ответа (среднее) 0ms
#74	GLM 5.1 medium	Z.ai	3.0	7.1	$0.535	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.535 Время ответа (среднее) 0ms
#79	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $1.079 Время ответа (среднее) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.746 Время ответа (среднее) 0ms
#110	Gemma 4 31B medium	Google	3.0	6.3	$0.163	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.163 Время ответа (среднее) 0ms
#115	Gemma 4 31B none	Google	3.0	6.2	$0.035	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.035 Время ответа (среднее) 0ms
#161	Qwen3.6 35B A3B none	Qwen	3.0	5.3	$0.061	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.061 Время ответа (среднее) 0ms
#179	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.026 Время ответа (среднее) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	3.0	4.8	$5.599	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $5.599 Время ответа (среднее) 0ms
#202	Grok Build 0.1 none	X AI	3.0	4.0	$0.547	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.547 Время ответа (среднее) 0ms
#206	gpt-oss-120b none	OpenAI	3.0	3.7	$0.010	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.010 Время ответа (среднее) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	3.0	3.4	$0.000	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 0ms
#209	Step 3.5 Flash none	Stepfun	3.0	2.3	$0.020	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.020 Время ответа (среднее) 0ms

1 2 14

→

Рейтинг Вызов инструментов

Фильтровать модели

Лучшие модели по Оценка Вызов инструментов

Оценка Вызов инструментов vs общая стоимость

Лучшие модели по Время ответа (среднее)