Рейтинг моделей по Вызов инструментов

Посмотрите, какие AI-модели лучше всего справляются с Вызов инструментов, какие остаются надежными и где заметнее всего разница. Сортировать по: Тестов верно ↑.

Показано моделей

Среднее значение Оценка Вызов инструментов

8.8

Лучшая модель

GPT-5.2 4.7

Причины сбоев

С причиной сбоя Ошибка API17 С причиной сбоя Недопустимый вызов инструмента9 С причиной сбоя Не соблюдены инструкции8 С причиной сбоя Неверный ответ3 С причиной сбоя Нет ответа2

216/216

Ранг	Модель	Компания	Оценка Вызов инструментов	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#204	Laguna Xs.2 medium	Poolside	4.7	4.1	$0.015	0/1	3.39s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.015 Время ответа (среднее) 3.39s
#208	Grok Build 0.1 none	X AI	3.0	4.0	$0.547	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.547 Время ответа (среднее) 0ms
#209	Grok 4.1 Fast none	X AI	2.8	3.8	$0.008	0/1	5.51s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.008 Время ответа (среднее) 5.51s
#211	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.004 Время ответа (среднее) 1.93s
#212	gpt-oss-120b none	OpenAI	3.0	3.7	$0.010	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.010 Время ответа (среднее) 0ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	3.0	3.4	$0.000	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 0ms
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 0ms
#215	Step 3.5 Flash none	Stepfun	3.0	2.3	$0.020	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.020 Время ответа (среднее) 0ms
#216	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.001 Время ответа (среднее) 0ms
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	1/1	8.55s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.831 Время ответа (среднее) 8.55s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	1/1	9.76s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $1.785 Время ответа (среднее) 9.76s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	1/1	12.6s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.742 Время ответа (среднее) 12.6s
#4	Gemini 3.5 Flash high	Google	9.8	9.5	$1.976	1/1	4.96s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $1.976 Время ответа (среднее) 4.96s
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	1/1	7.56s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.971 Время ответа (среднее) 7.56s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	1/1	4.78s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.517 Время ответа (среднее) 4.78s

Рейтинг Вызов инструментов

Фильтровать модели

Лучшие модели по Оценка Вызов инструментов

Оценка Вызов инструментов vs общая стоимость

Лучшие модели по Время ответа (среднее)