Рейтинг моделей по Вызов инструментов

Посмотрите, какие AI-модели лучше всего справляются с Вызов инструментов, какие остаются надежными и где заметнее всего разница. Сортировать по: Время ответа (среднее) ↑.

Показано моделей

Среднее значение Оценка Вызов инструментов

8.7

Лучшая модель

Kimi K3 3.0

Причины сбоев

С причиной сбоя Ошибка API17 С причиной сбоя Недопустимый вызов инструмента9 С причиной сбоя Не соблюдены инструкции8 С причиной сбоя Неверный ответ3 С причиной сбоя Нет ответа2

210/210

Ранг	Модель	Компания	Оценка Вызов инструментов	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#210	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.001 Время ответа (среднее) 0ms
#189	Mercury 2 none	Inception	10.0	4.6	$0.030	1/1	1.27s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.030 Время ответа (среднее) 1.27s
#169	Qwen3.5-9B none	Qwen	10.0	5.1	$0.021	1/1	1.27s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.021 Время ответа (среднее) 1.27s
#160	Laguna XS 2.1 none	Poolside	10.0	5.3	$0.008	1/1	1.36s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.008 Время ответа (среднее) 1.36s
#165	Mistral Small 4 none	Mistral	10.0	5.1	$0.022	1/1	1.40s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.022 Время ответа (среднее) 1.40s
#78	Mercury 2 medium	Inception	10.0	7.0	$0.093	1/1	1.89s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.093 Время ответа (среднее) 1.89s
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	1/1	1.91s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.017 Время ответа (среднее) 1.91s
#205	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.004 Время ответа (среднее) 1.93s
#142	Qwen3.5-122B-A10B none	Qwen	10.0	5.7	$0.247	1/1	2.04s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.247 Время ответа (среднее) 2.04s
#201	Granite 4.1 8B none	IBM Granite	10.0	4.0	$0.007	1/1	2.17s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.007 Время ответа (среднее) 2.17s
#200	MiMo-V2-Flash none	Xiaomi	10.0	4.0	$0.025	1/1	2.28s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.025 Время ответа (среднее) 2.28s
#127	Qwen3.5-35B-A3B none	Qwen	10.0	6.1	$0.106	1/1	2.30s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.106 Время ответа (среднее) 2.30s
#136	GPT-5.4 Mini none	OpenAI	3.0	5.9	$0.095	0/1	2.32s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.095 Время ответа (среднее) 2.32s
#168	MiMo-V2.5 none	Xiaomi	10.0	5.1	$0.025	1/1	2.43s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.025 Время ответа (среднее) 2.43s
#166	Qwen3 Coder Next none	Qwen	10.0	5.1	$0.025	1/1	2.47s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.025 Время ответа (среднее) 2.47s

Рейтинг Вызов инструментов

Фильтровать модели

Лучшие модели по Оценка Вызов инструментов

Оценка Вызов инструментов vs общая стоимость

Лучшие модели по Время ответа (среднее)