AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Категория AI BENCHY

Рейтинг Вызов инструментов

Посмотрите, какие AI-модели лучше всего справляются с Вызов инструментов, какие остаются надежными и где заметнее всего разница. Сортировать по: Тестов верно ↓.

Показано моделей

13

Среднее значение Оценка Вызов инструментов

8.7

Лучшая модель

Gemini 3 Flash Preview 10.0
Ранг Модель Компания Оценка Вызов инструментов Оценка Тестов верно Время ответа (среднее)
#130 MiniMax M2.7 medium Minimax 4.7 5.3 0/1 12.0s
#136 Elephant Alpha medium Openrouter 3.0 5.1 0/1 2.83s
#137 Elephant Alpha none Openrouter 3.0 5.1 0/1 2.79s
#138 Ling-2.6-flash none Inclusionai 3.0 5.0 0/1 18.8s
#141 Nemotron 3 Super none NVIDIA 4.7 4.9 0/1 16.0s
#144 GPT-5.4 Mini none OpenAI 3.0 4.9 0/1 2.32s
#146 Laguna Xs.2 none Poolside 3.0 4.8 0/1 1.93s
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 3.0 4.6 0/1 0ms
#153 Qwen3.6 35B A3B none Qwen 3.0 4.6 0/1 0ms
#157 Grok 4.1 Fast none X AI 2.8 4.4 0/1 5.51s
#159 Ling-2.6-1T none Inclusionai 3.0 4.3 0/1 25.7s
#160 LFM2-24B-A2B none Liquid 3.0 4.2 0/1 0ms
#162 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 3.0 4.1 0/1 0ms

Лучшие модели по Оценка Вызов инструментов

Оценка Вызов инструментов vs общая стоимость

Лучшие модели по Время ответа (среднее)