AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Категория AI BENCHY

Рейтинг Вызов инструментов

Посмотрите, какие AI-модели лучше всего справляются с Вызов инструментов, какие остаются надежными и где заметнее всего разница.

Показано моделей

15

Среднее значение Оценка Вызов инструментов

8.7

Лучшая модель

Gemini 3 Flash Preview 10.0
Ранг Модель Компания Оценка Вызов инструментов Оценка Тестов верно Время ответа (среднее)
#151 Trinity Large Preview none Arcee AI 10.0 4.6 1/1 6.67s
#152 MiMo-V2-Flash none Xiaomi 10.0 4.6 1/1 2.28s
#154 Qwen3.5-9B none Qwen 10.0 4.6 1/1 1.27s
#155 Mercury 2 none Inception 10.0 4.5 1/1 1.27s
#156 Hy3 preview none Tencent 10.0 4.4 1/1 33.8s
#158 GLM 4.7 Flash medium Z.ai 10.0 4.4 1/1 15.9s
#161 Qwen3.5-9B medium Qwen 10.0 4.2 1/1 4.31s
#163 Granite 4.1 8B none IBM Granite 10.0 4.0 1/1 2.17s
#2 Gemini 3.5 Flash high Google 9.8 9.6 1/1 4.96s
#99 gpt-oss-120b medium OpenAI 9.8 6.1 1/1 6.91s
#118 Qwen3.6 27B none Qwen 9.5 5.6 1/1 6.74s
#59 GLM 5V Turbo medium Z.ai 7.0 7.2 0/1 12.5s
#42 GPT-5.2 medium OpenAI 4.7 7.5 0/1 10.3s
#45 GPT-5.4 Mini medium OpenAI 4.7 7.5 0/1 9.62s
#107 Laguna Xs.2 medium Poolside 4.7 5.8 0/1 3.39s

Лучшие модели по Оценка Вызов инструментов

Оценка Вызов инструментов vs общая стоимость

Лучшие модели по Время ответа (среднее)