Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Сравниваемые модели

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-10

Метрика Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 medium Релиз: 2026-02-15 Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium Релиз: 2026-04-20 Бесплатно доступно GLM 5 Turbo GLM 5 Turbo medium Релиз: 2026-03-15
Оценка 8.2 8.2 8.1
Ранг #12 #15 #20
Надежность 10.0 Н/Д 6.7
Стабильность 9.1 10.0 8.4
Тестов верно
Доля успешных попыток 79.0% 75.0% 77.2%
Нестабильные тесты 2 0 4
Всего запусков 57 57 57
Стоимость за результат 1.758 0.000 1.438
Общая стоимость $0.247 $0.000 $0.187
???? ????? $0.260 / 1M $0.000 / 1M $1.200 / 1M
???? ?????? $1.560 / 1M $0.000 / 1M $4.000 / 1M
Выходные токены 2,145 1,153 12,217
Токены рассуждений 129,019 62,197 40,252
Время ответа (среднее) 51.33s 15.25s 18.85s
Время ответа (макс.) 120.91s 43.55s 194.23s
Время ответа (суммарно) 616.01s 182.96s 358.15s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5 Plus 2026-02-15 8.2 7.9 83.3% 1 45.78s 205 21,236
Qwen3.6 Plus Preview 10.0 10.0 100.0% 0 11.69s 61 5,812
GLM 5 Turbo 10.0 10.0 100.0% 0 4.82s 362 3,137
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 120.91s 367 19,367
Qwen3.6 Plus Preview 0.0 0.0 0.0% 0 0ms 0 0
GLM 5 Turbo 10.0 10.0 100.0% 0 12.26s 332 3,301
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 46.85s 421 7,906
Qwen3.6 Plus Preview 10.0 10.0 100.0% 0 34.95s 452 13,073
GLM 5 Turbo 10.0 10.0 100.0% 0 13.88s 390 2,037
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 46.91s 270 14,916
Qwen3.6 Plus Preview 10.0 10.0 100.0% 0 14.95s 270 10,706
GLM 5 Turbo 10.0 10.0 100.0% 0 6.19s 577 3,632
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5 Plus 2026-02-15 5.3 10.0 33.3% 0 17.50s 35 16,680
Qwen3.6 Plus Preview 3.0 10.0 0.0% 0 22.08s 49 26,895
GLM 5 Turbo 2.9 4.4 22.2% 2 71.07s 9,665 19,279
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5 Plus 2026-02-15 4.7 1.6 66.7% 1 79.86s 73 8,675
Qwen3.6 Plus Preview 0.0 0.0 0.0% 0 0ms 0 0
GLM 5 Turbo 6.1 3.1 66.7% 1 10.05s 60 2,216
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 31.93s 101 7,704
Qwen3.6 Plus Preview 10.0 10.0 100.0% 0 3.40s 27 1,383
GLM 5 Turbo 10.0 10.0 100.0% 0 5.38s 255 2,183
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 34.57s 340 14,496
Qwen3.6 Plus Preview 10.0 10.0 100.0% 0 7.52s 27 2,998
GLM 5 Turbo 8.7 7.9 77.8% 1 5.44s 315 2,702
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 7.54s 309 909
Qwen3.6 Plus Preview 10.0 10.0 100.0% 0 5.87s 267 1,330
GLM 5 Turbo 10.0 10.0 100.0% 0 9.84s 241 446
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5 Plus 2026-02-15 3.0 10.0 0.0% 0 103.81s 24 17,130
Qwen3.6 Plus Preview 0.0 0.0 0.0% 0 0ms 0 0
GLM 5 Turbo 3.0 10.0 0.0% 0 40.17s 20 1,319

Быстрое сравнение

Сменить пару сравнения