Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Сравниваемые модели

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-07

Метрика GLM 5 GLM 5 medium Релиз: 2026-02-12 GLM 5.1 GLM 5.1 medium Релиз: 2026-04-07 Kimi K2.5 Kimi K2.5 medium Релиз: 2026-01-27 Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium Релиз: 2026-03-30
Оценка 8.3 8.0 7.2 8.5
Ранг #15 #23 #41 #7
Стабильность 8.1 9.0 7.2 10.0
Тестов верно
Доля успешных попыток 84.3% 76.5% 72.6% 76.5%
Нестабильные тесты 4 2 6 0
Всего запусков 51 51 51 49
Стоимость за результат 0.896 1.270 2.232 0.000
Общая стоимость $0.108 $0.153 $0.201 $0.000
???? ????? $0.720 / 1M $1.000 / 1M $0.383 / 1M $0.000 / 1M
???? ?????? $2.300 / 1M $3.200 / 1M $1.720 / 1M $0.000 / 1M
Выходные токены 19,833 6,666 40,907 1,756
Токены рассуждений 38,523 35,313 75,121 77,213
Время ответа (среднее) 17.15s 18.23s 64.59s 13.94s
Время ответа (макс.) 28.96s 43.11s 137.29s 43.55s
Время ответа (суммарно) 154.32s 291.73s 645.93s 237.01s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GLM 5 10.0 10.0 100.0% 0 23.66s 480 7,056
GLM 5.1 10.0 10.0 100.0% 0 8.31s 401 5,122
Kimi K2.5 7.3 5.8 83.3% 2 51.38s 2,789 8,880
Qwen3.6 Plus Preview 10.0 10.0 100.0% 0 9.90s 207 7,557
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GLM 5 10.0 10.0 100.0% 0 28.96s 662 3,242
GLM 5.1 9.5 10.0 100.0% 0 43.11s 327 4,206
Kimi K2.5 10.0 10.0 100.0% 0 71.37s 703 3,713
Qwen3.6 Plus Preview 10.0 10.0 100.0% 0 34.95s 452 13,073
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GLM 5 7.1 5.6 83.3% 1 8.90s 567 3,734
GLM 5.1 10.0 10.0 100.0% 0 9.33s 991 4,552
Kimi K2.5 10.0 10.0 100.0% 0 49.78s 563 7,940
Qwen3.6 Plus Preview 10.0 10.0 100.0% 0 14.95s 270 10,706
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GLM 5 3.5 4.4 33.3% 2 0ms 13,176 14,137
GLM 5.1 5.3 10.0 33.3% 0 29.77s 969 11,314
Kimi K2.5 3.5 4.4 33.3% 2 137.29s 20,753 30,564
Qwen3.6 Plus Preview 3.0 10.0 0.0% 0 22.08s 49 26,895
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GLM 5 6.1 3.1 66.7% 1 14.69s 2,020 2,248
GLM 5.1 10.0 10.0 100.0% 0 20.95s 2,875 2,875
Kimi K2.5 6.5 3.4 66.7% 1 69.73s 3,815 4,262
Qwen3.6 Plus Preview 5.1 10.0 0.0% 0 27.05s 111 5,232
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GLM 5 10.0 10.0 100.0% 0 7.25s 1,001 2,129
GLM 5.1 6.4 5.8 66.7% 1 7.47s 204 1,617
Kimi K2.5 10.0 10.0 100.0% 0 92.47s 5,371 6,547
Qwen3.6 Plus Preview 10.0 10.0 100.0% 0 7.54s 102 5,552
Puzzle Solving Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GLM 5 10.0 10.0 100.0% 0 15.64s 1,694 4,983
GLM 5.1 8.2 7.2 88.9% 1 23.85s 899 5,627
Kimi K2.5 5.3 7.3 44.4% 1 45.40s 6,671 12,403
Qwen3.6 Plus Preview 10.0 10.0 100.0% 0 6.11s 298 6,868
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GLM 5 10.0 10.0 100.0% 0 15.93s 233 994
GLM 5.1 3.0 10.0 0.0% 0 0ms 0 0
Kimi K2.5 10.0 10.0 100.0% 0 31.74s 242 812
Qwen3.6 Plus Preview 10.0 10.0 100.0% 0 5.87s 267 1,330

Быстрое сравнение

Сменить пару сравнения