Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Сравниваемые модели

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-04

Метрика Hunter Alpha Hunter Alpha medium Релиз: 2026-03-11 MiMo-V2-Pro MiMo-V2-Pro medium Релиз: 2026-03-18 Hunter Alpha Hunter Alpha none Релиз: 2026-03-11 MiMo-V2-Pro MiMo-V2-Pro none Релиз: 2026-03-18
Оценка 7.0 8.0 5.9 5.8
Ранг #43 #24 #63 #65
Стабильность 7.2 8.5 8.1 8.5
Тестов верно
Доля успешных попыток 68.6% 76.5% 49.0% 45.1%
Нестабильные тесты 6 3 4 3
Всего запусков 51 45 51 51
Стоимость за результат 0.000 1.110 0.000 0.659
Общая стоимость $0.000 $0.123 $0.000 $0.040
???? ????? $0.000 / 1M $1.000 / 1M $0.000 / 1M $1.000 / 1M
???? ?????? $0.000 / 1M $3.000 / 1M $0.000 / 1M $3.000 / 1M
Выходные токены 4,724 1,875 2,278 1,721
Токены рассуждений 17,921 26,959 0 0
Время ответа (среднее) 10.33s 9.78s 4.58s 2.31s
Время ответа (макс.) 30.53s 64.71s 15.17s 6.58s
Время ответа (суммарно) 175.60s 156.45s 77.92s 39.25s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Hunter Alpha 7.3 5.8 83.3% 2 4.75s 479 1,103
MiMo-V2-Pro 10.0 10.0 100.0% 0 3.06s 223 1,107
Hunter Alpha 3.5 8.0 16.7% 1 3.81s 779 0
MiMo-V2-Pro 3.5 8.0 16.7% 1 1.80s 315 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Hunter Alpha 4.7 1.6 66.7% 1 30.53s 792 3,456
MiMo-V2-Pro 4.7 1.6 66.7% 1 64.71s 380 14,186
Hunter Alpha 3.0 10.0 0.0% 0 15.17s 379 0
MiMo-V2-Pro 3.0 10.0 0.0% 0 6.58s 333 0
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Hunter Alpha 10.0 10.0 100.0% 0 23.16s 1,488 8,017
MiMo-V2-Pro 7.3 5.8 83.3% 1 17.20s 260 7,484
Hunter Alpha 10.0 10.0 100.0% 0 8.49s 249 0
MiMo-V2-Pro 10.0 10.0 100.0% 0 1.39s 249 0
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Hunter Alpha 3.0 10.0 0.0% 0 10.52s 892 2,406
MiMo-V2-Pro 5.3 10.0 33.3% 0 6.00s 155 1,048
Hunter Alpha 5.3 10.0 33.3% 0 2.33s 27 0
MiMo-V2-Pro 5.3 7.2 44.4% 1 1.78s 26 0
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Hunter Alpha 7.0 3.7 66.7% 1 6.44s 116 260
MiMo-V2-Pro 10.0 10.0 100.0% 0 4.06s 198 424
Hunter Alpha 6.1 3.1 66.7% 1 2.71s 91 0
MiMo-V2-Pro 4.3 9.9 0.0% 0 2.44s 125 0
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Hunter Alpha 9.9 10.0 100.0% 0 4.18s 208 465
MiMo-V2-Pro 9.9 10.0 100.0% 0 3.36s 83 667
Hunter Alpha 6.4 10.0 50.0% 0 2.82s 69 0
MiMo-V2-Pro 6.5 10.0 50.0% 0 2.51s 69 0
Puzzle Solving Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Hunter Alpha 6.1 4.7 66.7% 2 5.36s 441 1,310
MiMo-V2-Pro 7.0 7.2 55.6% 1 4.71s 313 1,179
Hunter Alpha 5.8 4.4 66.7% 2 3.06s 349 0
MiMo-V2-Pro 6.0 7.1 55.6% 1 1.83s 327 0
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Hunter Alpha 10.0 10.0 100.0% 0 17.33s 308 904
MiMo-V2-Pro 10.0 10.0 100.0% 0 8.19s 263 864
Hunter Alpha 10.0 10.0 100.0% 0 6.02s 335 0
MiMo-V2-Pro 10.0 10.0 100.0% 0 4.39s 277 0

Быстрое сравнение

Сменить пару сравнения