Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Inception: Mercury 2 vs Elephant Alpha

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-03

Метрика Mercury 2 Mercury 2 none Релиз: 2026-02-24 Elephant Alpha Elephant Alpha none Релиз: 2026-04-14
Оценка 4.6 5.1
Ранг #153 #136
Надежность 10.0 Н/Д
Стабильность 9.1 9.7
Тестов верно
Доля успешных попыток 25.0% 28.3%
Нестабильные тесты 2 1
Всего запусков 60 60
Стоимость за результат 0.216 0.000
Общая стоимость $0.009 $0.000
Цена входа $0.250 / 1M $0.000 / 1M
Цена выхода $0.750 / 1M $0.000 / 1M
Общее число входных токенов 25,515 33,743
Выходные токены 3,001 2,573
Токены рассуждений 0 0
Время ответа (среднее) 614ms 1.22s
Время ответа (макс.) 1.27s 3.81s
Время ответа (суммарно) 12.28s 22.03s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 3.0 10.0 0.0% 0 483ms 631 286 0
Elephant Alpha 6.6 10.0 50.0% 0 963ms 726 610 0
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 3.5 9.4 0.0% 0 831ms 4,631 1,650 0
Elephant Alpha 4.7 6.7 33.3% 1 1.39s 813 375 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 3.0 10.0 0.0% 0 606ms 4,821 131 0
Elephant Alpha 3.0 10.0 0.0% 0 3.81s 14,046 731 0
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 7.3 5.9 83.3% 1 667ms 6,362 180 0
Elephant Alpha 6.5 10.0 50.0% 0 1.04s 8,004 246 0
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 5.3 7.2 44.4% 1 534ms 784 46 0
Elephant Alpha 3.0 10.0 0.0% 0 927ms 810 24 0
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 4.8 10.0 0.0% 0 628ms 495 159 0
Elephant Alpha 4.0 10.0 0.0% 0 854ms 540 106 0
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 6.5 10.0 50.0% 0 551ms 691 82 0
Elephant Alpha 9.8 10.0 100.0% 0 1.03s 732 81 0
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 3.1 10.0 0.0% 0 535ms 694 251 0
Elephant Alpha 4.2 10.0 0.0% 0 807ms 729 170 0
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 10.0 10.0 100.0% 0 1.27s 6,193 197 0
Elephant Alpha 3.0 10.0 0.0% 0 2.79s 7,343 230 0
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 3.0 10.0 0.0% 0 548ms 213 19 0
Elephant Alpha 3.0 10.0 0.0% 0 0ms 0 0 0

Быстрое сравнение

Сменить пару сравнения