Навигация
AI BENCHY
Advertise here

AI BENCHY Compare

Inception: Mercury 2 vs Qwen: Qwen3.6 Max Preview

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-04

Метрика Mercury 2 Mercury 2 medium Релиз: 2026-02-24 Qwen3.6 Max Preview Qwen3.6 Max Preview none Релиз: 2026-04-20
Оценка 6.6 6.9
Ранг #81 #74
Надежность 10.0 10.0
Стабильность 8.8 9.2
Тестов верно
Доля успешных попыток 54.0% 58.7%
Нестабильные тесты 3 2
Всего запусков 63 63
Стоимость за результат 0.578 0.824
Общая стоимость $0.058 $0.075
Цена входа $0.250 / 1M $1.040 / 1M
Цена выхода $0.750 / 1M $6.240 / 1M
Общее число входных токенов 35,116 42,509
Выходные токены 4,048 4,779
Токены рассуждений 61,219 0
Время ответа (среднее) 2.24s 3.30s
Время ответа (макс.) 14.63s 20.51s
Время ответа (суммарно) 44.72s 69.40s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 6.9 9.9 50.0% 0 1.12s 554 2,546 2,609
Qwen3.6 Max Preview 5.2 7.9 41.7% 1 2.63s 696 513 0
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 8.2 7.7 77.8% 1 2.04s 7,065 296 11,328
Qwen3.6 Max Preview 3.8 7.3 22.2% 1 3.12s 7,913 456 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 10.0 10.0 100.0% 0 3.28s 12,909 268 4,887
Qwen3.6 Max Preview 3.0 10.0 0.0% 0 20.51s 14,949 2,842 0
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 7.3 5.9 83.3% 1 1.11s 6,234 183 1,656
Qwen3.6 Max Preview 10.0 10.0 100.0% 0 2.87s 7,794 243 0
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 2.9 7.2 11.1% 1 6.48s 695 41 30,754
Qwen3.6 Max Preview 7.7 10.0 66.7% 0 1.22s 789 18 0
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 4.8 10.0 0.0% 0 821ms 456 137 542
Qwen3.6 Max Preview 4.3 10.0 0.0% 0 1.62s 522 76 0
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 10.0 10.0 100.0% 0 1.07s 340 14 958
Qwen3.6 Max Preview 9.8 10.0 100.0% 0 1.40s 711 69 0
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 5.4 10.0 33.3% 0 949ms 601 361 2,781
Qwen3.6 Max Preview 10.0 10.0 100.0% 0 2.65s 714 321 0
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 10.0 10.0 100.0% 0 1.89s 6,080 180 1,956
Qwen3.6 Max Preview 10.0 10.0 100.0% 0 5.27s 8,211 222 0
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 3.0 10.0 0.0% 0 2.58s 182 22 3,748
Qwen3.6 Max Preview 3.0 10.0 0.0% 0 1.97s 210 19 0

Быстрое сравнение

Сменить пару сравнения