Навигация
AI BENCHY
Advertise here

AI BENCHY Compare

Qwen: Qwen3.7 Max vs xAI: Grok 4.3

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика Qwen3.7 Max Qwen3.7 Max none Релиз: 2026-05-22 Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01
Оценка 7.9 7.8
Ранг #27 #33
Надежность 10.0 10.0
Стабильность 10.0 8.4
Тестов верно
Доля успешных попыток 70.0% 75.0%
Нестабильные тесты 0 4
Всего запусков 60 60
Стоимость за результат 0.719 4.562
Общая стоимость $0.101 $0.593
???? ????? $2.500 / 1M $1.250 / 1M
???? ?????? $7.500 / 1M $2.500 / 1M
Выходные токены 1,988 1,485
Токены рассуждений 0 214,928
Время ответа (среднее) 1.30s 49.23s
Время ответа (макс.) 3.92s 216.69s
Время ответа (суммарно) 25.95s 984.54s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.7 Max 6.5 10.0 50.0% 0 1.08s 242 0
Grok 4.3 10.0 10.0 100.0% 0 8.83s 88 8,207
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.7 Max 6.8 10.0 50.0% 0 1.39s 576 0
Grok 4.3 7.4 6.5 66.7% 1 55.26s 532 24,554
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.7 Max 3.0 10.0 0.0% 0 2.17s 171 0
Grok 4.3 10.0 10.0 100.0% 0 63.99s 234 15,301
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.7 Max 10.0 10.0 100.0% 0 1.35s 243 0
Grok 4.3 10.0 10.0 100.0% 0 18.97s 180 9,546
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.7 Max 7.7 10.0 66.7% 0 975ms 15 0
Grok 4.3 5.3 7.2 44.4% 1 181.74s 14 111,300
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.7 Max 10.0 10.0 100.0% 0 1.04s 120 0
Grok 4.3 5.4 2.5 66.7% 1 24.70s 70 5,020
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.7 Max 10.0 10.0 100.0% 0 943ms 72 0
Grok 4.3 9.8 10.0 100.0% 0 18.58s 57 8,713
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.7 Max 10.0 10.0 100.0% 0 1.13s 314 0
Grok 4.3 5.9 7.2 55.6% 1 22.53s 128 14,686
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.7 Max 10.0 10.0 100.0% 0 3.92s 222 0
Grok 4.3 10.0 10.0 100.0% 0 17.66s 168 4,615
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.7 Max 3.0 10.0 0.0% 0 856ms 13 0
Grok 4.3 3.0 10.0 0.0% 0 44.47s 14 12,986

Быстрое сравнение

Сменить пару сравнения