Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Qwen: Qwen3.5-122B-A10B vs xAI: Grok 4.3

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-28

Метрика Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Релиз: 2026-02-24 Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01
Оценка 7.7 7.8
Ранг #41 #34
Надежность 10.0 10.0
Стабильность 8.8 8.4
Тестов верно
Доля успешных попыток 71.7% 75.0%
Нестабильные тесты 3 4
Всего запусков 60 60
Стоимость за результат 5.031 4.557
Общая стоимость $0.509 $0.593
Цена входа $0.260 / 1M $1.250 / 1M
Цена выхода $2.080 / 1M $2.500 / 1M
Выходные токены 26,166 1,485
Токены рассуждений 213,524 214,710
Время ответа (среднее) 39.40s 49.23s
Время ответа (макс.) 168.16s 216.69s
Время ответа (суммарно) 788.00s 984.52s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 9.75s 269 16,835
Grok 4.3 10.0 10.0 100.0% 0 8.83s 88 8,207
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-122B-A10B 4.1 5.8 33.3% 1 119.57s 8,036 45,074
Grok 4.3 7.4 6.5 66.7% 1 55.26s 532 24,554
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 107.79s 483 11,337
Grok 4.3 10.0 10.0 100.0% 0 63.99s 234 15,301
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 23.41s 270 16,558
Grok 4.3 10.0 10.0 100.0% 0 18.97s 180 9,546
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-122B-A10B 2.9 7.2 11.1% 1 63.40s 15,537 64,889
Grok 4.3 5.3 7.2 44.4% 1 181.74s 14 111,300
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-122B-A10B 3.4 2.2 33.3% 1 34.11s 66 7,592
Grok 4.3 5.4 2.5 66.7% 1 24.70s 70 5,020
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 9.88s 77 7,372
Grok 4.3 9.8 10.0 100.0% 0 18.58s 57 8,713
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 17.89s 284 27,575
Grok 4.3 5.9 7.2 55.6% 1 22.52s 128 14,468
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 4.60s 322 1,226
Grok 4.3 10.0 10.0 100.0% 0 17.66s 168 4,615
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-122B-A10B 3.0 10.0 0.0% 0 52.87s 822 15,066
Grok 4.3 3.0 10.0 0.0% 0 44.47s 14 12,986

Быстрое сравнение

Сменить пару сравнения