Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Qwen: Qwen3.5-27B vs xAI: Grok 4.3

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-01

Метрика Qwen3.5-27B Qwen3.5-27B medium Релиз: 2026-02-24 Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01
Оценка 8.4 8.2
Ранг #16 #20
Надежность Н/Д 10.0
Стабильность 8.8 8.6
Тестов верно
Доля успешных попыток 81.5% 81.5%
Нестабильные тесты 3 3
Всего запусков 54 54
Стоимость за результат 3.822 3.974
Общая стоимость $0.497 $0.517
???? ????? $0.195 / 1M $1.250 / 1M
???? ?????? $1.560 / 1M $2.500 / 1M
Выходные токены 2,500 1,223
Токены рассуждений 242,500 187,047
Время ответа (среднее) 53.03s 48.63s
Время ответа (макс.) 163.96s 216.69s
Время ответа (суммарно) 954.46s 875.27s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-27B 8.7 7.9 91.7% 1 19.75s 569 31,505
Grok 4.3 10.0 10.0 100.0% 0 8.83s 88 8,207
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-27B 10.0 10.0 100.0% 0 70.35s 375 19,165
Grok 4.3 10.0 10.0 100.0% 0 45.72s 284 9,659
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-27B 10.0 10.0 100.0% 0 163.96s 483 9,991
Grok 4.3 10.0 10.0 100.0% 0 63.99s 234 15,301
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-27B 10.0 10.0 100.0% 0 30.26s 270 16,150
Grok 4.3 10.0 10.0 100.0% 0 18.97s 180 9,546
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-27B 5.3 10.0 33.3% 0 79.53s 43 52,368
Grok 4.3 5.3 7.2 44.4% 1 181.74s 14 111,300
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-27B 6.1 3.1 66.7% 1 101.41s 70 23,147
Grok 4.3 5.4 2.5 66.7% 1 24.70s 70 5,020
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-27B 10.0 10.0 100.0% 0 19.66s 97 11,638
Grok 4.3 9.8 10.0 100.0% 0 18.58s 57 8,713
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-27B 8.2 7.7 77.8% 1 64.61s 245 77,213
Grok 4.3 5.9 7.2 55.6% 1 22.53s 128 14,686
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Qwen3.5-27B 10.0 10.0 100.0% 0 7.45s 348 1,323
Grok 4.3 10.0 10.0 100.0% 0 17.66s 168 4,615

Быстрое сравнение

Сменить пару сравнения