Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs Qwen: Qwen3.5 Plus 2026-02-15

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-12

Метрика GPT-5.3 Chat GPT-5.3 Chat none Релиз: 2026-03-03 Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 medium Релиз: 2026-02-15
Ранг #20 #5
Средний балл 7.3 8.3
Стабильность 8.5 9.5
Стоимость за результат 3.163 1.264
Общая стоимость $0.317 $0.165
Тестов верно
Доля успешных попыток 70.8% 85.4%
Нестабильные тесты 3 1
Всего запусков 48 48
Выходные токены 19,272 1,735
Токены рассуждений 0 77,212
Время ответа (среднее) 5.96s 34.45s
Время ответа (макс.) 18.33s 79.86s
Время ответа (суммарно) 95.30s 310.09s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Общее число выходных токенов

Средний балл vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 7.3 7.5 77.8% 1 4.72s 3,091 0
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 10.37s 186 5,926
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 10.0 10.0 100.0% 0 11.96s 2,614 0
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 46.85s 421 7,906
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 9.9 10.0 100.0% 0 2.21s 942 0
Qwen3.5 Plus 2026-02-15 9.9 10.0 100.0% 0 46.91s 270 14,916
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 10.0 4.4 33.3% 2 13.01s 8,264 0
Qwen3.5 Plus 2026-02-15 4.0 10.0 33.3% 0 17.50s 35 16,680
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 4.0 10.0 0.0% 0 1.99s 319 0
Qwen3.5 Plus 2026-02-15 10.0 1.6 66.7% 1 79.86s 73 8,675
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 9.0 10.0 50.0% 0 3.29s 1,455 0
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 31.93s 101 7,704
Puzzle Solving Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 10.0 10.0 100.0% 0 2.93s 1,726 0
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 34.57s 340 14,496
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 10.0 10.0 100.0% 0 8.36s 861 0
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 7.54s 309 909

Быстрое сравнение

Сменить пару сравнения