Навигация
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.3 Chat

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-28

Метрика Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28 GPT-5.3 Chat GPT-5.3 Chat none Релиз: 2026-03-03
Оценка 7.3 7.4
Ранг #63 #56
Надежность 10.0 10.0
Стабильность 9.2 8.4
Тестов верно
Доля успешных попыток 65.0% 68.3%
Нестабильные тесты 2 4
Всего запусков 60 60
Стоимость за результат 4.324 3.350
Общая стоимость $0.519 $0.402
Цена входа $5.000 / 1M $1.750 / 1M
Цена выхода $25.000 / 1M $14.000 / 1M
Выходные токены 8,098 24,757
Токены рассуждений 0 0
Время ответа (среднее) 3.51s 6.13s
Время ответа (макс.) 17.73s 18.33s
Время ответа (суммарно) 70.19s 122.61s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 6.5 10.0 50.0% 0 3.40s 1,472 0
GPT-5.3 Chat 6.7 8.1 58.3% 1 3.86s 3,167 0
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 6.8 10.0 50.0% 0 3.59s 1,323 0
GPT-5.3 Chat 6.9 6.2 66.7% 1 10.52s 4,772 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 9.5 10.0 100.0% 0 17.73s 3,259 0
GPT-5.3 Chat 10.0 10.0 100.0% 0 11.96s 2,614 0
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 7.3 5.8 83.3% 1 1.77s 308 0
GPT-5.3 Chat 10.0 10.0 100.0% 0 2.21s 942 0
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 5.3 7.2 44.4% 1 1.66s 61 0
GPT-5.3 Chat 3.5 4.4 33.3% 2 13.01s 8,264 0
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 3.48s 230 0
GPT-5.3 Chat 4.6 10.0 0.0% 0 1.99s 319 0
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 9.9 10.0 100.0% 0 1.37s 95 0
GPT-5.3 Chat 9.8 10.0 100.0% 0 3.51s 1,491 0
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 7.7 10.0 66.7% 0 2.74s 783 0
GPT-5.3 Chat 10.0 10.0 100.0% 0 2.99s 1,758 0
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 5.35s 355 0
GPT-5.3 Chat 10.0 10.0 100.0% 0 8.36s 861 0
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 3.0 10.0 0.0% 0 3.41s 212 0
GPT-5.3 Chat 3.0 10.0 0.0% 0 4.38s 569 0

Быстрое сравнение

Сменить пару сравнения