Навигация
AI BENCHY
Сравнить Графики Методология
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.4

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-06

Метрика Anthropic: Claude Opus 4.6 medium Релиз: 2026-02-05 OpenAI: GPT-5.4 none Релиз: 2026-03-05
Средний балл 6.4 4.6
Ранг #31 #45
Тестов верно
Стабильность 8.9 8.9
Стоимость за результат 14.411 1.496
Общая стоимость $1.297 $0.090
Доля успешных попыток 64.4% 44.4%
Нестабильные тесты 2 2
common.totalRuns 45 (15 x 3) 45 (15 x 3)
Выходные токены 26,066 1,635
Токены рассуждений 17,071 0
Время ответа (среднее) 25.08s 1.46s
Время ответа (макс.) 83.40s 2.89s
Время ответа (суммарно) 200.67s 21.86s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Anthropic: Claude Opus 4.6 4.0 4.4 55.6% 2 11.88s 897 1,000
OpenAI: GPT-5.4 10.0 7.3 11.1% 1 1.41s 388 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 8,178 5,194
OpenAI: GPT-5.4 10.0 10.0 0.0% 0 2.89s 291 0
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Anthropic: Claude Opus 4.6 9.9 10.0 100.0% 0 7.37s 691 757
OpenAI: GPT-5.4 9.9 10.0 100.0% 0 1.04s 222 0
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Anthropic: Claude Opus 4.6 10.0 10.0 0.0% 0 83.40s 14,642 8,687
OpenAI: GPT-5.4 4.0 7.2 44.4% 1 1.07s 50 0
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 266 467
OpenAI: GPT-5.4 5.5 10.0 50.0% 0 1.07s 81 0
Puzzle Solving Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Anthropic: Claude Opus 4.6 7.0 10.0 66.7% 0 4.60s 531 637
OpenAI: GPT-5.4 4.0 9.8 33.3% 0 1.52s 357 0
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 861 329
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 2.75s 246 0

Быстрое сравнение

Сменить пару сравнения