AI BENCHY
Сравнить
❤️ Made by XCS

Название модели

Anthropic: Claude Opus 4.6

Бенчмарки сгенерированы из тестовых наборов Aibenchy в : 19 февр. 2026 г.

Метрика Anthropic: Claude Opus 4.6
Ранг#16
КомпанияAnthropic
Score 5.42
Стабильность 8.60
Стоимость за результат 12.8695
Общая стоимость $0.77217
Тестов верно 6/12
Доля успешных попыток 55.5%
Нестабильные тесты 2
Выходные токены 18,415
Токены рассуждений 10,289

Разбивка по категориям

Категория Полностью пройденные тесты Score Стабильность Доля успешных попыток Нестабильные тесты Оценка рассуждения Стоимость
Anti-AI Tricks 0/2 1.00 1.62 33.3% 2 10.00 $0.03036
Data parsing and extraction 2/2 10.00 10.00 100.0% 0 9.83 $0.07755
Domain specific 0/3 1.00 10.00 0.0% 0 7.61 $0.60915
Instructions following 2/2 9.50 9.99 100.0% 0 9.50 $0.02231
Puzzle Solving 2/3 7.00 10.00 66.7% 0 9.44 $0.03281

Сравниваемые модели

Сравнить Anthropic: Claude Opus 4.6 с...

#15 · Z.ai

Z.ai: GLM 5

Без рассуждения

Score: 5.42

Стабильность: 10.00

Доля успешных попыток: 50.0%

Нестабильные тесты: 0

Стоимость за результат: 0.0704

Тестов верно: 6/12

Общая стоимость: $0.00423

Сравнить

#17 · MiniMax

MiniMax: MiniMax M2.5

Рассуждение (medium)

Score: 5.08

Стабильность: 6.00

Доля успешных попыток: 61.1%

Нестабильные тесты: 6

Стоимость за результат: 4.0276

Тестов верно: 5/12

Общая стоимость: $0.20138

Сравнить

#14 · Qwen

Qwen: Qwen3.5 Plus 2026-02-15

Без рассуждения

Score: 5.67

Стабильность: 9.99

Доля успешных попыток: 50.0%

Нестабильные тесты: 0

Стоимость за результат: 0.0997

Тестов верно: 6/12

Общая стоимость: $0.00599

Сравнить

Быстрое сравнение

Сравнить Anthropic: Claude Opus 4.6 с...