Навигация
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Google: Gemini 2.5 Flash

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-01

Метрика Claude Sonnet 4.6 Claude Sonnet 4.6 none Релиз: 2026-02-17 Gemini 2.5 Flash Gemini 2.5 Flash medium Релиз: 2025-06-17
Оценка 7.0 7.7
Ранг #78 #40
Надежность 10.0 10.0
Стабильность 9.7 9.6
Тестов верно
Доля успешных попыток 58.3% 68.3%
Нестабильные тесты 1 1
Всего запусков 60 60
Стоимость за результат 2.782 2.750
Общая стоимость $0.306 $0.358
Цена входа $3.000 / 1M $0.300 / 1M
Цена выхода $15.000 / 1M $2.500 / 1M
Выходные токены 9,450 1,924
Токены рассуждений 0 137,255
Время ответа (среднее) 5.27s 15.57s
Время ответа (макс.) 23.84s 95.48s
Время ответа (суммарно) 68.50s 311.47s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 4.8 10.0 25.0% 0 2.94s 1,214 0
Gemini 2.5 Flash 8.4 10.0 75.0% 0 6.30s 255 10,233
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 6.8 10.0 50.0% 0 6.73s 2,112 0
Gemini 2.5 Flash 6.6 10.0 50.0% 0 54.56s 537 24,413
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 9.5 10.0 100.0% 0 23.84s 3,766 0
Gemini 2.5 Flash 10.0 10.0 100.0% 0 28.44s 303 11,922
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 10.0 10.0 100.0% 0 3.43s 252 0
Gemini 2.5 Flash 10.0 10.0 100.0% 0 4.06s 279 2,325
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 7.7 10.0 66.7% 0 3.54s 413 0
Gemini 2.5 Flash 5.9 7.2 55.6% 1 37.34s 18 80,702
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 6.1 3.1 66.7% 1 2.56s 192 0
Gemini 2.5 Flash 4.8 10.0 0.0% 0 4.86s 92 1,899
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 6.5 10.0 50.0% 0 1.96s 90 0
Gemini 2.5 Flash 9.8 10.0 100.0% 0 2.62s 69 1,203
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 7.7 10.0 66.7% 0 2.53s 533 0
Gemini 2.5 Flash 7.7 10.0 66.7% 0 3.18s 126 2,499
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 10.0 10.0 100.0% 0 4.11s 447 0
Gemini 2.5 Flash 10.0 10.0 100.0% 0 6.20s 234 1,140
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 3.0 10.0 0.0% 0 4.67s 431 0
Gemini 2.5 Flash 3.0 10.0 0.0% 0 2.76s 11 919

Быстрое сравнение

Сменить пару сравнения