Навигация
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Sonnet 5 vs Google: Gemini 2.5 Flash

Сводка

Сравнение benchmark Claude Sonnet 5 vs Gemini 2.5 Flash: Gemini 2.5 Flash лидирует по среднему баллу: 6.2 vs 5.7. Gemini 2.5 Flash имеет более низкую стоимость benchmark: $0.016 vs $0.287. Gemini 2.5 Flash быстрее: 875ms vs 4.74s, с долей успешных попыток 42.9% vs 46.0%.

Рекомендуемая модель: Gemini 2.5 Flash - Здесь у него лучший балл (6.2), при этом он примерно в 18.9 раза дешевле, чем Claude Sonnet 5.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-30

Метрика Claude Sonnet 5 Claude Sonnet 5 none Релиз: 2026-06-30 Gemini 2.5 Flash Gemini 2.5 Flash none Релиз: 2025-06-17
Оценка 5.7 6.2
Ранг #117 #95
Надежность 10.0 10.0
Стабильность 8.6 9.6
Тестов верно
Доля успешных попыток 42.9% 46.0%
Нестабильные тесты 4 1
Всего запусков 63 63
Стоимость за результат 4.098 0.169
Общая стоимость $0.287 $0.016
Цена входа $2.000 / 1M $0.300 / 1M
Цена выхода $10.000 / 1M $2.500 / 1M
Общее число входных токенов 76,797 35,926
Выходные токены 13,325 1,770
Токены рассуждений 0 0
Время ответа (среднее) 4.74s 875ms
Время ответа (макс.) 29.46s 4.39s
Время ответа (суммарно) 99.46s 18.37s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#117 Claude Sonnet 5

none
Стоимость
$0.061
Время
53.7s
Токены
6,172 tok

#95 Gemini 2.5 Flash

none
Неверный SVG
Стоимость
$0.164
Время
215.5s
Токены
65,659 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 5 5.3 10.0 25.0% 0 3.60s 834 1,813 0
Gemini 2.5 Flash 3.0 10.0 0.0% 0 582ms 492 102 0
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 5 4.6 7.9 22.2% 1 3.67s 10,590 1,864 0
Gemini 2.5 Flash 5.5 10.0 33.3% 0 736ms 8,122 483 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 5 3.0 10.0 0.0% 0 29.46s 38,775 6,340 0
Gemini 2.5 Flash 3.0 10.0 0.0% 0 4.39s 12,519 366 0
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 5 10.0 10.0 100.0% 0 3.01s 10,503 309 0
Gemini 2.5 Flash 10.0 10.0 100.0% 0 652ms 7,257 279 0
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 5 5.3 7.2 44.4% 1 3.28s 975 933 0
Gemini 2.5 Flash 5.9 7.2 55.6% 1 495ms 633 12 0
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 5 4.7 3.1 33.3% 1 2.81s 708 272 0
Gemini 2.5 Flash 5.0 10.0 0.0% 0 615ms 486 78 0
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 5 6.4 10.0 50.0% 0 2.58s 909 103 0
Gemini 2.5 Flash 10.0 10.0 100.0% 0 590ms 615 72 0
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 5 6.0 7.4 55.6% 1 3.22s 894 778 0
Gemini 2.5 Flash 7.7 10.0 66.7% 0 604ms 558 132 0
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 5 10.0 10.0 100.0% 0 6.80s 12,351 522 0
Gemini 2.5 Flash 10.0 10.0 100.0% 0 1.91s 5,088 234 0
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Sonnet 5 3.0 10.0 0.0% 0 4.31s 258 391 0
Gemini 2.5 Flash 3.0 10.0 0.0% 0 1.15s 156 12 0

Быстрое сравнение

Сменить пару сравнения