Навигация
AI BENCHY
Your ad here

AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs Mistral: Mistral Small 4

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-01

Метрика Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19 Mistral Small 4 Mistral Small 4 medium Релиз: 2026-03-16
Оценка 9.6 5.7
Ранг #2 #99
Надежность Н/Д Н/Д
Стабильность 10.0 6.8
Тестов верно
Доля успешных попыток 94.4% 50.0%
Нестабильные тесты 0 7
Всего запусков 54 54
Стоимость за результат 3.400 0.674
Общая стоимость $0.578 $0.034
???? ????? $2.000 / 1M $0.150 / 1M
???? ?????? $12.000 / 1M $0.600 / 1M
Выходные токены 1,932 15,084
Токены рассуждений 40,542 39,408
Время ответа (среднее) 15.96s 5.64s
Время ответа (макс.) 40.61s 30.49s
Время ответа (суммарно) 175.52s 101.52s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.90s 112 3,218
Mistral Small 4 5.6 3.8 66.7% 3 2.67s 4,055 4,778
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 19.88s 405 4,201
Mistral Small 4 6.7 3.5 66.7% 1 30.49s 2,796 11,296
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 9.5 10.0 100.0% 0 40.61s 432 9,281
Mistral Small 4 3.0 10.0 0.0% 0 25.25s 2,612 10,700
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.72s 279 3,904
Mistral Small 4 7.3 5.9 83.3% 1 1.23s 335 723
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 7.7 10.0 66.7% 0 32.73s 18 12,424
Mistral Small 4 5.3 7.2 44.4% 1 6.11s 2,621 6,904
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 11.77s 108 1,179
Mistral Small 4 4.8 10.0 0.0% 0 2.05s 821 828
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 9.56s 72 2,236
Mistral Small 4 7.3 5.8 83.3% 1 1.38s 540 1,031
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.15s 232 3,117
Mistral Small 4 3.4 9.7 0.0% 0 2.00s 983 2,338
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 23.15s 274 982
Mistral Small 4 10.0 10.0 100.0% 0 3.50s 321 810

Быстрое сравнение

Сменить пару сравнения