Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs StepFun: Step 3.5 Flash

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-03

Метрика Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none Релиз: 2026-03-03 Step 3.5 Flash Step 3.5 Flash medium Релиз: 2026-02-01
Оценка 7.5 7.4
Ранг #49 #55
Надежность 10.0 10.0
Стабильность 9.7 9.4
Тестов верно
Доля успешных попыток 63.3% 59.7%
Нестабильные тесты 1 1
Всего запусков 60 57
Стоимость за результат 0.142 0.133
Общая стоимость $0.017 $0.062
Цена входа $0.250 / 1M $0.090 / 1M
Цена выхода $1.500 / 1M $0.300 / 1M
Общее число входных токенов 34,579 33,555
Выходные токены 5,541 90,478
Токены рассуждений 0 173,544
Время ответа (среднее) 1.23s 43.20s
Время ответа (макс.) 3.39s 170.45s
Время ответа (суммарно) 24.68s 561.54s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 7.5 8.4 66.7% 1 1.04s 504 1,092 0
Step 3.5 Flash 10.0 10.0 100.0% 0 40.57s 694 20,391 24,176
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 6.8 10.0 50.0% 0 1.06s 5,125 664 0
Step 3.5 Flash 3.5 7.8 0.0% 0 62.83s 1,335 12,098 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 3.0 10.0 0.0% 0 3.20s 13,026 339 0
Step 3.5 Flash 10.0 10.0 100.0% 0 29.57s 13,638 1,176 12,984
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 1.22s 7,550 399 0
Step 3.5 Flash 10.0 10.0 100.0% 0 15.01s 7,368 600 13,886
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 5.3 10.0 33.3% 0 942ms 641 568 0
Step 3.5 Flash 5.3 7.2 44.4% 1 170.45s 673 45,350 90,436
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 4.0 10.0 0.0% 0 741ms 488 69 0
Step 3.5 Flash 5.5 10.0 0.0% 0 22.39s 509 240 3,506
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 1.13s 623 574 0
Step 3.5 Flash 8.3 10.0 50.0% 0 4.78s 705 2,364 3,521
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 900ms 570 1,045 0
Step 3.5 Flash 5.3 10.0 33.3% 0 7.22s 711 5,630 10,861
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 3.39s 5,894 782 0
Step 3.5 Flash 10.0 10.0 100.0% 0 11.91s 7,701 275 3,802
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 3.0 10.0 0.0% 0 814ms 158 9 0
Step 3.5 Flash 3.0 10.0 0.0% 0 108.45s 221 2,354 10,372

Быстрое сравнение

Сменить пару сравнения