Навигация
AI BENCHY
Сравнить Графики Методология
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs MoonshotAI: Kimi K2.5

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-06

Метрика Google: Gemini 3.1 Flash Lite Preview low Релиз: 2026-03-03 MoonshotAI: Kimi K2.5 medium Релиз: 2026-01-27
Средний балл 7.6 6.4
Ранг #12 #29
Тестов верно
Стабильность 10.0 7.8
Стоимость за результат 0.170 2.082
Общая стоимость $0.019 $0.188
Доля успешных попыток 73.3% 73.3%
Нестабильные тесты 0 4
common.totalRuns 45 (15 x 3) 45 (15 x 3)
Выходные токены 1,542 34,638
Токены рассуждений 6,888 68,234
Время ответа (среднее) 3.49s 69.84s
Время ответа (макс.) 11.91s 137.29s
Время ответа (суммарно) 52.29s 558.72s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview 7.0 10.0 66.7% 0 2.18s 456 1,224
MoonshotAI: Kimi K2.5 7.0 7.2 88.9% 1 85.28s 335 6,255
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview 10.0 10.0 0.0% 0 11.91s 225 762
MoonshotAI: Kimi K2.5 10.0 10.0 100.0% 0 71.37s 703 3,713
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview 9.9 10.0 100.0% 0 3.00s 291 696
MoonshotAI: Kimi K2.5 9.9 10.0 100.0% 0 49.78s 563 7,940
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview 4.0 10.0 33.3% 0 2.36s 18 1,212
MoonshotAI: Kimi K2.5 10.0 4.4 33.3% 2 137.29s 20,753 30,564
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 1.49s 72 753
MoonshotAI: Kimi K2.5 10.0 10.0 100.0% 0 92.47s 5,371 6,547
Puzzle Solving Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 2.76s 243 1,248
MoonshotAI: Kimi K2.5 4.0 7.3 44.4% 1 45.40s 6,671 12,403
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 9.54s 237 993
MoonshotAI: Kimi K2.5 10.0 10.0 100.0% 0 31.74s 242 812

Быстрое сравнение

Сменить пару сравнения