Навигация
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Xiaomi: MiMo-V2-Flash

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-29

Метрика Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28 MiMo-V2-Flash MiMo-V2-Flash medium Релиз: 2025-12-16
Оценка 7.3 7.1
Ранг #65 #77
Надежность 10.0 10.0
Стабильность 9.2 8.7
Тестов верно
Доля успешных попыток 65.0% 63.3%
Нестабильные тесты 2 3
Всего запусков 60 60
Стоимость за результат 4.324 0.345
Общая стоимость $0.519 $0.038
Цена входа $5.000 / 1M $0.100 / 1M
Цена выхода $25.000 / 1M $0.300 / 1M
Выходные токены 8,098 12,458
Токены рассуждений 0 115,182
Время ответа (среднее) 3.51s 20.28s
Время ответа (макс.) 17.73s 96.01s
Время ответа (суммарно) 70.19s 283.87s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 6.5 10.0 50.0% 0 3.40s 1,472 0
MiMo-V2-Flash 8.1 7.9 83.3% 1 15.85s 1,674 23,559
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 6.8 10.0 50.0% 0 3.59s 1,323 0
MiMo-V2-Flash 4.1 5.8 33.3% 1 7.20s 456 3,648
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 9.5 10.0 100.0% 0 17.73s 3,259 0
MiMo-V2-Flash 9.8 10.0 100.0% 0 75.68s 442 26,859
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 7.3 5.8 83.3% 1 1.77s 308 0
MiMo-V2-Flash 6.5 10.0 50.0% 0 0ms 153 0
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 5.3 7.2 44.4% 1 1.66s 61 0
MiMo-V2-Flash 5.9 7.2 55.6% 1 96.01s 8,374 42,461
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 3.48s 230 0
MiMo-V2-Flash 4.0 10.0 0.0% 0 4.20s 87 488
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 9.9 10.0 100.0% 0 1.37s 95 0
MiMo-V2-Flash 10.0 10.0 100.0% 0 4.28s 75 3,504
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 7.7 10.0 66.7% 0 2.74s 783 0
MiMo-V2-Flash 7.7 10.0 66.7% 0 3.87s 864 1,948
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 5.35s 355 0
MiMo-V2-Flash 10.0 10.0 100.0% 0 27.78s 321 12,715
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 3.0 10.0 0.0% 0 3.41s 212 0
MiMo-V2-Flash 3.0 10.0 0.0% 0 1.96s 12 0

Быстрое сравнение

Сменить пару сравнения