Сравнение benchmark Gemini 3.5 Flash vs Hunter Alpha: Gemini 3.5 Flash лидирует по среднему баллу: 9.4 vs 6.7. Hunter Alpha имеет более низкую стоимость benchmark: $0.000 vs $0.349. Gemini 3.5 Flash быстрее: 3.27s vs 10.33s, с долей успешных попыток 90.5% vs 64.8%.
Рекомендуемая модель: Gemini 3.5 Flash - Здесь у него лучший балл (9.4), и он отвечает примерно в 3.2 раза быстрее, чем Hunter Alpha.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-10
Hunter AlphaHunter AlphamediumАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.Релиз: 2026-03-11
Оценка
9.4Средний балл по всем бенчмарк-тестам.…
6.7Средний балл по всем бенчмарк-тестам.…
Ранг
#3
#80
Надежность
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Н/ДОценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
7.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)3.27sВремя ответа (макс.)9.05sВремя ответа (суммарно)68.65sТест считается полностью пройденным, только если все его прогоны успешны.…
90.5%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
64.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
6Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
63Всего запусков…
52Всего запусков…
Стоимость за результат
1.834Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.000Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.349Общая стоимость (текущая цена)…
$0.000Общая стоимость (текущая цена)…
Цена входа
$1.500 / 1MЦена входа…
$0.000 / 1MЦена входа…
Цена выхода
$9.000 / 1MЦена выхода…
$0.000 / 1MЦена выхода…
Общее число входных токенов
36,938Общее число входных токенов…
28,927Общее число входных токенов…
Выходные токены
2,033Выходные токены…
4,682Выходные токены…
Токены рассуждений
30,519Токены рассуждений…
17,969Токены рассуждений…
Время ответа (среднее)
3.27sВремя ответа (среднее)…
10.33sВремя ответа (среднее)…
Время ответа (макс.)
9.05sВремя ответа (макс.)…
30.53sВремя ответа (макс.)…
Время ответа (суммарно)
68.65sВремя ответа (суммарно)…
175.58sВремя ответа (суммарно)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#3 Gemini 3.5 Flash
low
Cost
$0.068
Time
39.1s
Tokens
7,588 tok
#80 Hunter Alpha
medium
Hunter Alpha was a stealth model revealed on March 18th as an early testing version of MiMo-V2-Pro. Find it here: https://openrouter.ai/xiaomi/mimo-v2-pro
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.52sВремя ответа (макс.)5.40sВремя ответа (суммарно)10.08sТест считается полностью пройденным, только если все его прогоны успешны.…
2.52sВремя ответа (среднее)…
494Общее число входных токенов…
209Выходные токены…
2,536Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
7.3Средний балл по всем бенчмарк-тестам.…
5.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
83.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)4.75sВремя ответа (макс.)7.62sВремя ответа (суммарно)19.00sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)6.71sВремя ответа (макс.)9.05sВремя ответа (суммарно)20.13sТест считается полностью пройденным, только если все его прогоны успешны.…
6.71sВремя ответа (среднее)…
8,118Общее число входных токенов…
458Выходные токены…
13,420Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.44sВремя ответа (макс.)6.44sВремя ответа (суммарно)6.44sТест считается полностью пройденным, только если все его прогоны успешны.…
6.44sВремя ответа (среднее)…
12,873Общее число входных токенов…
351Выходные токены…
3,050Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
4.7Средний балл по всем бенчмарк-тестам.…
1.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Время ответа (среднее)30.53sВремя ответа (макс.)30.53sВремя ответа (суммарно)30.53sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.81sВремя ответа (макс.)2.32sВремя ответа (суммарно)3.63sТест считается полностью пройденным, только если все его прогоны успешны.…
1.81sВремя ответа (среднее)…
7,548Общее число входных токенов…
279Выходные токены…
1,164Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)23.16sВремя ответа (макс.)26.55sВремя ответа (суммарно)46.33sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.39sВремя ответа (макс.)4.44sВремя ответа (суммарно)10.16sТест считается полностью пройденным, только если все его прогоны успешны.…
3.39sВремя ответа (среднее)…
633Общее число входных токенов…
12Выходные токены…
4,538Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 1Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)10.52sВремя ответа (макс.)18.68sВремя ответа (суммарно)31.56sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.27sВремя ответа (макс.)2.27sВремя ответа (суммарно)2.27sТест считается полностью пройденным, только если все его прогоны успешны.…
2.27sВремя ответа (среднее)…
486Общее число входных токенов…
119Выходные токены…
916Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
7.0Средний балл по всем бенчмарк-тестам.…
3.7Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)6.44sВремя ответа (макс.)6.44sВремя ответа (суммарно)6.44sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.86sВремя ответа (макс.)2.10sВремя ответа (суммарно)3.73sТест считается полностью пройденным, только если все его прогоны успешны.…
1.86sВремя ответа (среднее)…
615Общее число входных токенов…
71Выходные токены…
1,652Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
9.9Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.18sВремя ответа (макс.)4.46sВремя ответа (суммарно)8.36sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.35sВремя ответа (макс.)3.25sВремя ответа (суммарно)7.06sТест считается полностью пройденным, только если все его прогоны успешны.…
2.35sВремя ответа (среднее)…
558Общее число входных токенов…
288Выходные токены…
2,150Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
6.1Средний балл по всем бенчмарк-тестам.…
4.7Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)5.35sВремя ответа (макс.)6.20sВремя ответа (суммарно)16.06sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.27sВремя ответа (макс.)3.27sВремя ответа (суммарно)3.27sТест считается полностью пройденным, только если все его прогоны успешны.…
3.27sВремя ответа (среднее)…
5,457Общее число входных токенов…
234Выходные токены…
403Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)17.33sВремя ответа (макс.)17.33sВремя ответа (суммарно)17.33sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.88sВремя ответа (макс.)1.88sВремя ответа (суммарно)1.88sТест считается полностью пройденным, только если все его прогоны успешны.…
1.88sВремя ответа (среднее)…
156Общее число входных токенов…
12Выходные токены…
690Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.