Сравнение benchmark Gemini 3.5 Flash vs Hunter Alpha: Gemini 3.5 Flash лидирует по среднему баллу: 9.6 vs 5.7. Hunter Alpha имеет более низкую стоимость benchmark: $0.000 vs $1.115. Hunter Alpha быстрее: 4.70s vs 8.84s, с долей успешных попыток 96.8% vs 46.3%.
Рекомендуемая модель: Gemini 3.5 Flash - У него самый высокий балл в этом сравнении (9.6) и лучший общий баланс стоимости и времени ответа среди всех 2 моделей.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-10
Hunter AlphaHunter AlphanoneАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.Релиз: 2026-03-11
Оценка
9.6Средний балл по всем бенчмарк-тестам.…
5.7Средний балл по всем бенчмарк-тестам.…
Ранг
#2
#117
Надежность
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Н/ДОценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
9.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
8.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)8.84sВремя ответа (макс.)34.82sВремя ответа (суммарно)185.57sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Не соблюдены инструкции: 2Ошибка API: 1Время ответа (среднее)4.70sВремя ответа (макс.)15.17sВремя ответа (суммарно)79.86sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
96.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
46.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
4Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
63Всего запусков…
52Всего запусков…
Стоимость за результат
5.575Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.000Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$1.115Общая стоимость (текущая цена)…
$0.000Общая стоимость (текущая цена)…
Цена входа
$1.500 / 1MЦена входа…
$0.000 / 1MЦена входа…
Цена выхода
$9.000 / 1MЦена выхода…
$0.000 / 1MЦена выхода…
Общее число входных токенов
37,594Общее число входных токенов…
34,329Общее число входных токенов…
Выходные токены
1,975Выходные токены…
2,264Выходные токены…
Токены рассуждений
115,638Токены рассуждений…
0Токены рассуждений…
Время ответа (среднее)
8.84sВремя ответа (среднее)…
4.70sВремя ответа (среднее)…
Время ответа (макс.)
34.82sВремя ответа (макс.)…
15.17sВремя ответа (макс.)…
Время ответа (суммарно)
185.57sВремя ответа (суммарно)…
79.86sВремя ответа (суммарно)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#2 Gemini 3.5 Flash
high
Cost
$0.208
Time
118.2s
Tokens
23,158 tok
#117 Hunter Alpha
none
Hunter Alpha was a stealth model revealed on March 18th as an early testing version of MiMo-V2-Pro. Find it here: https://openrouter.ai/xiaomi/mimo-v2-pro
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.57sВремя ответа (макс.)3.60sВремя ответа (суммарно)10.27sТест считается полностью пройденным, только если все его прогоны успешны.…
2.57sВремя ответа (среднее)…
492Общее число входных токенов…
174Выходные токены…
4,997Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.5Средний балл по всем бенчмарк-тестам.…
8.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
16.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Время ответа (среднее)3.81sВремя ответа (макс.)6.85sВремя ответа (суммарно)15.23sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)22.96sВремя ответа (макс.)34.82sВремя ответа (суммарно)68.88sТест считается полностью пройденным, только если все его прогоны успешны.…
22.96sВремя ответа (среднее)…
8,118Общее число входных токенов…
456Выходные токены…
47,129Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)22.37sВремя ответа (макс.)22.37sВремя ответа (суммарно)22.37sТест считается полностью пройденным, только если все его прогоны успешны.…
22.37sВремя ответа (среднее)…
12,873Общее число входных токенов…
351Выходные токены…
16,323Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)15.17sВремя ответа (макс.)15.17sВремя ответа (суммарно)15.17sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.43sВремя ответа (макс.)8.51sВремя ответа (суммарно)12.87sТест считается полностью пройденным, только если все его прогоны успешны.…
6.43sВремя ответа (среднее)…
7,548Общее число входных токенов…
279Выходные токены…
8,466Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)8.49sВремя ответа (макс.)14.02sВремя ответа (суммарно)16.98sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
77.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)14.09sВремя ответа (макс.)22.00sВремя ответа (суммарно)42.27sТест считается полностью пройденным, только если все его прогоны успешны.…
14.09sВремя ответа (среднее)…
633Общее число входных токенов…
12Выходные токены…
24,721Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
5.3Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)2.33sВремя ответа (макс.)2.94sВремя ответа (суммарно)6.99sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.63sВремя ответа (макс.)3.63sВремя ответа (суммарно)3.63sТест считается полностью пройденным, только если все его прогоны успешны.…
3.63sВремя ответа (среднее)…
486Общее число входных токенов…
115Выходные токены…
1,650Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
6.1Средний балл по всем бенчмарк-тестам.…
3.1Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)2.71sВремя ответа (макс.)2.71sВремя ответа (суммарно)2.71sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.35sВремя ответа (макс.)3.42sВремя ответа (суммарно)6.69sТест считается полностью пройденным, только если все его прогоны успешны.…
3.35sВремя ответа (среднее)…
615Общее число входных токенов…
70Выходные токены…
3,799Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
6.4Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.82sВремя ответа (макс.)2.92sВремя ответа (суммарно)5.65sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.23sВремя ответа (макс.)3.68sВремя ответа (суммарно)9.69sТест считается полностью пройденным, только если все его прогоны успешны.…
3.23sВремя ответа (среднее)…
558Общее число входных токенов…
241Выходные токены…
4,940Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
5.8Средний балл по всем бенчмарк-тестам.…
4.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)3.71sВремя ответа (макс.)5.43sВремя ответа (суммарно)11.13sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.96sВремя ответа (макс.)4.96sВремя ответа (суммарно)4.96sТест считается полностью пройденным, только если все его прогоны успешны.…
4.96sВремя ответа (среднее)…
6,115Общее число входных токенов…
265Выходные токены…
1,608Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.02sВремя ответа (макс.)6.02sВремя ответа (суммарно)6.02sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.94sВремя ответа (макс.)3.94sВремя ответа (суммарно)3.94sТест считается полностью пройденным, только если все его прогоны успешны.…
3.94sВремя ответа (среднее)…
156Общее число входных токенов…
12Выходные токены…
2,005Токены рассуждений…
Hunter AlphaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.