Сравнение benchmark Gemini 3 Flash Preview vs Grok 4.1 Fast: Gemini 3 Flash Preview лидирует по среднему баллу: 9.6 vs 5.6. Grok 4.1 Fast имеет более низкую стоимость benchmark: $0.069 vs $0.667. Gemini 3 Flash Preview быстрее: 18.64s vs 23.85s, с долей успешных попыток 98.4% vs 55.6%.
Рекомендуемая модель: Gemini 3 Flash Preview - У него самый высокий балл в этом сравнении (9.6) и лучший общий баланс стоимости и времени ответа среди всех 2 моделей.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-02
Grok 4.1 FastGrok 4.1 FastmediumАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.Релиз: 2025-11-19
Оценка
9.6Средний балл по всем бенчмарк-тестам.…
5.6Средний балл по всем бенчмарк-тестам.…
Ранг
#2
#119
Надежность
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
9.7Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
6.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)18.64sВремя ответа (макс.)117.26sВремя ответа (суммарно)391.35sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 4Неверный ответ: 4Нет ответа: 1Тайм-аут: 1Время ответа (среднее)23.85sВремя ответа (макс.)121.79sВремя ответа (суммарно)286.16sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
98.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
55.6%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
6Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
63Всего запусков…
57Всего запусков…
Стоимость за результат
3.335Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.642Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.667Общая стоимость (текущая цена)…
$0.069Общая стоимость (текущая цена)…
Цена входа
$0.500 / 1MЦена входа…
$0.484 / 1MЦена входа…
Цена выхода
$3.000 / 1MЦена выхода…
$0.484 / 1MЦена выхода…
Общее число входных токенов
37,017Общее число входных токенов…
42,845Общее число входных токенов…
Выходные токены
2,006Выходные токены…
2,006Выходные токены…
Токены рассуждений
214,153Токены рассуждений…
96,334Токены рассуждений…
Время ответа (среднее)
18.64sВремя ответа (среднее)…
23.85sВремя ответа (среднее)…
Время ответа (макс.)
117.26sВремя ответа (макс.)…
121.79sВремя ответа (макс.)…
Время ответа (суммарно)
391.35sВремя ответа (суммарно)…
286.16sВремя ответа (суммарно)…
Генерация showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#2 Gemini 3 Flash Preview
medium
Стоимость
$0.010
Время
17.9s
Токены
3,236 tok
#119 Grok 4.1 Fast
medium
Grok 4.1 Fast is deprecated. xAI recommends switching to Grok 4.3 (https://openrouter.ai/x-ai/grok-4.3)
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.88sВремя ответа (макс.)5.73sВремя ответа (суммарно)15.53sТест считается полностью пройденным, только если все его прогоны успешны.…
3.88sВремя ответа (среднее)…
494Общее число входных токенов…
330Выходные токены…
3,216Токены рассуждений…
Grok 4.1 FastАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
8.7Средний балл по всем бенчмарк-тестам.…
7.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
91.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.81sВремя ответа (макс.)5.65sВремя ответа (суммарно)7.62sТест считается полностью пройденным, только если все его прогоны успешны.…
7.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
88.9%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)84.40sВремя ответа (макс.)117.26sВремя ответа (суммарно)253.21sТест считается полностью пройденным, только если все его прогоны успешны.…
84.40sВремя ответа (среднее)…
8,122Общее число входных токенов…
462Выходные токены…
161,084Токены рассуждений…
Grok 4.1 FastАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
7.8Средний балл по всем бенчмарк-тестам.…
4.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
11.1%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)23.58sВремя ответа (макс.)23.58sВремя ответа (суммарно)23.58sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)22.42sВремя ответа (макс.)22.42sВремя ответа (суммарно)22.42sТест считается полностью пройденным, только если все его прогоны успешны.…
22.42sВремя ответа (среднее)…
12,873Общее число входных токенов…
351Выходные токены…
10,485Токены рассуждений…
Grok 4.1 FastАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)37.64sВремя ответа (макс.)37.64sВремя ответа (суммарно)37.64sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.43sВремя ответа (макс.)6.18sВремя ответа (суммарно)10.86sТест считается полностью пройденным, только если все его прогоны успешны.…
5.43sВремя ответа (среднее)…
7,548Общее число входных токенов…
279Выходные токены…
4,893Токены рассуждений…
Grok 4.1 FastАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.63sВремя ответа (макс.)6.63sВремя ответа (суммарно)6.63sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)15.27sВремя ответа (макс.)34.09sВремя ответа (суммарно)45.80sТест считается полностью пройденным, только если все его прогоны успешны.…
15.27sВремя ответа (среднее)…
633Общее число входных токенов…
12Выходные токены…
21,684Токены рассуждений…
Grok 4.1 FastАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
5.8Средний балл по всем бенчмарк-тестам.…
4.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)121.79sВремя ответа (макс.)121.79sВремя ответа (суммарно)121.79sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.19sВремя ответа (макс.)5.19sВремя ответа (суммарно)5.19sТест считается полностью пройденным, только если все его прогоны успешны.…
5.19sВремя ответа (среднее)…
486Общее число входных токенов…
72Выходные токены…
1,905Токены рассуждений…
Grok 4.1 FastАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
4.2Средний балл по всем бенчмарк-тестам.…
9.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)16.25sВремя ответа (макс.)16.25sВремя ответа (суммарно)16.25sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.04sВремя ответа (макс.)4.70sВремя ответа (суммарно)8.08sТест считается полностью пройденным, только если все его прогоны успешны.…
4.04sВремя ответа (среднее)…
615Общее число входных токенов…
72Выходные токены…
2,709Токены рассуждений…
Grok 4.1 FastАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
6.5Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.63sВремя ответа (макс.)4.63sВремя ответа (суммарно)4.63sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.05sВремя ответа (макс.)5.64sВремя ответа (суммарно)12.15sТест считается полностью пройденным, только если все его прогоны успешны.…
4.05sВремя ответа (среднее)…
558Общее число входных токенов…
183Выходные токены…
4,365Токены рассуждений…
Grok 4.1 FastАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
5.3Средний балл по всем бенчмарк-тестам.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)7.40sВремя ответа (макс.)7.79sВремя ответа (суммарно)14.81sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)12.60sВремя ответа (макс.)12.60sВремя ответа (суммарно)12.60sТест считается полностью пройденным, только если все его прогоны успешны.…
12.60sВремя ответа (среднее)…
5,532Общее число входных токенов…
234Выходные токены…
1,487Токены рассуждений…
Grok 4.1 FastАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
2.8Средний балл по всем бенчмарк-тестам.…
1.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)27.71sВремя ответа (макс.)27.71sВремя ответа (суммарно)27.71sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.50sВремя ответа (макс.)5.50sВремя ответа (суммарно)5.50sТест считается полностью пройденным, только если все его прогоны успешны.…
5.50sВремя ответа (среднее)…
156Общее число входных токенов…
11Выходные токены…
2,325Токены рассуждений…
Grok 4.1 FastАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)25.52sВремя ответа (макс.)25.52sВремя ответа (суммарно)25.52sТест считается полностью пройденным, только если все его прогоны успешны.…