Сравнение benchmark Gemini 3 PRO Preview vs Qwen3.6 Max Preview: Gemini 3 PRO Preview лидирует по среднему баллу: 7.6 vs 6.9. Qwen3.6 Max Preview имеет более низкую стоимость benchmark: $0.075 vs $0.385. Qwen3.6 Max Preview быстрее: 3.30s vs 9.05s, с долей успешных попыток 66.7% vs 58.7%.
Рекомендуемая модель: Qwen3.6 Max Preview - Его балл близок к лучшему здесь (6.9 против 7.6), при этом он примерно в 5.2 раза дешевле, чем Gemini 3 PRO Preview.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-04
Н/ДОценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
9.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 4Неверный ответ: 3Время ответа (среднее)9.05sВремя ответа (макс.)26.24sВремя ответа (суммарно)90.53sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 10Время ответа (среднее)3.30sВремя ответа (макс.)20.51sВремя ответа (суммарно)69.40sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
58.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
63Всего запусков…
63Всего запусков…
Стоимость за результат
1.406Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.824Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.385Общая стоимость (текущая цена)…
$0.075Общая стоимость (текущая цена)…
Цена входа
$9.506 / 1MЦена входа…
$1.040 / 1MЦена входа…
Цена выхода
$9.506 / 1MЦена выхода…
$6.240 / 1MЦена выхода…
Общее число входных токенов
28,848Общее число входных токенов…
42,509Общее число входных токенов…
Выходные токены
1,490Выходные токены…
4,779Выходные токены…
Токены рассуждений
10,102Токены рассуждений…
0Токены рассуждений…
Время ответа (среднее)
9.05sВремя ответа (среднее)…
3.30sВремя ответа (среднее)…
Время ответа (макс.)
26.24sВремя ответа (макс.)…
20.51sВремя ответа (макс.)…
Время ответа (суммарно)
90.53sВремя ответа (суммарно)…
69.40sВремя ответа (суммарно)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#35 Gemini 3 PRO Preview
medium
No endpoints found for google/gemini-3-pro-preview.
Cost
$0.000
Time
0.1s
Tokens
0 tok
#74 Qwen3.6 Max Preview
none
Cost
$0.025
Time
83.9s
Tokens
4,066 tok
Оценка
-
Cost
-
Time
-
Tokens
-
Лучшие модели по оценке
Оценка vs общая стоимость
Время ответа (среднее)
Оценка vs Время ответа (среднее)
Общее число выходных токенов
Оценка vs Общее число выходных токенов
Разбивка по категориям
Анти-ИИ уловки
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Входные токены
Выходные токены
Токены рассуждений
Gemini 3 PRO PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)14.99sВремя ответа (макс.)26.24sВремя ответа (суммарно)29.99sТест считается полностью пройденным, только если все его прогоны успешны.…
7.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
41.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)2.63sВремя ответа (макс.)5.57sВремя ответа (суммарно)10.53sТест считается полностью пройденным, только если все его прогоны успешны.…
2.63sВремя ответа (среднее)…
696Общее число входных токенов…
513Выходные токены…
0Токены рассуждений…
Программирование
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Входные токены
Выходные токены
Токены рассуждений
Gemini 3 PRO PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 3Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…
7.3Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
22.2%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)3.12sВремя ответа (макс.)3.45sВремя ответа (суммарно)9.35sТест считается полностью пройденным, только если все его прогоны успешны.…
3.12sВремя ответа (среднее)…
7,913Общее число входных токенов…
456Выходные токены…
0Токены рассуждений…
Комбинированный
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Входные токены
Выходные токены
Токены рассуждений
Gemini 3 PRO PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)10.37sВремя ответа (макс.)10.37sВремя ответа (суммарно)10.37sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)20.51sВремя ответа (макс.)20.51sВремя ответа (суммарно)20.51sТест считается полностью пройденным, только если все его прогоны успешны.…
20.51sВремя ответа (среднее)…
14,949Общее число входных токенов…
2,842Выходные токены…
0Токены рассуждений…
Парсинг и извлечение данных
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Входные токены
Выходные токены
Токены рассуждений
Gemini 3 PRO PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)10.84sВремя ответа (макс.)10.84sВремя ответа (суммарно)10.84sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.87sВремя ответа (макс.)3.54sВремя ответа (суммарно)5.74sТест считается полностью пройденным, только если все его прогоны успешны.…
2.87sВремя ответа (среднее)…
7,794Общее число входных токенов…
243Выходные токены…
0Токены рассуждений…
Предметно-ориентированное
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Входные токены
Выходные токены
Токены рассуждений
Gemini 3 PRO PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
5.3Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)7.01sВремя ответа (макс.)7.01sВремя ответа (суммарно)7.01sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.22sВремя ответа (макс.)1.25sВремя ответа (суммарно)3.67sТест считается полностью пройденным, только если все его прогоны успешны.…
1.22sВремя ответа (среднее)…
789Общее число входных токенов…
18Выходные токены…
0Токены рассуждений…
Общий интеллект
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Входные токены
Выходные токены
Токены рассуждений
Gemini 3 PRO PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.34sВремя ответа (макс.)9.34sВремя ответа (суммарно)9.34sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.62sВремя ответа (макс.)1.62sВремя ответа (суммарно)1.62sТест считается полностью пройденным, только если все его прогоны успешны.…
1.62sВремя ответа (среднее)…
522Общее число входных токенов…
76Выходные токены…
0Токены рассуждений…
Следование инструкциям
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Входные токены
Выходные токены
Токены рассуждений
Gemini 3 PRO PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
9.8Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.26sВремя ответа (макс.)3.26sВремя ответа (суммарно)3.26sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.40sВремя ответа (макс.)1.46sВремя ответа (суммарно)2.79sТест считается полностью пройденным, только если все его прогоны успешны.…
1.40sВремя ответа (среднее)…
711Общее число входных токенов…
69Выходные токены…
0Токены рассуждений…
Решение головоломок
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Входные токены
Выходные токены
Токены рассуждений
Gemini 3 PRO PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.88sВремя ответа (макс.)4.23sВремя ответа (суммарно)7.77sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.65sВремя ответа (макс.)3.59sВремя ответа (суммарно)7.94sТест считается полностью пройденным, только если все его прогоны успешны.…
2.65sВремя ответа (среднее)…
714Общее число входных токенов…
321Выходные токены…
0Токены рассуждений…
Вызов инструментов
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Входные токены
Выходные токены
Токены рассуждений
Gemini 3 PRO PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.96sВремя ответа (макс.)11.96sВремя ответа (суммарно)11.96sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.27sВремя ответа (макс.)5.27sВремя ответа (суммарно)5.27sТест считается полностью пройденным, только если все его прогоны успешны.…
5.27sВремя ответа (среднее)…
8,211Общее число входных токенов…
222Выходные токены…
0Токены рассуждений…
Эрудиция
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Входные токены
Выходные токены
Токены рассуждений
Gemini 3 PRO PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.97sВремя ответа (макс.)1.97sВремя ответа (суммарно)1.97sТест считается полностью пройденным, только если все его прогоны успешны.…