Qwen3.6 Plus PreviewQwen3.6 Plus PreviewmediumАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.Релиз: 2026-04-20Бесплатно доступно
Qwen3.6 Plus PreviewQwen3.6 Plus PreviewmediumАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.Релиз: 2026-04-20Бесплатно доступно
Оценка
7.5Средний балл по всем бенчмарк-тестам.…
8.2Средний балл по всем бенчмарк-тестам.…
Ранг
#48
#16
Надежность
9.8Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Н/ДОценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
8.1Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 3Неверный ответ: 3Нет ответа: 1Время ответа (среднее)61.96sВремя ответа (макс.)149.23sВремя ответа (суммарно)1115.31sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)15.25sВремя ответа (макс.)43.55sВремя ответа (суммарно)182.96sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
74.1%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
75.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
4Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
54Всего запусков…
57Всего запусков…
Стоимость за результат
18.579Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.000Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$2.044Общая стоимость…
$0.000Общая стоимость…
???? ?????
$0.250 / 1M???? ?????…
$0.000 / 1M???? ?????…
???? ??????
$1.500 / 1M???? ??????…
$0.000 / 1M???? ??????…
Выходные токены
1,984Выходные токены…
1,153Выходные токены…
Токены рассуждений
1,355,583Токены рассуждений…
62,197Токены рассуждений…
Время ответа (среднее)
61.96sВремя ответа (среднее)…
15.25sВремя ответа (среднее)…
Время ответа (макс.)
149.23sВремя ответа (макс.)…
43.55sВремя ответа (макс.)…
Время ответа (суммарно)
1115.31sВремя ответа (суммарно)…
182.96sВремя ответа (суммарно)…
Лучшие модели по оценке
Оценка vs общая стоимость
Время ответа (среднее)
Оценка vs Время ответа (среднее)
Общее число выходных токенов
Оценка vs Общее число выходных токенов
Разбивка по категориям
Анти-ИИ уловки
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Gemini 3.1 Flash LiteАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
9.4Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)37.16sВремя ответа (макс.)140.53sВремя ответа (суммарно)148.65sТест считается полностью пройденным, только если все его прогоны успешны.…
37.16sВремя ответа (среднее)…
100Выходные токены…
130,598Токены рассуждений…
Qwen3.6 Plus PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.69sВремя ответа (макс.)19.37sВремя ответа (суммарно)35.08sТест считается полностью пройденным, только если все его прогоны успешны.…
11.69sВремя ответа (среднее)…
61Выходные токены…
5,812Токены рассуждений…
Программирование
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Gemini 3.1 Flash LiteАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)137.63sВремя ответа (макс.)137.63sВремя ответа (суммарно)137.63sТест считается полностью пройденным, только если все его прогоны успешны.…
137.63sВремя ответа (среднее)…
666Выходные токены…
188,733Токены рассуждений…
Qwen3.6 Plus PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
0.0Средний балл по всем бенчмарк-тестам.…
0.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…
0msВремя ответа (среднее)…
0Выходные токены…
0Токены рассуждений…
Комбинированный
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Gemini 3.1 Flash LiteАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)149.23sВремя ответа (макс.)149.23sВремя ответа (суммарно)149.23sТест считается полностью пройденным, только если все его прогоны успешны.…
149.23sВремя ответа (среднее)…
327Выходные токены…
198,243Токены рассуждений…
Qwen3.6 Plus PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)34.95sВремя ответа (макс.)34.95sВремя ответа (суммарно)34.95sТест считается полностью пройденным, только если все его прогоны успешны.…
34.95sВремя ответа (среднее)…
452Выходные токены…
13,073Токены рассуждений…
Парсинг и извлечение данных
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Gemini 3.1 Flash LiteАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.49sВремя ответа (макс.)4.96sВремя ответа (суммарно)8.98sТест считается полностью пройденным, только если все его прогоны успешны.…
4.49sВремя ответа (среднее)…
279Выходные токены…
7,351Токены рассуждений…
Qwen3.6 Plus PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)14.95sВремя ответа (макс.)15.40sВремя ответа (суммарно)29.90sТест считается полностью пройденным, только если все его прогоны успешны.…
14.95sВремя ответа (среднее)…
270Выходные токены…
10,706Токены рассуждений…
Предметно-ориентированное
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Gemini 3.1 Flash LiteАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.6Средний балл по всем бенчмарк-тестам.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
22.2%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)139.90sВремя ответа (макс.)141.40sВремя ответа (суммарно)419.69sТест считается полностью пройденным, только если все его прогоны успешны.…
139.90sВремя ответа (среднее)…
18Выходные токены…
566,210Токены рассуждений…
Qwen3.6 Plus PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)22.08sВремя ответа (макс.)43.55sВремя ответа (суммарно)66.23sТест считается полностью пройденным, только если все его прогоны успешны.…
22.08sВремя ответа (среднее)…
49Выходные токены…
26,895Токены рассуждений…
Общий интеллект
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Gemini 3.1 Flash LiteАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
5.0Средний балл по всем бенчмарк-тестам.…
2.1Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)45.69sВремя ответа (макс.)45.69sВремя ответа (суммарно)45.69sТест считается полностью пройденным, только если все его прогоны успешны.…
45.69sВремя ответа (среднее)…
95Выходные токены…
64,644Токены рассуждений…
Qwen3.6 Plus PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
0.0Средний балл по всем бенчмарк-тестам.…
0.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…
0msВремя ответа (среднее)…
0Выходные токены…
0Токены рассуждений…
Следование инструкциям
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Gemini 3.1 Flash LiteАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
7.3Средний балл по всем бенчмарк-тестам.…
5.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
83.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)23.26sВремя ответа (макс.)43.87sВремя ответа (суммарно)46.51sТест считается полностью пройденным, только если все его прогоны успешны.…
23.26sВремя ответа (среднее)…
52Выходные токены…
3,549Токены рассуждений…
Qwen3.6 Plus PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.40sВремя ответа (макс.)3.40sВремя ответа (суммарно)3.40sТест считается полностью пройденным, только если все его прогоны успешны.…
3.40sВремя ответа (среднее)…
27Выходные токены…
1,383Токены рассуждений…
Решение головоломок
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Gemini 3.1 Flash LiteАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
5.7Средний балл по всем бенчмарк-тестам.…
6.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 2Время ответа (среднее)50.83sВремя ответа (макс.)144.85sВремя ответа (суммарно)152.49sТест считается полностью пройденным, только если все его прогоны успешны.…
50.83sВремя ответа (среднее)…
213Выходные токены…
193,654Токены рассуждений…
Qwen3.6 Plus PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.52sВремя ответа (макс.)7.52sВремя ответа (суммарно)7.52sТест считается полностью пройденным, только если все его прогоны успешны.…
7.52sВремя ответа (среднее)…
27Выходные токены…
2,998Токены рассуждений…
Вызов инструментов
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Gemini 3.1 Flash LiteАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.44sВремя ответа (макс.)6.44sВремя ответа (суммарно)6.44sТест считается полностью пройденным, только если все его прогоны успешны.…
6.44sВремя ответа (среднее)…
234Выходные токены…
2,601Токены рассуждений…
Qwen3.6 Plus PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.87sВремя ответа (макс.)5.87sВремя ответа (суммарно)5.87sТест считается полностью пройденным, только если все его прогоны успешны.…
5.87sВремя ответа (среднее)…
267Выходные токены…
1,330Токены рассуждений…
Эрудиция
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Gemini 3.1 Flash LiteАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
-
-
-
-
-
-
-
-
Qwen3.6 Plus PreviewАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
0.0Средний балл по всем бенчмарк-тестам.…
0.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…