9.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
8.5Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Стоимость за результат
0.169Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
6.601Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.019Общая стоимость…
$0.793Общая стоимость…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 5Время ответа (среднее)1.75sВремя ответа (макс.)3.56sВремя ответа (суммарно)15.71sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 2Неверный ответ: 2Время ответа (среднее)20.05sВремя ответа (макс.)100.41sВремя ответа (суммарно)320.87sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
75.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
83.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
3Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
48 (16 x 3)Всего запусков…
48 (16 x 3)Всего запусков…
Выходные токены
1,411Выходные токены…
1,756Выходные токены…
Токены рассуждений
0Токены рассуждений…
46,642Токены рассуждений…
Время ответа (среднее)
1.75sВремя ответа (среднее)…
20.05sВремя ответа (среднее)…
Время ответа (макс.)
3.56sВремя ответа (макс.)…
100.41sВремя ответа (макс.)…
Время ответа (суммарно)
15.71sВремя ответа (суммарно)…
320.87sВремя ответа (суммарно)…
Лучшие модели по оценке
Оценка vs общая стоимость
Время ответа (среднее)
Средний балл vs Время ответа (среднее)
Разбивка по категориям
Анти-ИИ уловки
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3 Flash Preview
7.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.59sВремя ответа (макс.)1.59sВремя ответа (суммарно)1.59sТест считается полностью пройденным, только если все его прогоны успешны.…
1.59sВремя ответа (среднее)…
208Выходные токены…
0Токены рассуждений…
OpenAI: GPT-5.4
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.02sВремя ответа (макс.)6.42sВремя ответа (суммарно)15.06sТест считается полностью пройденным, только если все его прогоны успешны.…
5.02sВремя ответа (среднее)…
216Выходные токены…
1,466Токены рассуждений…
Комбинированный
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3 Flash Preview
10.0Средний балл по всем бенчмарк-тестам.…
1.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.56sВремя ответа (макс.)3.56sВремя ответа (суммарно)3.56sТест считается полностью пройденным, только если все его прогоны успешны.…
3.56sВремя ответа (среднее)…
350Выходные токены…
0Токены рассуждений…
OpenAI: GPT-5.4
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)20.57sВремя ответа (макс.)20.57sВремя ответа (суммарно)20.57sТест считается полностью пройденным, только если все его прогоны успешны.…
20.57sВремя ответа (среднее)…
301Выходные токены…
3,543Токены рассуждений…
Парсинг и извлечение данных
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3 Flash Preview
9.9Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.41sВремя ответа (макс.)1.41sВремя ответа (суммарно)1.41sТест считается полностью пройденным, только если все его прогоны успешны.…
1.41sВремя ответа (среднее)…
279Выходные токены…
0Токены рассуждений…
OpenAI: GPT-5.4
9.9Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.32sВремя ответа (макс.)5.40sВремя ответа (суммарно)10.64sТест считается полностью пройденным, только если все его прогоны успешны.…
5.32sВремя ответа (среднее)…
234Выходные токены…
804Токены рассуждений…
Предметно-ориентированное
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3 Flash Preview
7.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)963msВремя ответа (макс.)963msВремя ответа (суммарно)963msТест считается полностью пройденным, только если все его прогоны успешны.…
963msВремя ответа (среднее)…
18Выходные токены…
0Токены рассуждений…
OpenAI: GPT-5.4
4.0Средний балл по всем бенчмарк-тестам.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)74.27sВремя ответа (макс.)100.41sВремя ответа (суммарно)222.80sТест считается полностью пройденным, только если все его прогоны успешны.…
74.27sВремя ответа (среднее)…
61Выходные токены…
34,748Токены рассуждений…
Общий интеллект
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3 Flash Preview
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.13sВремя ответа (макс.)1.13sВремя ответа (суммарно)1.13sТест считается полностью пройденным, только если все его прогоны успешны.…
1.13sВремя ответа (среднее)…
104Выходные токены…
0Токены рассуждений…
OpenAI: GPT-5.4
5.0Средний балл по всем бенчмарк-тестам.…
3.1Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.92sВремя ответа (макс.)4.92sВремя ответа (суммарно)4.92sТест считается полностью пройденным, только если все его прогоны успешны.…
4.92sВремя ответа (среднее)…
145Выходные токены…
321Токены рассуждений…
Следование инструкциям
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3 Flash Preview
5.5Средний балл по всем бенчмарк-тестам.…
5.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.58sВремя ответа (макс.)1.58sВремя ответа (суммарно)1.58sТест считается полностью пройденным, только если все его прогоны успешны.…
1.58sВремя ответа (среднее)…
74Выходные токены…
0Токены рассуждений…
OpenAI: GPT-5.4
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.11sВремя ответа (макс.)3.68sВремя ответа (суммарно)6.22sТест считается полностью пройденным, только если все его прогоны успешны.…
3.11sВремя ответа (среднее)…
93Выходные токены…
897Токены рассуждений…
Puzzle Solving
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3 Flash Preview
7.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.06sВремя ответа (макс.)1.06sВремя ответа (суммарно)2.12sТест считается полностью пройденным, только если все его прогоны успешны.…
1.06sВремя ответа (среднее)…
144Выходные токены…
0Токены рассуждений…
OpenAI: GPT-5.4
7.0Средний балл по всем бенчмарк-тестам.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
88.9%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)9.13sВремя ответа (макс.)18.14sВремя ответа (суммарно)27.39sТест считается полностью пройденным, только если все его прогоны успешны.…
9.13sВремя ответа (среднее)…
442Выходные токены…
3,832Токены рассуждений…
Вызов инструментов
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3 Flash Preview
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.35sВремя ответа (макс.)3.35sВремя ответа (суммарно)3.35sТест считается полностью пройденным, только если все его прогоны успешны.…
3.35sВремя ответа (среднее)…
234Выходные токены…
0Токены рассуждений…
OpenAI: GPT-5.4
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)13.28sВремя ответа (макс.)13.28sВремя ответа (суммарно)13.28sТест считается полностью пройденным, только если все его прогоны успешны.…