Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)17.20sВремя ответа (макс.)40.61sВремя ответа (суммарно)137.59sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)21.06sВремя ответа (макс.)100.41sВремя ответа (суммарно)315.95sТест считается полностью пройденным, только если все его прогоны успешны.…
Стабильность
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
8.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Стоимость за результат
3.544Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
6.533Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.497Общая стоимость…
$0.784Общая стоимость…
Доля успешных попыток
93.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
86.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
common.totalRuns
45 (15 x 3)common.totalRuns…
45 (15 x 3)common.totalRuns…
Выходные токены
1,413Выходные токены…
1,611Выходные токены…
Токены рассуждений
34,477Токены рассуждений…
46,321Токены рассуждений…
Время ответа (среднее)
17.20sВремя ответа (среднее)…
21.06sВремя ответа (среднее)…
Время ответа (макс.)
40.61sВремя ответа (макс.)…
100.41sВремя ответа (макс.)…
Время ответа (суммарно)
137.59sВремя ответа (суммарно)…
315.95sВремя ответа (суммарно)…
Лучшие модели по оценке
Оценка vs общая стоимость
Время ответа (среднее)
Средний балл vs Время ответа (среднее)
Разбивка по категориям
Анти-ИИ уловки
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Pro Preview
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.52sВремя ответа (макс.)9.52sВремя ответа (суммарно)9.52sТест считается полностью пройденным, только если все его прогоны успешны.…
9.52sВремя ответа (среднее)…
106Выходные токены…
2,533Токены рассуждений…
OpenAI: GPT-5.4
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.02sВремя ответа (макс.)6.42sВремя ответа (суммарно)15.06sТест считается полностью пройденным, только если все его прогоны успешны.…
5.02sВремя ответа (среднее)…
216Выходные токены…
1,466Токены рассуждений…
Комбинированный
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Pro Preview
9.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)40.61sВремя ответа (макс.)40.61sВремя ответа (суммарно)40.61sТест считается полностью пройденным, только если все его прогоны успешны.…
40.61sВремя ответа (среднее)…
432Выходные токены…
9,281Токены рассуждений…
OpenAI: GPT-5.4
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)20.57sВремя ответа (макс.)20.57sВремя ответа (суммарно)20.57sТест считается полностью пройденным, только если все его прогоны успешны.…
20.57sВремя ответа (среднее)…
301Выходные токены…
3,543Токены рассуждений…
Парсинг и извлечение данных
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Pro Preview
9.9Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.72sВремя ответа (макс.)7.72sВремя ответа (суммарно)7.72sТест считается полностью пройденным, только если все его прогоны успешны.…
7.72sВремя ответа (среднее)…
279Выходные токены…
3,904Токены рассуждений…
OpenAI: GPT-5.4
9.9Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.32sВремя ответа (макс.)5.40sВремя ответа (суммарно)10.64sТест считается полностью пройденным, только если все его прогоны успешны.…
5.32sВремя ответа (среднее)…
234Выходные токены…
804Токены рассуждений…
Предметно-ориентированное
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Pro Preview
7.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)32.73sВремя ответа (макс.)32.73sВремя ответа (суммарно)32.73sТест считается полностью пройденным, только если все его прогоны успешны.…
32.73sВремя ответа (среднее)…
18Выходные токены…
12,424Токены рассуждений…
OpenAI: GPT-5.4
4.0Средний балл по всем бенчмарк-тестам.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)74.27sВремя ответа (макс.)100.41sВремя ответа (суммарно)222.80sТест считается полностью пройденным, только если все его прогоны успешны.…
74.27sВремя ответа (среднее)…
61Выходные токены…
34,748Токены рассуждений…
Следование инструкциям
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Pro Preview
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.56sВремя ответа (макс.)9.56sВремя ответа (суммарно)9.56sТест считается полностью пройденным, только если все его прогоны успешны.…
9.56sВремя ответа (среднее)…
72Выходные токены…
2,236Токены рассуждений…
OpenAI: GPT-5.4
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.11sВремя ответа (макс.)3.68sВремя ответа (суммарно)6.22sТест считается полностью пройденным, только если все его прогоны успешны.…
3.11sВремя ответа (среднее)…
93Выходные токены…
897Токены рассуждений…
Puzzle Solving
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Pro Preview
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.15sВремя ответа (макс.)8.49sВремя ответа (суммарно)14.30sТест считается полностью пройденным, только если все его прогоны успешны.…
7.15sВремя ответа (среднее)…
232Выходные токены…
3,117Токены рассуждений…
OpenAI: GPT-5.4
7.0Средний балл по всем бенчмарк-тестам.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
88.9%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)9.13sВремя ответа (макс.)18.14sВремя ответа (суммарно)27.39sТест считается полностью пройденным, только если все его прогоны успешны.…
9.13sВремя ответа (среднее)…
442Выходные токены…
3,832Токены рассуждений…
Вызов инструментов
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Pro Preview
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)23.15sВремя ответа (макс.)23.15sВремя ответа (суммарно)23.15sТест считается полностью пройденным, только если все его прогоны успешны.…
23.15sВремя ответа (среднее)…
274Выходные токены…
982Токены рассуждений…
OpenAI: GPT-5.4
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)13.28sВремя ответа (макс.)13.28sВремя ответа (суммарно)13.28sТест считается полностью пройденным, только если все его прогоны успешны.…