Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 3Неверный ответ: 3Тайм-аут: 1Время ответа (среднее)25.92sВремя ответа (макс.)88.15sВремя ответа (суммарно)388.79sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 8Не соблюдены инструкции: 1Время ответа (среднее)3.73sВремя ответа (макс.)13.73sВремя ответа (суммарно)55.90sТест считается полностью пройденным, только если все его прогоны успешны.…
Стабильность
8.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
9.5Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Стоимость за результат
1.401Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.088Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.113Общая стоимость…
$0.006Общая стоимость…
Доля успешных попыток
62.2%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
42.2%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
common.totalRuns
45 (15 x 3)common.totalRuns…
45 (15 x 3)common.totalRuns…
Выходные токены
5,477Выходные токены…
3,674Выходные токены…
Токены рассуждений
46,912Токены рассуждений…
0Токены рассуждений…
Время ответа (среднее)
25.92sВремя ответа (среднее)…
3.73sВремя ответа (среднее)…
Время ответа (макс.)
88.15sВремя ответа (макс.)…
13.73sВремя ответа (макс.)…
Время ответа (суммарно)
388.79sВремя ответа (суммарно)…
55.90sВремя ответа (суммарно)…
Лучшие модели по оценке
Оценка vs общая стоимость
Время ответа (среднее)
Средний балл vs Время ответа (среднее)
Разбивка по категориям
Анти-ИИ уловки
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
OpenAI: GPT-5 Mini
7.0Средний балл по всем бенчмарк-тестам.…
9.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)16.45sВремя ответа (макс.)26.00sВремя ответа (суммарно)49.36sТест считается полностью пройденным, только если все его прогоны успешны.…
16.45sВремя ответа (среднее)…
1,645Выходные токены…
5,824Токены рассуждений…
Qwen: Qwen3.5-Flash
2.3Средний балл по всем бенчмарк-тестам.…
7.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
11.1%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.62sВремя ответа (макс.)3.89sВремя ответа (суммарно)4.85sТест считается полностью пройденным, только если все его прогоны успешны.…
1.62sВремя ответа (среднее)…
687Выходные токены…
0Токены рассуждений…
Комбинированный
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
OpenAI: GPT-5 Mini
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)88.15sВремя ответа (макс.)88.15sВремя ответа (суммарно)88.15sТест считается полностью пройденным, только если все его прогоны успешны.…
88.15sВремя ответа (среднее)…
754Выходные токены…
11,520Токены рассуждений…
Qwen: Qwen3.5-Flash
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)6.22sВремя ответа (макс.)6.22sВремя ответа (суммарно)6.22sТест считается полностью пройденным, только если все его прогоны успешны.…
6.22sВремя ответа (среднее)…
1,794Выходные токены…
0Токены рассуждений…
Парсинг и извлечение данных
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
OpenAI: GPT-5 Mini
9.9Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)12.58sВремя ответа (макс.)13.87sВремя ответа (суммарно)25.16sТест считается полностью пройденным, только если все его прогоны успешны.…
12.58sВремя ответа (среднее)…
453Выходные токены…
3,200Токены рассуждений…
Qwen: Qwen3.5-Flash
9.9Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.57sВремя ответа (макс.)1.83sВремя ответа (суммарно)3.14sТест считается полностью пройденным, только если все его прогоны успешны.…
1.57sВремя ответа (среднее)…
243Выходные токены…
0Токены рассуждений…
Предметно-ориентированное
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
OpenAI: GPT-5 Mini
10.0Средний балл по всем бенчмарк-тестам.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
22.2%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Тайм-аут: 1Время ответа (среднее)44.63sВремя ответа (макс.)82.55sВремя ответа (суммарно)133.89sТест считается полностью пройденным, только если все его прогоны успешны.…
44.63sВремя ответа (среднее)…
293Выходные токены…
14,016Токены рассуждений…
Qwen: Qwen3.5-Flash
7.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)905msВремя ответа (макс.)1.10sВремя ответа (суммарно)2.71sТест считается полностью пройденным, только если все его прогоны успешны.…
905msВремя ответа (среднее)…
15Выходные токены…
0Токены рассуждений…
Следование инструкциям
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
OpenAI: GPT-5 Mini
7.5Средний балл по всем бенчмарк-тестам.…
6.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
83.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)15.66sВремя ответа (макс.)21.80sВремя ответа (суммарно)31.32sТест считается полностью пройденным, только если все его прогоны успешны.…
15.66sВремя ответа (среднее)…
318Выходные токены…
4,992Токены рассуждений…
Qwen: Qwen3.5-Flash
5.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)8.81sВремя ответа (макс.)13.73sВремя ответа (суммарно)17.61sТест считается полностью пройденным, только если все его прогоны успешны.…
8.81sВремя ответа (среднее)…
63Выходные токены…
0Токены рассуждений…
Puzzle Solving
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
OpenAI: GPT-5 Mini
4.3Средний балл по всем бенчмарк-тестам.…
9.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)14.09sВремя ответа (макс.)16.81sВремя ответа (суммарно)42.28sТест считается полностью пройденным, только если все его прогоны успешны.…
14.09sВремя ответа (среднее)…
1,527Выходные токены…
5,760Токены рассуждений…
Qwen: Qwen3.5-Flash
1.3Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)5.90sВремя ответа (макс.)12.19sВремя ответа (суммарно)17.69sТест считается полностью пройденным, только если все его прогоны успешны.…
5.90sВремя ответа (среднее)…
608Выходные токены…
0Токены рассуждений…
Вызов инструментов
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
OpenAI: GPT-5 Mini
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)18.64sВремя ответа (макс.)18.64sВремя ответа (суммарно)18.64sТест считается полностью пройденным, только если все его прогоны успешны.…
18.64sВремя ответа (среднее)…
487Выходные токены…
1,600Токены рассуждений…
Qwen: Qwen3.5-Flash
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.67sВремя ответа (макс.)3.67sВремя ответа (суммарно)3.67sТест считается полностью пройденным, только если все его прогоны успешны.…