Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 8Не соблюдены инструкции: 1Время ответа (среднее)1.46sВремя ответа (макс.)2.89sВремя ответа (суммарно)21.86sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 3Неверный ответ: 2Ошибка API: 1Нет ответа: 1Время ответа (среднее)44.84sВремя ответа (макс.)106.00sВремя ответа (суммарно)672.55sТест считается полностью пройденным, только если все его прогоны успешны.…
Стабильность
8.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
6.7Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Стоимость за результат
1.496Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
4.189Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.090Общая стоимость…
$0.336Общая стоимость…
Доля успешных попыток
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
80.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
6Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
common.totalRuns
45 (15 x 3)common.totalRuns…
45 (15 x 3)common.totalRuns…
Выходные токены
1,635Выходные токены…
5,475Выходные токены…
Токены рассуждений
0Токены рассуждений…
165,513Токены рассуждений…
Время ответа (среднее)
1.46sВремя ответа (среднее)…
44.84sВремя ответа (среднее)…
Время ответа (макс.)
2.89sВремя ответа (макс.)…
106.00sВремя ответа (макс.)…
Время ответа (суммарно)
21.86sВремя ответа (суммарно)…
672.55sВремя ответа (суммарно)…
Лучшие модели по оценке
Оценка vs общая стоимость
Время ответа (среднее)
Средний балл vs Время ответа (среднее)
Разбивка по категориям
Анти-ИИ уловки
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
OpenAI: GPT-5.4
10.0Средний балл по всем бенчмарк-тестам.…
7.3Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
11.1%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.41sВремя ответа (макс.)2.58sВремя ответа (суммарно)4.23sТест считается полностью пройденным, только если все его прогоны успешны.…
1.41sВремя ответа (среднее)…
388Выходные токены…
0Токены рассуждений…
Qwen: Qwen3.5-35B-A3B
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)21.75sВремя ответа (макс.)34.96sВремя ответа (суммарно)65.26sТест считается полностью пройденным, только если все его прогоны успешны.…
21.75sВремя ответа (среднее)…
429Выходные токены…
36,235Токены рассуждений…
Комбинированный
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
OpenAI: GPT-5.4
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.89sВремя ответа (макс.)2.89sВремя ответа (суммарно)2.89sТест считается полностью пройденным, только если все его прогоны успешны.…
2.89sВремя ответа (среднее)…
291Выходные токены…
0Токены рассуждений…
Qwen: Qwen3.5-35B-A3B
10.0Средний балл по всем бенчмарк-тестам.…
1.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)75.34sВремя ответа (макс.)75.34sВремя ответа (суммарно)75.34sТест считается полностью пройденным, только если все его прогоны успешны.…
75.34sВремя ответа (среднее)…
775Выходные токены…
12,485Токены рассуждений…
Парсинг и извлечение данных
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
OpenAI: GPT-5.4
9.9Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.04sВремя ответа (макс.)1.06sВремя ответа (суммарно)2.08sТест считается полностью пройденным, только если все его прогоны успешны.…
1.04sВремя ответа (среднее)…
222Выходные токены…
0Токены рассуждений…
Qwen: Qwen3.5-35B-A3B
5.5Средний балл по всем бенчмарк-тестам.…
5.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
83.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)59.33sВремя ответа (макс.)97.12sВремя ответа (суммарно)118.65sТест считается полностью пройденным, только если все его прогоны успешны.…
59.33sВремя ответа (среднее)…
235Выходные токены…
19,493Токены рассуждений…
Предметно-ориентированное
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
OpenAI: GPT-5.4
4.0Средний балл по всем бенчмарк-тестам.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)1.07sВремя ответа (макс.)1.54sВремя ответа (суммарно)3.22sТест считается полностью пройденным, только если все его прогоны успешны.…
1.07sВремя ответа (среднее)…
50Выходные токены…
0Токены рассуждений…
Qwen: Qwen3.5-35B-A3B
10.0Средний балл по всем бенчмарк-тестам.…
4.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.5%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 2Неверный ответ: 1Время ответа (среднее)88.34sВремя ответа (макс.)106.00sВремя ответа (суммарно)265.01sТест считается полностью пройденным, только если все его прогоны успешны.…
88.34sВремя ответа (среднее)…
41Выходные токены…
46,368Токены рассуждений…
Следование инструкциям
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
OpenAI: GPT-5.4
5.5Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.07sВремя ответа (макс.)1.17sВремя ответа (суммарно)2.15sТест считается полностью пройденным, только если все его прогоны успешны.…
1.07sВремя ответа (среднее)…
81Выходные токены…
0Токены рассуждений…
Qwen: Qwen3.5-35B-A3B
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)24.45sВремя ответа (макс.)43.36sВремя ответа (суммарно)48.89sТест считается полностью пройденным, только если все его прогоны успешны.…
24.45sВремя ответа (среднее)…
97Выходные токены…
17,361Токены рассуждений…
Puzzle Solving
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
OpenAI: GPT-5.4
4.0Средний балл по всем бенчмарк-тестам.…
9.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)1.52sВремя ответа (макс.)1.82sВремя ответа (суммарно)4.56sТест считается полностью пройденным, только если все его прогоны успешны.…
1.52sВремя ответа (среднее)…
357Выходные токены…
0Токены рассуждений…
Qwen: Qwen3.5-35B-A3B
4.0Средний балл по всем бенчмарк-тестам.…
4.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
77.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)31.58sВремя ответа (макс.)60.18sВремя ответа (суммарно)94.75sТест считается полностью пройденным, только если все его прогоны успешны.…
31.58sВремя ответа (среднее)…
3,589Выходные токены…
32,206Токены рассуждений…
Вызов инструментов
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
OpenAI: GPT-5.4
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.75sВремя ответа (макс.)2.75sВремя ответа (суммарно)2.75sТест считается полностью пройденным, только если все его прогоны успешны.…
2.75sВремя ответа (среднее)…
246Выходные токены…
0Токены рассуждений…
Qwen: Qwen3.5-35B-A3B
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.65sВремя ответа (макс.)4.65sВремя ответа (суммарно)4.65sТест считается полностью пройденным, только если все его прогоны успешны.…