9.1Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
8.5Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Стоимость за результат
0.280Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
3.163Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.028Общая стоимость…
$0.317Общая стоимость…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 4Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)65.09sВремя ответа (макс.)262.83sВремя ответа (суммарно)846.14sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Не соблюдены инструкции: 2Время ответа (среднее)5.96sВремя ответа (макс.)18.33sВремя ответа (суммарно)95.30sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
68.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
70.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
3Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
common.totalRuns
48 (16 x 3)common.totalRuns…
48 (16 x 3)common.totalRuns…
Выходные токены
1,965Выходные токены…
19,272Выходные токены…
Токены рассуждений
58,456Токены рассуждений…
0Токены рассуждений…
Время ответа (среднее)
65.09sВремя ответа (среднее)…
5.96sВремя ответа (среднее)…
Время ответа (макс.)
262.83sВремя ответа (макс.)…
18.33sВремя ответа (макс.)…
Время ответа (суммарно)
846.14sВремя ответа (суммарно)…
95.30sВремя ответа (суммарно)…
Лучшие модели по оценке
Оценка vs общая стоимость
Время ответа (среднее)
Средний балл vs Время ответа (среднее)
Разбивка по категориям
Анти-ИИ уловки
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
ByteDance Seed: Seed-2.0-Mini
7.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Время ответа (среднее)98.99sВремя ответа (макс.)182.10sВремя ответа (суммарно)296.96sТест считается полностью пройденным, только если все его прогоны успешны.…
98.99sВремя ответа (среднее)…
354Выходные токены…
9,352Токены рассуждений…
OpenAI: GPT-5.3 Chat
7.3Средний балл по всем бенчмарк-тестам.…
7.5Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
77.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.72sВремя ответа (макс.)7.35sВремя ответа (суммарно)14.17sТест считается полностью пройденным, только если все его прогоны успешны.…
4.72sВремя ответа (среднее)…
3,091Выходные токены…
0Токены рассуждений…
Комбинированный
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
ByteDance Seed: Seed-2.0-Mini
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)262.83sВремя ответа (макс.)262.83sВремя ответа (суммарно)262.83sТест считается полностью пройденным, только если все его прогоны успешны.…
262.83sВремя ответа (среднее)…
404Выходные токены…
29,806Токены рассуждений…
OpenAI: GPT-5.3 Chat
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.96sВремя ответа (макс.)11.96sВремя ответа (суммарно)11.96sТест считается полностью пройденным, только если все его прогоны успешны.…
11.96sВремя ответа (среднее)…
2,614Выходные токены…
0Токены рассуждений…
Парсинг и извлечение данных
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
ByteDance Seed: Seed-2.0-Mini
9.9Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)24.27sВремя ответа (макс.)27.52sВремя ответа (суммарно)48.54sТест считается полностью пройденным, только если все его прогоны успешны.…
24.27sВремя ответа (среднее)…
246Выходные токены…
2,743Токены рассуждений…
OpenAI: GPT-5.3 Chat
9.9Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.21sВремя ответа (макс.)2.52sВремя ответа (суммарно)4.42sТест считается полностью пройденным, только если все его прогоны успешны.…
2.21sВремя ответа (среднее)…
942Выходные токены…
0Токены рассуждений…
Предметно-ориентированное
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
ByteDance Seed: Seed-2.0-Mini
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 3Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…
0msВремя ответа (среднее)…
0Выходные токены…
0Токены рассуждений…
OpenAI: GPT-5.3 Chat
10.0Средний балл по всем бенчмарк-тестам.…
4.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)13.01sВремя ответа (макс.)18.33sВремя ответа (суммарно)39.04sТест считается полностью пройденным, только если все его прогоны успешны.…
13.01sВремя ответа (среднее)…
8,264Выходные токены…
0Токены рассуждений…
Общий интеллект
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
ByteDance Seed: Seed-2.0-Mini
6.0Средний балл по всем бенчмарк-тестам.…
3.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)36.65sВремя ответа (макс.)36.65sВремя ответа (суммарно)36.65sТест считается полностью пройденным, только если все его прогоны успешны.…
36.65sВремя ответа (среднее)…
213Выходные токены…
4,210Токены рассуждений…
OpenAI: GPT-5.3 Chat
4.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.99sВремя ответа (макс.)1.99sВремя ответа (суммарно)1.99sТест считается полностью пройденным, только если все его прогоны успешны.…
1.99sВремя ответа (среднее)…
319Выходные токены…
0Токены рассуждений…
Следование инструкциям
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
ByteDance Seed: Seed-2.0-Mini
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)17.47sВремя ответа (макс.)19.46sВремя ответа (суммарно)34.93sТест считается полностью пройденным, только если все его прогоны успешны.…
17.47sВремя ответа (среднее)…
69Выходные токены…
2,050Токены рассуждений…
OpenAI: GPT-5.3 Chat
9.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.29sВремя ответа (макс.)4.18sВремя ответа (суммарно)6.59sТест считается полностью пройденным, только если все его прогоны успешны.…
3.29sВремя ответа (среднее)…
1,455Выходные токены…
0Токены рассуждений…
Puzzle Solving
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
ByteDance Seed: Seed-2.0-Mini
7.0Средний балл по всем бенчмарк-тестам.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
88.9%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)25.85sВремя ответа (макс.)32.95sВремя ответа (суммарно)77.55sТест считается полностью пройденным, только если все его прогоны успешны.…
25.85sВремя ответа (среднее)…
457Выходные токены…
5,060Токены рассуждений…
OpenAI: GPT-5.3 Chat
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.93sВремя ответа (макс.)3.05sВремя ответа (суммарно)8.78sТест считается полностью пройденным, только если все его прогоны успешны.…
2.93sВремя ответа (среднее)…
1,726Выходные токены…
0Токены рассуждений…
Вызов инструментов
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
ByteDance Seed: Seed-2.0-Mini
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)88.68sВремя ответа (макс.)88.68sВремя ответа (суммарно)88.68sТест считается полностью пройденным, только если все его прогоны успешны.…
88.68sВремя ответа (среднее)…
222Выходные токены…
5,235Токены рассуждений…
OpenAI: GPT-5.3 Chat
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)8.36sВремя ответа (макс.)8.36sВремя ответа (суммарно)8.36sТест считается полностью пройденным, только если все его прогоны успешны.…