9.45Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
8.26Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Стоимость за результат
2.261Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
2.835Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.151Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.227Общая стоимость…
$0.256Общая стоимость…
$0.016Общая стоимость…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Не соблюдены инструкции: 1Время ответа (среднее)7.16sВремя ответа (макс.)38.52sВремя ответа (суммарно)100.19sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Не соблюдены инструкции: 2Время ответа (среднее)5.81sВремя ответа (макс.)18.33sВремя ответа (суммарно)81.36sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Не соблюдены инструкции: 1Время ответа (среднее)2.88sВремя ответа (макс.)9.54sВремя ответа (суммарно)40.39sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
73.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
73.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
71.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
3Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Выходные токены
14,267Выходные токены…
16,339Выходные токены…
1,317Выходные токены…
Токены рассуждений
0Токены рассуждений…
0Токены рассуждений…
6,126Токены рассуждений…
Лучшие модели по оценке
Оценка vs общая стоимость
Разбивка по категориям
Анти-ИИ уловки
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Выходные токены
Токены рассуждений
OpenAI: GPT-5.2 Chat
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.97sВремя ответа (макс.)4.78sВремя ответа (суммарно)11.90sТест считается полностью пройденным, только если все его прогоны успешны.…
1,651Выходные токены…
0Токены рассуждений…
OpenAI: GPT-5.3 Chat
7.33Средний балл по всем бенчмарк-тестам.…
7.49Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
77.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.72sВремя ответа (макс.)7.35sВремя ответа (суммарно)14.17sТест считается полностью пройденным, только если все его прогоны успешны.…
3,091Выходные токены…
0Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
7.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.18sВремя ответа (макс.)3.18sВремя ответа (суммарно)6.53sТест считается полностью пройденным, только если все его прогоны успешны.…
456Выходные токены…
1,224Токены рассуждений…
Парсинг и извлечение данных
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Выходные токены
Токены рассуждений
OpenAI: GPT-5.2 Chat
9.88Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.05sВремя ответа (макс.)3.33sВремя ответа (суммарно)6.10sТест считается полностью пройденным, только если все его прогоны успешны.…
980Выходные токены…
0Токены рассуждений…
OpenAI: GPT-5.3 Chat
9.88Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.21sВремя ответа (макс.)2.52sВремя ответа (суммарно)4.42sТест считается полностью пройденным, только если все его прогоны успешны.…
942Выходные токены…
0Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
9.88Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.00sВремя ответа (макс.)3.74sВремя ответа (суммарно)5.99sТест считается полностью пройденным, только если все его прогоны успешны.…
291Выходные токены…
696Токены рассуждений…
Предметно-ориентированное
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Выходные токены
Токены рассуждений
OpenAI: GPT-5.2 Chat
4.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)17.78sВремя ответа (макс.)38.52sВремя ответа (суммарно)53.33sТест считается полностью пройденным, только если все его прогоны успешны.…
7,810Выходные токены…
0Токены рассуждений…
OpenAI: GPT-5.3 Chat
1.00Средний балл по всем бенчмарк-тестам.…
4.41Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)13.01sВремя ответа (макс.)18.33sВремя ответа (суммарно)39.04sТест считается полностью пройденным, только если все его прогоны успешны.…
8,264Выходные токены…
0Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
4.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)2.36sВремя ответа (макс.)3.51sВремя ответа (суммарно)7.07sТест считается полностью пройденным, только если все его прогоны успешны.…
18Выходные токены…
1,212Токены рассуждений…
Следование инструкциям
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Выходные токены
Токены рассуждений
OpenAI: GPT-5.2 Chat
5.50Средний балл по всем бенчмарк-тестам.…
6.13Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)5.46sВремя ответа (макс.)6.45sВремя ответа (суммарно)10.92sТест считается полностью пройденным, только если все его прогоны успешны.…
1,528Выходные токены…
0Токены рассуждений…
OpenAI: GPT-5.3 Chat
8.50Средний балл по всем бенчмарк-тестам.…
9.99Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)3.29sВремя ответа (макс.)4.18sВремя ответа (суммарно)6.59sТест считается полностью пройденным, только если все его прогоны успешны.…
1,455Выходные токены…
0Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
8.50Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.49sВремя ответа (макс.)1.66sВремя ответа (суммарно)2.99sТест считается полностью пройденным, только если все его прогоны успешны.…
72Выходные токены…
753Токены рассуждений…
Puzzle Solving
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Выходные токены
Токены рассуждений
OpenAI: GPT-5.2 Chat
7.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.42sВремя ответа (макс.)5.04sВремя ответа (суммарно)13.27sТест считается полностью пройденным, только если все его прогоны успешны.…
1,743Выходные токены…
0Токены рассуждений…
OpenAI: GPT-5.3 Chat
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.93sВремя ответа (макс.)3.05sВремя ответа (суммарно)8.78sТест считается полностью пройденным, только если все его прогоны успешны.…
1,726Выходные токены…
0Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.76sВремя ответа (макс.)5.08sВремя ответа (суммарно)8.27sТест считается полностью пройденным, только если все его прогоны успешны.…
243Выходные токены…
1,248Токены рассуждений…
Вызов инструментов
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Выходные токены
Токены рассуждений
OpenAI: GPT-5.2 Chat
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.68sВремя ответа (макс.)4.68sВремя ответа (суммарно)4.68sТест считается полностью пройденным, только если все его прогоны успешны.…
555Выходные токены…
0Токены рассуждений…
OpenAI: GPT-5.3 Chat
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)8.36sВремя ответа (макс.)8.36sВремя ответа (суммарно)8.36sТест считается полностью пройденным, только если все его прогоны успешны.…
861Выходные токены…
0Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.54sВремя ответа (макс.)9.54sВремя ответа (суммарно)9.54sТест считается полностью пройденным, только если все его прогоны успешны.…