10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
9.99Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
9.44Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Стоимость за результат
0.162Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.403Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
17.455Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.624Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.017Общая стоимость…
$0.037Общая стоимость…
$1.920Общая стоимость…
$0.069Общая стоимость…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Не соблюдены инструкции: 1Время ответа (среднее)2.89sВремя ответа (макс.)9.54sВремя ответа (суммарно)43.35sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Не соблюдены инструкции: 2Время ответа (среднее)3.74sВремя ответа (макс.)12.98sВремя ответа (суммарно)56.15sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Не соблюдены инструкции: 1Время ответа (среднее)69.85sВремя ответа (макс.)232.25sВремя ответа (суммарно)1047.79sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Не соблюдены инструкции: 1Время ответа (среднее)6.32sВремя ответа (макс.)14.72sВремя ответа (суммарно)94.86sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
60.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
73.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
75.6%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Выходные токены
1,392Выходные токены…
1,417Выходные токены…
943Выходные токены…
1,274Выходные токены…
Токены рассуждений
6,379Токены рассуждений…
19,435Токены рассуждений…
1,275,768Токены рассуждений…
18,372Токены рассуждений…
Лучшие модели по оценке
Оценка vs общая стоимость
Разбивка по категориям
Анти-ИИ уловки
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview
7.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.18sВремя ответа (макс.)3.18sВремя ответа (суммарно)6.53sТест считается полностью пройденным, только если все его прогоны успешны.…
456Выходные токены…
1,224Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
9.00Средний балл по всем бенчмарк-тестам.…
9.99Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)2.53sВремя ответа (макс.)3.89sВремя ответа (суммарно)7.58sТест считается полностью пройденным, только если все его прогоны успешны.…
564Выходные токены…
3,780Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)43.87sВремя ответа (макс.)121.88sВремя ответа (суммарно)131.62sТест считается полностью пройденным, только если все его прогоны успешны.…
144Выходные токены…
193,077Токены рассуждений…
Google: Gemini 3 Flash Preview
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.50sВремя ответа (макс.)4.31sВремя ответа (суммарно)10.49sТест считается полностью пройденным, только если все его прогоны успешны.…
275Выходные токены…
2,476Токены рассуждений…
Комбинированный
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview
1.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.96sВремя ответа (макс.)2.96sВремя ответа (суммарно)2.96sТест считается полностью пройденным, только если все его прогоны успешны.…
75Выходные токены…
253Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)12.98sВремя ответа (макс.)12.98sВремя ответа (суммарно)12.98sТест считается полностью пройденным, только если все его прогоны успешны.…
109Выходные токены…
2,449Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)232.25sВремя ответа (макс.)232.25sВремя ответа (суммарно)232.25sТест считается полностью пройденным, только если все его прогоны успешны.…
112Выходные токены…
126,813Токены рассуждений…
Google: Gemini 3 Flash Preview
1.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.96sВремя ответа (макс.)2.96sВремя ответа (суммарно)2.96sТест считается полностью пройденным, только если все его прогоны успешны.…
104Выходные токены…
0Токены рассуждений…
Парсинг и извлечение данных
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview
9.88Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.00sВремя ответа (макс.)3.74sВремя ответа (суммарно)5.99sТест считается полностью пройденным, только если все его прогоны успешны.…
291Выходные токены…
696Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
9.88Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.29sВремя ответа (макс.)2.31sВремя ответа (суммарно)4.59sТест считается полностью пройденным, только если все его прогоны успешны.…
279Выходные токены…
2,952Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
9.88Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.16sВремя ответа (макс.)8.54sВремя ответа (суммарно)14.31sТест считается полностью пройденным, только если все его прогоны успешны.…
279Выходные токены…
6,186Токены рассуждений…
Google: Gemini 3 Flash Preview
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.46sВремя ответа (макс.)14.72sВремя ответа (суммарно)18.92sТест считается полностью пройденным, только если все его прогоны успешны.…
305Выходные токены…
3,004Токены рассуждений…
Предметно-ориентированное
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview
4.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)2.36sВремя ответа (макс.)3.51sВремя ответа (суммарно)7.07sТест считается полностью пройденным, только если все его прогоны успешны.…
18Выходные токены…
1,212Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
1.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)4.21sВремя ответа (макс.)5.86sВремя ответа (суммарно)12.62sТест считается полностью пройденным, только если все его прогоны успешны.…
18Выходные токены…
5,325Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
4.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)127.58sВремя ответа (макс.)133.93sВремя ответа (суммарно)382.74sТест считается полностью пройденным, только если все его прогоны успешны.…
18Выходные токены…
566,202Токены рассуждений…
Google: Gemini 3 Flash Preview
4.00Средний балл по всем бенчмарк-тестам.…
7.21Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)8.05sВремя ответа (макс.)14.40sВремя ответа (суммарно)24.15sТест считается полностью пройденным, только если все его прогоны успешны.…
12Выходные токены…
6,410Токены рассуждений…
Следование инструкциям
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview
8.50Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.49sВремя ответа (макс.)1.66sВремя ответа (суммарно)2.99sТест считается полностью пройденным, только если все его прогоны успешны.…
72Выходные токены…
753Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
8.00Средний балл по всем бенчмарк-тестам.…
9.99Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.91sВремя ответа (макс.)1.93sВремя ответа (суммарно)3.82sТест считается полностью пройденным, только если все его прогоны успешны.…
72Выходные токены…
2,121Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
8.00Средний балл по всем бенчмарк-тестам.…
9.96Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)70.07sВремя ответа (макс.)136.53sВремя ответа (суммарно)140.14sТест считается полностью пройденным, только если все его прогоны успешны.…
69Выходные токены…
190,053Токены рассуждений…
Google: Gemini 3 Flash Preview
7.50Средний балл по всем бенчмарк-тестам.…
9.99Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)7.02sВремя ответа (макс.)7.35sВремя ответа (суммарно)14.03sТест считается полностью пройденным, только если все его прогоны успешны.…
71Выходные токены…
2,752Токены рассуждений…
Puzzle Solving
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.76sВремя ответа (макс.)5.08sВремя ответа (суммарно)8.27sТест считается полностью пройденным, только если все его прогоны успешны.…
243Выходные токены…
1,248Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
7.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.58sВремя ответа (макс.)4.41sВремя ответа (суммарно)10.75sТест считается полностью пройденным, только если все его прогоны успешны.…
141Выходные токены…
1,896Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
7.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)46.33sВремя ответа (макс.)134.22sВремя ответа (суммарно)139.00sТест считается полностью пройденным, только если все его прогоны успешны.…
87Выходные токены…
190,953Токены рассуждений…
Google: Gemini 3 Flash Preview
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.44sВремя ответа (макс.)10.27sВремя ответа (суммарно)19.32sТест считается полностью пройденным, только если все его прогоны успешны.…
273Выходные токены…
3,315Токены рассуждений…
Вызов инструментов
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Выходные токены
Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.54sВремя ответа (макс.)9.54sВремя ответа (суммарно)9.54sТест считается полностью пройденным, только если все его прогоны успешны.…
237Выходные токены…
993Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.80sВремя ответа (макс.)3.80sВремя ответа (суммарно)3.80sТест считается полностью пройденным, только если все его прогоны успешны.…
234Выходные токены…
912Токены рассуждений…
Google: Gemini 3.1 Flash Lite Preview
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.73sВремя ответа (макс.)7.73sВремя ответа (суммарно)7.73sТест считается полностью пройденным, только если все его прогоны успешны.…
234Выходные токены…
2,484Токены рассуждений…
Google: Gemini 3 Flash Preview
10.00Средний балл по всем бенчмарк-тестам.…
10.00Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.99sВремя ответа (макс.)4.99sВремя ответа (суммарно)4.99sТест считается полностью пройденным, только если все его прогоны успешны.…