8.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
9.1Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Стоимость за результат
0.220Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.000Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.016Общая стоимость…
$0.000Общая стоимость…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 6Лишнее форматирование: 2invalid tool call: 1Время ответа (среднее)12.86sВремя ответа (макс.)115.89sВремя ответа (суммарно)205.78sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 3Неверный ответ: 3Время ответа (среднее)29.10sВремя ответа (макс.)170.45sВремя ответа (суммарно)290.96sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
54.2%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
68.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
3Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
48Всего запусков…
48Всего запусков…
Выходные токены
7,823Выходные токены…
71,452Выходные токены…
Токены рассуждений
0Токены рассуждений…
155,147Токены рассуждений…
Время ответа (среднее)
12.86sВремя ответа (среднее)…
29.10sВремя ответа (среднее)…
Время ответа (макс.)
115.89sВремя ответа (макс.)…
170.45sВремя ответа (макс.)…
Время ответа (суммарно)
205.78sВремя ответа (суммарно)…
290.96sВремя ответа (суммарно)…
Лучшие модели по оценке
Оценка vs общая стоимость
Время ответа (среднее)
Средний балл vs Время ответа (среднее)
Разбивка по категориям
Анти-ИИ уловки
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
DeepSeek: DeepSeek V3.2
10.0Средний балл по всем бенчмарк-тестам.…
9.7Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 2Неверный ответ: 1Время ответа (среднее)8.79sВремя ответа (макс.)12.26sВремя ответа (суммарно)26.38sТест считается полностью пройденным, только если все его прогоны успешны.…
8.79sВремя ответа (среднее)…
1,411Выходные токены…
0Токены рассуждений…
StepFun: Step 3.5 Flash
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)18.54sВремя ответа (макс.)32.30sВремя ответа (суммарно)37.07sТест считается полностью пройденным, только если все его прогоны успешны.…
18.54sВремя ответа (среднее)…
13,924Выходные токены…
17,208Токены рассуждений…
Комбинированный
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
DeepSeek: DeepSeek V3.2
8.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.invalid tool call: 1Время ответа (среднее)115.89sВремя ответа (макс.)115.89sВремя ответа (суммарно)115.89sТест считается полностью пройденным, только если все его прогоны успешны.…
115.89sВремя ответа (среднее)…
2,887Выходные токены…
0Токены рассуждений…
StepFun: Step 3.5 Flash
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)29.57sВремя ответа (макс.)29.57sВремя ответа (суммарно)29.57sТест считается полностью пройденным, только если все его прогоны успешны.…
29.57sВремя ответа (среднее)…
1,176Выходные токены…
12,984Токены рассуждений…
Парсинг и извлечение данных
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
DeepSeek: DeepSeek V3.2
5.4Средний балл по всем бенчмарк-тестам.…
5.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)9.42sВремя ответа (макс.)16.20sВремя ответа (суммарно)18.84sТест считается полностью пройденным, только если все его прогоны успешны.…
9.42sВремя ответа (среднее)…
1,710Выходные токены…
0Токены рассуждений…
StepFun: Step 3.5 Flash
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)15.01sВремя ответа (макс.)15.01sВремя ответа (суммарно)15.01sТест считается полностью пройденным, только если все его прогоны успешны.…
15.01sВремя ответа (среднее)…
600Выходные токены…
13,886Токены рассуждений…
Предметно-ориентированное
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
DeepSeek: DeepSeek V3.2
10.0Средний балл по всем бенчмарк-тестам.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
22.2%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.61sВремя ответа (макс.)1.77sВремя ответа (суммарно)4.83sТест считается полностью пройденным, только если все его прогоны успешны.…
1.61sВремя ответа (среднее)…
24Выходные токены…
0Токены рассуждений…
StepFun: Step 3.5 Flash
4.0Средний балл по всем бенчмарк-тестам.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)170.45sВремя ответа (макс.)170.45sВремя ответа (суммарно)170.45sТест считается полностью пройденным, только если все его прогоны успешны.…
170.45sВремя ответа (среднее)…
45,350Выходные токены…
90,436Токены рассуждений…
Общий интеллект
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
DeepSeek: DeepSeek V3.2
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.86sВремя ответа (макс.)2.86sВремя ответа (суммарно)2.86sТест считается полностью пройденным, только если все его прогоны успешны.…
2.86sВремя ответа (среднее)…
67Выходные токены…
0Токены рассуждений…
StepFun: Step 3.5 Flash
6.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)6.54sВремя ответа (макс.)6.54sВремя ответа (суммарно)6.54sТест считается полностью пройденным, только если все его прогоны успешны.…
6.54sВремя ответа (среднее)…
2,214Выходные токены…
2,584Токены рассуждений…
Следование инструкциям
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
DeepSeek: DeepSeek V3.2
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.52sВремя ответа (макс.)1.99sВремя ответа (суммарно)3.04sТест считается полностью пройденным, только если все его прогоны успешны.…
1.52sВремя ответа (среднее)…
66Выходные токены…
0Токены рассуждений…
StepFun: Step 3.5 Flash
9.0Средний балл по всем бенчмарк-тестам.…
6.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
83.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.98sВремя ответа (макс.)4.98sВремя ответа (суммарно)4.98sТест считается полностью пройденным, только если все его прогоны успешны.…
4.98sВремя ответа (среднее)…
2,284Выходные токены…
3,412Токены рассуждений…
Puzzle Solving
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
DeepSeek: DeepSeek V3.2
7.7Средний балл по всем бенчмарк-тестам.…
7.5Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
88.9%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)7.37sВремя ответа (макс.)10.78sВремя ответа (суммарно)22.10sТест считается полностью пройденным, только если все его прогоны успешны.…
7.37sВремя ответа (среднее)…
1,136Выходные токены…
0Токены рассуждений…
StepFun: Step 3.5 Flash
4.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)7.72sВремя ответа (макс.)10.60sВремя ответа (суммарно)15.44sТест считается полностью пройденным, только если все его прогоны успешны.…
7.72sВремя ответа (среднее)…
5,629Выходные токены…
10,835Токены рассуждений…
Вызов инструментов
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
DeepSeek: DeepSeek V3.2
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.85sВремя ответа (макс.)11.85sВремя ответа (суммарно)11.85sТест считается полностью пройденным, только если все его прогоны успешны.…
11.85sВремя ответа (среднее)…
522Выходные токены…
0Токены рассуждений…
StepFun: Step 3.5 Flash
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.91sВремя ответа (макс.)11.91sВремя ответа (суммарно)11.91sТест считается полностью пройденным, только если все его прогоны успешны.…