9.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
7.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Стоимость за результат
0.000Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.563Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.000Общая стоимость…
$0.051Общая стоимость…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Не соблюдены инструкции: 2Время ответа (среднее)3.15sВремя ответа (макс.)8.91sВремя ответа (суммарно)50.46sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 3Неверный ответ: 2Нет ответа: 1Тайм-аут: 1Время ответа (среднее)26.35sВремя ответа (макс.)121.79sВремя ответа (суммарно)237.11sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
4Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
48Всего запусков…
48Всего запусков…
Выходные токены
1,837Выходные токены…
1,183Выходные токены…
Токены рассуждений
0Токены рассуждений…
83,875Токены рассуждений…
Время ответа (среднее)
3.15sВремя ответа (среднее)…
26.35sВремя ответа (среднее)…
Время ответа (макс.)
8.91sВремя ответа (макс.)…
121.79sВремя ответа (макс.)…
Время ответа (суммарно)
50.46sВремя ответа (суммарно)…
237.11sВремя ответа (суммарно)…
Лучшие модели по оценке
Оценка vs общая стоимость
Время ответа (среднее)
Средний балл vs Время ответа (среднее)
Разбивка по категориям
Анти-ИИ уловки
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Trinity Large Preview
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)3.59sВремя ответа (макс.)8.17sВремя ответа (суммарно)10.78sТест считается полностью пройденным, только если все его прогоны успешны.…
3.59sВремя ответа (среднее)…
587Выходные токены…
0Токены рассуждений…
xAI: Grok 4.1 Fast
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.65sВремя ответа (макс.)5.65sВремя ответа (суммарно)5.65sТест считается полностью пройденным, только если все его прогоны успешны.…
5.65sВремя ответа (среднее)…
102Выходные токены…
4,021Токены рассуждений…
Комбинированный
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Trinity Large Preview
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)8.91sВремя ответа (макс.)8.91sВремя ответа (суммарно)8.91sТест считается полностью пройденным, только если все его прогоны успешны.…
8.91sВремя ответа (среднее)…
294Выходные токены…
0Токены рассуждений…
xAI: Grok 4.1 Fast
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)37.64sВремя ответа (макс.)37.64sВремя ответа (суммарно)37.64sТест считается полностью пройденным, только если все его прогоны успешны.…
37.64sВремя ответа (среднее)…
261Выходные токены…
12,272Токены рассуждений…
Парсинг и извлечение данных
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Trinity Large Preview
9.9Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.26sВремя ответа (макс.)4.66sВремя ответа (суммарно)6.52sТест считается полностью пройденным, только если все его прогоны успешны.…
3.26sВремя ответа (среднее)…
186Выходные токены…
0Токены рассуждений…
xAI: Grok 4.1 Fast
9.9Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.63sВремя ответа (макс.)6.63sВремя ответа (суммарно)6.63sТест считается полностью пройденным, только если все его прогоны успешны.…
6.63sВремя ответа (среднее)…
180Выходные токены…
5,409Токены рассуждений…
Предметно-ориентированное
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Trinity Large Preview
4.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)877msВремя ответа (макс.)894msВремя ответа (суммарно)2.63sТест считается полностью пройденным, только если все его прогоны успешны.…
877msВремя ответа (среднее)…
25Выходные токены…
0Токены рассуждений…
xAI: Grok 4.1 Fast
4.0Средний балл по всем бенчмарк-тестам.…
4.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)121.79sВремя ответа (макс.)121.79sВремя ответа (суммарно)121.79sТест считается полностью пройденным, только если все его прогоны успешны.…
121.79sВремя ответа (среднее)…
11Выходные токены…
37,657Токены рассуждений…
Общий интеллект
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Trinity Large Preview
3.0Средний балл по всем бенчмарк-тестам.…
9.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)2.86sВремя ответа (макс.)2.86sВремя ответа (суммарно)2.86sТест считается полностью пройденным, только если все его прогоны успешны.…
2.86sВремя ответа (среднее)…
124Выходные токены…
0Токены рассуждений…
xAI: Grok 4.1 Fast
3.0Средний балл по всем бенчмарк-тестам.…
9.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)16.25sВремя ответа (макс.)16.25sВремя ответа (суммарно)16.25sТест считается полностью пройденным, только если все его прогоны успешны.…
16.25sВремя ответа (среднее)…
127Выходные токены…
3,456Токены рассуждений…
Следование инструкциям
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Trinity Large Preview
3.5Средний балл по всем бенчмарк-тестам.…
6.7Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
16.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)1.09sВремя ответа (макс.)1.23sВремя ответа (суммарно)2.19sТест считается полностью пройденным, только если все его прогоны успешны.…
1.09sВремя ответа (среднее)…
63Выходные токены…
0Токены рассуждений…
xAI: Grok 4.1 Fast
5.5Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)5.30sВремя ответа (макс.)5.30sВремя ответа (суммарно)5.30sТест считается полностью пройденным, только если все его прогоны успешны.…
5.30sВремя ответа (среднее)…
55Выходные токены…
3,489Токены рассуждений…
Puzzle Solving
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Trinity Large Preview
4.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)3.30sВремя ответа (макс.)4.81sВремя ответа (суммарно)9.91sТест считается полностью пройденным, только если все его прогоны успешны.…
3.30sВремя ответа (среднее)…
291Выходные токены…
0Токены рассуждений…
xAI: Grok 4.1 Fast
4.0Средний балл по всем бенчмарк-тестам.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)8.08sВремя ответа (макс.)8.38sВремя ответа (суммарно)16.17sТест считается полностью пройденным, только если все его прогоны успешны.…
8.08sВремя ответа (среднее)…
187Выходные токены…
6,086Токены рассуждений…
Вызов инструментов
Оценка
Стабильность
Доля успешных попыток
Нестабильные тесты
Тестов верно
Время ответа (среднее)
Выходные токены
Токены рассуждений
Trinity Large Preview
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.67sВремя ответа (макс.)6.67sВремя ответа (суммарно)6.67sТест считается полностью пройденным, только если все его прогоны успешны.…
6.67sВремя ответа (среднее)…
267Выходные токены…
0Токены рассуждений…
xAI: Grok 4.1 Fast
10.0Средний балл по всем бенчмарк-тестам.…
1.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)27.71sВремя ответа (макс.)27.71sВремя ответа (суммарно)27.71sТест считается полностью пройденным, только если все его прогоны успешны.…