Сравнение benchmark Nemotron 3 Ultra 550b A55b vs Grok 4.20 Beta: Nemotron 3 Ultra 550b A55b лидирует по среднему баллу: 7.5 vs 5.8. Grok 4.20 Beta имеет более низкую стоимость benchmark: $0.087 vs $0.177. Grok 4.20 Beta быстрее: 1.19s vs 15.05s, с долей успешных попыток 69.8% vs 37.0%.
Рекомендуемая модель: Grok 4.20 Beta - Он дает лучший общий компромисс: конкурентный балл (5.8), ниже стоимость, чем у Nemotron 3 Ultra 550b A55b, и сбалансированное время ответа.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-10
Grok 4.20 BetaGrok 4.20 BetanoneАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.Релиз: 2026-03-12
Оценка
7.5Средний балл по всем бенчмарк-тестам.…
5.8Средний балл по всем бенчмарк-тестам.…
Ранг
#42
#107
Надежность
9.7Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Н/ДОценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
8.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
9.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 7Ошибка API: 1Время ответа (среднее)15.05sВремя ответа (макс.)43.93sВремя ответа (суммарно)316.09sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)8.62sВремя ответа (макс.)16.86sВремя ответа (суммарно)34.49sТест считается полностью пройденным, только если все его прогоны успешны.…
8.62sВремя ответа (среднее)…
780Общее число входных токенов…
835Выходные токены…
1,485Токены рассуждений…
Grok 4.20 BetaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
4.0Средний балл по всем бенчмарк-тестам.…
8.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
16.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Время ответа (среднее)597msВремя ответа (макс.)866msВремя ответа (суммарно)2.39sТест считается полностью пройденным, только если все его прогоны успешны.…
7.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
88.9%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)26.53sВремя ответа (макс.)31.91sВремя ответа (суммарно)79.58sТест считается полностью пройденным, только если все его прогоны успешны.…
26.53sВремя ответа (среднее)…
7,686Общее число входных токенов…
2,854Выходные токены…
17,725Токены рассуждений…
Grok 4.20 BetaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
5.5Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.14sВремя ответа (макс.)1.14sВремя ответа (суммарно)1.14sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)43.93sВремя ответа (макс.)43.93sВремя ответа (суммарно)43.93sТест считается полностью пройденным, только если все его прогоны успешны.…
43.93sВремя ответа (среднее)…
17,574Общее число входных токенов…
1,040Выходные токены…
3,590Токены рассуждений…
Grok 4.20 BetaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Недопустимый вызов инструмента: 1Время ответа (среднее)6.48sВремя ответа (макс.)6.48sВремя ответа (суммарно)6.48sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.68sВремя ответа (макс.)7.94sВремя ответа (суммарно)11.36sТест считается полностью пройденным, только если все его прогоны успешны.…
5.68sВремя ответа (среднее)…
7,989Общее число входных токенов…
473Выходные токены…
1,285Токены рассуждений…
Grok 4.20 BetaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)601msВремя ответа (макс.)634msВремя ответа (суммарно)1.20sТест считается полностью пройденным, только если все его прогоны успешны.…
4.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)24.90sВремя ответа (макс.)34.96sВремя ответа (суммарно)74.71sТест считается полностью пройденным, только если все его прогоны успешны.…
24.90sВремя ответа (среднее)…
858Общее число входных токенов…
11,169Выходные токены…
16,249Токены рассуждений…
Grok 4.20 BetaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)611msВремя ответа (макс.)616msВремя ответа (суммарно)1.83sТест считается полностью пройденным, только если все его прогоны успешны.…
9.5Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)2.52sВремя ответа (макс.)2.52sВремя ответа (суммарно)2.52sТест считается полностью пройденным, только если все его прогоны успешны.…
2.52sВремя ответа (среднее)…
360Общее число входных токенов…
70Выходные токены…
235Токены рассуждений…
Grok 4.20 BetaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
5.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)541msВремя ответа (макс.)541msВремя ответа (суммарно)541msТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.35sВремя ответа (макс.)9.38sВремя ответа (суммарно)12.69sТест считается полностью пройденным, только если все его прогоны успешны.…
6.35sВремя ответа (среднее)…
765Общее число входных токенов…
182Выходные токены…
1,243Токены рассуждений…
Grok 4.20 BetaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
6.3Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)649msВремя ответа (макс.)952msВремя ответа (суммарно)1.30sТест считается полностью пройденным, только если все его прогоны успешны.…
9.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)3.54sВремя ответа (макс.)6.03sВремя ответа (суммарно)10.62sТест считается полностью пройденным, только если все его прогоны успешны.…
3.54sВремя ответа (среднее)…
792Общее число входных токенов…
771Выходные токены…
2,055Токены рассуждений…
Grok 4.20 BetaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
7.7Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)586msВремя ответа (макс.)813msВремя ответа (суммарно)1.76sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.72sВремя ответа (макс.)7.72sВремя ответа (суммарно)7.72sТест считается полностью пройденным, только если все его прогоны успешны.…
7.72sВремя ответа (среднее)…
9,781Общее число входных токенов…
304Выходные токены…
984Токены рассуждений…
Grok 4.20 BetaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.79sВремя ответа (макс.)4.79sВремя ответа (суммарно)4.79sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)38.47sВремя ответа (макс.)38.47sВремя ответа (суммарно)38.47sТест считается полностью пройденным, только если все его прогоны успешны.…
38.47sВремя ответа (среднее)…
228Общее число входных токенов…
304Выходные токены…
8,240Токены рассуждений…
Grok 4.20 BetaАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.