AI BENCHY Compare

Trinity Large Preview vs xAI: Grok 4.20

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-03

Метрика	Trinity Large Preview Trinity Large Preview none Релиз: 2026-01-27	Grok 4.20 Grok 4.20 none Релиз: 2026-03-31

Метрика	Trinity Large Preview Trinity Large Preview none Релиз: 2026-01-27	Grok 4.20 Grok 4.20 none Релиз: 2026-03-31
Оценка	4.7	5.4
Ранг	#148	#127
Надежность	10.0	Н/Д
Стабильность	9.3	10.0
Тестов верно
Доля успешных попыток	23.3%	33.3%
Нестабильные тесты	2	0
Всего запусков	60	54
Стоимость за результат	0.017	1.570
Общая стоимость	$0.008	$0.057
Цена входа	$0.243 / 1M	$1.250 / 1M
Цена выхода	$0.243 / 1M	$2.500 / 1M
Общее число входных токенов	29,828	41,313
Выходные токены	2,169	1,923
Токены рассуждений	0	0
Время ответа (среднее)	2.98s	1.11s
Время ответа (макс.)	14.34s	6.04s
Время ответа (суммарно)	56.57s	19.96s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Trinity Large Preview	3.1	10.0	0.0%	0		2.07s	651	550	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	1,986	267	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Trinity Large Preview	4.0	6.6	16.7%	1		14.34s	738	397	0
Grok 4.20	3.4	9.3	0.0%	0		1.22s	1,074	312	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Trinity Large Preview	3.0	10.0	0.0%	0		8.91s	12,053	294	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	17,673	282	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Trinity Large Preview	10.0	10.0	100.0%	0		3.26s	6,900	186	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	7,749	207	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Trinity Large Preview	5.3	10.0	33.3%	0		877ms	738	25	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	1,746	325	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Trinity Large Preview	4.5	10.0	0.0%	0		873ms	498	104	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	819	83	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Trinity Large Preview	3.5	10.0	0.0%	0		822ms	678	63	0
Grok 4.20	6.3	10.0	50.0%	0		445ms	1,350	60	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Trinity Large Preview	3.6	7.7	11.1%	1		1.97s	669	265	0
Grok 4.20	5.3	10.0	33.3%	0		473ms	1,671	198	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	6,699	267	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	7,245	189	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Trinity Large Preview	3.0	10.0	0.0%	0		777ms	204	18	0
Grok 4.20	-	-	-	-	-	-	-	-	-

Быстрое сравнение

Сменить пару сравнения

Trinity Large PreviewnonevsQwen3 Coder Nextmedium MiniMax M2.7mediumvsGrok 4.20none MiniMax M2.5mediumvsGrok 4.20none Mistral Small 4mediumvsGrok 4.20none Elephant AlphamediumvsGrok 4.20none Trinity Large PreviewnonevsGLM 4.7 Flashmedium CobuddymediumvsGrok 4.20none Owl AlphamediumvsGrok 4.20none Trinity Large PreviewnonevsQwen3.5-9Bmedium gpt-oss-120bmediumБесплатно доступноvsGrok 4.20none Nemotron 3 SupermediumБесплатно доступноvsGrok 4.20none Trinity Large PreviewnonevsElephant Alphamedium