Сравнить Графики Методология

Язык:

❤️ Made by XCS

AI BENCHY Compare

Trinity Large Preview vs OpenAI: gpt-oss-120b

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-06

Метрика	Trinity Large Preview none Релиз: 2026-01-27 Бесплатно доступно	OpenAI: gpt-oss-120b medium Релиз: 2025-08-05 Бесплатно доступно
Ранг	#45	#39
Средний балл	4.2	5.1
Стабильность	9.6	7.4
Стоимость за результат	0.000	0.135
Общая стоимость	$0.000	$0.010
Тестов верно
Доля успешных попыток	33.3%	54.2%
Нестабильные тесты	1	5
Всего запусков	48	48
Выходные токены	1,837	13,210
Токены рассуждений	0	34,230
Время ответа (среднее)	3.15s	16.65s
Время ответа (макс.)	8.91s	50.92s
Время ответа (суммарно)	50.46s	149.88s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	10.0	10.0	0.0%	0		3.59s	587	0
OpenAI: gpt-oss-120b	7.0	9.8	66.7%	0		19.76s	3,463	2,077

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	10.0	10.0	0.0%	0		8.91s	294	0
OpenAI: gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	9.9	10.0	100.0%	0		3.26s	186	0
OpenAI: gpt-oss-120b	5.5	5.9	66.7%	1		1.98s	241	1,114

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	4.0	10.0	33.3%	0		877ms	25	0
OpenAI: gpt-oss-120b	10.0	4.4	22.2%	2		50.92s	6,784	20,606

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	3.0	9.9	0.0%	0		2.86s	124	0
OpenAI: gpt-oss-120b	3.0	10.0	0.0%	0		7.90s	107	387

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	3.5	6.7	16.7%	1		1.09s	63	0
OpenAI: gpt-oss-120b	9.5	10.0	100.0%	0		7.63s	126	1,799

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	4.0	10.0	33.3%	0		3.30s	291	0
OpenAI: gpt-oss-120b	1.7	4.7	22.2%	2		11.80s	1,508	2,092

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0
OpenAI: gpt-oss-120b	9.0	10.0	100.0%	0		6.91s	287	1,083

Быстрое сравнение

Сменить пару сравнения

gpt-oss-120bmediumБесплатно доступноvsQwen3.5-122B-A10Bnone Gemini 2.5 Flashnonevsgpt-oss-120bmediumБесплатно доступно gpt-oss-120bmediumБесплатно доступноvsQwen3.5-Flashnone gpt-oss-120bmediumБесплатно доступноvsQwen3.5-27Bnone gpt-oss-120bmediumБесплатно доступноvsQwen3.5-35B-A3Bnone DeepSeek V3.2nonevsgpt-oss-120bmediumБесплатно доступно Trinity Large PreviewnoneБесплатно доступноvsMiniMax M2.5medium Trinity Large PreviewnoneБесплатно доступноvsQwen3 Coder Nextmedium gpt-oss-120bmediumБесплатно доступноvsGLM 5none Kimi K2.5nonevsgpt-oss-120bmediumБесплатно доступно Trinity Large PreviewnoneБесплатно доступноvsMercury 2medium gpt-oss-120bmediumБесплатно доступноvsQwen3 Coder Nextnone