AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs inclusionAI: Ring-2.6-1T

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	Claude Opus 4.7 Claude Opus 4.7 none Релиз: 2026-04-16	Ring-2.6-1T Ring-2.6-1T medium Релиз: 2026-05-10

Метрика	Claude Opus 4.7 Claude Opus 4.7 none Релиз: 2026-04-16	Ring-2.6-1T Ring-2.6-1T medium Релиз: 2026-05-10
Оценка	8.9	7.2
Ранг	#10	#61
Надежность	10.0	9.9
Стабильность	10.0	8.7
Тестов верно
Доля успешных попыток	84.2%	66.7%
Нестабильные тесты	0	3
Всего запусков	57	60
Стоимость за результат	3.164	0.000
Общая стоимость	$0.507	$0.000
???? ?????	$5.000 / 1M	$0.075 / 1M
???? ??????	$25.000 / 1M	$0.625 / 1M
Выходные токены	6,329	21,752
Токены рассуждений	0	42,754
Время ответа (среднее)	3.04s	61.29s
Время ответа (макс.)	18.27s	304.19s
Время ответа (суммарно)	57.79s	1164.50s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	8.3	10.0	75.0%	0		2.12s	522	0
Ring-2.6-1T	10.0	10.0	100.0%	0		42.21s	3,833	4,891

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.84s	494	0
Ring-2.6-1T	10.0	10.0	100.0%	0		59.65s	1,369	3,985

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	9.5	10.0	100.0%	0		18.27s	3,504	0
Ring-2.6-1T	10.0	10.0	100.0%	0		304.19s	324	6,088

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.15s	324	0
Ring-2.6-1T	6.5	10.0	50.0%	0		37.36s	840	1,937

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	7.7	10.0	66.7%	0		1.19s	78	0
Ring-2.6-1T	3.5	4.4	33.3%	2		64.92s	9,744	15,013

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		3.47s	257	0
Ring-2.6-1T	4.1	10.0	0.0%	0		58.26s	150	583

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		1.46s	114	0
Ring-2.6-1T	9.8	10.0	100.0%	0		11.78s	266	1,831

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.58s	661	0
Ring-2.6-1T	5.9	7.2	55.6%	1		20.73s	697	2,479

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		4.74s	372	0
Ring-2.6-1T	10.0	10.0	100.0%	0		104.44s	234	1,531

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	3.0	10.0	0.0%	0		1.46s	3	0
Ring-2.6-1T	3.0	10.0	0.0%	0		113.91s	4,295	4,416

Быстрое сравнение

Сменить пару сравнения

Ring-2.6-1TmediumvsQwen3.6 Max Previewnone DeepSeek V4 FlashhighБесплатно доступноvsRing-2.6-1Tmedium Ring-2.6-1TmediumvsGPT-5.3 Chatnone Gemini 3.1 Flash LitelowvsRing-2.6-1Tmedium Claude Sonnet 4.6nonevsRing-2.6-1Tmedium Gemini 3.1 Flash Lite PreviewnonevsRing-2.6-1Tmedium Ring-2.6-1TmediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewlowvsRing-2.6-1Tmedium Gemini 3 Flash PreviewnonevsRing-2.6-1Tmedium Gemma 4 31BnoneБесплатно доступноvsRing-2.6-1Tmedium Gemini 3.1 Flash LiteminimalvsRing-2.6-1Tmedium DeepSeek V4 ProhighvsRing-2.6-1Tmedium