AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Poolside: Laguna XS 2.1

Сводка

Сравнение benchmark Claude Opus 4.8 vs Laguna XS 2.1: Claude Opus 4.8 лидирует по среднему баллу: 7.2 vs 7.0. Laguna XS 2.1 имеет более низкую стоимость benchmark: $0.036 vs $0.539. Claude Opus 4.8 быстрее: 3.48s vs 30.08s, с долей успешных попыток 61.9% vs 44.4%.

Рекомендуемая модель: Laguna XS 2.1 - Его балл близок к лучшему здесь (7.0 против 7.2), при этом он примерно в 15.3 раза дешевле, чем Claude Opus 4.8.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-02

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	Laguna XS 2.1 Laguna XS 2.1 medium Релиз: 2026-07-02 Бесплатно доступно

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	Laguna XS 2.1 Laguna XS 2.1 medium Релиз: 2026-07-02 Бесплатно доступно
Оценка	7.2	7.0
Ранг	#59	#67
Надежность	10.0	10.0
Стабильность	9.2	9.6
Тестов верно
Доля успешных попыток	61.9%	44.4%
Нестабильные тесты	2	1
Всего запусков	63	63
Стоимость за результат	4.485	0.392
Общая стоимость	$0.539	$0.036
Цена входа	$5.000 / 1M	$0.060 / 1M
Цена выхода	$25.000 / 1M	$0.120 / 1M
Общее число входных токенов	67,104	45,324
Выходные токены	8,107	25,761
Токены рассуждений	0	268,677
Время ответа (среднее)	3.48s	30.08s
Время ответа (макс.)	17.73s	155.23s
Время ответа (суммарно)	73.00s	631.77s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#59 Claude Opus 4.8

none

Стоимость: $0.053
Время: 22.0s
Токены: 2,253 tok

#67 Laguna XS 2.1

medium

Стоимость: $0.001
Время: 30.6s
Токены: 4,678 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Laguna XS 2.1	4.8	10.0	25.0%	0		41.96s	774	353	73,090

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Laguna XS 2.1	5.5	10.0	33.3%	0		70.35s	7,995	23,767	83,258

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	29,658	3,259	0
Laguna XS 2.1	9.6	10.0	100.0%	0		13.43s	18,033	507	5,908

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Laguna XS 2.1	10.0	10.0	100.0%	0		4.50s	7,734	234	3,129

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
Laguna XS 2.1	2.9	7.2	11.1%	1		65.66s	834	17	91,533

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Laguna XS 2.1	5.0	10.0	0.0%	0		4.15s	537	119	1,375

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Laguna XS 2.1	9.8	10.0	100.0%	0		2.57s	753	82	1,844

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Laguna XS 2.1	5.3	10.0	33.3%	0		3.43s	771	357	3,355

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Laguna XS 2.1	10.0	10.0	100.0%	0		3.01s	7,638	309	748

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Laguna XS 2.1	3.0	10.0	0.0%	0		10.88s	255	16	4,437

Быстрое сравнение

Сменить пару сравнения

Laguna XS 2.1mediumБесплатно доступноvsStep 3.7 Flashhigh Claude Opus 4.8nonevsGemma 4 26B A4BmediumБесплатно доступно Gemini 3.5 FlashnonevsLaguna XS 2.1mediumБесплатно доступно Laguna XS 2.1mediumБесплатно доступноvsGLM 5.2none Laguna XS 2.1mediumБесплатно доступноvsQwen3.7 Plusnone Claude Opus 4.8nonevsGrok 4.20medium DeepSeek V4 PrononevsLaguna XS 2.1mediumБесплатно доступно Claude Opus 4.8nonevsStep 3.7 Flashhigh Claude Opus 4.8nonevsGLM 5.1medium Gemini 3 Flash PreviewnonevsLaguna XS 2.1mediumБесплатно доступно Claude Opus 4.8nonevsGemini 3 Flash Previewlow Claude Opus 4.8nonevsMiMo-V2.5-Promedium