Навигация
AI BENCHY
Advertise here

AI BENCHY Compare

Inception: Mercury 2 vs inclusionAI: Ling-2.6-flash

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-03

Метрика Mercury 2 Mercury 2 none Релиз: 2026-02-24 Ling-2.6-flash Ling-2.6-flash none Релиз: 2026-04-21
Оценка 4.6 5.2
Ранг #153 #135
Надежность 10.0 10.0
Стабильность 9.1 9.2
Тестов верно
Доля успешных попыток 25.0% 33.3%
Нестабильные тесты 2 2
Всего запусков 60 60
Стоимость за результат 0.216 0.005
Общая стоимость $0.009 $0.001
Цена входа $0.250 / 1M $0.010 / 1M
Цена выхода $0.750 / 1M $0.030 / 1M
Общее число входных токенов 25,515 40,718
Выходные токены 3,001 2,878
Токены рассуждений 0 0
Время ответа (среднее) 614ms 9.34s
Время ответа (макс.) 1.27s 35.34s
Время ответа (суммарно) 12.28s 177.48s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 3.0 10.0 0.0% 0 483ms 631 286 0
Ling-2.6-flash 6.8 8.1 58.3% 1 11.81s 726 573 0
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 3.5 9.4 0.0% 0 831ms 4,631 1,650 0
Ling-2.6-flash 6.5 10.0 50.0% 0 11.21s 813 381 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 3.0 10.0 0.0% 0 606ms 4,821 131 0
Ling-2.6-flash 3.0 10.0 0.0% 0 35.34s 20,818 1,069 0
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 7.3 5.9 83.3% 1 667ms 6,362 180 0
Ling-2.6-flash 6.5 10.0 50.0% 0 8.48s 8,004 246 0
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 5.3 7.2 44.4% 1 534ms 784 46 0
Ling-2.6-flash 3.0 10.0 0.0% 0 4.95s 810 24 0
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 4.8 10.0 0.0% 0 628ms 495 159 0
Ling-2.6-flash 4.0 10.0 0.0% 0 1.45s 540 109 0
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 6.5 10.0 50.0% 0 551ms 691 82 0
Ling-2.6-flash 9.8 10.0 100.0% 0 5.52s 732 81 0
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 3.1 10.0 0.0% 0 535ms 694 251 0
Ling-2.6-flash 2.9 7.2 11.1% 1 6.51s 729 151 0
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 10.0 10.0 100.0% 0 1.27s 6,193 197 0
Ling-2.6-flash 3.0 10.0 0.0% 0 18.80s 7,324 229 0
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 3.0 10.0 0.0% 0 548ms 213 19 0
Ling-2.6-flash 3.0 10.0 0.0% 0 1.06s 222 15 0

Быстрое сравнение

Сменить пару сравнения