AI BENCHY Compare

Google: Gemini 2.5 Flash vs OpenAI: GPT-5.3-Codex

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-15

Метрика	Gemini 2.5 Flash Gemini 2.5 Flash medium Релиз: 2025-06-17	GPT-5.3-Codex GPT-5.3-Codex medium Релиз: 2026-02-05

Метрика	Gemini 2.5 Flash Gemini 2.5 Flash medium Релиз: 2025-06-17	GPT-5.3-Codex GPT-5.3-Codex medium Релиз: 2026-02-05
Ранг	#15	#5
Оценка	8.0	8.7
Стабильность	9.5	9.1
Стоимость за результат	2.619	4.485
Общая стоимость	$0.288	$0.539
Тестов верно
Доля успешных попыток	72.9%	83.3%
Нестабильные тесты	1	2
Всего запусков	48	48
Выходные токены	1,370	1,764
Токены рассуждений	110,522	33,348
Время ответа (среднее)	12.35s	16.59s
Время ответа (макс.)	95.48s	100.93s
Время ответа (суммарно)	197.62s	265.39s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 2.5 Flash	7.8	10.0	66.7%	0		6.98s	249	8,832
GPT-5.3-Codex	10.0	10.0	100.0%	0		4.69s	216	1,421

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 2.5 Flash	10.0	10.0	100.0%	0		28.44s	303	11,922
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	364	2,731

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 2.5 Flash	10.0	10.0	100.0%	0		4.06s	279	2,325
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	234	728

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 2.5 Flash	5.9	7.2	55.6%	1		37.34s	18	80,702
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	64	25,308

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 2.5 Flash	4.8	10.0	0.0%	0		4.86s	92	1,899
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	187	331

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 2.5 Flash	9.8	10.0	100.0%	0		2.62s	69	1,203
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	93	693

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 2.5 Flash	7.7	10.0	66.7%	0		3.94s	126	2,499
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.12s	352	1,644

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 2.5 Flash	10.0	10.0	100.0%	0		6.20s	234	1,140
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	254	492

Быстрое сравнение

Сменить пару сравнения

Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone Claude Sonnet 4.6nonevsGemini 2.5 Flashmedium Gemini 3 Flash PreviewnonevsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3-Codexmedium Gemini 2.5 FlashmediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash Lite PreviewnonevsGPT-5.3-Codexmedium Gemini 2.5 FlashmediumvsGLM 5none Claude Sonnet 4.6nonevsGPT-5.3-Codexmedium DeepSeek V3.2nonevsGemini 2.5 Flashmedium GPT-5.3-CodexmediumvsQwen3.5 Plus 2026-02-15none