AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Google: Gemini 3.1 Flash Lite

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-05-19

Métrique	Claude Opus 4.6 Claude Opus 4.6 medium Sortie: 2026-02-05	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite minimal Sortie: 2026-05-08

Métrique	Claude Opus 4.6 Claude Opus 4.6 medium Sortie: 2026-02-05	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite minimal Sortie: 2026-05-08
Score	7.4	6.8
Rang	#57	#75
Fiabilité	10.0	10.0
Cohérence	9.1	8.7
Tests corrects
Taux de réussite par tentative	66.7%	59.7%
Tests instables	2	3
Exécutions totales	57	57
Coût par résultat	14.243	0.111
Coût total	$1.710	$0.012
Prix d'entrée	$5.000 / 1M	$0.250 / 1M
Prix de sortie	$25.000 / 1M	$1.500 / 1M
Jetons de sortie	37,874	2,457
Jetons de raisonnement	21,390	0
Temps de réponse (moy.)	24.59s	1.41s
Temps de réponse (max)	83.40s	4.49s
Temps de réponse (total)	295.08s	26.72s

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score vs Temps de réponse (moy.)

Total des jetons de sortie

Score vs Total des jetons de sortie

Répartition par catégorie

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
Gemini 3.1 Flash Lite	8.3	10.0	75.0%	0		1.10s	639	0

Programmation	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		23.11s	3,486	1,504
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		1.31s	636	0

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		2.53s	357	0

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		1.04s	279	0

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		1.02s	15	0

Intelligence générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
Gemini 3.1 Flash Lite	4.0	10.0	0.0%	0		791ms	63	0

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		932ms	72	0

Résolution d'énigmes	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
Gemini 3.1 Flash Lite	6.0	4.6	66.7%	2		2.15s	153	0

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		3.51s	234	0

Culture générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	8,045	2,452
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		724ms	9	0

Comparaison rapide

Changer la paire de comparaison

Gemini 3.1 Flash LiteminimalvsKimi K2.5medium Gemini 3.1 Flash LiteminimalvsGPT-5 Minimedium Gemini 3.1 Flash LiteminimalvsQwen3.6 27Bmedium Gemini 3.1 Flash LiteminimalvsGrok 4.20medium DeepSeek V4 ProhighvsGemini 3.1 Flash Liteminimal Gemini 3.1 Flash LiteminimalvsGPT-5.5none Claude Opus 4.6mediumvsQwen3.6 Max Previewnone Claude Opus 4.6mediumvsRing-2.6-1Tnone Claude Opus 4.6mediumvsDeepSeek V4 FlashhighDisponible gratuitement Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsGemini 3.1 Flash Litelow Claude Opus 4.6mediumvsGPT-5.2 Chatnone