Google: Gemma 4 26B A4B vs Mistral: Mistral Small 4
Résumé
Comparaison benchmark Gemma 4 26B A4B vs Mistral Small 4 : Gemma 4 26B A4B mène au score moyen avec 5.5 vs 5.1. Gemma 4 26B A4B a le coût de benchmark le plus bas avec $0.004 vs $0.068. Gemma 4 26B A4B est plus rapide avec 5.91s vs 9.40s, avec des taux de réussite de 44.4% vs 44.4%.
Modèle recommandé: Gemma 4 26B A4B - Il obtient le meilleur score ici (5.5) tout en coûtant environ 22.4x moins que Mistral Small 4.
Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-06-12
5.5Score moyen sur l’ensemble des tests de benchmark.…
5.1Score moyen sur l’ensemble des tests de benchmark.…
Rang
#125
#138
Fiabilité
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
Cohérence
9.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
6.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 10N'a pas suivi les instructions: 2Délai dépassé: 1Temps de réponse (moy.)5.91sTemps de réponse (max)57.10sTemps de réponse (total)124.05sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 12Erreur API: 2N'a pas suivi les instructions: 2Temps de réponse (moy.)9.40sTemps de réponse (max)59.15sTemps de réponse (total)197.39sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
8Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Exécutions totales
63Exécutions totales…
63Exécutions totales…
Coût par résultat
0.068Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
1.344Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.004Coût total (prix actuel)…
$0.068Coût total (prix actuel)…
Prix d'entrée
$0.060 / 1MPrix d'entrée…
$0.150 / 1MPrix d'entrée…
Prix de sortie
$0.330 / 1MPrix de sortie…
$0.600 / 1MPrix de sortie…
Total des jetons d'entrée
40,038Total des jetons d'entrée…
42,576Total des jetons d'entrée…
Jetons de sortie
1,824Jetons de sortie…
24,184Jetons de sortie…
Jetons de raisonnement
0Jetons de raisonnement…
84,678Jetons de raisonnement…
Temps de réponse (moy.)
5.91sTemps de réponse (moy.)…
9.40sTemps de réponse (moy.)…
Temps de réponse (max)
57.10sTemps de réponse (max)…
59.15sTemps de réponse (max)…
Temps de réponse (total)
124.05sTemps de réponse (total)…
197.39sTemps de réponse (total)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
8.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
75.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.28sTemps de réponse (max)2.09sTemps de réponse (total)5.13sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.6Score moyen sur l’ensemble des tests de benchmark.…
3.8Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
3Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)2.67sTemps de réponse (max)5.03sTemps de réponse (total)10.66sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.7Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
22.2%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Délai dépassé: 1Temps de réponse (moy.)4.16sTemps de réponse (max)7.07sTemps de réponse (total)12.48sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.4Score moyen sur l’ensemble des tests de benchmark.…
5.1Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)39.98sTemps de réponse (max)59.15sTemps de réponse (total)119.95sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)30.53sTemps de réponse (max)30.53sTemps de réponse (total)30.53sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)25.25sTemps de réponse (max)25.25sTemps de réponse (total)25.25sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.70sTemps de réponse (max)2.21sTemps de réponse (total)3.41sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.3Score moyen sur l’ensemble des tests de benchmark.…
5.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
83.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)1.23sTemps de réponse (max)1.96sTemps de réponse (total)2.46sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.6Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
22.2%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)2.49sTemps de réponse (max)4.23sTemps de réponse (total)7.48sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.3Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Mauvaise réponse: 1Temps de réponse (moy.)6.11sTemps de réponse (max)13.72sTemps de réponse (total)18.34sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)3.54sTemps de réponse (max)3.54sTemps de réponse (total)3.54sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.8Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)2.05sTemps de réponse (max)2.05sTemps de réponse (total)2.05sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)690msTemps de réponse (max)878msTemps de réponse (total)1.38sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.3Score moyen sur l’ensemble des tests de benchmark.…
5.8Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
83.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.38sTemps de réponse (max)1.61sTemps de réponse (total)2.75sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.2Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)744msTemps de réponse (max)972msTemps de réponse (total)2.23sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.4Score moyen sur l’ensemble des tests de benchmark.…
9.7Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2N'a pas suivi les instructions: 1Temps de réponse (moy.)2.17sTemps de réponse (max)2.60sTemps de réponse (total)6.50sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)57.10sTemps de réponse (max)57.10sTemps de réponse (total)57.10sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.50sTemps de réponse (max)3.50sTemps de réponse (total)3.50sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)778msTemps de réponse (max)778msTemps de réponse (total)778msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)5.92sTemps de réponse (max)5.92sTemps de réponse (total)5.92sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…