Comparaison benchmark North Mini Code vs Qwen3.5-27B : Le score moyen est pratiquement à égalité avec 5.8 vs 5.9. North Mini Code a le coût de benchmark le plus bas avec $0.000 vs $0.015. Qwen3.5-27B est plus rapide avec 1.68s vs 106.18s, avec des taux de réussite de 50.8% vs 38.1%.
Modèle recommandé: Qwen3.5-27B - Il obtient le meilleur score ici (5.9) et répond environ 63.3x plus vite que North Mini Code.
Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-06-18
5.8Score moyen sur l’ensemble des tests de benchmark.…
5.9Score moyen sur l’ensemble des tests de benchmark.…
Rang
#107
#104
Fiabilité
8.5Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
Cohérence
8.5Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
9.3Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 9Mise en forme supplémentaire: 2Erreur API: 1Temps de réponse (moy.)106.18sTemps de réponse (max)357.05sTemps de réponse (total)2229.70sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 12N'a pas suivi les instructions: 2Temps de réponse (moy.)1.68sTemps de réponse (max)9.39sTemps de réponse (total)35.25sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
50.8%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
38.1%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
4Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Exécutions totales
55Exécutions totales…
63Exécutions totales…
Coût par résultat
0.000Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
0.249Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.000Coût total (prix actuel)…
$0.015Coût total (prix actuel)…
Prix d'entrée
$0.000 / 1MPrix d'entrée…
$0.195 / 1MPrix d'entrée…
Prix de sortie
$0.000 / 1MPrix de sortie…
$1.560 / 1MPrix de sortie…
Total des jetons d'entrée
32,891Total des jetons d'entrée…
44,478Total des jetons d'entrée…
Jetons de sortie
424,772Jetons de sortie…
3,592Jetons de sortie…
Jetons de raisonnement
1,021,489Jetons de raisonnement…
0Jetons de raisonnement…
Temps de réponse (moy.)
106.18sTemps de réponse (moy.)…
1.68sTemps de réponse (moy.)…
Temps de réponse (max)
357.05sTemps de réponse (max)…
9.39sTemps de réponse (max)…
Temps de réponse (total)
2229.70sTemps de réponse (total)…
35.25sTemps de réponse (total)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
8.4Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
75.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 1Temps de réponse (moy.)64.79sTemps de réponse (max)230.24sTemps de réponse (total)259.15sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.8Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
25.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)788msTemps de réponse (max)1.34sTemps de réponse (total)3.15sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.5Score moyen sur l’ensemble des tests de benchmark.…
4.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)320.43sTemps de réponse (max)357.05sTemps de réponse (total)961.28sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.8Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)1.80sTemps de réponse (max)2.51sTemps de réponse (total)5.40sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.8Score moyen sur l’ensemble des tests de benchmark.…
1.6Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 1Temps de réponse (moy.)323.07sTemps de réponse (max)323.07sTemps de réponse (total)323.07sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.8Score moyen sur l’ensemble des tests de benchmark.…
1.6Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)9.39sTemps de réponse (max)9.39sTemps de réponse (total)9.39sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)24.06sTemps de réponse (max)26.90sTemps de réponse (total)48.13sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.43sTemps de réponse (max)1.45sTemps de réponse (total)2.86sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.3Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)71.37sTemps de réponse (max)195.94sTemps de réponse (total)214.11sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)540msTemps de réponse (max)649msTemps de réponse (total)1.62sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.1Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)25.08sTemps de réponse (max)25.08sTemps de réponse (total)25.08sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)2.51sTemps de réponse (max)2.51sTemps de réponse (total)2.51sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.8Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)15.43sTemps de réponse (max)28.25sTemps de réponse (total)30.85sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.03sTemps de réponse (max)1.40sTemps de réponse (total)2.06sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)19.70sTemps de réponse (max)36.03sTemps de réponse (total)59.10sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.7Score moyen sur l’ensemble des tests de benchmark.…
7.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
55.6%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)1.38sTemps de réponse (max)2.24sTemps de réponse (total)4.13sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.93sTemps de réponse (max)3.93sTemps de réponse (total)3.93sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.54sTemps de réponse (max)3.54sTemps de réponse (total)3.54sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)305.02sTemps de réponse (max)305.02sTemps de réponse (total)305.02sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)599msTemps de réponse (max)599msTemps de réponse (total)599msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…