Anthropic: Claude Sonnet 4.6 vs DeepSeek: DeepSeek V4 Flash
Résumé
Comparaison benchmark Claude Sonnet 4.6 vs DeepSeek V4 Flash : DeepSeek V4 Flash mène au score moyen avec 8.3 vs 7.8. DeepSeek V4 Flash a le coût de benchmark le plus bas avec $0.029 vs $1.418. Claude Sonnet 4.6 est plus rapide avec 17.06s vs 45.85s, avec des taux de réussite de 65.1% vs 74.6%.
Modèle recommandé: DeepSeek V4 Flash - Il obtient le meilleur score ici (8.3) tout en coûtant environ 49.8x moins que Claude Sonnet 4.6.
Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-06-12
7.8Score moyen sur l’ensemble des tests de benchmark.…
8.3Score moyen sur l’ensemble des tests de benchmark.…
Rang
#34
#26
Fiabilité
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
Cohérence
9.1Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
8.5Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4Mise en forme supplémentaire: 3Délai dépassé: 1Temps de réponse (moy.)17.06sTemps de réponse (max)46.35sTemps de réponse (total)221.83sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 6N'a pas suivi les instructions: 2Temps de réponse (moy.)45.85sTemps de réponse (max)218.13sTemps de réponse (total)962.79sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
65.1%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
74.6%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
4Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Exécutions totales
63Exécutions totales…
63Exécutions totales…
Coût par résultat
10.904Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
0.299Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$1.418Coût total (prix actuel)…
$0.029Coût total (prix actuel)…
Prix d'entrée
$3.000 / 1MPrix d'entrée…
$0.098 / 1MPrix d'entrée…
Prix de sortie
$15.000 / 1MPrix de sortie…
$0.196 / 1MPrix de sortie…
Total des jetons d'entrée
49,112Total des jetons d'entrée…
39,745Total des jetons d'entrée…
Jetons de sortie
54,703Jetons de sortie…
10,310Jetons de sortie…
Jetons de raisonnement
29,970Jetons de raisonnement…
123,501Jetons de raisonnement…
Temps de réponse (moy.)
17.06sTemps de réponse (moy.)…
45.85sTemps de réponse (moy.)…
Temps de réponse (max)
46.35sTemps de réponse (max)…
218.13sTemps de réponse (max)…
Temps de réponse (total)
221.83sTemps de réponse (total)…
962.79sTemps de réponse (total)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
6.5Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 1Mauvaise réponse: 1Temps de réponse (moy.)2.98sTemps de réponse (max)4.95sTemps de réponse (total)5.97sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
8.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
75.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)28.51sTemps de réponse (max)39.73sTemps de réponse (total)114.05sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.7Score moyen sur l’ensemble des tests de benchmark.…
6.6Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 1Mauvaise réponse: 1Temps de réponse (moy.)33.29sTemps de réponse (max)35.76sTemps de réponse (total)99.86sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.8Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)50.60sTemps de réponse (max)62.48sTemps de réponse (total)151.79sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)46.35sTemps de réponse (max)46.35sTemps de réponse (total)46.35sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)76.57sTemps de réponse (max)76.57sTemps de réponse (total)76.57sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)13.90sTemps de réponse (max)13.90sTemps de réponse (total)13.90sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)28.03sTemps de réponse (max)30.49sTemps de réponse (total)56.07sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.9Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
11.1%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 1Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.1Score moyen sur l’ensemble des tests de benchmark.…
4.4Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.5%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)100.31sTemps de réponse (max)218.13sTemps de réponse (total)300.92sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.94sTemps de réponse (max)4.94sTemps de réponse (total)4.94sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.1Score moyen sur l’ensemble des tests de benchmark.…
3.1Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)25.15sTemps de réponse (max)25.15sTemps de réponse (total)25.15sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.61sTemps de réponse (max)2.61sTemps de réponse (total)2.61sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)15.36sTemps de réponse (max)19.53sTemps de réponse (total)30.73sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.31sTemps de réponse (max)6.24sTemps de réponse (total)10.62sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
8.2Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
88.9%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)26.11sTemps de réponse (max)32.37sTemps de réponse (total)78.32sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.48sTemps de réponse (max)7.48sTemps de réponse (total)7.48sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)74.73sTemps de réponse (max)74.73sTemps de réponse (total)74.73sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)30.09sTemps de réponse (max)30.09sTemps de réponse (total)30.09sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)54.46sTemps de réponse (max)54.46sTemps de réponse (total)54.46sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…