AI BENCHY Compare

North Mini Code vs OpenAI: GPT-5.4

Zusammenfassung

North Mini Code vs GPT-5.4 Benchmark-Vergleich: GPT-5.4 führt beim Durchschnittsscore mit 5.8 vs 5.1. North Mini Code hat die niedrigeren Benchmark-Kosten mit $0.000 vs $0.122. GPT-5.4 ist schneller mit 1.42s vs 29.82s, mit Erfolgsraten von 19.1% vs 36.5%.

Empfohlenes Modell: GPT-5.4 - Es hat hier die beste Punktzahl (5.8) und antwortet etwa 21.0x schneller als North Mini Code.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18

Metrik	North Mini Code North Mini Code none Veröffentlichung: 2026-06-18 Kostenlos verfügbar	GPT-5.4 GPT-5.4 none Veröffentlichung: 2026-03-05

Metrik	North Mini Code North Mini Code none Veröffentlichung: 2026-06-18 Kostenlos verfügbar	GPT-5.4 GPT-5.4 none Veröffentlichung: 2026-03-05
Punktzahl	5.1	5.8
Rang	#131	#112
Zuverlässigkeit	8.5	10.0
Konsistenz	9.9	9.2
Korrekte Tests
Erfolgsquote pro Versuch	19.1%	36.5%
Instabile Tests	0	2
Gesamtläufe	57	63
Kosten pro Ergebnis	0.000	1.740
Gesamtkosten	$0.000	$0.122
Eingabepreis	$0.000 / 1M	$2.500 / 1M
Ausgabepreis	$0.000 / 1M	$15.000 / 1M
Gesamte Eingabe-Token	43,264	34,212
Ausgabe-Token	8,278	2,417
Denk-Token	0	0
Antwortzeit (Durchschnitt)	29.82s	1.42s
Antwortzeit (Maximum)	159.85s	2.95s
Antwortzeit (Gesamt)	626.26s	29.87s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#131 North Mini Code

none

Cost: $0.000
Time: 266.1s
Tokens: 63,551 tok

#112 GPT-5.4

none

Cost: $0.026
Time: 18.1s
Tokens: 1,792 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
North Mini Code	3.0	10.0	0.0%	0		22.48s	402	4,075	0
GPT-5.4	3.2	8.0	8.3%	1		1.21s	606	406	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
North Mini Code	3.9	10.0	0.0%	0		21.96s	7,119	504	0
GPT-5.4	5.5	10.0	33.3%	0		1.62s	7,305	516	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
North Mini Code	3.5	8.7	0.0%	0		159.85s	24,265	2,920	0
GPT-5.4	3.0	10.0	0.0%	0		2.89s	11,019	291	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
North Mini Code	10.0	10.0	100.0%	0		28.00s	6,819	183	0
GPT-5.4	10.0	10.0	100.0%	0		1.04s	7,140	222	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
North Mini Code	3.0	10.0	0.0%	0		14.73s	621	14	0
GPT-5.4	5.3	7.2	44.4%	1		1.07s	723	50	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
North Mini Code	3.9	9.6	0.0%	0		34.77s	444	115	0
GPT-5.4	4.4	9.9	0.0%	0		1.78s	477	184	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
North Mini Code	6.5	10.0	50.0%	0		30.68s	597	57	0
GPT-5.4	6.5	10.0	50.0%	0		1.07s	660	81	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
North Mini Code	3.5	10.0	0.0%	0		24.43s	435	353	0
GPT-5.4	5.6	9.8	33.3%	0		1.44s	642	381	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
North Mini Code	9.5	10.0	100.0%	0		3.64s	2,403	51	0
GPT-5.4	10.0	10.0	100.0%	0		2.75s	5,445	246	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
North Mini Code	3.0	10.0	0.0%	0		37.37s	159	6	0
GPT-5.4	3.0	10.0	0.0%	0		990ms	195	40	0

Schnellvergleich

Vergleichspaar wechseln

North Mini CodenoneKostenlos verfügbarvsMistral Small 4medium North Mini CodemediumKostenlos verfügbarvsGPT-5.4none North Mini CodenoneKostenlos verfügbarvsMiniMax M2.7medium CobuddymediumvsNorth Mini CodenoneKostenlos verfügbar Gemini 3.1 Flash LiteminimalvsGPT-5.4none North Mini CodenoneKostenlos verfügbarvsMiniMax M2.5medium North Mini CodenoneKostenlos verfügbarvsQwen3 Coder Nextmedium GPT-5.4nonevsQwen3.5-35B-A3Bmedium Gemma 4 31BmediumKostenlos verfügbarvsGPT-5.4none Nemotron 3 SupermediumKostenlos verfügbarvsGPT-5.4none MiniMax M2.7mediumvsGPT-5.4none Gemini 3.1 Flash LitelowvsGPT-5.4none