Speed Benchmarks

Compare inference speed (tokens/sec) across AI providers. Speed-optimized providers like Groq use custom silicon for dramatically faster output.

Fastest: Gemma 2 9B (Groq) at 950 tok/s

Output Speed (tokens/sec)

Model	Provider	Tokens/sec	TTFT (ms)	Category	Note
🥇Gemma 2 9B (Groq)	Groq	950	30	Speed-Optimized	Small model + LPU
🥈Llama 3.3 70B (Groq)	Groq	820	45	Speed-Optimized	LPU custom silicon
🥉Llama 4 Maverick (Groq)	Groq	710	55	Speed-Optimized	LPU inference
Mixtral 8x7B (Groq)	Groq	580	60	Speed-Optimized	MoE + LPU
Gemini 2.5 Flash Lite	Google	480	50	Standard	Fastest Gemini
Gemini 2.5 Flash	Google	350	80	Standard	Optimized for speed
GPT-5 Nano	OpenAI	260	95	Standard	—
GPT-5 Mini	OpenAI	155	180	Standard	—
Grok 3	xAI	140	200	Standard	—
Devstral 2	Mistral	130	170	Open Source	Code-optimized
Claude Sonnet 4	Anthropic	125	230	Standard	—
Gemini 2.5 Pro	Google	120	250	Standard	—
Gemini 3 Pro Preview	Google	110	280	Standard	—
Llama 4 Maverick	Meta	100	260	Open Source	—
DeepSeek V3	DeepSeek	95	280	Open Source	—
Mistral Large	Mistral	90	240	Open Source	—
GPT-5	OpenAI	85	320	Standard	—
GPT-5.2	OpenAI	75	380	Standard	Heavy reasoning
DeepSeek R1	DeepSeek	55	400	Open Source	Reasoning model
Claude Opus 4	Anthropic	42	450	Standard	Highest quality

Custom Silicon

Groq's LPU (Language Processing Unit) is purpose-built for LLM inference, delivering 5–10× faster output than GPU-based providers.

TTFT Matters

Time-to-first-token (TTFT) affects perceived speed. Speed-optimized providers often respond in under 60ms — instant for users.

Trade-offs

Speed-optimized providers currently support fewer models. Frontier models (GPT-5, Claude Opus) prioritize quality over raw throughput.

Benchmarks are approximate figures based on publicly available data and community testing. Actual performance varies by prompt length, concurrency, region, and model configuration.

Compare Models Side-by-Side Browse All Models