The Rise of Mixture-of-Experts

Mixture-of-Experts (MoE) models activate only a subset of their parameters for each token, dramatically reducing inference costs while maintaining quality. Among the 100 coding models we track, 11 use MoE or sparse architectures.

MoE Models

Dense Models

MoE Avg Score

/100

Dense Avg Score

/100

Top MoE Models

These models use sparse mixture-of-experts or similar architectures that activate only a fraction of total parameters per forward pass.

#11

Qwen3 VL 30B A3B Thinking

Alibaba

#12

Qwen3 VL 235B A22B Thinking

Qwen3 235B A22B Thinking 2507

Alibaba

#86

Qwen3 VL 30B A3B Instruct

Alibaba

#88

Qwen3 Coder 480B A35B (free)

Alibaba

#92

Tongyi DeepResearch 30B A3B

Alibaba

#99

Llama 4 Maverick

How MoE Works

Traditional dense transformers activate every parameter for every token. MoE models instead use a router network to select a subset of expert layers for each input. For example, a 397B parameter model might only activate 17B parameters per token — delivering the quality of a large model at the inference cost of a small one.

This architecture has been adopted by major players including DeepSeek (V3 series), Qwen (3.5 series), and Meta (Llama 4 Maverick). The trend toward MoE is accelerating as providers seek to offer better quality-per-dollar ratios.

Cost Efficiency

The primary advantage of MoE is cost efficiency. By activating fewer parameters, providers can offer lower token prices while maintaining competitive quality. In our data, MoE models average 58/100 vs 62/100 for dense models — a gap that is narrowing rapidly.

Key Takeaways

11 MoE models are now competitive in the coding category, up from near-zero two years ago.

MoE architectures offer 3-10x cost reduction per token compared to equivalent dense models.

The quality gap between MoE and dense models has effectively closed for most practical applications.

Expect MoE to become the default architecture for new model releases in 2026.

How MoE Works

Key Takeaways

11 MoE models are now competitive in the coding category, up from near-zero two years ago.

MoE architectures offer 3-10x cost reduction per token compared to equivalent dense models.

The quality gap between MoE and dense models has effectively closed for most practical applications.

Expect MoE to become the default architecture for new model releases in 2026.