Change Significance Tracker

Not all rank changes are meaningful. Some are random noise. This page uses statistical analysis to tell you which model score movements are real trends vs. normal fluctuation, so you know which changes to pay attention to.

Models Analyzed

300

Significant Changes

Noise (Not Significant)

268

Both Timeframes

125

What This Means

32 of 300 models have score changes that are statistically significant - these are real performance shifts, not random noise.
268 models show score changes within their normal variation range - don't read too much into small rank shifts for these models.
125 models show significant changes on both daily and weekly timeframes - these are the strongest, most reliable signals of real performance change.
How to use this: When a model's rank changes, check here first. If it's not flagged as significant, the change is likely temporary noise. If it is significant, the model is genuinely improving or declining.

Top Significant Changes (by |Z-Score|)

Real Performance Shifts

32 models whose recent scores deviate enough from their historical average to be considered a real change (not noise). Sorted by how extreme the change is. Z-Score measures how unusual the change is - values beyond ±1.96 mean there's a 95% chance the change is real.

Model	Provider	Current	Baseline	Deviation	Z-Score	Direction	Confidence
Trinity Miniarcee-ai	arcee-ai	83.3	81.6	+1.66	2.41	Improvement	±1.36
GPT-3.5 Turbo InstructOpenAI	OpenAI	32.9	30.7	+2.24	2.31	Improvement	±1.90
Claude 3.5 HaikuAnthropic	Anthropic	63.4	61.9	+1.51	2.21	Improvement	±1.34
Claude Opus 4.5Anthropic	Anthropic	91.1	89.8	+1.26	2.19	Improvement	±1.13
Claude Opus 4.6Anthropic	Anthropic	92.8	91.5	+1.26	2.19	Improvement	±1.13
Claude Opus 4.1Anthropic	Anthropic	82.7	81.4	+1.26	2.19	Improvement	±1.13
Trinity Large Preview (free)arcee-ai	arcee-ai	73.5	69.8	+3.66	2.18	Improvement	±3.29
Trinity Mini (free)arcee-ai	arcee-ai	73.5	69.8	+3.66	2.18	Improvement	±3.29
Sonar Pro SearchPerplexity	Perplexity	85.4	84.5	+0.86	2.17	Improvement	±0.78
GPT-3.5 Turbo (older v0613)OpenAI	OpenAI	38.7	35.4	+3.26	2.15	Improvement	±2.97
Granite 4.0 MicroIBM	IBM	56.0	52.8	+3.16	2.14	Improvement	±2.89
GPT-5 MiniOpenAI	OpenAI	79.9	77.5	+2.36	2.13	Improvement	±2.17
Grok 4.20 Multi-Agent BetaxAI	xAI	83.0	79.8	+3.21	2.13	Improvement	±2.96
Llama Guard 4 12BMeta	Meta	59.7	58.4	+1.30	2.12	Improvement	±1.20
Llama Guard 3 8BMeta	Meta	43.6	40.3	+3.31	2.08	Improvement	±3.12
Qwen3 4B (free)Alibaba	Alibaba	63.7	62.5	+1.20	2.08	Improvement	±1.13
DeepSeek V3.1 TerminusDeepSeek	DeepSeek	74.4	71.2	+3.15	2.08	Improvement	±2.98
GPT-3.5 Turbo 16kOpenAI	OpenAI	40.6	39.3	+1.26	2.06	Improvement	±1.19
Llama 3.1 8B InstructMeta	Meta	43.3	41.9	+1.39	2.06	Improvement	±1.32
R1 0528DeepSeek	DeepSeek	78.3	77.0	+1.30	2.05	Improvement	±1.24
Nemotron Nano 12B 2 VLNVIDIA	NVIDIA	73.3	72.1	+1.18	2.02	Improvement	±1.14
Nemotron Nano 9B V2NVIDIA	NVIDIA	72.3	71.1	+1.18	2.02	Improvement	±1.14
Nemotron Nano 12B 2 VL (free)NVIDIA	NVIDIA	83.0	81.8	+1.18	2.02	Improvement	±1.14
Nemotron Nano 9B V2 (free)NVIDIA	NVIDIA	72.3	69.1	+3.18	2.02	Improvement	±3.08
GPT Audio MiniOpenAI	OpenAI	69.3	68.0	+1.35	2.02	Improvement	±1.31
Virtuoso Largearcee-ai	arcee-ai	63.1	59.5	+3.56	2.00	Improvement	±3.48
gpt-oss-safeguard-20bOpenAI	OpenAI	82.5	79.1	+3.44	1.99	Improvement	±3.39
o4 MiniOpenAI	OpenAI	84.6	83.3	+1.35	1.99	Improvement	±1.33
LFM2.5-1.2B-Instruct (free)Liquid AI	Liquid AI	53.9	51.5	+2.44	1.98	Improvement	±2.42
MiniMax M2.5MiniMax	MiniMax	76.9	73.4	+3.51	1.97	Improvement	±3.50
Aion-1.0aion-labs	aion-labs	57.3	54.0	+3.32	1.96	Improvement	±3.32
Aion-1.0-Miniaion-labs	aion-labs	57.3	54.0	+3.32	1.96	Improvement	±3.32

Short-Term vs. Sustained Changes

A model changing rank in 24 hours could be a blip. But if it's also moving over 7 days, that's a real trend. Models flagged on both timeframes are the most important to watch - they represent confirmed, sustained performance shifts.

Significant on Both Timeframes(strongest signals)

Model	Provider	Score	24h Change	7d Change
Trinity Miniarcee-ai	arcee-ai	82.4	-13	-15
Trinity Large Preview (free)arcee-ai	arcee-ai	72.6	+13	+21
Trinity Mini (free)arcee-ai	arcee-ai	72.6	-15	+8
Llama Guard 4 12BMeta	Meta	59.0	-13	-17
Qwen3 4B (free)Alibaba	Alibaba	63.0	+8	-16
DeepSeek V3.1 TerminusDeepSeek	DeepSeek	73.7	+4	+10
Nemotron Nano 12B 2 VLNVIDIA	NVIDIA	72.6	-21	-15
Nemotron Nano 9B V2NVIDIA	NVIDIA	71.6	+14	-18
Nemotron Nano 12B 2 VL (free)NVIDIA	NVIDIA	82.3	-18	-15
GPT Audio MiniOpenAI	OpenAI	68.4	+8	-12
o4 MiniOpenAI	OpenAI	83.7	-23	-23
MiniMax M2.5MiniMax	MiniMax	76.0	+5	+14
Aion-1.0aion-labs	aion-labs	56.6	-6	+15
Sonar ProPerplexity	Perplexity	63.1	-8	+8
GPT-4o-miniOpenAI	OpenAI	64.6	-7	+10
MiniMax M2.7MiniMax	MiniMax	83.0	+11	+251
DeepSeek V3.2 SpecialeDeepSeek	DeepSeek	77.1	+20	-9
DeepSeek V3.2 ExpDeepSeek	DeepSeek	77.2	-11	-7
Qwen3 VL 8B InstructAlibaba	Alibaba	80.9	+4	+17
GPT-5.1-CodexOpenAI	OpenAI	85.0	-5	+11
GPT-5.3-CodexOpenAI	OpenAI	85.0	+26	+9
Grok 3xAI	xAI	73.7	-16	+14
Grok Code Fast 1xAI	xAI	84.8	-24	+10
o3 MiniOpenAI	OpenAI	73.4	-7	+11
LFM2-8B-A1BLiquid AI	Liquid AI	53.2	+7	+9
Qwen3.5-9BAlibaba	Alibaba	79.3	+8	+14
LFM2.5-1.2B-Thinking (free)Liquid AI	Liquid AI	59.0	-4	-7
GPT-5.1-Codex-MaxOpenAI	OpenAI	85.0	-17	-13
GPT-5.1-Codex-MiniOpenAI	OpenAI	85.0	-4	-18
GPT-5 NanoOpenAI	OpenAI	75.6	+4	+17
Qwen3 VL 8B ThinkingAlibaba	Alibaba	85.0	+19	-8
Qwen3 VL 235B A22B InstructAlibaba	Alibaba	74.0	-4	-7
Qwen3 VL 235B A22B ThinkingAlibaba	Alibaba	77.4	+11	-10
Jamba Large 1.7AI21 Labs	AI21 Labs	71.2	-14	-7
MiniMax M2.1MiniMax	MiniMax	73.1	+11	+20
ERNIE 4.5 21B A3BBaidu	Baidu	65.2	+4	+15
Aion-2.0aion-labs	aion-labs	69.2	-15	-9
Claude 3 HaikuAnthropic	Anthropic	43.0	+5	+9
SonarPerplexity	Perplexity	53.7	+8	+7
MiniMax M2MiniMax	MiniMax	72.7	+6	+19
Qwen Plus 0728Alibaba	Alibaba	77.0	-13	+14
Codestral 2508Mistral AI	Mistral AI	64.8	-16	-17
MiniMax-01MiniMax	MiniMax	62.0	-20	-6
Hunyuan A13B InstructTencent	Tencent	72.3	-16	-27
GPT-4o (extended)OpenAI	OpenAI	54.3	-5	-10
GPT-5 CodexOpenAI	OpenAI	85.0	-8	-27
Qwen3 Coder 480B A35B (free)Alibaba	Alibaba	69.0	-4	+9
KAT-Coder-Pro V1Kuaishou	Kuaishou	77.4	-4	+16
Ministral 3 3B 2512Mistral AI	Mistral AI	72.6	-22	+21
Seed 1.6ByteDance	ByteDance	85.0	+9	+15
Ministral 3 14B 2512Mistral AI	Mistral AI	73.5	+12	-21
Claude 3.7 Sonnet (thinking)Anthropic	Anthropic	69.8	-15	+8
GPT-4oOpenAI	OpenAI	64.4	-14	+6
Qwen3.5 Plus 2026-02-15Alibaba	Alibaba	85.0	-4	+9
Nemotron 3 SuperNVIDIA	NVIDIA	73.5	+25	+21
Gemini 2.5 Pro Preview 06-05Google	Google	84.3	+5	+15
Gemini 2.5 Pro Preview 05-06Google	Google	82.7	+10	+14
GPT-4o (2024-08-06)OpenAI	OpenAI	55.6	-5	+12
Gemini 3.1 Flash Lite PreviewGoogle	Google	81.9	+9	+11
gpt-oss-20b (free)OpenAI	OpenAI	73.8	-16	+21
Cogito v2.1 671Bdeepcogito	deepcogito	66.7	+15	+6
GPT-5.4 NanoOpenAI	OpenAI	85.0	-5	+280
GPT-5.1 ChatOpenAI	OpenAI	85.0	+18	+10
Mercury 2Inception	Inception	81.3	-4	+9
GPT-5.2 ChatOpenAI	OpenAI	82.9	+7	+17
Qwen VL PlusAlibaba	Alibaba	60.9	-16	+8
o3 Mini HighOpenAI	OpenAI	65.4	+6	+21
GPT-4.1 MiniOpenAI	OpenAI	77.4	+11	+15
Qwen3.5-FlashAlibaba	Alibaba	79.4	+8	-11
Claude Sonnet 4Anthropic	Anthropic	79.9	-16	-11
o1-proOpenAI	OpenAI	76.5	-6	+16
Qwen3.5-35B-A3BAlibaba	Alibaba	78.3	+11	+18
Sonar Reasoning ProPerplexity	Perplexity	61.6	+4	+8
Gemma 3 27BGoogle	Google	63.6	-7	+11
Step 3.5 Flash (free)StepFun	StepFun	78.2	-9	-10
Qwen3 30B A3B Instruct 2507Alibaba	Alibaba	75.2	+15	+6
Qwen3 30B A3B Thinking 2507Alibaba	Alibaba	80.9	-18	+9
Qwen3 Next 80B A3B InstructAlibaba	Alibaba	70.1	-15	+7
Gemma 3 27B (free)Google	Google	62.8	-4	-6
MiniMax M2-herMiniMax	MiniMax	59.4	+10	-8
R1 Distill Llama 70BDeepSeek	DeepSeek	61.0	+10	+8
gpt-oss-120b (free)OpenAI	OpenAI	73.8	+26	-12
DeepSeek V3DeepSeek	DeepSeek	69.7	+6	-17
Mistral Small 4Mistral AI	Mistral AI	79.4	-4	+225
Mistral Small 3.1 24B (free)Mistral AI	Mistral AI	62.2	+11	+11
Mistral Small 3.2 24BMistral AI	Mistral AI	67.3	-11	+10
Mistral Small 3Mistral AI	Mistral AI	59.5	-4	+6
GPT-4o (2024-11-20)OpenAI	OpenAI	63.3	-4	+8
GPT-4o-mini Search PreviewOpenAI	OpenAI	72.9	+21	-8
Qwen3.5-122B-A10BAlibaba	Alibaba	79.7	+9	+6
Kimi K2.5Moonshot AI	Moonshot AI	85.0	-8	+10
LongCat Flash ChatMeituan	Meituan	72.8	-7	+16
ERNIE 4.5 VL 28B A3BBaidu	Baidu	75.0	+25	+14
GPT-4o AudioOpenAI	OpenAI	72.1	-9	-13
Devstral Small 1.1Mistral AI	Mistral AI	62.6	+7	-11
Qwen2.5 VL 72B InstructAlibaba	Alibaba	60.3	+9	+10
Qwen2.5 VL 32B InstructAlibaba	Alibaba	56.7	-4	+15
Qwen3 Coder NextAlibaba	Alibaba	76.7	-16	-10
Qwen3 Coder PlusAlibaba	Alibaba	78.6	+15	-7
MiMo-V2-ProXiaomi	Xiaomi	85.0	+15	+281
gpt-oss-120bOpenAI	OpenAI	67.7	+12	-12
DeepSeek V3.1DeepSeek	DeepSeek	73.8	+16	-13
DeepSeek V3.2DeepSeek	DeepSeek	74.1	+15	-14
o4 Mini HighOpenAI	OpenAI	85.0	-5	-15
Grok 4 FastxAI	xAI	83.3	+5	-19
Llama 3.1 Nemotron Ultra 253B v1NVIDIA	NVIDIA	57.5	-10	-6
Claude 3.5 SonnetAnthropic	Anthropic	65.8	-12	-8
Llama 3.3 Nemotron Super 49B V1.5NVIDIA	NVIDIA	68.6	+10	-8
Mistral LargeMistral AI	Mistral AI	54.1	+4	-9
Gemini 2.5 ProGoogle	Google	84.8	-5	-20
Spotlightarcee-ai	arcee-ai	62.3	-8	-15
Mistral Large 3 2512Mistral AI	Mistral AI	73.5	-10	-7
Mistral Small CreativeMistral AI	Mistral AI	59.0	+7	-17
Qwen3.5 397B A17BAlibaba	Alibaba	81.8	-20	-7
Llama 4 ScoutMeta	Meta	72.0	-13	-12
Olmo 3 32B ThinkAllen AI	Allen AI	66.3	-6	-8
o1OpenAI	OpenAI	75.7	-12	-15
Qwen3 MaxAlibaba	Alibaba	76.0	-7	-12
DeepSeek V3 0324DeepSeek	DeepSeek	73.2	-21	-7
MiMo-V2-FlashXiaomi	Xiaomi	82.6	+14	-15
Gemma 2 27BGoogle	Google	59.7	+10	-6
Qwen3 Next 80B A3B ThinkingAlibaba	Alibaba	72.7	-6	-20
Gemini 2.5 FlashGoogle	Google	80.1	+4	-15
Gemma 3 4BGoogle	Google	56.2	-6	-12
Qwen3.5-27BAlibaba	Alibaba	79.1	+8	-16

Daily Only(may be noise)

Model	Provider	Score	24h Change	7d Change
Gemini 3 Pro PreviewGoogle	Google	90.3	+6	+1
Gemini 3 Flash PreviewGoogle	Google	89.4	-4	-2
Gemini 3.1 Pro PreviewGoogle	Google	85.5	+28	-3
GPT-5.3 ChatOpenAI	OpenAI	85.0	+7	-5
GPT-5.2-CodexOpenAI	OpenAI	85.0	+5	+2
Sonar Pro SearchPerplexity	Perplexity	85.0	-8	-4
Claude Haiku 4.5Anthropic	Anthropic	83.0	-7	-3
Qwen3 Max ThinkingAlibaba	Alibaba	81.8	+13	-1
Gemini 2.5 Flash LiteGoogle	Google	81.4	+12	-5
Qwen3 VL 30B A3B InstructAlibaba	Alibaba	80.9	-8	+1
GPT-4.1 NanoOpenAI	OpenAI	80.7	-7	-2
GPT-5 MiniOpenAI	OpenAI	79.2	-13	0
Qwen3 Coder FlashAlibaba	Alibaba	78.2	+13	+3
GPT-4.1OpenAI	OpenAI	77.4	-14	+4
Claude 3.7 SonnetAnthropic	Anthropic	77.1	+11	-5
Llama 4 MaverickMeta	Meta	76.7	+6	+1
Composer 2Cursor	Cursor	76.4	+15	-4
Composer 2 FastCursor	Cursor	76.4	-5	+3
Grok 3 MinixAI	xAI	76.2	-18	-5
Gemini 2.0 Flash LiteGoogle	Google	75.7	+20	+3
Gemini 2.0 FlashGoogle	Google	75.0	-19	0
Nemotron 3 Nano 30B A3BNVIDIA	NVIDIA	73.5	+28	+5
Step 3.5 FlashStepFun	StepFun	73.2	-15	+4
Kimi K2 ThinkingMoonshot AI	Moonshot AI	72.6	-8	-2
Solar Pro 3Upstage	Upstage	72.5	+14	-2
Qwen3 Coder 30B A3B InstructAlibaba	Alibaba	72.3	-21	0
Nemotron Nano 9B V2 (free)NVIDIA	NVIDIA	71.6	+14	+1
Qwen3 30B A3BAlibaba	Alibaba	71.4	+6	-4
Qwen3 14BAlibaba	Alibaba	71.4	+8	0
Qwen3 235B A22BAlibaba	Alibaba	71.3	-8	0
Qwen3 235B A22B Instruct 2507Alibaba	Alibaba	70.0	-11	0
ERNIE 4.5 VL 424B A47B Baidu	Baidu	69.5	+13	+5
Qwen3 235B A22B Thinking 2507Alibaba	Alibaba	69.3	-10	+3
gpt-oss-20bOpenAI	OpenAI	68.5	+12	-2
R1DeepSeek	DeepSeek	68.3	+9	+2
Qwen VL MaxAlibaba	Alibaba	68.1	-10	-1
Devstral 2 2512Mistral AI	Mistral AI	67.7	+12	+5
Qwen3 Next 80B A3B Instruct (free)Alibaba	Alibaba	67.0	-9	+5
Mercury CoderInception	Inception	67.0	-12	-2
Kimi K2 0905Moonshot AI	Moonshot AI	65.7	-11	+3
Qwen3 8BAlibaba	Alibaba	65.1	-7	-4
Qwen-PlusAlibaba	Alibaba	65.0	+9	+3
Olmo 3.1 32B ThinkAllen AI	Allen AI	64.8	+14	+2
Rnj 1 Instructessentialai	essentialai	64.8	+14	-5
Palmyra X5Writer	Writer	64.7	+6	0
GPT-4o Search PreviewOpenAI	OpenAI	63.6	+11	0
Grok 3 BetaxAI	xAI	63.5	+16	-4
ERNIE 4.5 300B A47B Baidu	Baidu	63.4	+13	+3
MercuryInception	Inception	63.4	+10	+5
Devstral MediumMistral AI	Mistral AI	62.6	-12	+4
Claude 3.5 HaikuAnthropic	Anthropic	62.5	-10	-3
Virtuoso Largearcee-ai	arcee-ai	62.2	+5	+3
Gemma 3 4B (free)Google	Google	61.0	-6	+1
Qwen-TurboAlibaba	Alibaba	60.7	-5	-3
GPT-4 TurboOpenAI	OpenAI	60.5	+8	-2
Command ACohere	Cohere	60.0	-16	-2
Qwen-Max Alibaba	Alibaba	58.8	+10	-3
Nova Lite 1.0Amazon	Amazon	58.2	-12	+1
Nova Pro 1.0Amazon	Amazon	58.2	+4	+4
Gemma 3 12BGoogle	Google	56.2	+8	-5
Pixtral Large 2411Mistral AI	Mistral AI	55.7	+5	-5
Maestro Reasoningarcee-ai	arcee-ai	55.6	+8	+4
Gemma 3n 4B (free)Google	Google	55.5	+5	+1
Gemma 3 12B (free)Google	Google	55.2	-6	-4
GPT-4o-mini (2024-07-18)OpenAI	OpenAI	53.7	-9	+1
LFM2-24B-A2BLiquid AI	Liquid AI	53.2	-7	-5
Llama 3.1 Nemotron 70B InstructNVIDIA	NVIDIA	53.2	-5	+5
SabaMistral AI	Mistral AI	52.9	-6	-4
Nova Micro 1.0Amazon	Amazon	51.2	+5	-5
Llama 3.3 70B Instruct (free)Meta	Meta	44.1	-4	-2
Qwen2.5 7B InstructAlibaba	Alibaba	42.8	-4	-5
GPT-4 Turbo PreviewOpenAI	OpenAI	42.7	-4	-5
GPT-3.5 Turbo 16kOpenAI	OpenAI	39.9	+6	-4
GPT-3.5 TurboOpenAI	OpenAI	39.9	-5	-4
GPT-4 (older v0314)OpenAI	OpenAI	39.0	+8	0
Pixtral 12BMistral AI	Mistral AI	38.3	-4	-2
GPT-3.5 Turbo (older v0613)OpenAI	OpenAI	38.0	-7	+4
Llama 3.2 3B Instruct (free)Meta	Meta	35.2	-4	+1

Weekly Only(building trend)

Model	Provider	Score	24h Change	7d Change
GPT-5.4 MiniOpenAI	OpenAI	93.3	+1	+301
o3 ProOpenAI	OpenAI	87.7	0	+10
Grok 4xAI	xAI	85.8	0	+20
Grok 4.20 BetaxAI	xAI	85.7	+2	+12
o3OpenAI	OpenAI	85.7	+3	-6
GPT-5.1OpenAI	OpenAI	85.2	+3	+29
MiMo-V2-OmniXiaomi	Xiaomi	85.0	+3	+282
Seed-2.0-LiteByteDance	ByteDance	85.0	+3	+6
Seed 1.6 FlashByteDance	ByteDance	85.0	+3	+21
Qwen3 VL 30B A3B ThinkingAlibaba	Alibaba	85.0	+2	+11
Gemini 2.5 Flash Lite Preview 09-2025Google	Google	83.7	0	+11
MiniMax M2.5 (free)MiniMax	MiniMax	83.4	0	+6
Qwen Plus 0728 (thinking)Alibaba	Alibaba	82.8	-3	-14
Grok 4.20 Multi-Agent BetaxAI	xAI	82.2	-3	+17
Claude Opus 4.1Anthropic	Anthropic	82.0	-3	-11
Claude Opus 4Anthropic	Anthropic	81.7	+3	-11
Qwen3 VL 32B InstructAlibaba	Alibaba	80.9	+3	-12
Nova Premier 1.0Amazon	Amazon	77.8	+2	-8
GPT-5 ChatOpenAI	OpenAI	75.0	-3	+11
Nova 2 LiteAmazon	Amazon	72.7	+1	-21
Qwen3 32BAlibaba	Alibaba	71.4	-2	-16
Mistral Medium 3.1Mistral AI	Mistral AI	70.3	0	+13
ERNIE 4.5 21B A3B ThinkingBaidu	Baidu	70.0	+1	-19
GPT AudioOpenAI	OpenAI	68.4	+1	-6
MiniMax M1MiniMax	MiniMax	68.4	+2	+11
Nemotron 3 Nano 30B A3B (free)NVIDIA	NVIDIA	67.7	-3	+16
Grok 3 Mini BetaxAI	xAI	66.1	+2	+9
Llama 3.3 70B InstructMeta	Meta	65.7	0	-15
Mistral Medium 3Mistral AI	Mistral AI	65.0	-1	-6
Olmo 3.1 32B InstructAllen AI	Allen AI	64.9	-1	-13
Kimi K2 0711Moonshot AI	Moonshot AI	62.7	-1	-17
R1 Distill Qwen 32BDeepSeek	DeepSeek	60.2	-2	+12
Phi 4Microsoft	Microsoft	59.6	+3	+6
Aion-1.0-Miniaion-labs	aion-labs	56.6	-3	+6
LFM2-2.6BLiquid AI	Liquid AI	53.2	+2	-16
Mistral Large 2407Mistral AI	Mistral AI	53.0	-3	-8
Llama Guard 3 8BMeta	Meta	42.9	+2	+6
GPT-4 Turbo (older v1106)OpenAI	OpenAI	42.7	-3	+6
Llama 3.1 8B InstructMeta	Meta	42.4	+1	-6
GPT-4OpenAI	OpenAI	39.0	+1	+6

Which Models Are Noisy vs. Consistent?

Some models have naturally stable scores - even a small rank change for these models is meaningful. Others have volatile scores that bounce around - they need a bigger shift before you should care. CV% (coefficient of variation) tells you how volatile each model is. Higher = noisier.

Noisiest Models(highest CV% - widest significance thresholds)

Model	Provider	Score	CV%	Std Dev	Sig. Threshold
WizardLM-2 8x22BMicrosoft	Microsoft	32.2	5.5%	1.60	±3.14
Mixtral 8x22B InstructMistral AI	Mistral AI	37.1	5.4%	1.87	±3.66
Llama 3.2 3B Instruct (free)Meta	Meta	35.2	5.4%	1.77	±3.46
autofixer-01Vercel	Vercel	38.8	4.8%	1.76	±3.44
GPT-4OpenAI	OpenAI	39.0	4.8%	1.76	±3.45
Mixtral 8x7B InstructMistral AI	Mistral AI	42.4	4.7%	1.87	±3.66
Claude 3 HaikuAnthropic	Anthropic	43.0	4.7%	1.89	±3.71
GPT-3.5 Turbo (older v0613)OpenAI	OpenAI	38.0	4.3%	1.52	±2.97
Olmo 2 32B InstructAllen AI	Allen AI	44.5	4.2%	1.76	±3.46
GPT-4 Turbo (older v1106)OpenAI	OpenAI	42.7	4.2%	1.68	±3.30
Llama Guard 3 8BMeta	Meta	42.9	3.9%	1.59	±3.12
Qwen2.5 Coder 7B InstructAlibaba	Alibaba	42.9	3.8%	1.55	±3.04
Command R7B (12-2024)Cohere	Cohere	44.7	3.6%	1.51	±2.97
GPT-4o (2024-08-06)OpenAI	OpenAI	55.6	3.6%	1.89	±3.71
LFM2-8B-A1BLiquid AI	Liquid AI	53.2	3.6%	1.80	±3.52
SWE-1.5Windsurf	Windsurf	49.2	3.6%	1.66	±3.25
Devstral MediumMistral AI	Mistral AI	62.6	3.4%	2.05	±4.01
Maestro Reasoningarcee-ai	arcee-ai	55.6	3.4%	1.79	±3.52
QwQ 32BAlibaba	Alibaba	47.0	3.3%	1.47	±2.88
Mistral Small 3Mistral AI	Mistral AI	59.5	3.2%	1.81	±3.56

Most Consistent Models(lowest CV% - tightest significance thresholds)

Model	Provider	Score	CV%	Std Dev	Sig. Threshold
Grok 4 FastxAI	xAI	83.3	0.4%	0.36	±0.71
Sonar Pro SearchPerplexity	Perplexity	85.0	0.5%	0.40	±0.78
Gemini 3.1 Pro PreviewGoogle	Google	85.5	0.5%	0.40	±0.79
Gemini 3.1 Pro Preview Custom ToolsGoogle	Google	85.0	0.5%	0.40	±0.79
Nova 2 LiteAmazon	Amazon	72.7	0.5%	0.39	±0.77
Nova Premier 1.0Amazon	Amazon	77.8	0.6%	0.43	±0.84
Gemini 2.5 ProGoogle	Google	84.8	0.6%	0.47	±0.93
Solar Pro 3Upstage	Upstage	72.5	0.6%	0.42	±0.82
Grok 3 MinixAI	xAI	76.2	0.6%	0.44	±0.86
Gemini 2.5 Flash LiteGoogle	Google	81.4	0.6%	0.47	±0.92
Claude 3.7 SonnetAnthropic	Anthropic	77.1	0.6%	0.45	±0.88
Gemini 2.5 FlashGoogle	Google	80.1	0.6%	0.47	±0.92
Claude Opus 4Anthropic	Anthropic	81.7	0.6%	0.48	±0.94
Nemotron 3 Super (free)NVIDIA	NVIDIA	84.1	0.6%	0.51	±1.00
Claude Opus 4.6Anthropic	Anthropic	92.1	0.6%	0.58	±1.13
Qwen3 Coder PlusAlibaba	Alibaba	78.6	0.6%	0.49	±0.97
Qwen3.5 397B A17BAlibaba	Alibaba	81.8	0.6%	0.52	±1.01
Claude Opus 4.5Anthropic	Anthropic	90.4	0.6%	0.58	±1.13
Qwen3 Coder NextAlibaba	Alibaba	76.7	0.6%	0.49	±0.97
Gemma 3 4BGoogle	Google	56.2	0.7%	0.36	±0.71

How to Read This Page

Understanding the statistical methodology behind our significance analysis helps you distinguish real performance shifts from random fluctuations.

Statistical Significance

We use z-scores with a 95% confidence threshold (|z| > 1.96). A z-score measures how many standard deviations a model's current score is from its historical baseline. Only changes exceeding 1.96 standard deviations are flagged as statistically significant.

Baseline Score

The baseline is computed as the arithmetic mean of each model's 14-day sparkline data. This rolling average smooths out daily fluctuations and provides a stable reference point for detecting meaningful deviations.

Confidence Intervals

Each model's 95% confidence interval is calculated as baseline ± 1.96 × standard deviation. Scores falling outside this range indicate a statistically meaningful change. The "Confidence" column shows the ± threshold value.

Multi-Timeframe Analysis

Daily (24h) and weekly (7d) rank changes are analyzed separately. Daily significance requires a rank shift of more than 3 positions; weekly requires more than 5. Models significant on both timeframes represent the strongest, most reliable signals.

Noise vs. Signal

The coefficient of variation (CV%) measures relative volatility. High-CV models have naturally noisy scores and require larger absolute changes to be significant. Low-CV models are more predictable, so even small deviations may represent real shifts.

All Trackers

Coding, image, and video model trackers

Degradation Tracker

Detect when AI models may be getting worse

Stability Tracker

Track model ranking stability and consistency

Frequently Asked Questions

Statistical significance indicates whether a model's rank change represents a real performance shift or is just random noise. We use z-scores with a 95% confidence threshold (|z| > 1.96), meaning a change is only flagged as significant if there is less than a 5% chance it occurred by random variation.

A z-score measures how many standard deviations a model's current score deviates from its historical baseline. It is calculated as (current score - baseline mean) / standard deviation. Values above +1.96 indicate significant improvement, while values below -1.96 indicate significant decline.

The CV% measures a model's relative score volatility. A high CV% means the model's performance fluctuates a lot, requiring larger changes to be statistically significant. A low CV% means the model is very consistent, so even small deviations may represent meaningful shifts. This helps distinguish inherently noisy models from truly changing ones.

Change Significance Tracker

Models Analyzed

300

Significant Changes

Noise (Not Significant)

268

Both Timeframes

125

What This Means

32 of 300 models have score changes that are statistically significant - these are real performance shifts, not random noise.
268 models show score changes within their normal variation range - don't read too much into small rank shifts for these models.
125 models show significant changes on both daily and weekly timeframes - these are the strongest, most reliable signals of real performance change.
How to use this: When a model's rank changes, check here first. If it's not flagged as significant, the change is likely temporary noise. If it is significant, the model is genuinely improving or declining.

Top Significant Changes (by |Z-Score|)

Real Performance Shifts

Model	Provider	Current	Baseline	Deviation	Z-Score	Direction	Confidence
Trinity Miniarcee-ai	arcee-ai	83.3	81.6	+1.66	2.41	Improvement	±1.36
GPT-3.5 Turbo InstructOpenAI	OpenAI	32.9	30.7	+2.24	2.31	Improvement	±1.90
Claude 3.5 HaikuAnthropic	Anthropic	63.4	61.9	+1.51	2.21	Improvement	±1.34
Claude Opus 4.5Anthropic	Anthropic	91.1	89.8	+1.26	2.19	Improvement	±1.13
Claude Opus 4.6Anthropic	Anthropic	92.8	91.5	+1.26	2.19	Improvement	±1.13
Claude Opus 4.1Anthropic	Anthropic	82.7	81.4	+1.26	2.19	Improvement	±1.13
Trinity Large Preview (free)arcee-ai	arcee-ai	73.5	69.8	+3.66	2.18	Improvement	±3.29
Trinity Mini (free)arcee-ai	arcee-ai	73.5	69.8	+3.66	2.18	Improvement	±3.29
Sonar Pro SearchPerplexity	Perplexity	85.4	84.5	+0.86	2.17	Improvement	±0.78
GPT-3.5 Turbo (older v0613)OpenAI	OpenAI	38.7	35.4	+3.26	2.15	Improvement	±2.97
Granite 4.0 MicroIBM	IBM	56.0	52.8	+3.16	2.14	Improvement	±2.89
GPT-5 MiniOpenAI	OpenAI	79.9	77.5	+2.36	2.13	Improvement	±2.17
Grok 4.20 Multi-Agent BetaxAI	xAI	83.0	79.8	+3.21	2.13	Improvement	±2.96
Llama Guard 4 12BMeta	Meta	59.7	58.4	+1.30	2.12	Improvement	±1.20
Llama Guard 3 8BMeta	Meta	43.6	40.3	+3.31	2.08	Improvement	±3.12
Qwen3 4B (free)Alibaba	Alibaba	63.7	62.5	+1.20	2.08	Improvement	±1.13
DeepSeek V3.1 TerminusDeepSeek	DeepSeek	74.4	71.2	+3.15	2.08	Improvement	±2.98
GPT-3.5 Turbo 16kOpenAI	OpenAI	40.6	39.3	+1.26	2.06	Improvement	±1.19
Llama 3.1 8B InstructMeta	Meta	43.3	41.9	+1.39	2.06	Improvement	±1.32
R1 0528DeepSeek	DeepSeek	78.3	77.0	+1.30	2.05	Improvement	±1.24
Nemotron Nano 12B 2 VLNVIDIA	NVIDIA	73.3	72.1	+1.18	2.02	Improvement	±1.14
Nemotron Nano 9B V2NVIDIA	NVIDIA	72.3	71.1	+1.18	2.02	Improvement	±1.14
Nemotron Nano 12B 2 VL (free)NVIDIA	NVIDIA	83.0	81.8	+1.18	2.02	Improvement	±1.14
Nemotron Nano 9B V2 (free)NVIDIA	NVIDIA	72.3	69.1	+3.18	2.02	Improvement	±3.08
GPT Audio MiniOpenAI	OpenAI	69.3	68.0	+1.35	2.02	Improvement	±1.31
Virtuoso Largearcee-ai	arcee-ai	63.1	59.5	+3.56	2.00	Improvement	±3.48
gpt-oss-safeguard-20bOpenAI	OpenAI	82.5	79.1	+3.44	1.99	Improvement	±3.39
o4 MiniOpenAI	OpenAI	84.6	83.3	+1.35	1.99	Improvement	±1.33
LFM2.5-1.2B-Instruct (free)Liquid AI	Liquid AI	53.9	51.5	+2.44	1.98	Improvement	±2.42
MiniMax M2.5MiniMax	MiniMax	76.9	73.4	+3.51	1.97	Improvement	±3.50
Aion-1.0aion-labs	aion-labs	57.3	54.0	+3.32	1.96	Improvement	±3.32
Aion-1.0-Miniaion-labs	aion-labs	57.3	54.0	+3.32	1.96	Improvement	±3.32

Short-Term vs. Sustained Changes

Significant on Both Timeframes(strongest signals)

Model	Provider	Score	24h Change	7d Change
Trinity Miniarcee-ai	arcee-ai	82.4	-13	-15
Trinity Large Preview (free)arcee-ai	arcee-ai	72.6	+13	+21
Trinity Mini (free)arcee-ai	arcee-ai	72.6	-15	+8
Llama Guard 4 12BMeta	Meta	59.0	-13	-17
Qwen3 4B (free)Alibaba	Alibaba	63.0	+8	-16
DeepSeek V3.1 TerminusDeepSeek	DeepSeek	73.7	+4	+10
Nemotron Nano 12B 2 VLNVIDIA	NVIDIA	72.6	-21	-15
Nemotron Nano 9B V2NVIDIA	NVIDIA	71.6	+14	-18
Nemotron Nano 12B 2 VL (free)NVIDIA	NVIDIA	82.3	-18	-15
GPT Audio MiniOpenAI	OpenAI	68.4	+8	-12
o4 MiniOpenAI	OpenAI	83.7	-23	-23
MiniMax M2.5MiniMax	MiniMax	76.0	+5	+14
Aion-1.0aion-labs	aion-labs	56.6	-6	+15
Sonar ProPerplexity	Perplexity	63.1	-8	+8
GPT-4o-miniOpenAI	OpenAI	64.6	-7	+10
MiniMax M2.7MiniMax	MiniMax	83.0	+11	+251
DeepSeek V3.2 SpecialeDeepSeek	DeepSeek	77.1	+20	-9
DeepSeek V3.2 ExpDeepSeek	DeepSeek	77.2	-11	-7
Qwen3 VL 8B InstructAlibaba	Alibaba	80.9	+4	+17
GPT-5.1-CodexOpenAI	OpenAI	85.0	-5	+11
GPT-5.3-CodexOpenAI	OpenAI	85.0	+26	+9
Grok 3xAI	xAI	73.7	-16	+14
Grok Code Fast 1xAI	xAI	84.8	-24	+10
o3 MiniOpenAI	OpenAI	73.4	-7	+11
LFM2-8B-A1BLiquid AI	Liquid AI	53.2	+7	+9
Qwen3.5-9BAlibaba	Alibaba	79.3	+8	+14
LFM2.5-1.2B-Thinking (free)Liquid AI	Liquid AI	59.0	-4	-7
GPT-5.1-Codex-MaxOpenAI	OpenAI	85.0	-17	-13
GPT-5.1-Codex-MiniOpenAI	OpenAI	85.0	-4	-18
GPT-5 NanoOpenAI	OpenAI	75.6	+4	+17
Qwen3 VL 8B ThinkingAlibaba	Alibaba	85.0	+19	-8
Qwen3 VL 235B A22B InstructAlibaba	Alibaba	74.0	-4	-7
Qwen3 VL 235B A22B ThinkingAlibaba	Alibaba	77.4	+11	-10
Jamba Large 1.7AI21 Labs	AI21 Labs	71.2	-14	-7
MiniMax M2.1MiniMax	MiniMax	73.1	+11	+20
ERNIE 4.5 21B A3BBaidu	Baidu	65.2	+4	+15
Aion-2.0aion-labs	aion-labs	69.2	-15	-9
Claude 3 HaikuAnthropic	Anthropic	43.0	+5	+9
SonarPerplexity	Perplexity	53.7	+8	+7
MiniMax M2MiniMax	MiniMax	72.7	+6	+19
Qwen Plus 0728Alibaba	Alibaba	77.0	-13	+14
Codestral 2508Mistral AI	Mistral AI	64.8	-16	-17
MiniMax-01MiniMax	MiniMax	62.0	-20	-6
Hunyuan A13B InstructTencent	Tencent	72.3	-16	-27
GPT-4o (extended)OpenAI	OpenAI	54.3	-5	-10
GPT-5 CodexOpenAI	OpenAI	85.0	-8	-27
Qwen3 Coder 480B A35B (free)Alibaba	Alibaba	69.0	-4	+9
KAT-Coder-Pro V1Kuaishou	Kuaishou	77.4	-4	+16
Ministral 3 3B 2512Mistral AI	Mistral AI	72.6	-22	+21
Seed 1.6ByteDance	ByteDance	85.0	+9	+15
Ministral 3 14B 2512Mistral AI	Mistral AI	73.5	+12	-21
Claude 3.7 Sonnet (thinking)Anthropic	Anthropic	69.8	-15	+8
GPT-4oOpenAI	OpenAI	64.4	-14	+6
Qwen3.5 Plus 2026-02-15Alibaba	Alibaba	85.0	-4	+9
Nemotron 3 SuperNVIDIA	NVIDIA	73.5	+25	+21
Gemini 2.5 Pro Preview 06-05Google	Google	84.3	+5	+15
Gemini 2.5 Pro Preview 05-06Google	Google	82.7	+10	+14
GPT-4o (2024-08-06)OpenAI	OpenAI	55.6	-5	+12
Gemini 3.1 Flash Lite PreviewGoogle	Google	81.9	+9	+11
gpt-oss-20b (free)OpenAI	OpenAI	73.8	-16	+21
Cogito v2.1 671Bdeepcogito	deepcogito	66.7	+15	+6
GPT-5.4 NanoOpenAI	OpenAI	85.0	-5	+280
GPT-5.1 ChatOpenAI	OpenAI	85.0	+18	+10
Mercury 2Inception	Inception	81.3	-4	+9
GPT-5.2 ChatOpenAI	OpenAI	82.9	+7	+17
Qwen VL PlusAlibaba	Alibaba	60.9	-16	+8
o3 Mini HighOpenAI	OpenAI	65.4	+6	+21
GPT-4.1 MiniOpenAI	OpenAI	77.4	+11	+15
Qwen3.5-FlashAlibaba	Alibaba	79.4	+8	-11
Claude Sonnet 4Anthropic	Anthropic	79.9	-16	-11
o1-proOpenAI	OpenAI	76.5	-6	+16
Qwen3.5-35B-A3BAlibaba	Alibaba	78.3	+11	+18
Sonar Reasoning ProPerplexity	Perplexity	61.6	+4	+8
Gemma 3 27BGoogle	Google	63.6	-7	+11
Step 3.5 Flash (free)StepFun	StepFun	78.2	-9	-10
Qwen3 30B A3B Instruct 2507Alibaba	Alibaba	75.2	+15	+6
Qwen3 30B A3B Thinking 2507Alibaba	Alibaba	80.9	-18	+9
Qwen3 Next 80B A3B InstructAlibaba	Alibaba	70.1	-15	+7
Gemma 3 27B (free)Google	Google	62.8	-4	-6
MiniMax M2-herMiniMax	MiniMax	59.4	+10	-8
R1 Distill Llama 70BDeepSeek	DeepSeek	61.0	+10	+8
gpt-oss-120b (free)OpenAI	OpenAI	73.8	+26	-12
DeepSeek V3DeepSeek	DeepSeek	69.7	+6	-17
Mistral Small 4Mistral AI	Mistral AI	79.4	-4	+225
Mistral Small 3.1 24B (free)Mistral AI	Mistral AI	62.2	+11	+11
Mistral Small 3.2 24BMistral AI	Mistral AI	67.3	-11	+10
Mistral Small 3Mistral AI	Mistral AI	59.5	-4	+6
GPT-4o (2024-11-20)OpenAI	OpenAI	63.3	-4	+8
GPT-4o-mini Search PreviewOpenAI	OpenAI	72.9	+21	-8
Qwen3.5-122B-A10BAlibaba	Alibaba	79.7	+9	+6
Kimi K2.5Moonshot AI	Moonshot AI	85.0	-8	+10
LongCat Flash ChatMeituan	Meituan	72.8	-7	+16
ERNIE 4.5 VL 28B A3BBaidu	Baidu	75.0	+25	+14
GPT-4o AudioOpenAI	OpenAI	72.1	-9	-13
Devstral Small 1.1Mistral AI	Mistral AI	62.6	+7	-11
Qwen2.5 VL 72B InstructAlibaba	Alibaba	60.3	+9	+10
Qwen2.5 VL 32B InstructAlibaba	Alibaba	56.7	-4	+15
Qwen3 Coder NextAlibaba	Alibaba	76.7	-16	-10
Qwen3 Coder PlusAlibaba	Alibaba	78.6	+15	-7
MiMo-V2-ProXiaomi	Xiaomi	85.0	+15	+281
gpt-oss-120bOpenAI	OpenAI	67.7	+12	-12
DeepSeek V3.1DeepSeek	DeepSeek	73.8	+16	-13
DeepSeek V3.2DeepSeek	DeepSeek	74.1	+15	-14
o4 Mini HighOpenAI	OpenAI	85.0	-5	-15
Grok 4 FastxAI	xAI	83.3	+5	-19
Llama 3.1 Nemotron Ultra 253B v1NVIDIA	NVIDIA	57.5	-10	-6
Claude 3.5 SonnetAnthropic	Anthropic	65.8	-12	-8
Llama 3.3 Nemotron Super 49B V1.5NVIDIA	NVIDIA	68.6	+10	-8
Mistral LargeMistral AI	Mistral AI	54.1	+4	-9
Gemini 2.5 ProGoogle	Google	84.8	-5	-20
Spotlightarcee-ai	arcee-ai	62.3	-8	-15
Mistral Large 3 2512Mistral AI	Mistral AI	73.5	-10	-7
Mistral Small CreativeMistral AI	Mistral AI	59.0	+7	-17
Qwen3.5 397B A17BAlibaba	Alibaba	81.8	-20	-7
Llama 4 ScoutMeta	Meta	72.0	-13	-12
Olmo 3 32B ThinkAllen AI	Allen AI	66.3	-6	-8
o1OpenAI	OpenAI	75.7	-12	-15
Qwen3 MaxAlibaba	Alibaba	76.0	-7	-12
DeepSeek V3 0324DeepSeek	DeepSeek	73.2	-21	-7
MiMo-V2-FlashXiaomi	Xiaomi	82.6	+14	-15
Gemma 2 27BGoogle	Google	59.7	+10	-6
Qwen3 Next 80B A3B ThinkingAlibaba	Alibaba	72.7	-6	-20
Gemini 2.5 FlashGoogle	Google	80.1	+4	-15
Gemma 3 4BGoogle	Google	56.2	-6	-12
Qwen3.5-27BAlibaba	Alibaba	79.1	+8	-16

Daily Only(may be noise)

Model	Provider	Score	24h Change	7d Change
Gemini 3 Pro PreviewGoogle	Google	90.3	+6	+1
Gemini 3 Flash PreviewGoogle	Google	89.4	-4	-2
Gemini 3.1 Pro PreviewGoogle	Google	85.5	+28	-3
GPT-5.3 ChatOpenAI	OpenAI	85.0	+7	-5
GPT-5.2-CodexOpenAI	OpenAI	85.0	+5	+2
Sonar Pro SearchPerplexity	Perplexity	85.0	-8	-4
Claude Haiku 4.5Anthropic	Anthropic	83.0	-7	-3
Qwen3 Max ThinkingAlibaba	Alibaba	81.8	+13	-1
Gemini 2.5 Flash LiteGoogle	Google	81.4	+12	-5
Qwen3 VL 30B A3B InstructAlibaba	Alibaba	80.9	-8	+1
GPT-4.1 NanoOpenAI	OpenAI	80.7	-7	-2
GPT-5 MiniOpenAI	OpenAI	79.2	-13	0
Qwen3 Coder FlashAlibaba	Alibaba	78.2	+13	+3
GPT-4.1OpenAI	OpenAI	77.4	-14	+4
Claude 3.7 SonnetAnthropic	Anthropic	77.1	+11	-5
Llama 4 MaverickMeta	Meta	76.7	+6	+1
Composer 2Cursor	Cursor	76.4	+15	-4
Composer 2 FastCursor	Cursor	76.4	-5	+3
Grok 3 MinixAI	xAI	76.2	-18	-5
Gemini 2.0 Flash LiteGoogle	Google	75.7	+20	+3
Gemini 2.0 FlashGoogle	Google	75.0	-19	0
Nemotron 3 Nano 30B A3BNVIDIA	NVIDIA	73.5	+28	+5
Step 3.5 FlashStepFun	StepFun	73.2	-15	+4
Kimi K2 ThinkingMoonshot AI	Moonshot AI	72.6	-8	-2
Solar Pro 3Upstage	Upstage	72.5	+14	-2
Qwen3 Coder 30B A3B InstructAlibaba	Alibaba	72.3	-21	0
Nemotron Nano 9B V2 (free)NVIDIA	NVIDIA	71.6	+14	+1
Qwen3 30B A3BAlibaba	Alibaba	71.4	+6	-4
Qwen3 14BAlibaba	Alibaba	71.4	+8	0
Qwen3 235B A22BAlibaba	Alibaba	71.3	-8	0
Qwen3 235B A22B Instruct 2507Alibaba	Alibaba	70.0	-11	0
ERNIE 4.5 VL 424B A47B Baidu	Baidu	69.5	+13	+5
Qwen3 235B A22B Thinking 2507Alibaba	Alibaba	69.3	-10	+3
gpt-oss-20bOpenAI	OpenAI	68.5	+12	-2
R1DeepSeek	DeepSeek	68.3	+9	+2
Qwen VL MaxAlibaba	Alibaba	68.1	-10	-1
Devstral 2 2512Mistral AI	Mistral AI	67.7	+12	+5
Qwen3 Next 80B A3B Instruct (free)Alibaba	Alibaba	67.0	-9	+5
Mercury CoderInception	Inception	67.0	-12	-2
Kimi K2 0905Moonshot AI	Moonshot AI	65.7	-11	+3
Qwen3 8BAlibaba	Alibaba	65.1	-7	-4
Qwen-PlusAlibaba	Alibaba	65.0	+9	+3
Olmo 3.1 32B ThinkAllen AI	Allen AI	64.8	+14	+2
Rnj 1 Instructessentialai	essentialai	64.8	+14	-5
Palmyra X5Writer	Writer	64.7	+6	0
GPT-4o Search PreviewOpenAI	OpenAI	63.6	+11	0
Grok 3 BetaxAI	xAI	63.5	+16	-4
ERNIE 4.5 300B A47B Baidu	Baidu	63.4	+13	+3
MercuryInception	Inception	63.4	+10	+5
Devstral MediumMistral AI	Mistral AI	62.6	-12	+4
Claude 3.5 HaikuAnthropic	Anthropic	62.5	-10	-3
Virtuoso Largearcee-ai	arcee-ai	62.2	+5	+3
Gemma 3 4B (free)Google	Google	61.0	-6	+1
Qwen-TurboAlibaba	Alibaba	60.7	-5	-3
GPT-4 TurboOpenAI	OpenAI	60.5	+8	-2
Command ACohere	Cohere	60.0	-16	-2
Qwen-Max Alibaba	Alibaba	58.8	+10	-3
Nova Lite 1.0Amazon	Amazon	58.2	-12	+1
Nova Pro 1.0Amazon	Amazon	58.2	+4	+4
Gemma 3 12BGoogle	Google	56.2	+8	-5
Pixtral Large 2411Mistral AI	Mistral AI	55.7	+5	-5
Maestro Reasoningarcee-ai	arcee-ai	55.6	+8	+4
Gemma 3n 4B (free)Google	Google	55.5	+5	+1
Gemma 3 12B (free)Google	Google	55.2	-6	-4
GPT-4o-mini (2024-07-18)OpenAI	OpenAI	53.7	-9	+1
LFM2-24B-A2BLiquid AI	Liquid AI	53.2	-7	-5
Llama 3.1 Nemotron 70B InstructNVIDIA	NVIDIA	53.2	-5	+5
SabaMistral AI	Mistral AI	52.9	-6	-4
Nova Micro 1.0Amazon	Amazon	51.2	+5	-5
Llama 3.3 70B Instruct (free)Meta	Meta	44.1	-4	-2
Qwen2.5 7B InstructAlibaba	Alibaba	42.8	-4	-5
GPT-4 Turbo PreviewOpenAI	OpenAI	42.7	-4	-5
GPT-3.5 Turbo 16kOpenAI	OpenAI	39.9	+6	-4
GPT-3.5 TurboOpenAI	OpenAI	39.9	-5	-4
GPT-4 (older v0314)OpenAI	OpenAI	39.0	+8	0
Pixtral 12BMistral AI	Mistral AI	38.3	-4	-2
GPT-3.5 Turbo (older v0613)OpenAI	OpenAI	38.0	-7	+4
Llama 3.2 3B Instruct (free)Meta	Meta	35.2	-4	+1

Weekly Only(building trend)

Model	Provider	Score	24h Change	7d Change
GPT-5.4 MiniOpenAI	OpenAI	93.3	+1	+301
o3 ProOpenAI	OpenAI	87.7	0	+10
Grok 4xAI	xAI	85.8	0	+20
Grok 4.20 BetaxAI	xAI	85.7	+2	+12
o3OpenAI	OpenAI	85.7	+3	-6
GPT-5.1OpenAI	OpenAI	85.2	+3	+29
MiMo-V2-OmniXiaomi	Xiaomi	85.0	+3	+282
Seed-2.0-LiteByteDance	ByteDance	85.0	+3	+6
Seed 1.6 FlashByteDance	ByteDance	85.0	+3	+21
Qwen3 VL 30B A3B ThinkingAlibaba	Alibaba	85.0	+2	+11
Gemini 2.5 Flash Lite Preview 09-2025Google	Google	83.7	0	+11
MiniMax M2.5 (free)MiniMax	MiniMax	83.4	0	+6
Qwen Plus 0728 (thinking)Alibaba	Alibaba	82.8	-3	-14
Grok 4.20 Multi-Agent BetaxAI	xAI	82.2	-3	+17
Claude Opus 4.1Anthropic	Anthropic	82.0	-3	-11
Claude Opus 4Anthropic	Anthropic	81.7	+3	-11
Qwen3 VL 32B InstructAlibaba	Alibaba	80.9	+3	-12
Nova Premier 1.0Amazon	Amazon	77.8	+2	-8
GPT-5 ChatOpenAI	OpenAI	75.0	-3	+11
Nova 2 LiteAmazon	Amazon	72.7	+1	-21
Qwen3 32BAlibaba	Alibaba	71.4	-2	-16
Mistral Medium 3.1Mistral AI	Mistral AI	70.3	0	+13
ERNIE 4.5 21B A3B ThinkingBaidu	Baidu	70.0	+1	-19
GPT AudioOpenAI	OpenAI	68.4	+1	-6
MiniMax M1MiniMax	MiniMax	68.4	+2	+11
Nemotron 3 Nano 30B A3B (free)NVIDIA	NVIDIA	67.7	-3	+16
Grok 3 Mini BetaxAI	xAI	66.1	+2	+9
Llama 3.3 70B InstructMeta	Meta	65.7	0	-15
Mistral Medium 3Mistral AI	Mistral AI	65.0	-1	-6
Olmo 3.1 32B InstructAllen AI	Allen AI	64.9	-1	-13
Kimi K2 0711Moonshot AI	Moonshot AI	62.7	-1	-17
R1 Distill Qwen 32BDeepSeek	DeepSeek	60.2	-2	+12
Phi 4Microsoft	Microsoft	59.6	+3	+6
Aion-1.0-Miniaion-labs	aion-labs	56.6	-3	+6
LFM2-2.6BLiquid AI	Liquid AI	53.2	+2	-16
Mistral Large 2407Mistral AI	Mistral AI	53.0	-3	-8
Llama Guard 3 8BMeta	Meta	42.9	+2	+6
GPT-4 Turbo (older v1106)OpenAI	OpenAI	42.7	-3	+6
Llama 3.1 8B InstructMeta	Meta	42.4	+1	-6
GPT-4OpenAI	OpenAI	39.0	+1	+6

Which Models Are Noisy vs. Consistent?

Noisiest Models(highest CV% - widest significance thresholds)

Model	Provider	Score	CV%	Std Dev	Sig. Threshold
WizardLM-2 8x22BMicrosoft	Microsoft	32.2	5.5%	1.60	±3.14
Mixtral 8x22B InstructMistral AI	Mistral AI	37.1	5.4%	1.87	±3.66
Llama 3.2 3B Instruct (free)Meta	Meta	35.2	5.4%	1.77	±3.46
autofixer-01Vercel	Vercel	38.8	4.8%	1.76	±3.44
GPT-4OpenAI	OpenAI	39.0	4.8%	1.76	±3.45
Mixtral 8x7B InstructMistral AI	Mistral AI	42.4	4.7%	1.87	±3.66
Claude 3 HaikuAnthropic	Anthropic	43.0	4.7%	1.89	±3.71
GPT-3.5 Turbo (older v0613)OpenAI	OpenAI	38.0	4.3%	1.52	±2.97
Olmo 2 32B InstructAllen AI	Allen AI	44.5	4.2%	1.76	±3.46
GPT-4 Turbo (older v1106)OpenAI	OpenAI	42.7	4.2%	1.68	±3.30
Llama Guard 3 8BMeta	Meta	42.9	3.9%	1.59	±3.12
Qwen2.5 Coder 7B InstructAlibaba	Alibaba	42.9	3.8%	1.55	±3.04
Command R7B (12-2024)Cohere	Cohere	44.7	3.6%	1.51	±2.97
GPT-4o (2024-08-06)OpenAI	OpenAI	55.6	3.6%	1.89	±3.71
LFM2-8B-A1BLiquid AI	Liquid AI	53.2	3.6%	1.80	±3.52
SWE-1.5Windsurf	Windsurf	49.2	3.6%	1.66	±3.25
Devstral MediumMistral AI	Mistral AI	62.6	3.4%	2.05	±4.01
Maestro Reasoningarcee-ai	arcee-ai	55.6	3.4%	1.79	±3.52
QwQ 32BAlibaba	Alibaba	47.0	3.3%	1.47	±2.88
Mistral Small 3Mistral AI	Mistral AI	59.5	3.2%	1.81	±3.56

Most Consistent Models(lowest CV% - tightest significance thresholds)

Model	Provider	Score	CV%	Std Dev	Sig. Threshold
Grok 4 FastxAI	xAI	83.3	0.4%	0.36	±0.71
Sonar Pro SearchPerplexity	Perplexity	85.0	0.5%	0.40	±0.78
Gemini 3.1 Pro PreviewGoogle	Google	85.5	0.5%	0.40	±0.79
Gemini 3.1 Pro Preview Custom ToolsGoogle	Google	85.0	0.5%	0.40	±0.79
Nova 2 LiteAmazon	Amazon	72.7	0.5%	0.39	±0.77
Nova Premier 1.0Amazon	Amazon	77.8	0.6%	0.43	±0.84
Gemini 2.5 ProGoogle	Google	84.8	0.6%	0.47	±0.93
Solar Pro 3Upstage	Upstage	72.5	0.6%	0.42	±0.82
Grok 3 MinixAI	xAI	76.2	0.6%	0.44	±0.86
Gemini 2.5 Flash LiteGoogle	Google	81.4	0.6%	0.47	±0.92
Claude 3.7 SonnetAnthropic	Anthropic	77.1	0.6%	0.45	±0.88
Gemini 2.5 FlashGoogle	Google	80.1	0.6%	0.47	±0.92
Claude Opus 4Anthropic	Anthropic	81.7	0.6%	0.48	±0.94
Nemotron 3 Super (free)NVIDIA	NVIDIA	84.1	0.6%	0.51	±1.00
Claude Opus 4.6Anthropic	Anthropic	92.1	0.6%	0.58	±1.13
Qwen3 Coder PlusAlibaba	Alibaba	78.6	0.6%	0.49	±0.97
Qwen3.5 397B A17BAlibaba	Alibaba	81.8	0.6%	0.52	±1.01
Claude Opus 4.5Anthropic	Anthropic	90.4	0.6%	0.58	±1.13
Qwen3 Coder NextAlibaba	Alibaba	76.7	0.6%	0.49	±0.97
Gemma 3 4BGoogle	Google	56.2	0.7%	0.36	±0.71

How to Read This Page

Understanding the statistical methodology behind our significance analysis helps you distinguish real performance shifts from random fluctuations.

Statistical Significance

Baseline Score

Confidence Intervals

Multi-Timeframe Analysis

Noise vs. Signal

All Trackers

Coding, image, and video model trackers

Degradation Tracker

Detect when AI models may be getting worse

Stability Tracker

Track model ranking stability and consistency

Frequently Asked Questions

Change Significance Tracker

What This Means

Top Significant Changes (by |Z-Score|)

Real Performance Shifts

Short-Term vs. Sustained Changes

Significant on Both Timeframes(strongest signals)

Daily Only(may be noise)

Weekly Only(building trend)

Which Models Are Noisy vs. Consistent?

Noisiest Models(highest CV% - widest significance thresholds)

Most Consistent Models(lowest CV% - tightest significance thresholds)

How to Read This Page

Statistical Significance

Baseline Score

Confidence Intervals

Multi-Timeframe Analysis

Noise vs. Signal

Related

Change Significance Tracker

What This Means

Top Significant Changes (by |Z-Score|)

Real Performance Shifts

Short-Term vs. Sustained Changes

Significant on Both Timeframes(strongest signals)

Daily Only(may be noise)

Weekly Only(building trend)

Which Models Are Noisy vs. Consistent?

Noisiest Models(highest CV% - widest significance thresholds)

Most Consistent Models(lowest CV% - tightest significance thresholds)

How to Read This Page

Statistical Significance

Baseline Score

Confidence Intervals

Multi-Timeframe Analysis

Noise vs. Signal

Related