AI Benchmarks — Compare LLM Benchmark Scores

Arena ELO

Chatbot Arena crowdsourced ELO rating

27 models tested Top: Claude Opus 4.6 (1504.0)

Code generation benchmark

4 models tested Top: o3 (95.2)

Competition mathematics

3 models tested Top: DeepSeek R1 (97.3)

Massive Multitask Language Understanding

8 models tested Top: DeepSeek R1 (90.8)