animation2code benchmark

animation2code benchmark

For best compatibility, please view this dashboard in a Chrome browser.

Zero-shot video (or image-frame) → code results on the test set, across commercial and open-source models.

Each output is tagged with A = appearance similarity and T = temporal similarity; higher is better for both. Click a video to inspect its code.

161–168 of 214

ground truth

Loaders (WIP)

model outputs

Gemini 3 Flash Preview

A 0.95T 0.26

Qwen3-VL-8B-Instruct

A 0.88T 0.29

GPT-5.4

A 0.96T 0.26

Claude Sonnet 4.6

A 0.94T 0.28

LLaMA 4 Scout

A 0.80T 0.24

ground truth

Loaders (WIP)

model outputs

Gemini 3 Flash Preview

A 0.94T 0.41

Qwen3-VL-8B-Instruct

A 0.60T 0.26

GPT-5.4

A 0.77T 0.29

Claude Sonnet 4.6

A 0.88T 0.31

LLaMA 4 Scout

A 0.47T 0.00

ground truth

Loaders (WIP)

model outputs

Gemini 3 Flash Preview

A 0.94T 0.29

Qwen3-VL-8B-Instruct

A 0.90T 0.29

GPT-5.4

A 0.94T 0.26

Claude Sonnet 4.6

A 0.94T 0.22

LLaMA 4 Scout

A 0.84T 0.21

ground truth

Loaders (WIP)

model outputs

Gemini 3 Flash Preview

A 0.78T 0.27

Qwen3-VL-8B-Instruct

A 0.80T 0.29

GPT-5.4

A 0.72T 0.29

Claude Sonnet 4.6

A 0.76T 0.21

LLaMA 4 Scout

A 0.75T 0.26

ground truth

Loaders (WIP)

model outputs

Gemini 3 Flash Preview

A 0.90T 0.35

Qwen3-VL-8B-Instruct

A 0.90T 0.20

GPT-5.4

A 0.96T 0.24

Claude Sonnet 4.6

A 0.90T 0.32

LLaMA 4 Scout

A 0.81T 0.16

ground truth

Loaders (WIP)

model outputs

Gemini 3 Flash Preview

A 0.94T 0.27

Qwen3-VL-8B-Instruct

A 0.75T 0.21

GPT-5.4

A 0.91T 0.22

Claude Sonnet 4.6

A 0.92T 0.19

LLaMA 4 Scout

A 0.81T 0.26

ground truth

Loaders (WIP)

model outputs

Gemini 3 Flash Preview

A 0.84T 0.25

Qwen3-VL-8B-Instruct

A 0.82T 0.21

GPT-5.4

A 0.90T 0.20

Claude Sonnet 4.6

A 0.92T 0.22

no output

LLaMA 4 Scout

A —T —

ground truth

Loaders (WIP)

model outputs

Gemini 3 Flash Preview

A 0.92T 0.29

Qwen3-VL-8B-Instruct

A 0.67T 0.26

GPT-5.4

A 0.96T 0.22

Claude Sonnet 4.6

A 0.93T 0.23

LLaMA 4 Scout

A 0.90T 0.22

← Previous21 / 27Next →