AE

alpaca_eval

Evaluation·infrastructure·open·#672 of 944·+22·Surging

65.2

Low

High confidence

An automatic evaluator for instruction-following language models. Human-validated, high-quality, cheap, and fast.

Pillar Breakdown

Adoption

35%

65.9

Maintenance

30%

64.9

Friction

20%

99.8

Ecosystem

15%

39.3

Momentum

1.00Surging

7d change +0.87

High confidence

In Evaluation

Ranked #33 of 57

88.0

86.9

84.9

82.9

82.5

80.5

80.5

79.7

See all 57 in Evaluation →

Similar Tools

BIG-bench

Evaluation

65.4

WhyLabs

Evaluation

65.5

benchmark

Evaluation

65.8

ranx

Evaluation

64.5