PR

promptbench

Evaluation·infrastructure·open·#790 of 884·+102·Rising

58.4

Low

High confidence

A unified evaluation framework for large language models

Pillar Breakdown

Adoption

35%

44.4

Maintenance

30%

67.5

Friction

20%

97.6

Ecosystem

15%

35.1

Momentum

0.46Rising

7d change -0.26

High confidence

In Evaluation

Ranked #46 of 57

87.3

86.0

85.2

84.8

82.9

79.6

79.6

78.2

See all 57 in Evaluation →

Similar Tools

MLGym

Evaluation

58.3

lighteval

Evaluation

58.6

LLMBox

Evaluation

58.8

langtrace

Evaluation

58.0