HE

human-eval

Evaluation·infrastructure·open·#771 of 884·+91·Stable

59.5

Low

High confidence

Code for the paper "Evaluating Large Language Models Trained on Code"

Pillar Breakdown

Adoption

35%

46.8

Maintenance

30%

64.3

Friction

20%

97.4

Ecosystem

15%

43.9

Momentum

0.31Stable

7d change -0.26

High confidence

In Evaluation

Ranked #43 of 57

87.3

86.0

85.2

84.8

82.9

79.6

79.6

78.2

See all 57 in Evaluation →

Similar Tools

Quantus

Evaluation

59.6

RoboVerse

Evaluation

60.1

guidellm

Evaluation

60.2

LLMBox

Evaluation

58.8