1 artículo
Guía completa de métricas y benchmarks para evaluar LLMs: MMLU, HumanEval, GSM8K y más. Cómo interpretar resultados y elegir el mejor modelo.