Explora I+D+i UPV

Volver atrás Proyecto

Benchmarking LLM agents on consequential realworld tasks

Institut Universitari Valencià d'investigació en Intel·ligència Artificial

Compartir
Año de inicio

2025

Organismo financiador

THE CHANCELLOR MASTERS & OF THE UNIVERSITY OF CAMBRIDGE

Tipo de proyecto

INV. COMPETITIVA PROYECTOS

Responsable científico

Hernández Orallo José

Resumen

El proyecto "Benchmarking LLM agents on consequential real-world tasks" busca evaluar agentes basados en modelos de lenguaje de gran tamaño (LLM) en tareas con consecuencias reales, más allá de entornos simulados o puramente académicos. El objetivo es analizar su rendimiento, robustez, toma de decisiones y fiabilidad en contextos complejos y de impacto.