IA: Benchmarks engañosos inflan resultados, revela estudio

Investigadores de la Universidad de California, Berkeley, han descubierto que los principales benchmarks utilizados para evaluar el rendimiento de los agentes de inteligencia artificial (IA) son fácilmente manipulables, lo que genera resultados inflados y engañosos. Un agente automatizado desarrolla

Ciencia de datos: LLMs cambian el panorama laboral

El auge del científico de datos, considerado en su momento como “el trabajo más sexy del siglo XXI”, está experimentando una redefinición debido a la proliferación de las APIs de modelos de lenguaje grandes (LLMs). La facilidad de integración de estos modelos, que antes requerían la intervención de

OpenClaw Arena evalúa y clasifica modelos de IA

OpenClaw Arena ha lanzado una nueva plataforma para clasificar modelos de inteligencia artificial (IA) en tareas del mundo real, revelando un ranking de sus capacidades. La plataforma, impulsada por la organización sin fines de lucro OpenClaw, evalúa a los modelos de IA en escenarios complejos que s

Google propone medir avance hacia la IA general

La búsqueda de la Inteligencia Artificial General (AGI) – sistemas de IA con capacidades cognitivas similares a las humanas – es un objetivo ambicioso con el potencial de revolucionar la ciencia y resolver problemas globales. Sin embargo, medir el progreso hacia la AGI es un desafío considerable deb

IA: Empresas buscan métodos para evaluar modelos

Las empresas se enfrentan al desafío de evaluar los modelos de inteligencia artificial (IA) que se desarrollan y lanzan a un ritmo acelerado. La evaluación interna de estos modelos para determinar su idoneidad para casos de uso específicos varía significativamente entre los equipos, desde la ausenci