Exámenes: ¿Acierto por conocimiento o suerte?

En los exámenes tradicionales, tanto los de opción múltiple como los de respuesta corta, es difícil determinar si un estudiante ha acertado por conocimiento real o simplemente por suerte. Un estudiante puede eliminar opciones incorrectas en un examen de opción múltiple y adivinar la respuesta correc

DeepSWE evalúa con mayor precisión a los agentes de IA en programación

DeepSWE, un nuevo benchmark desarrollado por Wenqi Huang y colegas, busca mejorar la evaluación de agentes de codificación de inteligencia artificial. Este nuevo conjunto de datos aborda las limitaciones de los benchmarks existentes, como la contaminación de datos y la falta de verificación fiable.

Herramienta evalúa el rendimiento de agentes de IA

Desarrolladores ahora tienen una nueva herramienta llamada `agent-skills-eval` para probar y validar la efectividad de las 'Skills' de Agent Skills, un estándar abierto de Anthropic para dotar a los agentes de conocimiento específico. La herramienta funciona comparando la salida del modelo con y sin

Recurse Center: Nueva solicitud inspirada en Oxford

El Recurse Center (RC), un programa de residencia para programadores, ha rediseñado su proceso de solicitud de admisión, inspirándose en los exámenes de la Universidad de Oxford. El objetivo es identificar mejor a los candidatos curiosos y autodirigidos, y ofrecer una experiencia más atractiva tanto

Remoroo: Automatiza la investigación de Machine Learning

Una startup llamada Remoroo ha lanzado una herramienta innovadora que automatiza la investigación en aprendizaje automático (Machine Learning - ML). La plataforma, que opera localmente y durante la noche, permite a los equipos de ingeniería de tecnología profunda optimizar su código de forma autónom

Problemas sin solución: una clase de desafío

El artículo del blog de Computational Complexity, escrito por Gasarch, explora una práctica pedagógica interesante: asignar problemas abiertos (es decir, problemas sin solución conocida) como trabajo extra a los estudiantes. La discusión se centra en cómo abordar esta práctica de manera efectiva y é