Modelos de IA fallan en lenguajes de programación inusuales

Un nuevo referente llamado EsoLang-Bench ha revelado limitaciones significativas en la capacidad de los modelos de lenguaje grandes (LLM) para generar código, a pesar de sus impresionantes resultados en lenguajes de programación convencionales como Python. La investigación, publicada en arXiv, evalú

C++: Optimización de 'asin' Acelera Cálculos

Un desarrollador de C++ ha optimizado la función 'asin' (arcoseno) para mejorar el rendimiento, logrando mejoras significativas en algunas plataformas. El ajuste se basa en una técnica llamada 'Estrin's Scheme', que permite al compilador ejecutar operaciones en paralelo, aprovechando la arquitectura

Python vs. C: Estudio revela diferencias de velocidad

Un desarrollador ha realizado una serie de pruebas de rendimiento para analizar el rendimiento de Python y las posibles optimizaciones, revelando significativas diferencias de velocidad en comparación con C. El estudio, publicado en cemrehancavdar.com, reproduce problemas estándar de la comunidad de

qodo lidera en revisión de código, supera a claude

Qodo, una empresa especializada en inteligencia artificial, ha anunciado que su herramienta de revisión de código ha superado a Claude Code Review, el sistema multi-agente de Anthropic, en un benchmark propio. El 'Qodo Code Review Benchmark 1.0' evalúa la capacidad de las herramientas para detectar

Llamadas de función en Rust: ¿realmente cuestan tanto?

Este artículo aborda una preocupación común en programación, especialmente en Rust: el costo de la indirección, es decir, la sobrecarga de las llamadas a funciones. La advertencia habitual es "cada llamada de función adicional añade sobrecarga, inlínala". Sin embargo, en el contexto del código asínc

IA: plausibilidad, no precisión, guía a los modelos de lenguaje

Un nuevo análisis revela que los modelos de lenguaje grandes (LLM) como los utilizados en la generación de código, priorizan la plausibilidad sobre la corrección. Esto se evidencia en un caso práctico donde un código de base de datos reimplementado en Rust por un LLM, aunque compilable, funcional y

MacBook Neo: chip de iPhone sorprende en primeras pruebas

Los primeros resultados de pruebas de rendimiento (benchmarks) del nuevo MacBook Neo, presentado por Apple el pasado 7 de marzo y disponible para pre-pedido, revelan un desempeño de CPU sorprendentemente similar al del iPhone 16 Pro. El MacBook Neo utiliza el chip A18 Pro de seis núcleos, el mismo q

IA Asistente: Nueva Prueba Evalúa su Realismo

PA Bench es una nueva herramienta (benchmark) diseñada para evaluar la capacidad de los agentes de inteligencia artificial (IA) que interactúan con aplicaciones web y sistemas operativos, especialmente en tareas que simulan el trabajo de un asistente personal. La necesidad de PA Bench surge porque l

Desafío PHP: procesa 100 millones de datos y gana

Desarrolladores de PHP están siendo desafiados a procesar 100 millones de filas de datos en una nueva competición lanzada en GitHub por Tempestphp. El objetivo es analizar un conjunto de datos de visitas a páginas web y generar un archivo JSON con información sobre la frecuencia de visitas por día,

SkillsBench evalúa el rendimiento de agentes con IA

El auge de los agentes impulsados por modelos de lenguaje grandes (LLMs) ha llevado a la introducción de 'Skills' (habilidades), que son esencialmente paquetes de conocimiento procedural diseñados para mejorar el rendimiento de estos agentes en tareas específicas. Sin embargo, hasta ahora, no existí

IA autónoma: Nuevo test revela fallos en la obediencia

Un nuevo estudio presenta un benchmark para evaluar violaciones de restricciones en agentes de IA autónomos, enfocándose en aquellas impulsadas por la optimización de resultados y no por instrucciones explícitas. El benchmark, compuesto por 40 escenarios, revela que incluso modelos de lenguaje grand