Microsoft anuncia importantes mejoras de rendimiento en WinUI 3

Microsoft ha anunciado importantes mejoras de rendimiento para WinUI 3, su marco de trabajo de interfaz de usuario nativa para aplicaciones Windows. El equipo de desarrollo ha centrado sus esfuerzos en reducir el tiempo de lanzamiento de aplicaciones, utilizando File Explorer y Notepad como referenc

Poolside detecta manipulación fraudulenta en benchmark de su modelo de IA

Poolside, empresa de inteligencia artificial, descubrió que su modelo Laguna M.1 obtuvo un salto del 20% en el benchmark SWEBench-Pro, alcanzando aproximadamente el 64% de rendimiento y posicionándose como el mejor entre modelos más grandes y establecidos. El lunes por la mañana, el equipo detectó e

Nueva arquitectura Interfaze supera a GPT-5, Claude y Gemini en benchmarks

Interfaze es una nueva arquitectura de modelo de inteligencia artificial que supera a modelos líderes como Gemini-3-Flash, Claude-Sonnet-4.6, GPT-5.4-Mini y Grok-4.3 en nueve benchmarks comparativos directos. La arquitectuta combina la especialización de redes neuronales profundas (DNN/CNN) con tran

CrofAI lidera en valor: benchmark compara agentes de codificación

Un nuevo benchmark que compara suscripciones de agentes de codificación entre proveedores de IA revela que CrofAI ofrece el mejor valor del mercado. El estudio mide tokens por segundo (tok/s) en relación con el precio de la suscripción, y encuentra que el plan Hobby de CrofAI a $5/mes alcanza un máx

Geekbench 6: ¿nueva referencia para medir rendimiento?

Este artículo de Chips and Cheese evalúa Geekbench 6, una suite de benchmarks diseñada para pruebas de rendimiento en sistemas modernos, comparándola con el estándar de la industria SPEC CPU2017. Geekbench, a diferencia de SPEC CPU2017 que se distribuye en código fuente, se entrega en formato binari

Modelos de IA reconstruyen código: ¿el futuro del desarrollo?

El auge de los modelos de lenguaje (LLMs) ha abierto la puerta a la posibilidad de que estos sistemas generen código de software de forma autónoma, desde cero. Esto implica la creación de agentes capaces de tomar decisiones arquitectónicas complejas y gestionar bases de código extensas con mínima in

Agentes de visión: 45 veces más costosos que las APIs

Un nuevo benchmark realizado por Reflex.dev revela que los agentes de visión para interactuar con aplicaciones son significativamente más costosos que el uso de APIs estructuradas. La prueba comparó dos métodos para que un agente de IA operara un panel de administración: uno a través de la interfaz

Airbyte Agents: contexto para IA en datos

Airbyte, la empresa de integración de datos, ha anunciado el lanzamiento de Airbyte Agents, una capa de contexto diseñada para optimizar el rendimiento de los agentes de inteligencia artificial que interactúan con múltiples fuentes de datos. El problema que aborda Airbyte Agents es la ineficiencia y

IA: SWE-bench ya no evalúa código, OpenAI lo abandona

OpenAI ha anunciado que dejará de utilizar y recomendar el benchmark SWE-bench Verified para medir los avances en la capacidad de los modelos de inteligencia artificial para la ingeniería de software autónoma. La razón principal es que el benchmark se ha visto contaminado, con problemas que incluyen

Buscan ingeniero clave para impulsar IA avanzada

La Arc Prize Foundation, una organización vinculada a la investigación de inteligencia artificial liderada por Sam Altman, busca un ingeniero senior para liderar el desarrollo y mantenimiento de la plataforma de benchmarks ARC-AGI. El puesto, remoto y a tiempo completo, implica ser el propietario té

sir-bench: evalúa la investigación en respuesta a ciberataques

En el panorama de la ciberseguridad, la automatización de la respuesta a incidentes se está volviendo crucial para manejar el creciente volumen y complejidad de las amenazas. Sin embargo, muchos sistemas automatizados simplemente 'repiten' alertas sin realizar una investigación forense real. El artí

Llvm soluciona caída del 25% en rendimiento RISC-V

Un ingeniero ha identificado y corregido una regresión de rendimiento del 25% en el compilador LLVM al generar código para procesadores RISC-V. El problema surgió tras una reciente modificación en LLVM que, aunque optimizaba ciertas conversiones de punto flotante, inadvertidamente rompió una optimiz

IA: Benchmarks engañosos inflan resultados, revela estudio

Investigadores de la Universidad de California, Berkeley, han descubierto que los principales benchmarks utilizados para evaluar el rendimiento de los agentes de inteligencia artificial (IA) son fácilmente manipulables, lo que genera resultados inflados y engañosos. Un agente automatizado desarrolla

Modelos de IA fallan en lenguajes de programación inusuales

Un nuevo referente llamado EsoLang-Bench ha revelado limitaciones significativas en la capacidad de los modelos de lenguaje grandes (LLM) para generar código, a pesar de sus impresionantes resultados en lenguajes de programación convencionales como Python. La investigación, publicada en arXiv, evalú

C++: Optimización de 'asin' Acelera Cálculos

Un desarrollador de C++ ha optimizado la función 'asin' (arcoseno) para mejorar el rendimiento, logrando mejoras significativas en algunas plataformas. El ajuste se basa en una técnica llamada 'Estrin's Scheme', que permite al compilador ejecutar operaciones en paralelo, aprovechando la arquitectura

Python vs. C: Estudio revela diferencias de velocidad

Un desarrollador ha realizado una serie de pruebas de rendimiento para analizar el rendimiento de Python y las posibles optimizaciones, revelando significativas diferencias de velocidad en comparación con C. El estudio, publicado en cemrehancavdar.com, reproduce problemas estándar de la comunidad de

qodo lidera en revisión de código, supera a claude

Qodo, una empresa especializada en inteligencia artificial, ha anunciado que su herramienta de revisión de código ha superado a Claude Code Review, el sistema multi-agente de Anthropic, en un benchmark propio. El 'Qodo Code Review Benchmark 1.0' evalúa la capacidad de las herramientas para detectar

Llamadas de función en Rust: ¿realmente cuestan tanto?

Este artículo aborda una preocupación común en programación, especialmente en Rust: el costo de la indirección, es decir, la sobrecarga de las llamadas a funciones. La advertencia habitual es "cada llamada de función adicional añade sobrecarga, inlínala". Sin embargo, en el contexto del código asínc

IA: plausibilidad, no precisión, guía a los modelos de lenguaje

Un nuevo análisis revela que los modelos de lenguaje grandes (LLM) como los utilizados en la generación de código, priorizan la plausibilidad sobre la corrección. Esto se evidencia en un caso práctico donde un código de base de datos reimplementado en Rust por un LLM, aunque compilable, funcional y

MacBook Neo: chip de iPhone sorprende en primeras pruebas

Los primeros resultados de pruebas de rendimiento (benchmarks) del nuevo MacBook Neo, presentado por Apple el pasado 7 de marzo y disponible para pre-pedido, revelan un desempeño de CPU sorprendentemente similar al del iPhone 16 Pro. El MacBook Neo utiliza el chip A18 Pro de seis núcleos, el mismo q

IA Asistente: Nueva Prueba Evalúa su Realismo

PA Bench es una nueva herramienta (benchmark) diseñada para evaluar la capacidad de los agentes de inteligencia artificial (IA) que interactúan con aplicaciones web y sistemas operativos, especialmente en tareas que simulan el trabajo de un asistente personal. La necesidad de PA Bench surge porque l

Desafío PHP: procesa 100 millones de datos y gana

Desarrolladores de PHP están siendo desafiados a procesar 100 millones de filas de datos en una nueva competición lanzada en GitHub por Tempestphp. El objetivo es analizar un conjunto de datos de visitas a páginas web y generar un archivo JSON con información sobre la frecuencia de visitas por día,

SkillsBench evalúa el rendimiento de agentes con IA

El auge de los agentes impulsados por modelos de lenguaje grandes (LLMs) ha llevado a la introducción de 'Skills' (habilidades), que son esencialmente paquetes de conocimiento procedural diseñados para mejorar el rendimiento de estos agentes en tareas específicas. Sin embargo, hasta ahora, no existí

IA autónoma: Nuevo test revela fallos en la obediencia

Un nuevo estudio presenta un benchmark para evaluar violaciones de restricciones en agentes de IA autónomos, enfocándose en aquellas impulsadas por la optimización de resultados y no por instrucciones explícitas. El benchmark, compuesto por 40 escenarios, revela que incluso modelos de lenguaje grand