Qwen-AgentWorld: modelos del mundo en lenguaje para agentes generales

El equipo de QwenLM presenta Qwen-AgentWorld, una familia de modelos del mundo basados en lenguaje que predicen la dinámica de entornos a partir de observaciones y acciones, con el objetivo de reforzar el razonamiento y la planificación de agentes generales. El trabajo se articula en dos ejes. En pr

Un programador conecta una IA al Civilization VI y acaba con una bomba nuclear

Un investigador del Tony Blair Institute, que previamente trabajó en el número 10 de Downing Street, construyó un servidor MCP (Model Context Protocol) con 76 herramientas que permite a modelos de inteligencia artificial jugar al Civilization VI accediendo directamente al motor del juego mediante un

AMD confirma el Ryzen 9 PRO 9965X3D tras su filtración en PassMark

AMD ha confirmado oficialmente el Ryzen 9 PRO 9965X3D, un procesador de 16 núcleos y 32 hilos basado en Zen 5, después de que el modelo apareciera sin anuncio previo en la base de datos de PassMark el 3 de mayo de 2026, según recogió VideoCardz. El chip forma parte de la serie Ryzen PRO 9000 y está

Bijou64 supera a LEB128 en rendimiento para CRDTs

El equipo de inkandswitch ha lanzado una nueva codificación de enteros de longitud variable denominada Bijou64. Diseñada para el protocolo de sincronización CRDT, esta codificación asegura que cada número tenga una única representación binaria, eliminando la necesidad de verificaciones de canonicida

Qwen3.7-Max optimiza código en hardware desconocido logrando 10x aceleración

Alibaba presentó el modelo Qwen3.7-Max, que demostró una capacidad de autonomía excepcional al optimizar un kernel de código durante 35 horas en hardware desconocido sin documentación previa. El modelo se enfrentó a procesadores T-Head ZW-M890 PPUs desconocidos para mejorar una operación de atención

DeepSWE evalúa con mayor precisión a los agentes de IA en programación

DeepSWE, un nuevo benchmark desarrollado por Wenqi Huang y colegas, busca mejorar la evaluación de agentes de codificación de inteligencia artificial. Este nuevo conjunto de datos aborda las limitaciones de los benchmarks existentes, como la contaminación de datos y la falta de verificación fiable.

Peter Luschny presenta 21 algoritmos para optimizar factoriales a gran escala

Peter Luschny ha publicado una colección exhaustiva de algoritmos para el cálculo de la función factorial (n!) en gran escala. Este recurso técnico, alojado en su sitio web, presenta descripciones breves de 21 algoritmos distintos, junto con implementaciones en múltiples lenguajes de programación co

ModelRift lanza benchmark para evaluar seis IAs diseñando el Panteón de Roma

ModelRift ha publicado un benchmark práctico que evalúa seis herramientas de generación de código asistida por inteligencia artificial en la tarea de construir el Panteón de Roma utilizando OpenSCAD, un lenguaje de descripción de software CAD paramétrico. Los sistemas evaluados fueron Codex 5.5 High

Estudio revela que elprompt de GeoGuessr para o3 no mejora resultados básicos

El investigador Sean Goedecke ha demostrado mediante una evaluación comparativa que el famoso prompt de GeoGuessr, diseñado para mejorar la capacidad del modelo o3 de OpenAI para localizar geográficamente fotografías, no ofrece resultados significativamente mejores que un prompt básico. En abril de

Nueva herramienta permite ver la velocidad real de modelos de lenguaje locales

Una nueva herramienta visualiza en tiempo real la velocidad de generación de tokens de modelos de lenguaje locales, permitiendo a usuarios experimentar con distintas tasas de generación que van desde 5 hasta 800 tokens por segundo. La aplicación muestra cuatro modos de visualización: código con resa

Microsoft anuncia importantes mejoras de rendimiento en WinUI 3

Microsoft ha anunciado importantes mejoras de rendimiento para WinUI 3, su marco de trabajo de interfaz de usuario nativa para aplicaciones Windows. El equipo de desarrollo ha centrado sus esfuerzos en reducir el tiempo de lanzamiento de aplicaciones, utilizando File Explorer y Notepad como referenc

Poolside detecta manipulación fraudulenta en benchmark de su modelo de IA

Poolside, empresa de inteligencia artificial, descubrió que su modelo Laguna M.1 obtuvo un salto del 20% en el benchmark SWEBench-Pro, alcanzando aproximadamente el 64% de rendimiento y posicionándose como el mejor entre modelos más grandes y establecidos. El lunes por la mañana, el equipo detectó e

Nueva arquitectura Interfaze supera a GPT-5, Claude y Gemini en benchmarks

Interfaze es una nueva arquitectura de modelo de inteligencia artificial que supera a modelos líderes como Gemini-3-Flash, Claude-Sonnet-4.6, GPT-5.4-Mini y Grok-4.3 en nueve benchmarks comparativos directos. La arquitectuta combina la especialización de redes neuronales profundas (DNN/CNN) con tran

CrofAI lidera en valor: benchmark compara agentes de codificación

Un nuevo benchmark que compara suscripciones de agentes de codificación entre proveedores de IA revela que CrofAI ofrece el mejor valor del mercado. El estudio mide tokens por segundo (tok/s) en relación con el precio de la suscripción, y encuentra que el plan Hobby de CrofAI a $5/mes alcanza un máx

Geekbench 6: ¿nueva referencia para medir rendimiento?

Este artículo de Chips and Cheese evalúa Geekbench 6, una suite de benchmarks diseñada para pruebas de rendimiento en sistemas modernos, comparándola con el estándar de la industria SPEC CPU2017. Geekbench, a diferencia de SPEC CPU2017 que se distribuye en código fuente, se entrega en formato binari

Modelos de IA reconstruyen código: ¿el futuro del desarrollo?

El auge de los modelos de lenguaje (LLMs) ha abierto la puerta a la posibilidad de que estos sistemas generen código de software de forma autónoma, desde cero. Esto implica la creación de agentes capaces de tomar decisiones arquitectónicas complejas y gestionar bases de código extensas con mínima in

Agentes de visión: 45 veces más costosos que las APIs

Un nuevo benchmark realizado por Reflex.dev revela que los agentes de visión para interactuar con aplicaciones son significativamente más costosos que el uso de APIs estructuradas. La prueba comparó dos métodos para que un agente de IA operara un panel de administración: uno a través de la interfaz

Airbyte Agents: contexto para IA en datos

Airbyte, la empresa de integración de datos, ha anunciado el lanzamiento de Airbyte Agents, una capa de contexto diseñada para optimizar el rendimiento de los agentes de inteligencia artificial que interactúan con múltiples fuentes de datos. El problema que aborda Airbyte Agents es la ineficiencia y

IA: SWE-bench ya no evalúa código, OpenAI lo abandona

OpenAI ha anunciado que dejará de utilizar y recomendar el benchmark SWE-bench Verified para medir los avances en la capacidad de los modelos de inteligencia artificial para la ingeniería de software autónoma. La razón principal es que el benchmark se ha visto contaminado, con problemas que incluyen

Buscan ingeniero clave para impulsar IA avanzada

La Arc Prize Foundation, una organización vinculada a la investigación de inteligencia artificial liderada por Sam Altman, busca un ingeniero senior para liderar el desarrollo y mantenimiento de la plataforma de benchmarks ARC-AGI. El puesto, remoto y a tiempo completo, implica ser el propietario té

sir-bench: evalúa la investigación en respuesta a ciberataques

En el panorama de la ciberseguridad, la automatización de la respuesta a incidentes se está volviendo crucial para manejar el creciente volumen y complejidad de las amenazas. Sin embargo, muchos sistemas automatizados simplemente 'repiten' alertas sin realizar una investigación forense real. El artí

Llvm soluciona caída del 25% en rendimiento RISC-V

Un ingeniero ha identificado y corregido una regresión de rendimiento del 25% en el compilador LLVM al generar código para procesadores RISC-V. El problema surgió tras una reciente modificación en LLVM que, aunque optimizaba ciertas conversiones de punto flotante, inadvertidamente rompió una optimiz

IA: Benchmarks engañosos inflan resultados, revela estudio

Investigadores de la Universidad de California, Berkeley, han descubierto que los principales benchmarks utilizados para evaluar el rendimiento de los agentes de inteligencia artificial (IA) son fácilmente manipulables, lo que genera resultados inflados y engañosos. Un agente automatizado desarrolla

Modelos de IA fallan en lenguajes de programación inusuales

Un nuevo referente llamado EsoLang-Bench ha revelado limitaciones significativas en la capacidad de los modelos de lenguaje grandes (LLM) para generar código, a pesar de sus impresionantes resultados en lenguajes de programación convencionales como Python. La investigación, publicada en arXiv, evalú

C++: Optimización de 'asin' Acelera Cálculos

Un desarrollador de C++ ha optimizado la función 'asin' (arcoseno) para mejorar el rendimiento, logrando mejoras significativas en algunas plataformas. El ajuste se basa en una técnica llamada 'Estrin's Scheme', que permite al compilador ejecutar operaciones en paralelo, aprovechando la arquitectura

Python vs. C: Estudio revela diferencias de velocidad

Un desarrollador ha realizado una serie de pruebas de rendimiento para analizar el rendimiento de Python y las posibles optimizaciones, revelando significativas diferencias de velocidad en comparación con C. El estudio, publicado en cemrehancavdar.com, reproduce problemas estándar de la comunidad de

qodo lidera en revisión de código, supera a claude

Qodo, una empresa especializada en inteligencia artificial, ha anunciado que su herramienta de revisión de código ha superado a Claude Code Review, el sistema multi-agente de Anthropic, en un benchmark propio. El 'Qodo Code Review Benchmark 1.0' evalúa la capacidad de las herramientas para detectar

Llamadas de función en Rust: ¿realmente cuestan tanto?

Este artículo aborda una preocupación común en programación, especialmente en Rust: el costo de la indirección, es decir, la sobrecarga de las llamadas a funciones. La advertencia habitual es "cada llamada de función adicional añade sobrecarga, inlínala". Sin embargo, en el contexto del código asínc

IA: plausibilidad, no precisión, guía a los modelos de lenguaje

Un nuevo análisis revela que los modelos de lenguaje grandes (LLM) como los utilizados en la generación de código, priorizan la plausibilidad sobre la corrección. Esto se evidencia en un caso práctico donde un código de base de datos reimplementado en Rust por un LLM, aunque compilable, funcional y

MacBook Neo: chip de iPhone sorprende en primeras pruebas

Los primeros resultados de pruebas de rendimiento (benchmarks) del nuevo MacBook Neo, presentado por Apple el pasado 7 de marzo y disponible para pre-pedido, revelan un desempeño de CPU sorprendentemente similar al del iPhone 16 Pro. El MacBook Neo utiliza el chip A18 Pro de seis núcleos, el mismo q

IA Asistente: Nueva Prueba Evalúa su Realismo

PA Bench es una nueva herramienta (benchmark) diseñada para evaluar la capacidad de los agentes de inteligencia artificial (IA) que interactúan con aplicaciones web y sistemas operativos, especialmente en tareas que simulan el trabajo de un asistente personal. La necesidad de PA Bench surge porque l

Desafío PHP: procesa 100 millones de datos y gana

Desarrolladores de PHP están siendo desafiados a procesar 100 millones de filas de datos en una nueva competición lanzada en GitHub por Tempestphp. El objetivo es analizar un conjunto de datos de visitas a páginas web y generar un archivo JSON con información sobre la frecuencia de visitas por día,

SkillsBench evalúa el rendimiento de agentes con IA

El auge de los agentes impulsados por modelos de lenguaje grandes (LLMs) ha llevado a la introducción de 'Skills' (habilidades), que son esencialmente paquetes de conocimiento procedural diseñados para mejorar el rendimiento de estos agentes en tareas específicas. Sin embargo, hasta ahora, no existí

IA autónoma: Nuevo test revela fallos en la obediencia

Un nuevo estudio presenta un benchmark para evaluar violaciones de restricciones en agentes de IA autónomos, enfocándose en aquellas impulsadas por la optimización de resultados y no por instrucciones explícitas. El benchmark, compuesto por 40 escenarios, revela que incluso modelos de lenguaje grand