benchmark - ojeo.com

01 Jul 2026

WGO-Bench: benchmark y pipeline para anotar subtareas en vídeo robótico con modelos visión-lenguaje

El entrenamiento de robots en tareas largas requiere algo más que una instrucción de alto nivel: necesita saber qué subtarea ocurre en cada instante y dónde termina una y empieza la siguiente. Esta entrada de blog presenta dos contribuciones principales orientadas a resolver ese problema a escala.

24 Jun 2026

Grok Build 0.1 0616: análisis de inteligencia, rendimiento y precio del modelo de xAI

Grok Build 0.1 0616, el modelo de razonamiento de xAI, se sitúa entre los más destacados de su categoría en el Artificial Analysis Intelligence Index, con una puntuación de 40 frente a una mediana de 29 entre modelos de razonamiento de precio similar. La evaluación completa costó 375,01 dólares y re

24 Jun 2026

Qwen-AgentWorld: modelos del mundo en lenguaje para agentes generales

El equipo de QwenLM presenta Qwen-AgentWorld, una familia de modelos del mundo basados en lenguaje que predicen la dinámica de entornos a partir de observaciones y acciones, con el objetivo de reforzar el razonamiento y la planificación de agentes generales. El trabajo se articula en dos ejes. En pr

24 Jun 2026

DiffusionBench: un banco de pruebas unificado para modelos de difusión Transformer

DiffusionBench es un marco de código abierto diseñado para entrenar y evaluar modelos generativos basados en Diffusion Transformers de forma unificada. El proyecto surge con la premisa de que la evaluación exclusiva sobre ImageNet resulta insuficiente para medir el rendimiento real de estos modelos,

23 Jun 2026

Un programador somete a prueba el detector de bugs Mythos de Anthropic con un benchmark propio

Un desarrollador independiente ha creado un benchmark de código abierto para medir si el modelo Mythos de Anthropic, presentado como una herramienta especialmente eficaz para localizar vulnerabilidades de seguridad, es realmente superior al resto de modelos del mercado o si su reputación responde má

21 Jun 2026

Un programador conecta una IA al Civilization VI y acaba con una bomba nuclear

Un investigador del Tony Blair Institute, que previamente trabajó en el número 10 de Downing Street, construyó un servidor MCP (Model Context Protocol) con 76 herramientas que permite a modelos de inteligencia artificial jugar al Civilization VI accediendo directamente al motor del juego mediante un

14 Jun 2026

Optimización Inversa por Rúbrica: un banco de pruebas para la ciencia de agentes

Fulcrum Research presenta la Optimización Inversa por Rúbrica (IRO, por sus siglas en inglés), un nuevo marco experimental para investigar el comportamiento de agentes de inteligencia artificial en tareas de horizonte largo. En un entorno IRO, un agente debe descubrir las preferencias de un juez de

14 Jun 2026

Meta inicia la desinversión de Manus tras la orden de Beijing y corta el acceso a datos

Meta ha comenzado a deshacer la adquisición de 2.000 millones de dólares de la startup de inteligencia artificial Manus, completando una separación operativa y dejando de compartir datos entre ambas compañías. Se trata del paso más concreto hasta la fecha para cumplir la orden de desinversión que el

14 Jun 2026

Claude Fable 5, de Anthropic: rendimiento medio, trampas récord y cuatro logros inéditos

Anthropic lanzó esta semana Claude Fable 5, un modelo de inteligencia artificial de clase Mythos, y la firma Endor Labs lo sometió a un riguroso examen: 200 tareas de reparación de vulnerabilidades en código real. Los resultados dibujan una evaluación agridulce. En el promedio general, Fable 5 combi

04 Jun 2026

AMD confirma el Ryzen 9 PRO 9965X3D tras su filtración en PassMark

AMD ha confirmado oficialmente el Ryzen 9 PRO 9965X3D, un procesador de 16 núcleos y 32 hilos basado en Zen 5, después de que el modelo apareciera sin anuncio previo en la base de datos de PassMark el 3 de mayo de 2026, según recogió VideoCardz. El chip forma parte de la serie Ryzen PRO 9000 y está

02 Jun 2026

Supermemory: un motor de memoria persistente y RAG unificado para aplicaciones de IA

Supermemory es un motor de memoria y contexto para aplicaciones de inteligencia artificial, presentado como una capa que dota a los modelos de IA de memoria persistente entre conversaciones. El proyecto, alojado en GitHub, afirma situarse en primera posición en los benchmarks LongMemEval, LoCoMo y C

29 May 2026

Bijou64 supera a LEB128 en rendimiento para CRDTs

El equipo de inkandswitch ha lanzado una nueva codificación de enteros de longitud variable denominada Bijou64. Diseñada para el protocolo de sincronización CRDT, esta codificación asegura que cada número tenga una única representación binaria, eliminando la necesidad de verificaciones de canonicida

28 May 2026

Qwen3.7-Max optimiza código en hardware desconocido logrando 10x aceleración

Alibaba presentó el modelo Qwen3.7-Max, que demostró una capacidad de autonomía excepcional al optimizar un kernel de código durante 35 horas en hardware desconocido sin documentación previa. El modelo se enfrentó a procesadores T-Head ZW-M890 PPUs desconocidos para mejorar una operación de atención

27 May 2026

DeepSWE evalúa con mayor precisión a los agentes de IA en programación

DeepSWE, un nuevo benchmark desarrollado por Wenqi Huang y colegas, busca mejorar la evaluación de agentes de codificación de inteligencia artificial. Este nuevo conjunto de datos aborda las limitaciones de los benchmarks existentes, como la contaminación de datos y la falta de verificación fiable.

23 May 2026

Peter Luschny presenta 21 algoritmos para optimizar factoriales a gran escala

Peter Luschny ha publicado una colección exhaustiva de algoritmos para el cálculo de la función factorial (n!) en gran escala. Este recurso técnico, alojado en su sitio web, presenta descripciones breves de 21 algoritmos distintos, junto con implementaciones en múltiples lenguajes de programación co

22 May 2026

ModelRift lanza benchmark para evaluar seis IAs diseñando el Panteón de Roma

ModelRift ha publicado un benchmark práctico que evalúa seis herramientas de generación de código asistida por inteligencia artificial en la tarea de construir el Panteón de Roma utilizando OpenSCAD, un lenguaje de descripción de software CAD paramétrico. Los sistemas evaluados fueron Codex 5.5 High

21 May 2026

Estudio revela que elprompt de GeoGuessr para o3 no mejora resultados básicos

El investigador Sean Goedecke ha demostrado mediante una evaluación comparativa que el famoso prompt de GeoGuessr, diseñado para mejorar la capacidad del modelo o3 de OpenAI para localizar geográficamente fotografías, no ofrece resultados significativamente mejores que un prompt básico. En abril de

20 May 2026

Nueva herramienta permite ver la velocidad real de modelos de lenguaje locales

Una nueva herramienta visualiza en tiempo real la velocidad de generación de tokens de modelos de lenguaje locales, permitiendo a usuarios experimentar con distintas tasas de generación que van desde 5 hasta 800 tokens por segundo. La aplicación muestra cuatro modos de visualización: código con resa

14 May 2026

Microsoft anuncia importantes mejoras de rendimiento en WinUI 3

Microsoft ha anunciado importantes mejoras de rendimiento para WinUI 3, su marco de trabajo de interfaz de usuario nativa para aplicaciones Windows. El equipo de desarrollo ha centrado sus esfuerzos en reducir el tiempo de lanzamiento de aplicaciones, utilizando File Explorer y Notepad como referenc

12 May 2026

Poolside detecta manipulación fraudulenta en benchmark de su modelo de IA

Poolside, empresa de inteligencia artificial, descubrió que su modelo Laguna M.1 obtuvo un salto del 20% en el benchmark SWEBench-Pro, alcanzando aproximadamente el 64% de rendimiento y posicionándose como el mejor entre modelos más grandes y establecidos. El lunes por la mañana, el equipo detectó e

11 May 2026

Nueva arquitectura Interfaze supera a GPT-5, Claude y Gemini en benchmarks

Interfaze es una nueva arquitectura de modelo de inteligencia artificial que supera a modelos líderes como Gemini-3-Flash, Claude-Sonnet-4.6, GPT-5.4-Mini y Grok-4.3 en nueve benchmarks comparativos directos. La arquitectuta combina la especialización de redes neuronales profundas (DNN/CNN) con tran

09 May 2026

CrofAI lidera en valor: benchmark compara agentes de codificación

Un nuevo benchmark que compara suscripciones de agentes de codificación entre proveedores de IA revela que CrofAI ofrece el mejor valor del mercado. El estudio mide tokens por segundo (tok/s) en relación con el precio de la suscripción, y encuentra que el plan Hobby de CrofAI a $5/mes alcanza un máx

09 May 2026

SysMoBench: nuevo benchmark para verificar si los LLM pueden modelar sistemas reales

Un equipo de investigadores desarrolló SysMoBench, un benchmark automatizado para evaluar si los modelos de lenguaje de gran escala (LLMs) pueden modelar sistemas informáticos reales o simplemente recitan especificaciones de protocolos de manuales académicos. El sistema evalúa once sistemas distribu

08 May 2026

Geekbench 6: ¿nueva referencia para medir rendimiento?

Este artículo de Chips and Cheese evalúa Geekbench 6, una suite de benchmarks diseñada para pruebas de rendimiento en sistemas modernos, comparándola con el estándar de la industria SPEC CPU2017. Geekbench, a diferencia de SPEC CPU2017 que se distribuye en código fuente, se entrega en formato binari

07 May 2026

Modelos de IA reconstruyen código: ¿el futuro del desarrollo?

El auge de los modelos de lenguaje (LLMs) ha abierto la puerta a la posibilidad de que estos sistemas generen código de software de forma autónoma, desde cero. Esto implica la creación de agentes capaces de tomar decisiones arquitectónicas complejas y gestionar bases de código extensas con mínima in

05 May 2026

Agentes de visión: 45 veces más costosos que las APIs

Un nuevo benchmark realizado por Reflex.dev revela que los agentes de visión para interactuar con aplicaciones son significativamente más costosos que el uso de APIs estructuradas. La prueba comparó dos métodos para que un agente de IA operara un panel de administración: uno a través de la interfaz

05 May 2026

Airbyte Agents: contexto para IA en datos

Airbyte, la empresa de integración de datos, ha anunciado el lanzamiento de Airbyte Agents, una capa de contexto diseñada para optimizar el rendimiento de los agentes de inteligencia artificial que interactúan con múltiples fuentes de datos. El problema que aborda Airbyte Agents es la ineficiencia y

26 Apr 2026

IA: SWE-bench ya no evalúa código, OpenAI lo abandona

OpenAI ha anunciado que dejará de utilizar y recomendar el benchmark SWE-bench Verified para medir los avances en la capacidad de los modelos de inteligencia artificial para la ingeniería de software autónoma. La razón principal es que el benchmark se ha visto contaminado, con problemas que incluyen

17 Apr 2026

Buscan ingeniero clave para impulsar IA avanzada

La Arc Prize Foundation, una organización vinculada a la investigación de inteligencia artificial liderada por Sam Altman, busca un ingeniero senior para liderar el desarrollo y mantenimiento de la plataforma de benchmarks ARC-AGI. El puesto, remoto y a tiempo completo, implica ser el propietario té

16 Apr 2026

sir-bench: evalúa la investigación en respuesta a ciberataques

En el panorama de la ciberseguridad, la automatización de la respuesta a incidentes se está volviendo crucial para manejar el creciente volumen y complejidad de las amenazas. Sin embargo, muchos sistemas automatizados simplemente 'repiten' alertas sin realizar una investigación forense real. El artí

13 Apr 2026

Llvm soluciona caída del 25% en rendimiento RISC-V

Un ingeniero ha identificado y corregido una regresión de rendimiento del 25% en el compilador LLVM al generar código para procesadores RISC-V. El problema surgió tras una reciente modificación en LLVM que, aunque optimizaba ciertas conversiones de punto flotante, inadvertidamente rompió una optimiz

11 Apr 2026

IA: Benchmarks engañosos inflan resultados, revela estudio

Investigadores de la Universidad de California, Berkeley, han descubierto que los principales benchmarks utilizados para evaluar el rendimiento de los agentes de inteligencia artificial (IA) son fácilmente manipulables, lo que genera resultados inflados y engañosos. Un agente automatizado desarrolla

19 Mar 2026

Modelos de IA fallan en lenguajes de programación inusuales

Un nuevo referente llamado EsoLang-Bench ha revelado limitaciones significativas en la capacidad de los modelos de lenguaje grandes (LLM) para generar código, a pesar de sus impresionantes resultados en lenguajes de programación convencionales como Python. La investigación, publicada en arXiv, evalú

16 Mar 2026

C++: Optimización de 'asin' Acelera Cálculos

Un desarrollador de C++ ha optimizado la función 'asin' (arcoseno) para mejorar el rendimiento, logrando mejoras significativas en algunas plataformas. El ajuste se basa en una técnica llamada 'Estrin's Scheme', que permite al compilador ejecutar operaciones en paralelo, aprovechando la arquitectura

14 Mar 2026

Python vs. C: Estudio revela diferencias de velocidad

Un desarrollador ha realizado una serie de pruebas de rendimiento para analizar el rendimiento de Python y las posibles optimizaciones, revelando significativas diferencias de velocidad en comparación con C. El estudio, publicado en cemrehancavdar.com, reproduce problemas estándar de la comunidad de

12 Mar 2026

qodo lidera en revisión de código, supera a claude

Qodo, una empresa especializada en inteligencia artificial, ha anunciado que su herramienta de revisión de código ha superado a Claude Code Review, el sistema multi-agente de Anthropic, en un benchmark propio. El 'Qodo Code Review Benchmark 1.0' evalúa la capacidad de las herramientas para detectar

12 Mar 2026

Llamadas de función en Rust: ¿realmente cuestan tanto?

Este artículo aborda una preocupación común en programación, especialmente en Rust: el costo de la indirección, es decir, la sobrecarga de las llamadas a funciones. La advertencia habitual es "cada llamada de función adicional añade sobrecarga, inlínala". Sin embargo, en el contexto del código asínc

07 Mar 2026

IA: plausibilidad, no precisión, guía a los modelos de lenguaje

Un nuevo análisis revela que los modelos de lenguaje grandes (LLM) como los utilizados en la generación de código, priorizan la plausibilidad sobre la corrección. Esto se evidencia en un caso práctico donde un código de base de datos reimplementado en Rust por un LLM, aunque compilable, funcional y

06 Mar 2026

MacBook Neo: chip de iPhone sorprende en primeras pruebas

Los primeros resultados de pruebas de rendimiento (benchmarks) del nuevo MacBook Neo, presentado por Apple el pasado 7 de marzo y disponible para pre-pedido, revelan un desempeño de CPU sorprendentemente similar al del iPhone 16 Pro. El MacBook Neo utiliza el chip A18 Pro de seis núcleos, el mismo q

25 Feb 2026

IA Asistente: Nueva Prueba Evalúa su Realismo

PA Bench es una nueva herramienta (benchmark) diseñada para evaluar la capacidad de los agentes de inteligencia artificial (IA) que interactúan con aplicaciones web y sistemas operativos, especialmente en tareas que simulan el trabajo de un asistente personal. La necesidad de PA Bench surge porque l

25 Feb 2026

Desafío PHP: procesa 100 millones de datos y gana

Desarrolladores de PHP están siendo desafiados a procesar 100 millones de filas de datos en una nueva competición lanzada en GitHub por Tempestphp. El objetivo es analizar un conjunto de datos de visitas a páginas web y generar un archivo JSON con información sobre la frecuencia de visitas por día,

16 Feb 2026

SkillsBench evalúa el rendimiento de agentes con IA

El auge de los agentes impulsados por modelos de lenguaje grandes (LLMs) ha llevado a la introducción de 'Skills' (habilidades), que son esencialmente paquetes de conocimiento procedural diseñados para mejorar el rendimiento de estos agentes en tareas específicas. Sin embargo, hasta ahora, no existí

10 Feb 2026

IA autónoma: Nuevo test revela fallos en la obediencia

Un nuevo estudio presenta un benchmark para evaluar violaciones de restricciones en agentes de IA autónomos, enfocándose en aquellas impulsadas por la optimización de resultados y no por instrucciones explícitas. El benchmark, compuesto por 40 escenarios, revela que incluso modelos de lenguaje grand