benchmarks - ojeo.com

06 Jun 2026

Crean en Leipzig un benchmark de matemáticas avanzadas para evaluar a los LLM

Un equipo de 49 matemáticos elaboró un conjunto de 100 preguntas de matemáticas a nivel de investigación con respuestas conocidas, en el marco del taller “Benchmarks in Leipzig”, celebrado entre el 1 de abril y el 15 de mayo de 2026. La mayor parte del trabajo se concentró en un taller de tres días

01 Jun 2026

Por qué los modelos de IA aún no dominan tus videojuegos favoritos

Los grandes modelos de lenguaje (LLM) han avanzado rápidamente, pero una tarea sigue fuera de su alcance: jugar videojuegos. Aunque Gemini 2.5 Pro logró vencer Pokémon Azul en mayo de 2025, lo hizo de forma lenta y con errores extraños. Julian Togelius, director del Laboratorio de Innovación de Jueg

27 May 2026

NVIDIA Vera: núcleos Olympus superan a Intel y AMD en ARM

NVIDIA presentó recientemente las primeras pruebas públicas de su nueva CPU de centros de datos, la Vera, diseñada específicamente para cargas de trabajo de inteligencia artificial agente. Durante una visita a las instalaciones de la empresa en Santa Clara, se probaron los núcleos internos 'Olympus'

15 May 2026

Nueva herramienta encuentra el mejor LLM para tu hardware

El desarrollador Andyyyy64 ha publicado en GitHub la herramienta 'whichllm', diseñada para ayudar a los usuarios a encontrar el modelo de lenguaje grande (LLM) más adecuado para su hardware específico. La aplicación detecta automáticamente las características del sistema (GPU, CPU, RAM) y ordena los

14 May 2026

Nueva herramienta web detecta nerfs ocultos en modelos de inteligencia artificial

Una nueva herramienta de seguimiento permite visualizar los 'nerfs' o debilitamientos que los laboratorios de inteligencia artificial implementan en sus modelos tras el lanzamiento oficial. El sistema, disponible en mayerwin.github.io, rastrea automáticamente el rendimiento de los modelos líderes de

13 May 2026

El chip del iPhone 16 Pro impulsa el MacBook Neo y supera a Intel y Qualcomm

El MacBook Neo representa un hito en la estrategia de Apple al ofrecer su Mac más asequible ($599) utilizando el procesador A18 Pro, el mismo chip que impulsa el iPhone 16 Pro. Este movimiento rompió la percepción tradicional de la industria al demostrar que un chip de smartphone no podría alimentar

13 May 2026

Reflectión de C++26 incurre en sobrecarga de 181 ms en compilación, según benchmarks

Nuevos benchmarks publicados por Vittorio Romeo comparan el costo de compilación del sistema de reflexión de C++26 en GCC 16.1 contra alternativas existentes: la biblioteca enchantum (C++17) y el método x-macro del preprocesador. La prueba consiste en convertir enumerados a strings, operación útil p

18 Mar 2026

Machine Learning: ¿Los benchmarks frenan el avance?

Este texto explora la paradoja de los benchmarks en el aprendizaje automático (Machine Learning, ML). Los benchmarks, que consisten en dividir los datos en conjuntos de entrenamiento y prueba para evaluar modelos, son la piedra angular del progreso en el campo, pero también son objeto de críticas si

08 Mar 2026

AMD EPYC Lidera Máquinas Virtuales en la Nube (2026)

Un análisis comparativo de máquinas virtuales (VM) en la nube realizado en octubre de 2025, y publicado en devblog.ecuadors.net, revela que los procesadores AMD EPYC Turin dominan los resultados de rendimiento en 2026. El estudio evaluó 44 tipos de VM de siete proveedores a través de múltiples regio

26 Feb 2026

Claude: la IA preferida por desarrolladores, ¿por qué?

Desarrolladores están consistentemente optando por Claude de Anthropic sobre alternativas como Gemini y Codex, a pesar de que estas últimas a menudo superan a Claude en las pruebas de rendimiento iniciales. La razón no radica en la inteligencia bruta de los modelos, sino en su capacidad para mantene

19 Feb 2026

Stoolap: Nuevo Driver Node.js Deja Atrás a SQLite

Un nuevo driver para Node.js llamado Stoolap, desarrollado en Rust, está superando a SQLite en benchmarks, según un artículo publicado en stoolap.io. Stoolap se presenta como una alternativa a SQLite, ofreciendo características avanzadas como transacciones MVCC, optimizador de consultas basado en co