Swift alcanza Teraflops entrenando LLMs en Apple Silicon

Este artículo explora cómo optimizar operaciones de multiplicación de matrices en Swift para entrenar Large Language Models (LLMs) en Apple Silicon, buscando alcanzar rendimiento de Teraflop/s desde el punto de partida de Gigaflops. El autor, Matt Gallagher, toma como referencia la implementación ll

Blender simula el cosmos: física y arte se unen

Este artículo, escrito por MohammadHossein Jamshidi (un estudiante de doctorado en Física/Cosmología y también ingeniero de animación con experiencia en la industria de los videojuegos), explora el uso innovador de Nodos de Geometría en Blender para aplicaciones cosmológicas. El objetivo principal e

IA mejora código ensamblador y acelera rendimiento

Investigadores han demostrado que la inteligencia artificial (IA), específicamente modelos como Grok y Claude, pueden optimizar código en lenguaje ensamblador, logrando mejoras significativas en el rendimiento. Daniel Lemire, investigador, llevó a cabo un experimento donde solicitó a estas IA que op

PlanB: Nueva Biblioteca Acelera Enrutamiento IPv6

Un nuevo desarrollador ha creado una biblioteca de código abierto llamada `planb-lpm` que mejora significativamente la eficiencia del enrutamiento IPv6. Basada en un algoritmo publicado recientemente (PlanB) y reimplementada en C++17, la biblioteca utiliza un árbol B+ linealizado con AVX-512 SIMD pa

Entendiendo los Microprocesadores: Más allá de la Velocidad

Este artículo ofrece una introducción rápida y accesible a la arquitectura de microprocesadores modernos, desmitificando conceptos clave que a menudo se pasan por alto en los cursos de informática. El objetivo principal es explicar por qué la velocidad de reloj (megahertz) no es el único indicador d

Menos es más: ¿cuánta memoria contigua es necesaria?

Este artículo de Solidean investiga la cantidad óptima de contigüidad de memoria lineal necesaria para un rendimiento máximo en cálculos de alta velocidad. La sabiduría convencional dicta que la memoria lineal y contigua siempre es la mejor opción, pero este estudio experimental desafía esa idea, de

TurboQuant: Compresión vectorial veloz para navegadores

Un equipo de desarrolladores ha lanzado una nueva biblioteca llamada TurboQuant, diseñada para permitir la compresión rápida de vectores directamente en navegadores web y Node.js. La biblioteca, basada en la investigación de Google (paper a presentarse en ICLR 2026), utiliza WebAssembly (WASM) y SIM

ARM Neon: cálculo más rápido con nueva técnica

Un nuevo método para calcular sumas de prefijos (prefix sums) en procesadores ARM Neon ha logrado velocidades de hasta 8.9 mil millones de valores por segundo en un Apple M4, superando significativamente el enfoque tradicional (3.9 mil millones de valores por segundo). La técnica, desarrollada por D

libxml2-ee: mejora la biblioteca para XML

libxml2-ee es una versión mejorada de la popular biblioteca libxml2, un conjunto de herramientas en C para procesar documentos XML. Originalmente, libxml2 es una biblioteca fundamental para muchos proyectos que necesitan analizar, manipular y generar archivos XML. libxml2-ee se centra en optimizar e

SIMD x86: Evolución tecnológica y estrategias corporativas

Este artículo de bgslabs.org narra la fascinante historia de la evolución de las extensiones SIMD (Single Instruction, Multiple Data) en los procesadores x86, desde MMX hasta AVX-512, revelando que su desarrollo no es solo una cuestión de tecnología, sino también de marketing, política corporativa y

Registros x86-64: ¿Cuántos y por qué importa?

El artículo explora la complejidad de la arquitectura de registros en las CPUs x86-64, un aspecto que ha resurgido en la discusión de programación gracias a tecnologías como Rosetta 2 de Apple. A diferencia de otras arquitecturas modernas, x86-64 ofrece una gran cantidad y diversidad de registros, l

RISC-V Vector: Acelera el Procesamiento con Paralelismo

## Entendiendo RISC-V Vector: Acelerando el Procesamiento con Instrucciones Paralelas RISC-V Vector es una extensión a la arquitectura RISC-V que introduce la capacidad de procesar múltiples datos simultáneamente, un concepto fundamental para acelerar tareas como el procesamiento de imágenes, el ap

Llamadas a funciones: ¿Cuánto cuestan y cómo optimizarlas?

En programación, es común encadenar funciones, donde una función llama a otra. Aunque esto es una práctica habitual, cada llamada de función tiene un costo en términos de rendimiento. Este artículo explora ese costo y cómo los compiladores pueden optimizarlo a través de una técnica llamada 'inlining

Bun: Ejecución Paralela de Scripts Acelera Desarrollo

Bun, un entorno de ejecución y gestor de paquetes JavaScript, ha lanzado la versión v1.3.9, introduciendo mejoras significativas en la ejecución de scripts y el rendimiento. La nueva versión permite la ejecución paralela y secuencial de scripts `package.json` con una salida formateada similar a Fore

Zlob: Globbing más rápido para C, Zig y Rust

Un nuevo proyecto llamado 'zlob' ha lanzado una biblioteca de globbing (búsqueda de patrones en archivos) significativamente más rápida para C, Zig y Rust. La biblioteca, disponible como librería C, librería Zig y crate Rust, busca solucionar la lentitud y limitaciones de la función `glob()` de gli