11 May 2026 · Original en inglés · Artículo

Swift alcanza Teraflops entrenando LLMs en Apple Silicon

Fuentes: Training an LLM in Swift, Part 1: Taking matrix multiplication from Gflop/s to Tflop/s | Cocoa with Love

Este artículo explora cómo optimizar operaciones de multiplicación de matrices en Swift para entrenar Large Language Models (LLMs) en Apple Silicon, buscando alcanzar rendimiento de Teraflop/s desde el punto de partida de Gigaflops. El autor, Matt Gallagher, toma como referencia la implementación llm.c de Andrej Karpathy (un GPT2 en unas 1000 líneas de C) y la reescribe en Swift puro, sin usar frameworks de ML, para demostrar que Swift puede igualar o superar al C en velocidad. La clave está en las operaciones de matrix multiplication, que representan la mayor parte del trabajo computacional en el entrenamiento de redes neuronales: el autor calcula que una iteración de entrenamiento completo implica aproximadamente 0.2 billones de operaciones de punto flotante. En términos de hardware, Apple Silicon ofrece múltiples unidades de procesamiento (CPU, SIMD, AMX y GPU), cada una con capacidades distintas que pueden aprovecharse para diferentes tipos de cálculos. El artículo muestra el proceso de optimización paso a paso: desde una versión básica de Swift que era 10 veces más lenta que el C original, hasta versiones optimizadas que explotan características del compilador y del silicio de Apple. Lo que hace único este enfoque es la filosofía "no frameworks, no libraries": escribir todo desde cero para entender exactamente qué happening bajo el hood. Los casos de uso incluyen investigadores de ML que buscan control total sobre sus implementaciones, desarrolladores Swift interesados en rendimiento extremo, y ingenieros que desean entender las capacidades del hardware Apple. Es importante notar que los resultados publicados son siempre en configuración Release, no Debug, y que las optimizaciones mostradas son específicas del hardware Apple Silicon.

Etiquetas

swift apple silicon multiplicación de matrices optimización de código large language models redes neuronales machine learning gpu computing simd rendimiento computacional

Entidades mencionadas

LLMs software

TensorFlow software

CPU hardware

Swift software

GPU hardware

Apple Silicon hardware

Metal software

C++ software

neural networks software

Andrej Karpathy person

Andrej Karpathy es uno de los científicos de datos más influyentes e innovadores. Es especialista en inteligencia artificial, aprendizaje profundo y visión por computadora. Desde 2017 es profesor en l

Ver en Wikipedia

Python software

Python es un lenguaje de alto nivel de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código. Se trata de un lenguaje de programación multiparadigma, ya que soporta par

Ver en Wikipedia

SIMD hardware

AMX hardware

pytorch software

GPT2 software

llm.c creative_work

Enlaces

llm.c github.com

CwlLlmSwift github.com

Swift-Numerics github.com

reverse engineered how the AMX unit works github.com