11 Jun 2026 · Original en inglés · Artículo

Resolver la ambigüedad del coreano en CPU: 7.300 palabras por segundo sin GPU

Fuentes: Building a Korean ambiguity solver fast enough to skip the GPU: 7,300 words/sec

Imagen generada por IA con el prompt: Editorial illustration of a single CPU chip glowing on a dark desk, surrounded by floating Korean Hangul characters being sorted into neat stacks, warm amber and teal lighting, minimalist tech style — Imagen generada con IA

Kimchi Reader, una herramienta de aprendizaje de coreano por inmersión, necesitaba desambiguar lemas en libros completos de forma rápida y precisa. El desarrollador encaró el reto con un modelo KoELECTRA-small de 14 millones de parámetros, cuantizado a int8 y ejecutado íntegramente en CPU mediante un crate de inferencia propio escrito en Rust puro, sin dependencias nuevas. El resultado: alrededor de 7.300 desambiguaciones por segundo en un único procesador de 16 núcleos, rendimiento que evitó la compra de un servidor con GPU.

El artículo recorre los cuatro intentos previos que precedieron a la solución final. El primero planteó el problema como una tarea seq2seq con Gemma 3 1B afinada mediante destilación desde un profesor de 27B; logró cerca de 1.500 oraciones por segundo en una RTX 4090, pero implicaba un coste mensual de unos 500 dólares y la precisión era insuficiente. El segundo abordó la tarea con embeddings y similitud entre definiciones del diccionario, con peores resultados en velocidad y exactitud. El tercero entrenó desde cero un nano modelo de 15 millones de parámetros con arquitectura Gemma 3 en Rust usando burn-rs, superando al Gemma 3 1B en un conjunto de prueba de 200 muestras.

La clave del diseño definitivo fue mantener el motor determinista de lematización en Rust como base y añadir el modelo como capa de sugerencia: recibe un conjunto cerrado de candidatos válidos y elige uno, sin posibilidad de inventar lemas. Esa restricción, sumada a la cuantización int8 y a un kernel de inferencia optimizado a mano, hizo viable procesar textos enteros en CPU, sin sacrificar la arquitectura original ni añadir dependencias externas al proyecto.

Temas

desarrollo

Etiquetas

korean nlp lemmatization koelectra rust quantization cpu inference kimchi reader seq2seq burn-rs machine learning

Entidades mencionadas

vLLM software

Gemma 3 software

ONNX protocol_standard

Kimchi Reader software

KoELECTRA software

burn-rs software

fast.ai organization

The Fast and the Furious: Tokyo Drift es una película estadounidense de 2006, dirigida por Justin Lin y protagonizada por Lucas Black, Bow Wow, Sung Kang, Nathalie Kelley y Brian Tee. Es la tercera pe

Ver en Wikipedia

vast.ai organization

Ivica Vastić es un exfutbolista y entrenador croata nacionalizado austriaco. Jugaba de delantero y su último equipo fue el LASK Linz. Además, es el padre del actual futbolista austriaco Toni Vastić.

Ver en Wikipedia

Jeremy Howard person

Jeremy Patrick Howard es un actor estadounidense. Ha aparecido en películas como Sydney White, Galaxy Quest, Accepted, y recientemente Teenage Mutant Ninja Turtles y Teenage Mutant Ninja Turtles: Out

Ver en Wikipedia

Qwen software

Rust software

Rust es un lenguaje de programación compilado, de propósito general y multiparadigma que está siendo desarrollado por Fundación Rust. Es un lenguaje de programación multiparadigmático que soporta prog

Ver en Wikipedia

Enlaces

burn-rs github.com

reimplemented the Gemma 3 architecture in burn-rs (gist) gist.github.com

monologg/koelectra-small-v3-discriminator huggingface.co

Hetzner's GPU servers www.hetzner.com

Hetzner AX102, a 7950X3D www.hetzner.com