28 May 2026 · Original en inglés · Artículo

ChatGPT y Claude hallan errores en compiladores de forma sorprendente

Fuentes: Finding Miscompiles for Fun, Not Profit

Este artículo detalla un experimento sorprendente sobre la búsqueda de errores en compiladores, utilizando modelos de lenguaje avanzados como ChatGPT y Claude. Justin Lebar, un experto en compiladores con experiencia en Google, Waymo y OpenAI, descubrió que podía encontrar una cantidad significativa de errores, incluyendo miscompilaciones (errores donde el compilador genera código incorrecto), de manera mucho más eficiente de lo esperado.

Inicialmente, Lebar intentó encontrar errores en el compilador de NVIDIA (ptxas) utilizando un fuzzer, un programa que genera código aleatorio y verifica si la compilación produce el resultado esperado. Aunque esperaba resultados modestos, encontró rápidamente una gran cantidad de miscompilaciones. La clave de este éxito fue el uso de modelos de lenguaje más avanzados (ChatGPT 5.5 y Claude Opus 4.7) para automatizar tareas como la generación de pruebas, la minimización de los casos de error y la adaptación del fuzzer para evitar repetir errores. Esto permitió a Lebar encontrar errores a un ritmo mucho mayor que con métodos tradicionales.

Posteriormente, Lebar extendió su búsqueda a LLVM, el compilador subyacente de varios lenguajes y herramientas, y a su backend para AMDGPU. Los resultados fueron igualmente impactantes. Lo más sorprendente fue cuando Lebar utilizó Claude para analizar directamente el código de LLVM, asignándole la tarea de encontrar errores. Este enfoque resultó ser aún más efectivo, encontrando errores a un ritmo de uno cada cuatro minutos, superando con creces la eficiencia del fuzzer. Un ejemplo particularmente preocupante fue la conversión accidental de una operación atómica (garantiza que una operación se complete por completo o no se complete en absoluto) en dos operaciones no atómicas, lo que podría llevar a corrupción de datos.

El artículo plantea preguntas importantes sobre la eficiencia de los métodos de depuración automatizados y el papel de los modelos de lenguaje en la detección de errores. Si bien el costo de utilizar estos modelos puede ser considerable (Lebar gastó más de $10,000 en unas pocas horas), el potencial para encontrar errores críticos y mejorar la calidad del software es significativo. La experiencia de Lebar sugiere que la combinación de la inteligencia artificial y la experiencia humana puede revolucionar la forma en que se desarrollan y mantienen los compiladores, y posiblemente, el software en general.

Temas

ia empresas

Etiquetas

compiladores inteligencia artificial claude chatgpt llvm fuzzing depuración miscompilaciones openai nvidia

Entidades mencionadas

SemiAnalysis organization

Bridging the Gap Between business and the world’s most important industry. SemiAnalysis is an independent research and analysis company specializing in the Semiconductor and AI industries.

ptxas software

FuzzX software

AMDGPU hardware

ChatGPT 5.2 software

ChatGPT 5.5 software

LLVM software

CUDA software

ChatGPT Pro software

Triton software

AFL++ software

Claude Opus 4.7 software

rustc software

XLA:GPU software

Claude person

Claude Monet fue un pintor francés, uno de los creadores del impresionismo. El término impresionismo deriva del título de su obra Impresión, sol naciente (1872).

Google organization

Google es una empresa de tecnología multinacional con sede en California, conocida por sus servicios de búsqueda, publicidad en línea y, según el artículo, por sus comités de contratación que evalúan

Ver en Wikipedia

Waymo organization

Waymo, anteriormente conocida como Proyecto de vehículo autónomo de Google, es una empresa desarrolladora de vehículos autónomos perteneciente al conglomerado Alphabet. La tecnología desarrollada por

Ver en Wikipedia

Clang software

Clang es un front end de compilador para los lenguajes de programación C, C++, Objective-C y Objective-C++. Usa LLVM como su back-end y ha sido parte del ciclo de lanzamiento de LLVM desde la versión

Ver en Wikipedia

Codex software

El término códice se usa para denominar a uno de los formatos del libro. Se compone de cuadernos plegados, cosidos y encuadernados. Habitualmente se puede escribir en ambos lados de cada hoja, denomin

ChatGPT software

ChatGPT es un chatbot de inteligencia artificial desarrollado por OpenAI, y es un ejemplo clave de la tecnología que está desafiando las nociones tradicionales de la 'ventaja humana'. Su capacidad par

Ver en Wikipedia

AMD organization

Advanced Micro Devices, Inc. (AMD) es una compañía tecnológica estadounidense de semiconductores con sede en Santa Clara, California, que desarrolla procesadores de computación y productos tecnológico

Ver en Wikipedia

Nvidia organization

Nvidia es una empresa tecnológica líder en el desarrollo de GPUs, incluyendo las H200 utilizadas por Kog AI para demostrar inferencia de tokens a alta velocidad. La empresa es un actor clave en el mer

Ver en Wikipedia

OpenAI organization

OpenAI, LLC es una empresa estadounidense de investigación y despliegue de inteligencia artificial fundada en 2015 e, inicialmente, sin ánimo de lucro. Su misión original era asegurar que la inteligen

Ver en Wikipedia

Enlaces

peephole optimization en.wikipedia.org

FuzzX repo github.com

extremely frightening github.com