Seguridad de LLMs: un experto cuestiona la analogía con Bitcoin

Fuentes: <antirez>

El artículo de Antirez, un experto en sistemas distribuidos, aborda una perspectiva crucial sobre la seguridad informática en la era de los modelos de lenguaje grandes (LLMs). Tradicionalmente, la seguridad en sistemas descentralizados se ha comparado con el 'Proof of Work' (PoW), como el utilizado en Bitcoin, donde la potencia computacional (GPU) determina la capacidad de resolver un problema y, por ende, ganar. Antirez argumenta que esta analogía es incorrecta para la seguridad basada en LLMs.

La seguridad futura no se basará en 'más GPU', sino en la calidad de los modelos de lenguaje y el acceso a ellos. El problema radica en que los LLMs, al analizar código en busca de vulnerabilidades, no 'entienden' realmente lo que están haciendo. En lugar de una comprensión profunda, se basan en el reconocimiento de patrones de errores conocidos. Esto significa que un modelo 'débil' puede parecer encontrar un error (a través de alucinaciones o coincidencias superficiales), pero no puede comprender la causa raíz ni crear un exploit funcional. Por ejemplo, menciona el bug de OpenBSD SACK, donde incluso modelos de gran tamaño (como GPT-120B) pueden inicialmente señalar un problema inexistente debido a alucinaciones, mientras que un modelo aún más avanzado (Mythos) podría no detectarlo en absoluto porque su mayor precisión reduce las falsas alarmas.

El artículo explica que, al analizar código, los LLMs exploran diferentes 'ramas' de ejecución. Con el tiempo, estas ramas se 'saturan', y la capacidad de encontrar bugs no depende de la cantidad de veces que se ejecuta el análisis (M), sino del 'nivel de inteligencia' (I) del modelo. Un modelo más inteligente es capaz de explorar el espacio de posibles estados del código de manera más efectiva y detectar vulnerabilidades reales, evitando las falsas alarmas que caracterizan a los modelos más pequeños.

En resumen, la seguridad informática del futuro, impulsada por LLMs, se centrará en la sofisticación de los modelos, no en la mera potencia computacional. La capacidad de un modelo para comprender el código y sus interacciones, en lugar de simplemente reconocer patrones superficiales, será el factor determinante para la detección y prevención de vulnerabilidades.