IA: plausibilidad, no precisión, guía a los modelos de lenguaje

Fuentes: Llms Prioritize Plausibility Over Correctness, New Analysis Shows

Un nuevo análisis revela que los modelos de lenguaje grandes (LLM) como los utilizados en la generación de código, priorizan la plausibilidad sobre la corrección. Esto se evidencia en un caso práctico donde un código de base de datos reimplementado en Rust por un LLM, aunque compilable, funcional y aparentemente correcto, es 20.171 veces más lento que la implementación original en SQLite para una operación básica de búsqueda por clave primaria. El problema no radica en errores de sintaxis, sino en una optimización errónea que prioriza la apariencia de funcionalidad sobre la eficiencia real. El autor, un desarrollador con experiencia, señala que esta tendencia es común y se agrava por decisiones de diseño 'seguras' que se acumulan, como la ejecución de fsync en cada sentencia o la recompilación del AST en cada llamada. La conclusión es que los LLM son herramientas poderosas, pero requieren una verificación rigurosa y la definición clara de criterios de aceptación antes de la generación de código para evitar resultados engañosamente incorrectos. La investigación confirma que este problema no es aislado y afecta a múltiples proyectos, resaltando la necesidad de una supervisión humana constante.