El repositorio de GitHub "make-trust-irrelevant" critica el enfoque actual de la seguridad de la IA agentic, argumentando que confiar en la "confiabilidad" de los agentes es un error fundamental. En lugar de eso, propone eliminar la "autoridad ambiental" que se les otorga, implementando límites estrictos y reforzados a nivel de kernel para evitar que los agentes, incluso los bien alineados, obtengan acceso no deseado a funciones de "modo dios". El autor, DesoPK, compara la situación con un problema de "teniente confundido" y enfatiza la necesidad de permisos explícitos, de alcance limitado y de corta duración, así como una revocación inmediata de la autoridad. La solución propuesta, KERNHELM, busca separar la planificación de la autorización y la ejecución, garantizando que los agentes operen dentro de un sistema que no pueda ser engañado para otorgarles poderes excesivos. El enfoque se basa en la experiencia de sistemas adversariales y juegos, donde la confianza en los usuarios es
