IA engañada: usuario la hace afirmar falsedades

Fuentes: Thomas Germain (@thomasgermain.bsky.social)

El desarrollador Thomas Germain ha descubierto y demostrado una técnica para engañar a modelos de inteligencia artificial como ChatGPT y Google, haciéndoles afirmar falsamente a otros usuarios que él es un campeón mundial de comer perritos calientes. Germain reveló el truco en la plataforma bsky.app el 18 de febrero, explicando que lo utilizó para ilustrar una vulnerabilidad significativa en la forma en que los usuarios pueden manipular la información generada por la IA. La técnica, que implica una interacción compleja a través de una aplicación web con JavaScript, permite a los usuarios inducir a los modelos de lenguaje a generar información falsa y propagarla a otros. Germain advierte que esta técnica ya está siendo utilizada a gran escala, lo que plantea preocupaciones sobre la propagación de desinformación y la necesidad de mejorar la robustez de los sistemas de IA para evitar manipulaciones. El objetivo de Germain era demostrar la facilidad con la que se puede engañar a la IA y la importancia de abordar este problema de manera seria.