La amabilidad en los prompts no mejora la precisión de los LLM

Fuentes: Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper)
La amabilidad en los prompts no mejora la precisión de los LLM
Imagen generada con IA

La ingeniería de prompts es una disciplina clave para optimizar el rendimiento de los modelos de lenguaje, y este estudio explora un aspecto a menudo subestimado: el tono y la cortesía de la solicitud. La importancia de este trabajo radica en desmentir la intuición social de que ser amable con una IA garantiza una respuesta de mayor calidad, revelando una relación inversa en modelos modernos.

La metodología consistió en tomar 50 preguntas base de ciencias y matemáticas y reescribirlas en cinco variantes de tono: "Muy Cortés", "Cortés", "Neutral", "Grosero" y "Muy Grosero", generando un total de 250 prompts únicos. Utilizando el modelo avanzado ChatGPT 4o, los autores evaluaron las respuestas y aplicaron pruebas estadísticas para validar los resultados.

Los hallazgos son sorprendentes: los prompts impolíticos superaron consistentemente a los corteses. La precisión varió desde el 80.8% en los prompts "Muy Cortés" hasta el 84.8% en los "Muy Groseros". Esto sugiere que los LLMs actuales pueden interpretar la rudeza como una señal de mayor directividad, priorizando la instrucción técnica sobre las convenciones sociales, lo que elimina posibles ambigüedades en la interpretación de la solicitud.

Este conocimiento es vital para desarrolladores, ingenieros de productos y analistas de datos que buscan maximizar la exactitud de los LLMs en tareas específicas. Al ajustar el tono, los usuarios pueden forzar al modelo a centrarse en el contenido factual en lugar de en la forma.

Sin embargo, se deben considerar limitaciones. El estudio se limita a un solo modelo (GPT-4o) y a preguntas de opción múltiple, por lo que no se sabe si aplica a otros modelos como Llama 3 o a tareas creativas. Además, aunque la rudeza mejora la precisión técnica, no necesariamente mejora la experiencia de usuario o la ética, por lo que debe aplicarse con precaución.