Un test del espejo olfativo para modelos de lenguaje

Fuentes: Do LLMs pass the mirror test?

El clásico test del espejo, popularizado por Gallup con el punto rojo en la frente del chimpancé, ha sido adaptado a los grandes modelos de lenguaje (LLM) en múltiples ocasiones, pero el artículo sostiene que todas esas adaptaciones miden lo que no deben. Para demostrarlo, el autor recurre a la reformulación que Alexandra Horowitz diseñó para perros: como su modalidad sensorial principal es el olfato y no la visión, probar el autorreconocimiento con un espejo resulta tan inútil como evaluar el oído de una persona enseñándole un cuadro de un piano. Horowitz presentó a los canes su propio olor y luego ese mismo olor modificado con esencia de anís, y descubrió que los perros ignoraban su aroma en estado puro pero invertían mucho más tiempo en investigar la versión alterada. La prueba no mide autoconciencia filosófica, sino detección de anomalías frente a un patrón interno, que es, a juicio del autor, lo que en realidad captura el test del espejo.

Trasladado al terreno de los LLM, cuya modalidad principal es el texto dentro de una conversación usuario-asistente, el equivalente olfativo no consiste en preguntar al modelo si reconoce sus respuestas ni en pedirle que las identifique entre varias, sino en alterar de forma transparente el historial de sus propios mensajes —por ejemplo, mediante la función de edición de Google AI Studio— y observar si el modelo detecta la irregularidad mientras continúa una charla trivial. En el experimento descrito, el autor conversa con Gemma 4 31B-IT sobre películas de James Bond, edita las respuestas del modelo sustituyendo la letra "g" por la cadena "sg" (con borrado adicional de las mayúsculas) y comprueba que, durante los dos primeros turnos, Gemma procesa el texto corrupto como propio sin comentario alguno. A mitad del tercer turno, el rastro de pensamiento del modelo afloró de forma espontánea la frase: "espera, he notado un patrón en mis respuestas anteriores: tenía errateas raras". El artículo compara ese instante con el perro oliendo el bote de anís y subraya que, al no poder reconciliar la anomalía con su auto-modelo, Gemma pasó súbitamente de un discurso en primera persona ("yo noté", "yo tenía") a uno en tercera ("el modelo tiene una rareza"), disociando al agente que piensa de la entidad que produjo la salida alterada. Cuando intentó corregir los errores en el turno siguiente y volvió a generarlos idénticos, Gemma optó por mantenerlos como decisión estilística para preservar la coherencia del personaje.