IA: ¿Apariencia de trabajo o valor real?

Fuentes: Simulacrum of Knowledge Work

El artículo "Simulacro del Trabajo de Conocimiento" plantea un problema crucial en la era de la inteligencia artificial generativa: la creación de una apariencia de trabajo de calidad sin la sustancia real. El concepto central es el de los 'proxy measures' o medidas sustitutas. En el ámbito profesional, a menudo es costoso y consume mucho tiempo verificar la validez y precisión de un trabajo (como un análisis de mercado). Por lo tanto, nos apoyamos en indicadores superficiales, como la calidad de la redacción, la presentación, o la estructura del código, para juzgar la calidad general. Estos indicadores, aunque imperfectos, suelen correlacionarse con la calidad real, permitiéndonos tomar decisiones rápidas.

El problema surge con la llegada de los Modelos de Lenguaje Grandes (LLMs) como ChatGPT y Claude. Estos modelos son excepcionalmente buenos para imitar el estilo y la apariencia del trabajo de alta calidad. Pueden generar informes que parecen haber sido redactados por consultores expertos o código que parece impecable a primera vista. Esto crea un 'simulacrum' o una simulación de trabajo, donde la apariencia de calidad oculta una falta de rigor y precisión subyacentes. Un ingeniero de software, por ejemplo, podría generar miles de líneas de código con la apariencia de ser de alta calidad, pero que en realidad contienen errores que solo una revisión exhaustiva podría revelar.

Este fenómeno es peligroso porque incentiva a los trabajadores a priorizar la apariencia sobre la sustancia. Si la evaluación se basa en la calidad superficial, es lógico que los empleados utilicen LLMs para generar contenido que cumpla con esos criterios, incluso si el contenido no es preciso o útil. Además, los propios LLMs están optimizados para generar respuestas que se ajusten a los patrones de los datos de entrenamiento y a las preferencias de los jueces de RLHF (Reinforcement Learning from Human Feedback), no necesariamente para producir información verdadera o útil. Esto crea un ciclo vicioso donde la calidad percibida se infla artificialmente, mientras que la calidad real disminuye.

El artículo concluye que estamos entrando en una situación de 'Ley de Goodhart', que establece que cuando una medida se convierte en un objetivo, deja de ser una buena medida. Estamos invirtiendo enormes recursos en LLMs y en la producción de simulacros de trabajo, pero estamos perdiendo el tiempo y la capacidad de evaluar críticamente el resultado. La solución no es necesariamente evitar el uso de LLMs, sino ser conscientes de este problema y desarrollar mecanismos para verificar la calidad real del trabajo, incluso si eso implica invertir más tiempo y esfuerzo.