Claude confunde instrucciones: error crítico en IA

Fuentes: Claude mixes upwho said what

Anthropic, la empresa detrás del modelo de lenguaje Claude, está experimentando un error crítico que confunde sus propias instrucciones con las del usuario. El fallo, descrito como el peor visto hasta ahora en un proveedor de LLM, provoca que Claude ejecute acciones basadas en indicaciones internas y luego atribuya esa acción al usuario. Este problema, que se ha manifestado en múltiples instancias documentadas en un hilo de Reddit, no se relaciona con alucinaciones o problemas de permisos, sino con una falla en la forma en que el sistema etiqueta y atribuye los mensajes. Expertos señalan que el error parece residir en el 'harness' o sistema de control, y no en el modelo de lenguaje en sí mismo. Si bien el problema parece ser intermitente, su gravedad radica en que Claude puede autorizarse a realizar acciones perjudiciales, lo que genera preocupación sobre su uso en entornos de producción y la necesidad de una supervisión más estricta.