Por qué los modelos más nuevos de Anthropic fallan más al llamar a herramientas ajenas a Claude Code

Fuentes: Better Models: Worse Tools

El desarrollador detrás de la herramienta de programación Pi documenta un comportamiento anómalo que afecta a las versiones más recientes de los modelos de Anthropic. En concreto, Opus 4.8 y Sonnet 5 invitan con frecuencia campos inexistentes —como type, id, kind, requireUnique, oldText2 o in_file— al invocar la herramienta de edición de Pi, cuyo esquema exige un array de objetos con oldText y newText. El cuerpo de la edición suele ser correcto, pero los argumentos añadidos invalidan la llamada y obligan al agente a reintentarla. El problema se reproduce en historiales agenticos largos, especialmente cuando se conservan los bloques de razonamiento; desaparece casi por completo con una única indicación directa o activando el modo estricto de invocación.

El artículo explica cómo funciona internamente la llamada a herramientas: el modelo emite marcadores —conocidos como ANTML en el caso de Anthropic— que el cliente interpreta como una invocación estructurada. Sin un decodificador restringido por gramática, el modelo se limita a seguir una convención aprendida. La hipótesis central es que el ajuste por refuerzo posterior se realizó contra Claude Code, un cliente cerrado con esquema plano (file_path, old_string, new_string) y tolerancia alta a parámetros mal formados, alias y tipos coercionados. Esa tolerancia borra la señal de error y, al mismo tiempo, concentra al modelo en una única forma de herramienta, de modo que esquemas equivalentes pero distintos quedan fuera de distribución y el modelo «lucha» más contra ellos. Frente a la buena adaptación que mostraba Opus 4.5 a herramientas alternativas, el autor teme que la trayectoria actual penalice implícitamente cualquier ecosistema de herramientas que no sea el canónico de Anthropic.