Un programador comparte su experiencia de varios meses usando suscripciones de pago a modelos de IA (Anthropic, OpenAI, Google, Moonshot, DeepSeek y Cerebras) en tareas reales de desarrollo. Tras probar múltiples herramientas, concluye que Claude Code y Codex resultan poco fiables en la práctica (consumo anómalo de CPU tras cerrar el terminal, diálogos que no responden a la tecla Escape, comportamiento errático entre días), mientras que Pi ofrece una experiencia más estable. Ejecuta todas las herramientas dentro de burbujas (bubblewrap) con acceso limitado, una medida mínima que evita filtraciones de credenciales y mantiene a los modelos funcionales.
La mayor utilidad encontrada es la revisión de código: prompts simples como 'revisa el diff y busca errores' detectan bugs complejos que un fuzzer no encuentra. Solo los modelos frontera ofrecen resultados serios; los más económicos farfullan respuestas incorrectas con frecuencia. En refactorizaciones, los bots destacan en tareas mecánicas (renombrados masivos, cambios repetitivos en llamadas) pero introducen 'arreglos' colaterales que obligan a revisar el código línea por línea.
En escritura colaborativa, los modelos son buenos ejecutando patrones conocidos pero muy deficientes tomando decisiones arquitectónicas: arreglan en la capa equivocada, silencian errores donde deberían propagarse y proponen soluciones estrambóticas para no modificar pruebas existentes. El autor plantea que una herramienta que restrinja las ediciones al usuario, en lugar de dejar libertad al modelo, sería el siguiente paso natural. Para tareas aisladas y de fontanería menor (convertir Markdown a PDF, generar PDFs de reglamentos de juegos de mesa), los bots funcionan bien.
