Desarrolladores debaten si los modelos locales pueden sustituir a Claude y GPT en programación diaria

Fuentes: Ask HN: Has anyone replaced Claude/GPT with a local model for daily coding?

Un hilo de discusión en Hacker News reaviva el debate sobre si los modelos de lenguaje locales ya están listos para reemplazar a asistentes comerciales como Claude o GPT como herramienta principal de programación. Varios usuarios comparten sus configuraciones y resultados, con conclusiones dispares. Un participante relata que ejecuta DeepSeek V4 Flash sobre dos GPUs RTX Pro 6000 Blackwell, alcanzando 160 tokens por segundo en bruto, aunque al ser un modelo de razonamiento lo emplea en un flujo automatizado en el que un sistema escribe código y otro lo revisa, en lugar de codificación interactiva. Otro usuario combina el modelo local con pi para tareas puntuales y califica el rendimiento como muy rápido, pero admite que la inercia lo mantiene con Claude Code y Codex. Un tercer caso expone los límites del hardware local: con memoria Optane y abundante RAM, ejecuta modelos completos durante procesos nocturnos, pero solo obtiene 0,7 tokens por segundo. Como prueba de referencia, intenta convertir una función escalar de transposición de matrices de bits a una versión con instrucciones AVX-512; los modelos en la nube resuelven la tarea sin dificultad, mientras que Kimi 2.6 y GLM 5.1 fracasan de forma consistente. El intercambio evidencia que la elección entre inferencia local y servicios en la nube depende del tipo de tarea, la tolerancia a la latencia y la inversión en hardware, sin que exista todavía una respuesta única.