LLM más rápidos: Anthropic y OpenAI usan métodos distintos

Fuentes: Two different tricks for fast LLM inference

Anthropic y OpenAI han anunciado recientemente una función de "modo rápido" para sus modelos de codificación, permitiendo interacciones significativamente más rápidas. Sin embargo, los enfoques difieren considerablemente. La opción de Anthropic ofrece una mejora de hasta 2.5 veces en tokens por segundo, utilizando su modelo Opus 4.6 completo. OpenAI, por otro lado, ofrece una velocidad asombrosa de más de 1000 tokens por segundo, pero utiliza GPT-5.3-Codex-Spark, un modelo más pequeño y menos capaz que el GPT-5.3-Codex original. La diferencia radica en la tecnología subyacente: Anthropic utiliza un sistema de lotes más pequeños (similar a comprar un billete de autobús prioritario), mientras que OpenAI aprovecha chips Cerebras de gran tamaño que permiten la ejecución del modelo directamente en la memoria, evitando cuellos de botella. Aunque la solución de OpenAI es más impresionante técnicamente, la estrategia de Anthropic parece una respuesta rápida para competir con el anuncio de OpenAI, y la utilidad de la inferencia rápida y menos capaz es cuestionable, ya que la corrección de errores consume más tiempo que la espera del modelo.