OpenAI agiliza voz en IA: menor retardo para usuarios

Fuentes: OpenAI redesigns voice ai infrastructure for lower latency

OpenAI ha rediseñado su infraestructura de voz basada en WebRTC para reducir la latencia y mejorar la experiencia de usuario en sus productos como ChatGPT Voice y la Realtime API. El cambio responde a la necesidad de ofrecer una comunicación en tiempo real más fluida, crucial para aplicaciones donde la velocidad de respuesta es fundamental. El problema radicaba en la escalabilidad de su arquitectura original, que dependía de un modelo de un puerto por sesión, lo que dificultaba la gestión de grandes volúmenes de tráfico y la seguridad. La nueva arquitectura, basada en un modelo de 'transceiver', permite a OpenAI terminar las conexiones WebRTC y convertir la información en protocolos internos más simples para la inferencia, transcripción y generación de voz. Esto facilita la gestión del estado de la sesión, la escalabilidad de los servicios backend y la optimización de la latencia. El objetivo final es que la interacción con la IA se sienta más conversacional, eliminando las pausas y retrasos que interrumpen el flujo de comunicación.