18 Feb 2026 · Original en inglés · Artículo

PersonaPlex: Voz y Roles Dinámicos en Conversaciones

Fuentes: PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models

PersonaPlex es un avance significativo en el campo de los modelos de habla conversacional de dobleplex, que permite interacciones de voz a voz en tiempo real con una latencia muy baja, imitando la conversación humana natural. Los sistemas de dobleplex existentes, aunque prometedores, están limitados por una voz e identidad de rol fijos, lo que dificulta su aplicación en escenarios del mundo real como el servicio al cliente o interacciones con múltiples personajes. PersonaPlex aborda esta limitación al introducir un sistema de indicaciones híbrido que combina el condicionamiento de roles basado en texto con el clonado de voz basado en audio.

En esencia, PersonaPlex funciona integrando capacidades de modelos de lenguaje grandes (LLM) para el condicionamiento de roles y la adaptabilidad de los sistemas de síntesis de voz (TTS) modernos en un marco de dobleplex de baja latencia. El sistema utiliza lo que se denomina 'Indicaciones Híbridas del Sistema'. Estas indicaciones consisten en dos partes: una indicación de texto que define el rol que debe asumir el agente (por ejemplo, un agente de servicio al cliente específico) y una indicación de voz que proporciona una muestra de audio para clonar la voz del agente. El modelo está entrenado con un conjunto de datos sintético a gran escala de conversaciones entre usuarios y agentes, generado utilizando LLM y TTS de código abierto. Esto permite a PersonaPlex aprender a generar respuestas no solo coherentes con el rol asignado, sino también con la voz especificada.

Las aplicaciones de PersonaPlex son amplias. Más allá de los asistentes virtuales genéricos, puede utilizarse para crear agentes de servicio al cliente personalizados con voces y personalidades específicas, o para generar interacciones con múltiples personajes en juegos o simulaciones. El equipo de NVIDIA ha extendido el punto de referencia Full-Duplex-Bench para evaluar PersonaPlex en escenarios de servicio al cliente con múltiples roles, demostrando su capacidad para mantener la adherencia al rol, la similitud de la voz y la naturalidad de la conversación, superando a los modelos de dobleplex existentes.

Es importante tener en cuenta algunas consideraciones. Aunque PersonaPlex ofrece mejoras significativas, la generación de habla de baja latencia sigue siendo un desafío computacional. Además, la calidad del clonado de voz depende de la calidad de la muestra de audio proporcionada. Alternativas a PersonaPlex podrían incluir sistemas de dobleplex tradicionales con voces predefinidas o el uso de TTS independiente con prompts de texto para el condicionamiento de roles, aunque estos enfoques carecen de la integración perfecta y la baja latencia de PersonaPlex.

Temas

empresas

Etiquetas

conversational ai duplex speech voice cloning role conditioning large language models text-to-speech nvidia artificial intelligence speech recognition customer service

Entidades mencionadas

Nvidia organization

NVIDIA Corporation es una empresa tecnológica de software y fabless que desarrolla unidades de procesamientos gráficos (GPU), interfaz de programación de aplicaciones (API) para ciencia de datos y com

Ver en Wikipedia

Bryan Catanzaro person

Experience: NVIDIA · Education: UC Berkeley · Location: Santa Clara · 500+ connections on LinkedIn. View Bryan Catanzaro’s profile on LinkedIn, a professional community of 1 billion members.

LLM software

TTS software

Moshi software

Jaehyeon Kim person

Sungwon KimNVIDIAVerified email at nvidia.com · Keon LeeKRAFTON AIVerified email at krafton.com · Sang-gil LeeNVIDIAVerified email at nvidia.com · Hyungjin ChungLead AI Research Scientist, EverExVerif

Rajarshi Roy person

Rajarshi Roy · Professor of Physics, University of Maryland, College Park · Verified email at umd.edu · physicsneurosciencenonlinear dynamicsoptics · ArticlesCited byPublic accessCo-authors · PrivacyT

Teodor-Dumitru Ene person

PhD student, Computer Engineering Researcher, ADLR, NVIDIA - tdene

Sungwon Kim person

Sungwon Kim is part of Stanford Profiles, official site for faculty, postdocs, students and staff information (Expertise, Bio, Research, Publications, and more). The site facilitates research and coll

PersonaPlex software

Full-Duplex-Bench event

Service-Duplex-Bench event

Jonathan Raiman person

Jonatan Ramón Maidana es un exfutbolista argentino. Jugaba como defensor y su último club fue el C. A. River Plate. Es hermano del también futbolista Matías Maidana.

Ver en Wikipedia

Sang-gil Lee person

Sang Pil-Lee es un deportista surcoreano que compitió en taekwondo. Ganó una medalla de oro en el Campeonato Asiático de Taekwondo de 2002, en la categoría de –54 kg.

Ver en Wikipedia

Robert Kirby person

Robert Toru Kiyosaki es un empresario, inversor, escritor, conferencista y orador motivacional estadounidense de ascendencia japonesa. Es el fundador, consejero delegado y accionista mayoritario de Ca

Ver en Wikipedia

HumeAI’s Emphatic Voice Interface organization

Voice AI models powered by emotional intelligence for creators, developers, and enterprises. Create audio books, podcasts, conversational agents and more. ... Text-to-speech with emotional intelligenc