22 May 2026 · Original en inglés · Artículo

Presentan LLMs que piensan y generan respuestas simultáneamente

Fuentes: Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs

Los modelos de lenguaje de gran tamaño (LLMs) como ChatGPT han evolucionado significativamente en capacidad, pero su arquitectura fundamental no ha cambiado prácticamente desde los primeros modelos ajustados mediante ajuste de instrucciones. El problema radica en que estos sistemas operan con un único flujo secuencial de mensajes: intercambian mensajes con usuarios, sistemas, consigo mismos (mediante cadena de pensamientos) y herramientas de manera sucesiva en una sola corriente de computación.Esta estructura de flujo único genera limitaciones críticas que los desarrolladores denominan 'bloqueo': el agente no puede actuar (generar salida) mientras lee información, ni puede reaccionar ante nueva información mientras está escribiendo. Igualmente, no puede pensar mientras lee o actúa, ni actuar mientras piensa.

La investigación propone una solución innovadora llamada Multi-Stream LLMs (flujo múltiple de LLMs). La clave está en reentrenar los modelos no para formatos de mensaje secuenciales, sino para múltiples flujos paralelos de computación, donde cada rol se divide en un flujo separado. En términos técnicos, cada paso hacia adelante del modelo ahora lee simultáneamente de múltiples flujos de entrada y generatokens en múltiples flujos de salida, manteniendo dependencias causales respecto a pasos temporales anteriores.Este cambio centrado en los datos permite que el modelo procese información en paralelo de verdad, remediando las limitaciones de usabilidad mencionadas.

Las aplicaciones prácticas son diversas: agentes autónomos para programación que necesitan leer documentación mientras escriben código; sistemas de asistencia que deben analizar entradas de usuario en tiempo real mientras generan respuestas previas; o agentes de uso computacional que podrían procesar información visual mientras ejecutan acciones simultáneas.Los beneficios incluyen mayor eficiencia mediante paralelización real, mejor seguridad por separación clara de preocupaciones (por ejemplo, aislar pensamiento de generación de salida), y meilleure monitorabilidad para depurar el comportamiento del modelo.

Las consideraciones importantes incluyen que esta aproximación requiere reentrenamiento específico con conjuntos de datos diseñados para flujos múltiples, y aún falta evidencia empírica extensa sobre su implementación práctica. Las alternativas actuales incluyen técnicas como ejecución especulativa o E/S asíncrona en capas superiores, pero que no resuelven el problema arquitectónico fundamental.El enfoque representa un cambio paradigmático en cómo diseñamos y entrenamos LLMs, mirando más allá de mejoras incrementales hacia un replanteo completo de la interacción interna del modelo.

Etiquetas

large language models parallel processing artificial intelligence machine learning neural network architecture multi-stream computation autonomous agents instruction tuning transformer models concurrent processing

Enlaces

What is the Explorer? info.arxiv.org

What is alphaXiv? alphaxiv.org

What is Huggingface? huggingface.co

Learn more about arXivLabs info.arxiv.org