IA: Nvidia impulsa modelos con mayor contexto

Fuentes: The Road to a Billion-Token Context

La capacidad de los modelos de inteligencia artificial para mantener conversaciones coherentes se ve limitada por el "contexto de ventana", la cantidad de información que pueden procesar simultáneamente. Aunque los modelos actuales pueden manejar entre 128.000 y más de un millón de tokens, su rendimiento práctico a menudo se ve comprometido por problemas de memoria y rendimiento. Nvidia ha presentado recientemente la arquitectura Rubin CPX, diseñada específicamente para la inferencia con contextos masivos, lo que podría allanar el camino para ventanas de contexto de mil millones de tokens para 2030. Esto permitiría a la IA recordar y acceder a grandes cantidades de datos, como décadas de información digital de un usuario. El principal desafío no es solo el tamaño del chip, sino también la forma en que las computadoras "recuerdan" la información, ya que el rendimiento se ve limitado por el ancho de banda de la memoria. La arquitectura Rubin CPX se centra en la inferencia, optimizando el movimiento de datos y separando la ingesta de contexto de la generación de tokens, marcando un cambio desde el enfoque tradicional en el entrenamiento de modelos. Se espera que, para alcanzar este objetivo, se requieran avances algorítmicos complementarios, como modelos de espacio de estado, y que la implementación final no sea una ventana de atención plana, sino un sistema que combine memoria de trabajo limitada con atención jerárquica y técnicas de recuperación.