En febrero de 2019, OpenAI presentó GPT-2, un modelo de lenguaje basado en el decodificador del transformer que suponía un escalado directo de GPT-1: 1.500 millones de parámetros —diez veces más que su predecesor—, entrenado sobre 40 GB de texto web y entrenado en 48 bloques de decodificador con una dimensión de embeddings de 1.600. La organización decidió no publicar el modelo completo por temor a usos maliciosos, como la generación masiva de noticias falsas o spam, y en su lugar ofreció una versión mucho más reducida junto con un artículo técnico. La decisión despertó una enorme expectación sobre la capacidad real del sistema para producir textos indistinguibles de los escritos por personas.
La arquitectura de GPT-2 no introduce cambios conceptuales respecto a GPT-1; la mejora reside en la cantidad de parámetros y en el volumen y la variedad de los datos de entrenamiento, lo que permite a la red absorber más conocimiento lingüístico en sus pesos. En las pruebas de referencia obtuvo resultados de vanguardia en modelado de lenguaje, comprensión lectora, respuesta a preguntas y resumen automático. Nueve meses después, en noviembre de 2019, OpenAI liberó el modelo de 1.500 millones de parámetros, junto con el código y los pesos, tras comprobar que los humanos encontraban convincentes sus产出, que podía reentrenarse para usos indebidos y que la detección automática rondaba el 95 % de acierto con modelos como RoBERTa, sin que se detectaran evidencias sólidas de abuso en ese periodo. El artículo analiza también la evolución posterior hacia ChatGPT y los retos pendientes en materia de plagio y suplantación.
